국내외 ‘AI 음성-텍스트 변환(Speech-to-Text, STT)’ 서비스가 각자의 전문 영역에서 경쟁력을 갖추며 시장을 세분화하고 있다. SKT의 ‘에이닷(A.)’과 삼성전자의 ‘갤럭시 녹음 어시스트’는 스마트폰에 최적화된 녹음 서비스로, 네이버 ‘클로바노트’와 ‘오터’는 회의 및 협업 환경에 특화된 솔루션으로 자리매김하고 있다. 서비스별 특징과 장단점을 꼼꼼히 살펴봤다.

국내외 ‘AI 음성-텍스트 변환(Speech-to-Text, STT)’ 서비스가 각자의 전문 영역에서 경쟁력을 갖추며 시장을 세분화하고 있다. / 챗GPT
국내외 ‘AI 음성-텍스트 변환(Speech-to-Text, STT)’ 서비스가 각자의 전문 영역에서 경쟁력을 갖추며 시장을 세분화하고 있다. / 챗GPT

 

단말 특화 녹음앱은… 에이닷 vs 갤럭시 녹음 어시스트

SK텔레콤의 ‘에이닷(A.)’은 통화 녹음에 특화돼 있다. 통화 녹음이 불가능한 아이폰 이용자를 중심으로 인지도를 확대하기 시작했다. 아이폰에 통화 녹음 기능이 추가된 후에도, 녹음 알림 기능이 불편하거나 AI 요약 기능을 이용하고자 하는 이들이 에이닷을 많이 사용하고 있다.

에이닷에는 ‘통역콜’ 기능도 탑재돼 있다. 상대방에게 통역되길 원하는 언어를 설정하면 실시간 동시통역으로 통화가 가능하다. ▲한국어 ▲영어 ▲일본어 ▲중국어 등 4개 언어를 지원한다. 다만 통역콜의 경우 통화 내용 변환 및 요약 기능을 제공하지 않는다.

에이닷 PC 버전은 ‘AI 기반 대화형 비서’ 기능만 제공하고 있다. 웹 검색은 불가하며, 답변 기반이 되는 정보 또한 2023년 말까지의 데이터만 학습돼 있다. 대신 자체 LLM 에이닷엑스(A.X)뿐 아니라 ▲챗GPT(오픈AI) ▲클로드(앤트로픽) ▲제미나이(구글) ▲소나(퍼플렉시티AI) 등 다양한 모델을 제공하고 있다. 지난 4월에는 구글 브라우저인 크롬(Chrome)에서 이용 가능한 ‘에이닷 크롬 확장 프로그램’을 출시하기도 했다.

에이닷은 출시 초기부터 잦은 오류와 낮은 통화 품질로 비판의 대상이 되고 있기도 하다. 애플 아이폰의 경우 정책상 서드파티 앱으로 통화 녹음이 가능하기 때문에, 단말 최적화된 VoLTE 대신 mVolP로 연결되기 때문이다. VoLTE는 LTE망을 이용한 고음질 음성 통화 서비스지만, mVolP는 인터넷망을 이용한 음성 통화 서비스라 상대적으로 통화 품질과 안정성이 떨어진다.

SKT는 에이닷을 수익 모델로 만들기 위해 빠르면 연내 유료화하겠다고 밝혔다. 이를 위해 SKT는 녹음 시간이나 통화 요약 횟수를 무제한으로 제공하다가, 지난 1월부터 AI 통화 요약 횟수 30회를 제공하는 방식으로 변경했다. 에이닷은 올해 4월 기준 900만명(올해 4월 기준)의 이용자를 확보하고 있다. 

삼성전자도 단말 특화 녹음 요약 서비스를 제공하고 있다. 갤럭시 AI 기반 ‘녹음 어시스트’가 그 주인공이다. 총 13개 언어로 이용 가능하다. AI를 이용한 녹취록 생성 및 자동 요약이 가능하다.

가장 큰 장점은 녹음 요약 시간 및 횟수 제한이 없다는 점이다. 아이폰과 달리 통화 녹음 기능이 탑재된 갤럭시 단말기 특성상 무제한 녹음과 AI 요약이 가능한 셈이다. 네트워크 연결이 되지 않은 환경에서도 사용할 수 있다.

통화 녹음 파일뿐 아니라 어떠한 종류의 음성 파일도 변환이 가능하다. 앱을 통한 실시간 한국어 통화만 제한적으로 요약이 가능한 에이닷에 비해, 요약 및 변환 능력이 우수하다는 평이 나온다. 같은 파일의 재변환이나 변환된 텍스트의 일부 수정도 가능하다. 

삼성전자는 내년 상반기 출시 예정인 ‘갤럭시 S26’에 퍼플렉시티AI의 ‘AI 어시스턴트’를 탑재하는 방안을 논의 중이기도 하다. 퍼플렉시티는 지난달 월간 활성 이용자 수(MAU) 151만명을 기록하며 에이닷을 제치기도 했다.

잦은 해외 출장과 영어 회의를 소화하는 직장인은 네이버 ‘클로바노트’나 ‘오터’를 많이 사용한다. / 챗GPT
잦은 해외 출장과 영어 회의를 소화하는 직장인은 네이버 ‘클로바노트’나 ‘오터’를 많이 사용한다. / 챗GPT

 

잦은 해외 출장과 영어 회의… ‘클로바노트’ vs ‘오터’

네이버 ‘클로바노트’는 회의 및 콘퍼런스 녹음에 최적화돼 있다는 평가를 받는다. PC버전에서도 모바일앱과 동일한 환경으로 제공되기 때문에 접근성이 우수하다. 녹음 중 실시간으로 북마크 및 메모가 가능하며 변환된 텍스트를 앱 내에서 수정하는 것도 가능하다.

다만 클로바노트에 외국어 STT 지원 기능이 있다는 사실을 모르는 이용자도 많다. 외국어 모드로 설정하지 않으면 외국어 음성은 텍스트 변환이 불가하다. 사용 가능한 언어 모드는 ▲한국어 ▲영어 ▲일본어 ▲중국어(간체·번체자) ▲한국어+영어 등이다. 특히 ‘한국어+영어’ 기능은 두 언어가 동시에 녹음돼도 모두 텍스트로 변환 가능하기 때문에 활용도가 높다. ‘AI 요약 서비스’는 한국어 모드에서만 제공된다.

현재 일반 사용자를 대상으로는 무료 버전만 제공하고 있다. 이용자가 녹음 데이터 수집에 동의할 시 기존 녹음 시간 300분에서 추가 300분으로 총 600분을 제공한다.

기업용 클로바노트의 경우 한층 보안이 강화됐다. 음성 기록의 공유나 접근, 다운로드 권한을 설정할 수 있으며 개별 기업에 맞는 커스텀도 가능하다. 월 1만8000원(변환 시간 1000분)부터 165만1000원(변환 시간 2000시간)까지 다양한 요금제를 제공하고 있다.

‘오터(Otter.ai)’ 또한 화상회의를 비롯해 외국어 대화를 녹음할 때 많은 이가 사용한다. 국내에서도 해외 출장 필수앱으로 유명세를 타기 시작했다.

특히 협업 기능에 특화돼 있어 외국계 기업과의 업무가 잦은 이들이 사용한다. 줌(Zoom), 구글밋(Google Meet), 마이크로소프트 팀즈(Microsoft Teams)와 연동 가능하다.

오터도 클로바노트와 마찬가지로 iOS, 안드로이드, 웹 브라우저에서 모두 사용 가능하다. 또한 여러 명의 발화자를 구분해 변환한다는 공통점이 있다. 중요한 발언에 메모를 달 수도 있다.

다만 영어 특화 앱이라 한국어 STT의 경우 인식 정확도가 낮은 편이다. 클로바노트와 달리 동시에 두 개 언어를 인식하는 것은 불가하다. 요약 기능 또한 영어 기반 대화에서만 사용할 수 있다. 전사 기능을 제공하는 언어는 ▲영어 ▲스페인어 ▲프랑스어 등이다.

무료 요금제는 월 300분의 시간을 제공하며, 유료 요금제는 더 많은 전사 시간과 추가 기능을 제공한다. 월 16.99달러(약 2만3000원)로 1200분까지 이용 가능한 ‘프로 요금제’, 월 30달러(약 4만원)로 100시간 사용 가능한 ‘비즈니스 요금제’ 등이 있다.

김경아 기자
kimka@chosunbiz.com