인공지능(AI) 기술의 발전으로 ‘음성-텍스트 변환(STT)’ 시장이 급성장하고 있다. 'AI 녹음 비서' 기획 시리즈에서는 다양한 STT 서비스들의 특징을 살피고, 성능을 직접 테스트하고 비교 분석했다. 실제 비즈니스 상황에서 각 앱의 인식 정확도와 사용자 경험을 검증하고, 목적별 최적의 STT 앱을 살펴봤다. 한국어 사용자를 위한 앱부터 다국어 환경에 적합한 서비스까지 급증하는 STT 시장의 핵심 서비스들을 총망라했다. [편집자 주]

사용자의 일상과 업무를 더욱 편리하게 만들어주는 ‘음성-텍스트 변환(Speech-to-Text, STT)’ 서비스 전쟁이 치열하다. 한국어 최적화나 다국어 지원 등 서비스마다 특색 있는 기능으로 사용자 확보에 나서고 있다. 국내 통화 녹음앱 시장을 선도하는 기업이 있는가 하면 다국어 지원으로 차별화를 시도하는 곳도 있다.

사용자의 일상과 업무를 더욱 편리하게 만들어주는 ‘음성-텍스트 변환(Speech-to-Text, STT)’ 서비스 전쟁이 치열하다. / 챗GPT
사용자의 일상과 업무를 더욱 편리하게 만들어주는 ‘음성-텍스트 변환(Speech-to-Text, STT)’ 서비스 전쟁이 치열하다. / 챗GPT

IT 업계에 따르면 일반적으로 많이 사용하는 모바일 앱으로는 네이버 ‘클로바노트(ClovaNote)’와 ‘오터(Otter.ai)’ 등이 있다.

네이버 ‘클로바노트’는 AI 음성 인식을 기반으로 한 STT와 AI 요약 서비스를 제공한다. ▲한국어 ▲영어 ▲일본어 ▲중국어(간체·번체자) ▲한국어+영어 등 다국어 기능을 제공하고 있다. 특히 한국어+영어 기능은 두 언어를 함께 사용해도 모두 텍스트로 변환된다.

해외 콘퍼런스나 회의에서는 ‘오터(Otter.ai)’ 앱을 다수 사용한다. 오터는 동명의 미국 기업이 만든 외국어 특화 회의 기록 및 요약 서비스다. ▲영어 ▲스페인어 ▲프랑스어 등 언어를 제공한다.

단말기 종속 특화 영역에는 삼성전자 갤럭시 ‘녹음 어시스트(Record Assist)’와 SK텔레콤의 ‘에이닷(A.)’ 등이 있다.

삼성전자 갤럭시의 ‘녹음 어시스트’는 AI 기반 STT를 통한 번역 및 요약 서비스를 제공한다. ▲한국어 ▲영어 ▲프랑스어 ▲독일어 ▲스페인어 ▲이탈리아어 ▲일본어 ▲중국어 ▲태국어 등 총 13개 언어를 지원한다. 특장점은 삼성 노트 앱과 연동할 수 있다는 점이다.

SK텔레콤의 ‘에이닷’은 국내 통화 녹음앱 시장에서 영향력을 넓히고 있다. 통화 녹음이 불가능한 아이폰 이용자를 중심으로 인지도를 확대하기 시작했다. 아이폰에 통화 녹음 기능이 추가된 후에도, 녹음 알림 기능이 불편하거나 AI 요약 기능을 이용하고자 하는 이용자들이 에이닷을 많이 사용하고 있다. 다만 에이닷은 한국어에 중점을 두고 설계됐다. 영어도 일부 지원 가능하나 인식 수준은 낮다.

이외에도 윈도 클립챔프(Clipchamp), 줌(Zoom) 등은 음성 인식 후 자막을 달아주는 ‘AI캡션’, ‘라이브캡션’ 기능을 제공하고 있다. 아울러 챗GPT 등 생성형 AI 서비스에도 녹음 파일을 올리면 텍스트 변환 및 요약이 가능하다.

김경아 기자
kimka@chosunbiz.com