"연구소만 있는 기술이 아니라 서비스로 구현되고, 서비스가 잘 될수록 기술의 발전에도 기여할 수 있는 선순환 고리의 프로젝트라는 점이 크게 인정받은 것 같다."
리턴제로 이참솔 대표는 자연어 음성인식과 화자 분리라는 어려운 문제를 풀기 위해서 큰 데이터가 필요한데 AI와 머신러닝, 서비스가 함께 움직이는 선순환 고리를 통해 이를 해결하고 다룰 수 있는 회사로 인정받아 160억원의 투자를 받게 됐다고 설명했다.
리턴제로는 한국과학기술원(KAIST) 동기이자 카카오 초기 멤버인 이참솔 대표를 포함한 공동창업자 3인이 2018년 설립했다. 음성인식 서비스가 실생활에 유용하게 쓰일 수 있기를 바라는 마음을 담았다.
이번 투자 유치 배경에는 리턴제로가 다양한 음성인식엔진 중 한국어 음성인식이 가장 정확하다는 평가도 한몫했다.
이 대표는 "음성인식을 다루는 전문 연구소, 기업이 이미 많은 데다 음성인식 전문가가 아닌 이들이 리턴제로를 창업한다고 했을 때 만류하는 이들도 많았다"며 "그러나 음성인식은 데이터로 풀 수 있는 머신러닝 문제 중 하나로 본다. 알파고를 만들기 위해 이세돌 기사보다 바둑을 잘하는 기사가 여럿 있어야 하는 것은 아니지 않는가. 문제를 해결하는 것은 사람이 아니라 데이터다"라고 말했다.
이러한 마인드를 바탕으로 단기간에 양질의 대규모 데이터셋을 확보했다. 비토는 통화 녹음 데이터를 AI 기술을 이용해 텍스트로 변환한다.
자체 개발해 원천 기술을 보유한 자유발화를 실시간으로 텍스트로 변환해주는 STT(Speech To Text)기술 기반 ‘소머즈' 엔진과 사용자의 목소리를 분석해 화자를 분리하는 ‘모세(Moses) 엔진'을 중심으로 서비스를 제공하고 있다. 2021년 4월 안드로이드 전용 앱으로 정식 버전을 선보였다.
비토에 대한 반응은 뜨겁다. 2020년 베타 버전이후 현재의 비토는 어떠한가.
비토는 통화를 실시간으로 녹음하고 문자로 변환해 메신저 형태로 보여준다. 기존의 여타 통화 녹음 앱과 달리 필요한 내용만 검색해서 볼 수 있다. 변환된 텍스트 창의 말풍선을 클릭하면 영상으로 부분 재생도 가능하다. 보관된 대화 내용의 일부는 수정하거나 캡처해 이미지로 보관할 수 있다. 내보내기를 통해 메일로도 전송이 가능하다.
이런 편리함 덕분에 통화량이 많은 영업직군을 비롯해 공인중개사, 보험설계사, 수리기사, 변호사 등이 비토에 열광하고 있다.
올해 6월 기준으로 비토 앱은 36만건 이상 다운로드됐다. 지금까지 처리한 통화 수가 5700만건이 넘는다. 하루 평균 한국어 음성인식 처리 시간이 9390시간이 넘는다. 다시 말해 9390시간의 목소리가 매일 비토를 통해 텍스트로 변환된다.
이참솔 대표는 "지금의 AI 시장은 초기단계로 자율주행, 추천 서비스 정도가 전에 알고리즘보다 낫게 하는 수준이고, 음성인식은 이전과는 성능이 많이 달라졌지만 잘 받아 적는 정도다"라며 "몇 년이 지나면 실제로 사람이 하는 일을 대체할 수 있는 AI가 나올 것이고, 그런 시기가 왔을 때 아주 큰 시장이 열리고 업체 간 대전쟁이 일어날 것이다. 그 시장은 거대 기업들이 이끌 것이고, 그들과 경쟁할 수 있는 체력을 갖춰 갈 것이다. 그 경쟁을 통해 네이버, 카카오, 혹은 구글, 그 이상의 회사가 될 것이다"라고 목표를 밝혔다.
이윤정 기자 ityoon@chosunbiz.com