한국형 차세대 음성 인공지능(AI) 기술이 세계 음성 변환 기술로 주목을 받았다.

AI기업 마인즈랩이 개발한 음성 변환 기술 ‘코타트론(Cotatron)’으로, 세계 최대 규모 음성AI학회인 ‘인터스피치’가 최근 게재를 승인했다. 인터스피치가 마인즈랩 코타트론을 인정한 것이다.

코타트론은 딥러닝 기반 기술로 동일한 어조로 음성을 변환하는 기술이다. 기존 음성AI 기술은 ‘음성’ 자체를 만드는 것에 초점이 맞춰져 있지만, 콘타트론은 음성의 영역을 넓힌다.

예를 들어, "안녕하세요"라고 남성 성우가 읽은 음성을 여성 성우가 같은 어조로 읽은 음성으로 바꾼다. 기존에도 성우가 읽는 듯한 음성AI는 다수 있었지만, 동일한 어조로 목소리를 변환하는 기술은 없다시피 하다.

코타트론 개발을 이끈 마인즈랩의 박승원 수석 연구원. 김두영, 조민철 마인즈랩 연구원도 함께 참여했다. /마인즈랩
코타트론 개발을 이끈 마인즈랩의 박승원 수석 연구원. 김두영, 조민철 마인즈랩 연구원도 함께 참여했다. /마인즈랩
‘음성 변환’, 음성AI 시장 이끌 기술

마인즈랩의 코타트론은 차세대 AI기술로 꼽히는 음성 변환 기술의 한 종류다. 기존 AI는 음성 인식이나 음성 합성 수준에 그친다. 특히 텍스트가 반드시 필요한 음성 합성 기술과 달리, 음성 변환 기술은 어떤 정보 없이도 음성을 만들 수 있어 활용 가능성을 높게 평가한다.

음성 변환을 위한 AI 학습은 쉽지 않다. 2명의 음성을 학습할 수 있는 모델이 100명을 학습하기 위해서는 4950번 이상 학습을 거쳐야 한다. 이런 제약으로 많은 음성 변환 기술은 제한된 음성변환만 지원한다.

마인즈랩은 기존 음성AI 학습 한계를 3년간 연구한 다화자 음성합성 AI개발 노하우로 해결했다. 코타트론은 여러 명의 화자 음성 변환을 한 번에 학습할 수 있어, 편의성과 효율성 모두 잡았다.

이런 특징으로 코타트론은 단순 학문적인 발전에 그치지 않고, 시장성도 뛰어나다. 실제 성우가 읽는 듯한 입체감 있는 오디오북이나, 다양한 버전의 언어교육 서비스, 편리한 외국어 더빙 등 다양한 영역에서 활약할 수 있다.

코타트론을 개발한 박승원 마인즈랩 수석 연구원은 "코타트론을 통해 화자 음성을 다른 화자로 변화할 수 있는 길이 열렸다"며 "음성 기술 활용 분야가 확장된 것"라고 밝혔다.

이어 그는 "코타트론은 전 세계적으로 음성 기술 수요가 많은 엔터테인먼트, 콜센터 등 분야에서 큰 활약이 기대된다. 경제적 가치도 충분히 창출할 수 있는 기술"라고 덧붙였다.

 코타트론의 간단한 시스템 구조. /마인즈랩
코타트론의 간단한 시스템 구조. /마인즈랩
송주상 기자 sjs@chosunbiz.com