인공지능(AI)이 확실한 ‘차세대 먹거리’로 부상했다. 주요 선진국 정부와 기업은 AI 글로벌 주도권 잡기에 사활을 걸고 있다. 우리도 마찬가지다. 정부의 전폭적인 지원 아래 대기업은 물론 중소기업·스타트업이 AI기술과 아이디어를 뽐내고 있다. IT조선은 이들 우수 AI기업을 시리즈로 소개한다.

"너 어디야"

이 짧은 말에도 인간은 감정을 담는다. 기분 상태에 따라 수백 가지 표현이 가능하다. 일상 속 인공지능(AI)은 다르다. 늘 차분한 목소리로 대답한다. AI 스피커를 친구처럼 느끼기 어려운 이유다.

AI 스타트업 휴멜로는 음성합성 시스템(TTS)에 감정을 더했다. AI가 기쁨, 슬픔, 차분함, 실망, 화남, 흥분, 졸림 등 9가지 이상의 감정을 표현한다. 마치 연기자 같다. 다양한 감정을 소리의 억양과 어조로 표현해낸다.

이자룡 휴멜로 대표 / 장미 기자
이자룡 휴멜로 대표 / 장미 기자
지난달 출시한 AI 성우 서비스 ‘프로소디’가 그 결과물이다. 한 달 새 사용자가 1000명을 넘어섰다. 개인 유튜브 제작자부터 게임, 출판, 로봇, 엔터테인먼트까지 TTS가 필요한 여러 업계에서 반응이 왔다.

SM엔터테인먼트는 일찍이 휴멜로의 가능성을 내다보고 협업을 제안했다. 작년 1월에는 래퍼 슬리피가 휴멜로 AI를 이용해 ‘엠 아이 포 리어(Am I for Real)’ 편곡을 진행하기도 했다. 이외에도 휴멜로는 천재교육 등과 함께 관련 서비스를 준비 중이다.

이자룡 휴멜로 대표는 "현재까지 시장에 나온 AI 성우 서비스는 인간다움이 부족했다"며 "휴멜로는 ‘감정이 담긴 AI 성우’ 서비스를 하고 있다"고 강조했다. 이어 "몰입감이 중요한 콘텐츠 산업과의 연계성이 기대된다"고 덧붙였다.

프로소디는 단순히 목소리 톤을 조절하는 게 아니라 말하는 속도, 억양, 음높이 등을 고려해 사람처럼 감정을 표현한다. 목소리도 마음대로 바꿀 수 있다. 내 목소리뿐만 아니라 유명 가수, 배우의 목소리도 자연스럽게 구사한다.

이 대표는 "프로소디로 무한대의 감정을 표현할 수 있다"며 "현재 9가지 정도의 감정을 선택할 수 있는데 이 중에서도 세부 설정이 가능하다"고 말했다. 예를 들어 화난 감정 20%, 슬픈 감정 50%로 조합해 또 다른 감정 표현을 하는 식이다.

자연스러운 목소리는 콘텐츠 몰입도 향상에 도움이 된다. 감정 표현 외에도 AI가 문맥을 파악하도록 학습시켰다고 이 대표는 설명했다. 구연동화처럼 소설을 낭독할 때 말 따옴표 부분에서 억양을 바꿔 읽을 수 있다.

이 대표는 "넷플릭스도 어떻게 하면 사람들을 안 재울 수 있을까 고민할 정도로 콘텐츠 시장에서 몰입감이 점점 더 중요해지고 있다"며 "휴멜로 기술은 몰입감이 중요한 웹소설, 게임 등에 활용할 수 있다"고 밝혔다.

프로소디 프로그램 작업 화면 / 장미 기자
프로소디 프로그램 작업 화면 / 장미 기자
이 대표는 서비스 완성도를 높이기 위해 데이터 수집 단계부터 공을 들였다고 강조했다. 한국인과 외국인 남녀 성우 각각 1명씩 총 4명을 동원해 6개월 이상 녹음했다. 양질의 데이터가 있어야 AI가 감정을 정확하게 학습할 수 있기 때문이다.

그는 "일반인에게 녹음 파일을 들려주며 감정 표현이 제대로 됐는지 평가 절차를 거쳤다"며 "학계 감정 연구를 참고해가면서 신중하게 녹음했다"고 말했다.

오디오북 시장 진출이 기대된다. 휴멜로는 올해 자체 오디오북 제작에 나설 계획이다. 국내 오디오북 시장 규모가 크진 않지만 경쟁력을 바탕으로 적극 도전한다. 기술력 외에도 가격 경쟁력을 갖췄다는 설명이다. 사람이 직접 녹음하는 것과 비교해 가격과 제작 시간을 대폭 줄일 수 있다.

이 대표는 "배우가 성우를 겸하는 다른 나라들과 달리 전문 성우는 한국과 일본에만 있다고 한다"며 "그래서 국내 오디오북 시장에는 비용 문제가 있는데, AI를 활용하면 제작비를 ⅕ 수준으로 절감할 수 있다"고 설명했다.

휴멜로의 궁극적인 목표는 ‘친구 같은 AI’를 만드는 것이다. 단순히 정보를 전달하는 역할을 넘어 감정을 공유하는 친밀한 존재로 만들겠다는 설명이다. 가상의 목소리를 만들어 시각장애인, 농아를 위한 서비스도 할 수 있다. 이를 위해 관련 기술 개발에도 꾸준히 투자할 계획이다.

이 대표는 "AI 아바타도 연구하고 있다"며 "현재는 사람이 말하는 모습을 영상으로 찍거나 립싱크하는 방식으로 제작하는 데 이런 것 없이 음성 데이터만 제공해도 아바타 생성이 가능하도록 연구 중"이라고 밝혔다.

이어 "언택트 시대, 콘텐츠 소비 증가에 힘입어 AI 성우 시장도 자연스럽게 커질 것이라 생각한다"며 "사진 편집하면 어도비의 ‘포토샵’이 떠오르듯이 프로소디 프로그램을 업계 표준으로 만들겠다"고 강조했다.

장미 기자 meme@chosunbiz.com

관련기사