[인터뷰] 이봉준 네이버 NES 리더 "자연스러운 AI 목소리, 누구나 만들 수 있다"

이은주 기자
입력 2022.05.25 06:00
‘목소리'가 필요한 곳이 늘고 있다. 유튜브 콘텐츠를 제작하는 크리에이터나 방송 프로그램 제작진, 교육 콘텐츠를 제작하려는 선생님, 발표 자료를 준비하는 직장인, 과제를 준비하는 학생 등 ‘음성' 수요는 꾸준히 증가세다. 문제는 비용이다. 과제를 발표하는 대학생이 발표를 위해 성우를 섭외할 순 없는 노릇이다. 예산을 생각할 수밖에 없는 기업에도 콘텐츠 제작 과정에서 비용은 늘 고민스럽다.

네이버 클로바 보이스 NES팀은 ‘자연스러운 목소리'를 제작해 늘고 있는 ‘목소리 수요'를 해소한다. NES는 다른 음성합성기술과 달리 상대적으로 ‘짧은 녹음 데이터’만으로도 고품질의 자연스러운 목소리를 제작할 수 있는 네이버만의 기술이다.

최근에는 라디오 프로그램에 출연한 ‘가상인간' 로지에 ‘목소리'를 제공해 주목받았다. 채널A ‘요즘 육아 금쪽같은 내새끼’에서 출연아동 ‘금쪽이’를 상담하는 ‘코끼리' 목소리도 NES팀 작품이다. 이 외에도 네이버 지도 내비게이션, 네이버 뉴스 텍스트 음성전환 등 네이버 서비스에서 사용되는 대부분의 목소리 역시 NES가 제작했다.

이봉준 클로바 보이스 NES팀 리더 / 네이버
클로바 보이스 NES팀을 이끄는 이봉준 리더를 만나 ‘자연스러운 목소리'를 구현하기 위해 걸어온 길을 물었다. 2016년 네이버에 입사한 그는 2020년 3월에 리더로 임명됐다. 그는 "NES는 40시간에서 100시간 가까운 녹음 데이터가 필요했던 기존 음성합성 기술과 달리, 40분 수준의 음성 데이터(약 400문장)만으로 실제 사람의 음성에 가까운 자연스러운 합성음을 제작할 수 있다"며 NES의 강력한 생산성을 강조했다.

ㅡ 본인과 NES팀을 소개해 달라.

"네이버 클로바 보이스 NES팀 리더를 맡고 있다. 클로바 보이스팀은 음성합성 연구개발을 전담한다. 2020년 2월엔 ‘클로바더빙' 서비스를 선보였다. ‘클로바더빙' 내 ‘보이스메이커' 서비스를 이용하면 누구나 자신의 목소리를 바탕으로 만들어진 ‘AI보이스'를 만들 수 있다."

ㅡ정확히 어떤 일을 하나.

"네이버의 음성합성기술을 개발하고 연구하며 서비스한다. 음성합성기술은 텍스트로 문장을 입력하면 이를 컴퓨터가 ‘목소리(AI보이스)’로 만들어주는 기술이다. (목소리로 만들고 싶은) 텍스트를 입력하면 자연스러운 음성을 생성한다."

ㅡ인간 대신 정해진 대본, 텍스트를 읽는 기술로 이해하면 될까?

"텍스트를 입력하면 이를 가상 목소리로 구현하는 것이다. 인식 속도는 실시간 서비스가 가능할 정도로 빠르다.

정해진 대본뿐 아니라 입력하는 모든 텍스트를 읽을 수 있다. 특히 그 의미와 문맥을 분석하고 화자의 특색을 살려 가장 적합한 합성음으로 만든다. 클로바 더빙 서비스를 이용해 문장에 약간의 변형을 가하면 전혀 다른 운율의 문장이 생성되기도 한다. 같은 문장이라도 화자를 다르게 선택하면 전혀 다른 스타일로 읽어주는 것을 확인할 수 있다."

ㅡ다른 음성합성기술과 무엇이 다른가?

"짧은 녹음만으로도 고품질의 목소리를 제작할 수 있다는 점이다. 핵심은 클로바 보이스의 NES(Natural End to end Speech synthesis system) 기술이다. 기존의 기술은 40~100시간 가까이 녹음 데이터가 필요하다. 하지만 우리 기술은 단 40분, 400문장만 있으면 된다. 기존 음성합성 엔진은 최소 몇만 문장 이상씩 녹음해야 한다.

성우도 필요치 않다. 고가의 사운드 장비와 녹음실, 사운드 엔지니어의 가이드가 없어도 손쉽게 목소리를 가상으로 만들 수 있다. ‘보이스메이커'를 이용하면 누구나 자신의 스마트폰을 이용해 녹음하고 목소리 데이터를 입력하면 새로운 목소리를 만들 수 있다. 그렇게 녹음된 목소리, 덜 정제된 데이터 만으로도 충분히 안정적인 보이스를 만들 수 있다."

ㅡ또 다른 차이점이 있을까?

"목소리를 녹음한 사람의 특성을 상당히 자연스럽게 살릴 수 있다. 예를 들어 채널A에서 방영되는 ‘요즘 육아 금쪽같은 내새끼'에서 등장하는 ‘코끼리' 목소리는 우리 기술을 활용했다.

보통의 아이들은 발음이 부정확하다. 때문에 성우가 아이 목소리를 흉내내 더빙을 한다. 반면 해당 프로그램에는 실제 아이의 목소리를 녹음하고 이를 활용했다. 아이들의 부정확한 발음 같은 맥락을 반영하고 말투의 특성을 최대한 살렸다.

적은 양의 문장만 녹음해도 그 사람의 특색을 잘 살리면서, 어떤 텍스트가 입력되어도 자연스러운 합성음을 생성해 낼 수 있다."

ㅡ목소리 형성 과정을 좀 더 자세히 소개해달라. 합성기는 어떻게 동작하는가?

"세 과정으로 구분된다. 우선 동작 과정을 살펴보면 우선 사용자가 원하는 텍스트를 입력하고, 문장 단위로 텍스트 의미와 문맥을 분석하고 어떤 발음으로 읽어야 할지 결정한다(자연어처리). 이어 문맥 정보와 발음 정보를 바탕으로 플레임(frame) 단위(5~20ms)로 음성을 생성할 수 있는 코드를 예측한다(음향 모델). 마지막으로 프레임(frame) 단위의 코드로 부터 실제 음성을 만든다(보코더 모델)."

가상인간 ‘로지’ / 네이버
ㅡ가상인간 로지의 AI보이스도 제작한 것으로 안다. 라디오에 출연해서 이야기를 하는 로지의 목소리는 신선했다. 어떻게 협업하게 됐나?

"로지를 만든 싸이더스 스튜디오 엑스는 AI보이스를 통해 로지가 보다 자유롭게 대화하고 활동 영역을 확장시키고자 했다. 또 로지에 어울리며 MZ 세대의 감성을 담은 목소리를 구현할 수 있는 팀이 필요했다. 반면 우리는 버추얼 인플루언서와 가상인간이라는 신규 영역으로 클로바 보이스를 확장시키고자 했다. 여기에 목소리를 자연스럽게 구현할 수 있는 기술을 보유했다. 즉, 양측의 니즈가 맞아 떨어진 셈이다

특히 이미 로지의 목소리는 SNS와 광고 등을 통해 노출돼 있었다. 새로운 목소리가 필요하지 않았던 것이다. 이에 기존 로지의 목소리를 담당했던 성우의 목소리를 기반으로 AI보이스를 제작했다. 라디오 출연이 그 시작이다. 앞으로는 DJ, 도슨트, 사회자, 라이브 커머스 진행자 등 목소리가 필요한 다양한 영역에서 새로운 기회를 발굴하며 협업을 진행할 계획이다."

ㅡ실제 목소리를 들어보니 조금 어색한 부분도 있었다. 제작 과정에서 어떤 부분이 가장 고민이었나.

"사람마다 ‘인간다운 목소리'와 ‘비인간적인 목소리'를 구분하는 인지 능력이 모두 다르다는 점에서 고민을 많이 했다. AI보이스를 들려줬을때 어떤 사람은 자연스럽다고 느낄 수 있지만, 또 다른 이는 이를 부자연스럽다고 느낄 수 있다. 서로 인지하는 영역이 다르기 때문이다. 같은 이를 대상으로 같은 음성을 들려줘도 환경과 시간에 따라 또 다르게 느낄 수 있다. ‘무엇을 개선해야 하는가'를 합의해 이행하기 힘든 이유다. 개인적으로 AI보이스가 발전하기 위해선 이런 인지 영역에 있어 연구개발이 진행돼야 한다고 본다. 사람의 감각은 주변환경에 상당히 달리 느껴질 수 있다."

ㅡ네이버 내에서는 어떻게 활용되나?

"파파고에서 입력문장, 번역문장, 사전 서비스의 예문을 읽는 목소리를 비롯해 네이버 뉴스의 텍스트 음성 변환, 네이버 지도의 내비게이션, 클로바 AI 스피커 목소리 등 네이버 서비스에서 목소리가 나오면 대부분 클로바 보이스팀이 만든 것이라고 보면 된다."

인간이 아닌 클로바 AI보이스를 사용하면, 어떤 이점이 있나?

"목소리가 필요한 곳이라면 어디든 그 특성에 맞게 제공할 수 있다는 점에서 비용이 절감된다. 비용 때문에 전문 성우를 섭외하기 어려웠던 기업이나, 원격교육 자료를 만드는 교사, 유튜브 콘텐츠를 만드는 창작자 등 개인이 콘텐츠를 제작할 때 도움을 얻을 수 있다.

특히 다양한 성별, 연령대, 스타일에 걸친 128여개의 다양한 보이스가 제공된다. 제작하는 콘텐츠나 상황에 맞게 자유롭게 목소리를 선택할 수 있다."

ㅡ실제 클로바 AI보이스 활용사례를 소개해 달라.

"클로바 AI콜의 경우 음성인식 및 자연어 처리, 대화모델, 챗봇, 텍스트분석엔진 등 최신 기술이 접목된 ‘컨택센터’ 서비스다. 현대카드, 미래에셋생명 등 금융권에 적용됐다.

클로바 더빙은 유튜버나 콘텐츠 크리에이터의 콘텐츠 제작, 교사의 수업자료 제작 등에 활용된다. 채널A '오은영의 금쪽 상담소', '요즘 육아 금쪽같은 내 새끼' 등 방송에도 활용된다. 클로바 더빙은 B2B 영역에도 활용된다. 기업이나 상품 소개, 외국어 더빙, 교육자료, 게임 등 다양한 영상 콘텐츠에 생생한 목소리와 효과음을 더해 몰입감을 높인다."

이은주 기자 leeeunju@chosunbiz.com

T조선 뉴스레터 를 받아보세요! - 구독신청하기
매일 IT조선 뉴스를 받아보세요 닫기