아마존, 친근한 '아나운서 목소리' 음성변환기 공개

인공지능 로봇이 아나운서를 대체하는 날이 멀지 않았다.

테크크런치 등 외신은 30일(현지시각) 아마존 웹 서비스(AWS)로 아나운서 처럼 글을 읽는 인공지능(AI) 기술을 선보였다고 보도했다. 아마존은 이 기술을 응용, 텍스트를 음성으로 변환해주는 서비스 ‘폴리’를 업그레이드했다.

아마존 폴리는 2016년 출시한 ‘텍스트-음성 변환기’다. 기계학습의 일종인 ‘딥러닝’ 기법을 활용한다. 폴리는 현재 29개 언어와 59개의 음성을 제공한다. 그동안 폴리는 인공지능 음성 답게 사람의 목소리와는 거리가 있었다.

아마존이 공개한 새 기능 ‘뉴스캐스터 스타일’은 기계음의 위화감을 없앴다. 이 기능을 활용하면 실제 사람이 말하는 것 처럼 자연스러운 음성을 들을 수 있다. 아나운서가 말하는 방식과 비슷하다.

폴리에 ‘뉴스 캐스터 스타일’을 적용한 예. / AWS 제공

해외 언론사는 뉴스에 ‘인공지능 아나운서’를 접목하려고 시도 중이다. 아마존은 미국의 ‘USA 투데이’, 캐나다의 ‘더 글로브 앤 메일’ 등 여러 언론사와 협업한다. 주로 텍스트로된 뉴스를 음성으로도 들을 수 있는 서비스를 제공한다. 뉴스캐스터 스타일은 현재 미국식 영어와 음성 두 가지를 지원한다.

줄리앙 사이먼 아마존 에반젤리스트(전도사)는 "인간의 귀는 뉴스 방송, 스포츠 스타, 대학 수업 등의 맥락에 맞는 연설 방식을 구분할 수 있다"며 "더욱 실감나고 매력적인 음성을 만들기 위해 단순히 음질을 향상시키는 것을 넘어 더 많은 요소를 고려했다"고 설명했다.

아마존은 새 인공지능 엔진도 공개했다. ‘신경 텍스트-음성 변환기(NTTS)’다. 기계학습 알고리즘을 수정해 인공지능 음성을 더 자연스럽게 하고 표현력을 향상시키는 기능이다. 아마존에 따르면 NTTS 덕에 기계 음성에 스타일을 적용하는 것이 가능해졌다.

새 엔진과 새 기능은 아직 미국 동부(버지니아주), 미국 서부(오리건주), 유럽(아일랜드) 지역에서만 사용할 수 있다. 처음 12개월 동안 매달 최대 100만 자까지 새 기능을 무료로 이용할 수 있다. 더 많이 사용하려면 비용을 지불해야 한다.

기자의 전체기사