개발 전문잡지 마이크로소프트웨어의 최신호는 인공지능 개발에 필요한 체크포인트(The Checkpoint of AI)를 다뤘습니다. 데이터 수집, 정제, 학습법, 인프라, 음성 합성 등 전문가의 최신 개발방법론과 노하우가 풍성합니다. 마소 391호의 주요 기사들을 IT조선 독자에게도 소개합니다.
[편집자주]

인공지능 비서에게 음성은 매우 중요하다. 인공지능 비서는 텍스트로 도출된 결과를 우리에게 음성으로 변환시켜 전달한다. 텍스트 음성 변환(Text-To-Speech, TTS) 과정에서 억양과 톤을 조절하기 힘들기 때문에 인공지능 비서의 음성과 사람의 음성 차이를 느끼게 된다. MS 빙 음성인식(Microsoft Bing Speech) API, IBM 왓슨(Watson), 구글 어시스턴트(Google Assistant), 아마존 폴리(Amazon Polly) 등 주요 클라우드 서비스는 각자의 TTS에 차별성을 부여해 사용을 유도하고 있다. 배준현 코딩이랑 무관합니다만(코무) 운영진은 마소 391호에서 TTS의 배경과 클라우드 서비스별 장단점을 비교했다.

주요 클라우드 서비스의 TTS SSML 제공 여부 및 특징 / 마이크로소프트웨어 391호 발췌
주요 클라우드 서비스의 TTS SSML 제공 여부 및 특징 / 마이크로소프트웨어 391호 발췌
보이스 브라우저 워킹 그룹(Voice Browser Working Group)은 TTS에 억양과 톤을 추가하기 위해 2007년 1월 W3C 작업 초안에 음성 합성 마크업 언어(Speech Synthesis Markup Language, SSML)의 세부 사양을 등재했다. 웹 기반 XML 마크업 언어로 2017년 12월 기준 1.1 버전까지 나왔다.

TTS 서비스는 한가지 특유의 음성만 지원하는 단점이 있다. IBM 왓슨 TTS는 이런 단점을 해결하기 위해 기본 제공되는 음성 타입 외에 'Young', 'Soft' 등의 내장 변환 타입(Built-in Transformation Type)을 제공한다. 동일한 목소리를 음의 높낮이 변화없이 텍스트를 읽는다.

배준현 운영진의 음성합성과 음성변조에 관한 자세한 내용은 '마이크로소프트웨어 391호(www.imaso.co.kr/archives/1301)'에서 확인할 수 있다.