구글이 음성을 글자로 실시간 변환해주는 라이브 트랜스크라이브(Live Transcribe) 앱을 내놓았다. 대화 음성을 스마트폰 화면에 바로 번역해 보여주는 ‘휴대용 자막 서비스’다. 실시간 대화에 어려움을 겪는 청각 장애인에게 큰 도움이 될 것으로 보인다.

구글코리아는 14일 오전 구글 AI포럼을 열고 라이브 트랜스크라이브 앱 서비스를 소개했다. 라이브 트랜스크라이브 앱은 머신러닝 기반 음성 텍스트 변환 기술을 활용한다. 현재 한국어를 포함 전 세계 70개 언어를 지원한다.

라이브 트랜스크라이브가 다른 음성 번역 서비스와 다른 점은 스마트폰 단위에서도 실시간으로 정확한 음성 번역이 가능하다는 점이다. 특히 청각 장애인은 스마트폰에서 실시간 대화를 문자로 바로 읽을 수 있어 ‘휴대용 자막기’로 활용할 수 있다.

현재 베타 버전 모바일 앱으로 출시됐으며 구글플레이에서 다운받아 이용할 수 있다. 안드로이드 운영체제(OS) ‘롤리팝’ 이상 탑재 스마트폰에서 이용 가능하다.

사가 사블라 구글 AI 리서치 프로덕트 매니저가 14일 서울 강남구 구글코리아 사무실에서 열린 ‘AI 포럼’에서 라이브 트랜스크라이브를 소개하고 있다. / IT조선
사가 사블라 구글 AI 리서치 프로덕트 매니저가 14일 서울 강남구 구글코리아 사무실에서 열린 ‘AI 포럼’에서 라이브 트랜스크라이브를 소개하고 있다. / IT조선
라이브 트랜스크라이브의 구동 비결은 구글 클라우드와 머신러닝 신경망 기술이다. 구글은 디바이스와 클라우드 각각에 머신러닝 기반 신경망 기술을 적용했다. 덕분에 소음이 많거나 인터넷 속도가 느린 환경에서도 안정적인 번역 서비스가 가능하다.

구글 신경망 음성인식 시스템은 사람 음성을 포함, 각종 소리를 디바이스 단위에서 수집해 분류한다. 구글 신경망 음성인식 시스템이 분류할 수 있는 소리 종류는 총 570여 개에 달한다.

구글 클라우드에 탑재된 음성인식 엔진은 디바이스 단위에서 수집된 음성 데이터를 쪼개 말의 뜻을 구별해주는 소리의 최소 단위인 음소 단위로 분석한다. 실제 사전 내 단어와 매칭되면 해당 단어로 번역해 화면에 보여준다.

구글은 청각이 약한 이들을 위해 사운드 엠플리파이어라는 앱도 출시할 예정이다. 주변 소음은 제거하고 사람 음성만 증폭해 들려주는 서비스다. 또한 인터넷에 연결하지 않고도 서비스되도록 개선할 계획이다.

또한 구글은 이번 서비스를 오픈소스로 공개해 여러 개발자들이 다양한 서비스 개발에 활용 가능할 수 있도록 할 예정이다. 아이 우는 소리를 인식해 부모에게 실시간으로 알림 메시지를 보내거나 청각 장애인에게 주변 위험 소리를 듣고 신호를 보내는 서비스도 가능하다는 설명이다.

구글이 이번 앱을 출시한 배경은 기술로 모두에게 동등한 접근 기회를 제공하기 위해서다. 세계보건기구(WHO)에 따르면 청각 장애를 앓고 있는 인구는 전 세계 4억6600만명에 이른다.

사가 사블라 구글 AI 리서치 프로덕트 매니저는 "청력이 약한 이들은 사회적 낙인 효과를 우려해 보청기를 사용하는 것도 어려워하다가 점점 의사소통에서 고립되기 십상"이라며 "구글의 음성인식과 머신러닝 기술로 청각 장애인에게 어떤 도움을 줄 수 있을지 고민 끝에 내놓은 서비스"라고 설명했다.