구글이 13일(현지시각) 기술 블로그에 '특정 음성 인식기술'을 공개했다. 소음이 많거나 여러 명이 대화하고 있는 환경에서 특정 인물의 음성만 분리·인식하는 기술이다.

구글은 이 기술을 개발하기 위해 유튜브에 등록된 10만개쯤의 동영상을 활용, 사람이 대화할 때의 입 모양과 음성을 추출했다. 이어 특정 인물의 얼굴과 목소리를 파악할 수 있도록 신경망 네트워크를 훈련시켰다.

구글 특정 음성 인식기술 구현 전개도. / 구글 개발자 블로그 갈무리
구글 특정 음성 인식기술 구현 전개도. / 구글 개발자 블로그 갈무리
이렇게 구현된 신경망 네트워크는 특정 인물의 얼굴과 목소리, 입 모양 등을 정밀하게 분석해 목소리를 더 잘 알아듣는다. 소음이 심하거나 여러 명의 목소리가 섞였더라도 동작한다. 반대로 영상 속에서 특정 인물의 목소리만 남기고 나머지 소리는 모두 제거하는 것도 가능하다.

구글은 이 기술이 동영상 속 특정 인물의 음성을 인식, 증폭하는 것 외에 여러 분야에 응용 가능하다고 밝혔다. 화상 회의, 보청기 등이 예시다.

이 기술은 입 모양을 인식하면 발음을 더 정확히 파악할 수 있는 덕분에 유튜브 자동 번역 기능의 성능을 높여줄 전망이다.