"문 열어, 할"
"데이브. 미안합니다. 유감스럽게도 그럴 수 없습니다."

스탠리 큐브릭의 1968년 개봉작 '2001 스페이스 오디세이'에 등장했던 음성인식 로봇 '할9000(HAL9000)'이 현실로 다가오고 있다. 영화 속 할9000은 우주선 운행과 시스템을 통제하는 인간에게 위협적인 존재였다. 하지만 기계가 인간과 대화를 하기 시작했다는 점에서 최근 IT기업들이 내놓는 음성인식 서비스가 탑재된 기기들과 맥을 같이 한다.

아마존, 구글, 마이크로소프트(MS)는 물론 국내 이동통신3사와 네이버는 최근 인간의 '목소리'에 급격한 관심을 보이고 있다. 5년 전 애플이 아이폰에 가상음성비서 시리(Siri)를 탑재했을 때만 해도 생소하던 음성인식 서비스가 인공지능(AI) 기술을 등에 업고 혁신을 거듭하고 있다.


음성인식 서비스가 인공지능 기술을 등에 업고 발전을 거듭하고 있다. 영화 ‘2001 스페이스 오디세이’의 한 장면 / 조선일보 DB
음성인식 서비스가 인공지능 기술을 등에 업고 발전을 거듭하고 있다. 영화 ‘2001 스페이스 오디세이’의 한 장면 / 조선일보 DB
리서치 회사 크리에이티브 스트래티지스(Creative Strategies)의 캐롤라이나 밀라네시(Carolina Milanesi) 애널리스트는 "2016년은 인공지능에 대한 대중의 인지도를 높이고 소비자를 인공지능 시장에 더 많이 노출시키는 한 해였다"고 평가했다.

◆ 앞서가는 아마존, 뒤쫒는 MS・애플...삼성・네이버도 잰걸음

최근 음성인식 서비스가 두드러지게 사용되는 분야는 스피커다. 대표적인 음성인식 서비스인 애플의 시리(Siri), 아마존의 알렉사(Alexa), MS의 코타나(Cotana)가 스피커에 탑재됐거나 적용을 앞두고 있다.

아마존은 2014년 알렉사를 탑재한 에코(Echo)를 출시해 지금까지 500만대를 팔았다. 2017년에는 터치 스크린을 탑재한 에코를 출시할 예정이다. 구글은 지난 5월 인공지능 스피커 '구글홈'을 출시했고 MS는 내년 초 음향기기업체 하만과 협력해 코타나를 넣은 스피커를 출시할 예정이다. 애플은 시리를 탑재한 스피커를 출시하겠다고 발표한 상태다.

국내에서도 음성인식 기술이 들어간 인공지능 스피커 개발이 한창이다. SK텔레콤은 지난 9월 국내 최초로 음성인식 스피커 '누구'를 출시했다. KT와 LG유플러스 역시 내년 출시를 목표로 음성인식 스피커를 개발하고 있다.


음성인식 기술이 들어간 인공지능 스피커 개발이 한창이다. / 조선일보 DB
음성인식 기술이 들어간 인공지능 스피커 개발이 한창이다. / 조선일보 DB
삼성전자와 네이버는 음성인식 기술에 투자를 늘리고 있다. 삼성전자는 10월 인수한 인공지능 기술기업 비브 랩스(VIV Labs)의 기술력을 이용해 음성인식으로 조작할 수 있는 제품과 서비스를 선보일 예정이다. 삼성전자 이인종 부사장은 "삼성이 보유한 음성인식 기술에 비브 랩스의 기술을 접목하면 강력한 인공지능 비서 서비스가 완성될 것"이라고 말했다.

네이버는 11월 29일 프랑스 음향기술 벤처기업 드비알레에 투자한다고 발표했다. 네이버는 또 대화형 인공지능 플랫폼 '아미카'와 글을 음성으로 바꿔주는 음성합성 기술도 갖추고 있다. 네이버 송창현 최고기술책임자(CTO)는 "다가오는 인공지능(AI) 시대에 스피커는 단순한 음향기기가 아니라 AI와 사람을 연결하는 중심 도구로 자리 잡을 것이라며 "이에 해당 분야에서 가장 혁신적인 기업으로 부상하고 있는 드비알레와 전략적 파트너십을 체결한 것"이라고 설명했다.

음성인식 기술은 스피커 이외의 분야에도 쓰이고 있다. MS는 코타나를 윈도우10가 설치된 컴퓨터나 엑스박스(Xbox) 또는 안드로이드 스마트폰에 탑재했다. 애플의 시리는 아이폰 외에도 맥 컴퓨터에 설치돼 있다. 구글은 지난 10월 지능형 비서 서비스를 탑재한 메시지앱 알로(Allo)를 선보였다.

음성인식 서비스가 탑재된 기기를 이용하면 별도로 앱을 열지 않고도 음성 활성화 시스템만으로 서비스를 사용할 수있다. 예를 들어 아마존의 에코를 이용해 음성으로 차량공유서비스 우버(Uber)를 부를 수 있다. 피자를 주문하거나 아이의 수학 숙제도 확인할 수 있다.

음성인식 기술은 발전 속도만큼이나 이용률이 높아지고 있다. 애플에 따르면 일주일동안 시리를 이용하는 횟수가 20억회에 달한다. MS의 코타나 사용자는 한 달에 1억명이 넘고 구글은 미국 내 안드로이드폰 검색의 5분의 1이 음성으로 이뤄진다고 말한다.

◆ 음성인식, 인공지능(AI)만나 급속하게 발전 중

IT기업들이 음성인식 기술에 주목하기 시작한 것은 1990년대로 거슬러 올라간다. MS는 1992년 미국 정부의 후원을 받아 설립된 음성 및 데이터 저장소인 링귀스틱 데이터 콘소시엄(Linguistics Data Consortium)에 저장된 데이터를 이용해 음성인식 기술을 연구했다. 이후 기업들은 자체적으로 음성 데이터를 모으기 시작했고, 자원봉사자를 모집해 읽고 녹음하는 작업을 했다.

이런 과정을 거쳐 음성인식 기술은 몇년 전에야 비로소 세상 밖으로 나왔다. 하지만 초기 음성인식 기술은 사람들의 조롱을 살 정도로 미흡했다. 2006년 MS가 윈도우에서 선보인 음성인식 기술은 숙모(aunt)와 엄마(mom)를 구분하지 못할 정도였다. 5년 전 애플이 선보인 시리 역시 질문에 부정확한 답을 내놓기 일쑤였다. 블룸버그 통신은 "시리가 미국 배우 질리언 앤더슨(Gillian Anderson)이 영국인이냐는 질문에 영국 식당 목록을 제공해 웃음을 샀다"고 말했다.

하지만 인간의 두뇌 구조에 기반한 인공지능의 한 형태인 인공신경망 네트워크(neural networks)를 활용한 딥러닝(deep learning)이 도입되면서 음성인식 기술은 급격하게 발전 중이다. 딥러닝을 이용하면 음성인식 엔진이 많이 사용되면 될수록 인간의 언어를 보다 잘 이해할 수 있게 돼 자연스러운 대화가 가능해진다. 바이두는 한 언어를 배우면 12개의 언어를 더 쉽게 배울 수 있는 알고리즘을 개발하기 위해 노력하고 있다. 구글은 2초~5초 길이의 수십만개에 달하는 오디오 조각을 묶어 딥러닝 기술에 적용하는 실험을 하고 있다. 바이두의 앤드류 응(Andrew Ng) 수석과학자는 "음성인식 시스템이 더 많은 데이터를 처리할수록 성능이 향상된다"고 말했다.


음성인식 서비스에 인공지능 기술이 더해지면서 발전이 가속화되고 있다. 구글 인공지능팀 딥마인드의 알파고와 겨루고 있는 이세돌 9단 / 조선일보 DB
음성인식 서비스에 인공지능 기술이 더해지면서 발전이 가속화되고 있다. 구글 인공지능팀 딥마인드의 알파고와 겨루고 있는 이세돌 9단 / 조선일보 DB
음성인식 서비스에 인공지능 기술이 더해지면서 발전을 거듭하고 있지만 사용자의 기대치를 만족시키기에는 역부족이다. 자연 언어를 컴퓨터 과학으로 해석하는데는 많은 어려움이 존재한다. 인간 언어의 기본적인 패턴과 머신 러닝 알고리즘을 연결하는 것은 쉽지 않은 일이다. 날씨, 스케줄 등의 비교적 단순한 명령을 수행하는 스피커 위주로 음성인식 서비스가 적용되는 것도 이 때문이다. 현재의 기술력으론 자동차, 세탁기, 텔레비전 등에 음성인식 기술을 적용하기 어렵다.

실제로 음성인식 서비스에 말을 걸때 천천히 또박또박 말하지 않으면 알아듣지 못하는 경우가 있다. 그때마다 음성인식 서비스는 "죄송하지만 그 질문에 대한 답을 갖고 있지 않습니다"라고 말해 답답함을 불러일으킨다. 애플의 가상음성서비스 시리(Siri)를 연구했던 바락 호드잣(Babak Hodjat)은 "음성인식 시스템의 아킬레스건은 사용자의 기대치"라며 "사람들이 아무 말이나 건네면 음성인식 시스템은 엉뚱한 답변을 내놓을 것"이라고 말했다.

◆ MS와 바이두, 기계가 방언 익히게 하려고 TB규모 데이터 모아

특히 인간이 쓰는 언어의 악센트, 방언, 소음이 있는 주변 환경 등은 음성인식 서비스의 한계로 지적된다. 이를 극복하기 위해 애플, 아마존, MS와 중국 바이두는 테라바이트(1조 바이트에 달하는 정보량)에 해당하는 인간들의 연설을 전 세계에서 모으는 작업에 들어갔다.

MS는 세계인들의 언어를 기록하기 위해 세계 곳곳의 아파트 거주할 자원봉사자를 모집했다. 아마존은 매시간마다 알렉사로 입력되는 언어 정보를 저장하고 있다. 바이두는 중국의 모든 방언을 수집 중이다. 바이두는 올해 중국 설날에 전국 각지의 방언을 수집하기 위한 캠페인을 진행하고 2주 만에 1000시간 이상에 달하는 음성을 녹음하는데 성공했다.

이들 기업들은 이렇게 모은 정보를 이용해 음성인식 서비스가 인간의 언어를 이해하고 응답하는 방법을 가르치는데 사용한다. 이들의 목표는 한 가지다. 바로 자연스럽고 현실적인 대화를 주고 받을 수 있도록 하는 것이다. 미국 캘리포니아에서 바이두의 인공지능 연구소를 운영하고 있는 아담 코트스(Adam Coates)는 "우리의 목표는 오류율을 1%로 낮추는 것"이라며 "음성인식 기기가 당신이 말하는 것을 완벽하게 이해하고 있다는 것을 신뢰할 수 있도록 하는 것이 목표"라고 말했다.