국가 간 언어의 장벽이 허물어지고 있다. 이를 가능하게 한 것은 다양한 통번역SW와 서비스 덕분이다. 특히 클라우드와 빅데이터, 인공지능 등의 ICT 기술발전은 통번역 SW와 서비스의 발전을 이끌었다. 이에 국내 통번역 SW 시장의 현주소를 짚어보고, 나날이 발전하고 있는 통번역 기술의 과제를 집중 점검한다. <편집자주>


[IT조선 유진상] 글로벌 시대다. 이제 서로 다른 언어를 사용하는 사람들의 교류가 보다 늘어나고 있다. 하지만 장벽은 존재한다. 바로 언어소통이다. 이를 해결하기 위해 시장에는 다양한 서비스들이 속속 선보이고 있다.

이러한 서비스들은 다양한 기술을 기반으로 하고 있다. 음성인식은 물론 자동번역 기술, 음성 합성 기술 등이다.  

음성인식은 사람의 입으로부터 나온 음성신호를 자동으로 인식해 문자열로 변화하는 과정 또는 기술로 ASR(Automatic Speech Recognition) 또는 STT(Speech to Text)로 불린다. 대부분의 음성인식 기술은 확률 통계 방식에 기반하고 있으며, 최근에는 딥 러닝 아키텍처 중 하나인 DNN(Deep Neutral Network)이 채택되고 있다.

가트너는 2014년 주목할만한 기술분야 중 하나로 딥 러닝을 꼽았다. 또 오는 2017년에는 컴퓨터의 10%는 데이터 처리가 아닌 딥 러닝 기반의 학습을 할 뿐 아니라 DNN 알고리즘을 활용하는 음성인식 애플리케이션은 2배로 늘어날 것이라고 예측했다.

구글의 안드로이드 OS인 젤리빈(Jelly Bean)의 음성검색 서비스와 마이크로소프트가 운영하고 있는 검색서비스 빙(Bing)의 음성검색에도 DNN이 적용돼 있다. 또 네이버의 음성인식 서비스에도 DNN이 적용된 것으로 알려졌다.

또 자동번역은 한 언어로 쓰여진 문장을 다른 언어의 문장으로 변환해 주는 기술로, 대표적인 방법론은 규칙에 기반한 방법과 말뭉치에 기반한 방법이 있다.

규칙에 기반한 방법은 분석 깊이에 따라 직접번역방식과 간접번역방식, 중간언어방식으로 나뉜다. 직접 번역은 주로 한국어와 일본어처럼 문장구조가 비슷한 동종언어간에는 적절한 방식이지만 영어와 한국어처럼 문장구조가 다른 이종 언어 간에는 적용할 수 없다. 간접번역방식은 구문이나 의미구조까지 분석한 후 번역 문장을 만들어내는 점에서 직접번역방식과는 차이가 있다.

말뭉치에 기반한 방법론에는 예제기반과 통계기반으로 나뉘는데, 통계기반번역(SMT, Stochastic Machine Traslation)의 경우, 통계적 분석을 통해 이중언어 말뭉치로부터 모델 파라미터를 학습해 문장을 번역하는 기술을 뜻한다. 다만 대규모의 이중언어 말뭉치가 필요하고 다수의 언어들을 연결하는 공통된 의미표상이 없어 사용에 제한적이라는 단점이 있다.

이런 기술이 결합돼 시장에는 다양한 서비스들이 선보여지고 있다. 특히 스마트폰이나 태블릿이 보편화되면서 간편하게 사용할 수 있는 통역/번역 서비스들이 존재하고 있다.

ETRI가 개발한 지니톡(사진=ETRI)
ETRI가 개발한 지니톡(사진=ETRI)


한국전자통신연구원(ETRI)은 1990년대 초부터 자동통역을 목표로 관련 분야의 연구와 개발을 진행해 왔다. 그리고 2008년 본격적인 자동통역 연구를 통해 2012년 지니톡을 선보이고 시범서비스를 진행했다. 지니톡에는 음성인식은 물론 자동번역 기술, 음성 합성 기술 등이 모두 포함됐다.

지난 5월까지 진행된 지니톡의 시범서비스는 220만 누적다운로드를 기록했으며, 지니톡이 인식하는 단어 수는 10만여 개에 달한다. 특히 음성인식률과 자동통역률이 각각 90%, 80%에 달하면서 세계 최고 수준으로 평가되고 있다. 현재 지니톡은 국내 번역업체인 시스트란인터내셔널에 이전되면서 상용서비스화 됐다.

ETRI 관계자는 “지니톡의 성공을 바탕으로 언어셋을 보다 확장하고 음성인식 기술 개선에 역량을 집중하고 있다”며 “기술 개선을 통해 기술적 성능과 표현력 확대를 할 수 있도록 노력해 나갈 것”이라고 말했다.

네이버 번역 서비스(그림=네이버)
네이버 번역 서비스(그림=네이버)


네이버 역시 SMT 방식의 자체 자동번역기를 개발해 서비스하고 있다. 현재는 영어, 일본어, 중국어, 스페인어 등 총 11개 언어쌍에 대한 기계번역 서비스를 제공하고 있다. 특히 네이버의 번역 서비스는 최근 ‘2015 아시아 번역 품질 평가 대회’에서 한국어-일본어 번역기 분야 1등, 영어-일본어 번역기 분야에서 3위를 차지하는 등 좋은 성적을 거뒀다. 이용자수 역시 지난 2014년 12월 대비 3.4배 성장했다. 송창현 네이버 CTO는 “그동안 축적한 서비스 노하우와 고도의 기술력으로 외국어 번역 등 언어처리에 탁월한 강점이 있다”고 강조했다.

구글번역서비스(그림=구글)
구글번역서비스(그림=구글)


구글은 지난 2006년부터 번역서비스를 선보였다. 영어와 중국어, 프랑스어, 스페인어로 시작된 이 서비스는 현재 전 세계 90개 언어를 지원하고 있다. 구글은 대표적인 SMT에 기반한 방식을 추구하고 있으며, 2007년 이전에는 시스트란 기반의 번역기를 사용해 왔으나, 현재는 독자번역 엔진을 사용하고 있다.  

마이크로소프트 역시 스카이프를 통해 실시간 언어번역 서비스를 도입하려고 하고 있다. 아직은 테스트 단계로, 한국어는 포함돼 있지 않다. 현재는 독일어와 스페인어, 영어, 이탈리아어, 중국어, 프랑스어 등이 서비스 되고 있다. 스카이프 번역기에는 음성 인식 기술과 자동번역, 기계학습 관련 기술이 활용되며, 음성인식 기술은 자사의 음성인식 비서 서비스인 코타나를 통해 축적한 기술이 활용된다.

유진상 기자 jinsang@chosunbiz.com

키워드