KT AI 원팀, 학습량 줄이고 인식률 높인 AI 음성인식 기술 개발

김평화 기자
입력 2022.04.14 11:09 수정 2022.04.14 11:10
KT가 인공지능(AI) 산·학·연 연합체인 AI 원팀에서 학습량은 줄이되 인식률을 높인 인공지능(AI) 음성인식 기술을 개발했다. 향후 자사 AI 서비스 고도화에 해당 기술을 활용할 예정이다.

KT 연구원이 AI 원팀이 개발한 AI 기술을 살피고 있다. / KT
KT는 AI 원팀의 산·학·연 공동 연구로 4종의 AI 기술을 개발했다고 14일 밝혔다. 이번에 개발한 기술은 ▲로봇 실내 공간지능 ▲로봇 소셜 인터랙션(Social Interaction) ▲보이스 클로닝(Voice Cloning) ▲한국어 E2E(End-to-End) 음성인식 트랜스퍼 러닝(Transfer learning) 등이다.

KT는 2020년 2월 AI원팀 출범 후 40명쯤의 국내 AI 전문가를 모아 AI 구루(Guru) 그룹을 구성했다. 현안 해결 프로세스인 라운드테이블을 열고 기업의 기술 난제 해결을 논의하기 위해서다. 그 결과 산학연 공동 연구 과제를 결정, 2021년 무빙 픽처와 딥러닝 음성합성 등 4개 기술을 공개했다. 이번에도 4개 AI 기술을 추가로 개발해 선보인다.

로봇 실내 공간지능 기술은 KT와 명현 한국과학기술원(KAIST) 교수가 개발했다. 로봇이 실내 사물을 식별하고 위치를 기억하는 기술이다. AI원팀은 해당 기술에서 사용하는 알고리즘을 실내 자율주행에 접목하는 2차 연도 연구를 진행할 예정이다. KT 로봇 실내 자율주행 정밀도를 높이는 데 활용된다.

로봇 소셜 인터랙션 기술은 KT와 윤성의 KAIST 교수 연구진이 개발했다. 사용자 얼굴과 행동을 인식해 로봇이 수행할 행동을 추천하는 알고리즘을 구현한다. KT 로봇은 향후 해당 기술로 마련한 개별 알고리즘을 연결해 로봇의 개인화한 상호작용을 구현할 계획이다.

보이스 클로닝 기술은 KT와 김회린 KAIST 교수가 공동 연구했다. 개인화 음성 합성을 위한 목소리 복원 알고리즘이다. 개인의 오디오 샘플을 딥러닝으로 학습, 커스텀 보이스로 제공하는 개인화 TTS 서비스 핵심 기술이다. 커스텀 보이스 학습에 필요한 녹음 시간을 기존 30분에서 3분으로 단축했다. KT는 해당 기술을 기가지니와 AI통화비서, AI 로봇 등에 도입해 커스텀 개인화 TTS 서비스를 상용화할 예정이다.

한국어 E2E 음성인식 트랜스퍼 러닝 기술은 KT와 장준혁 한양대 교수가 개발했다. 한국어 음성인식 성능을 높이면서 학습에 필요한 데이터는 줄인 기술이다. 기존 딥러닝 음성인식 모델보다 에러율을 13.7% 낮췄다. 기존 모델을 재사용해 학습하는 방식으로 소량의 도메인 데이터를 활용한 음성인식 개선이 가능해졌다. KT는 AI 서비스 고도화에 해당 기술을 사용한다.

송재호 KT AI/DX융합사업부문장은 "올해도 AI원팀에서 연구기관, 기업, 스타트업 간 협력으로 시너지를 내고 AI 국가 경쟁력을 높이겠다"고 말했다.

AI 원팀은 2020년 2월 출범한 AI 분야 산학연 협력체다. KT와 현대중공업그룹, LG전자, 한국투자증권, 동원그룹, 우리은행, 한진, KAIST, 한양대, 한국전자통신연구원(ETRI) 등 10개 산학연이 있다. AI원팀에서 KT, KAIST, 한양대, ETRI는 초거대 AI를 개발 중이다. 초거대 AI는 대용량 연산이 가능한 인프라에서 대규모 데이터를 학습, 사람처럼 사고하도록 설계한 AI다.

김평화 기자 peaceit@chosunbiz.com


조선미디어그룹의 ICT 전문매체 IT조선은 창간 13주년을 맞아 메타버스 ESG 콘퍼런스(행사 페이지 바로가기)를 진행한다. 사전등록자(사전등록페이지 바로가기)에게는 추첨을 통해 네오스마트펜과 무선충전 마우스 패드를 증정한다.


T조선 뉴스레터 를 받아보세요! - 구독신청하기
매일 IT조선 뉴스를 받아보세요 닫기