500만개 문서에서 0.1초내 답 찾는 AI 모델, 국내 연구진 개발

최용석 기자
입력 2021.08.05 15:34
고려대학교는 5일 컴퓨터학과 강재우 교수가 이끄는 연구팀이 500만개가 넘는 문서에 대한 자연어 질의에 대한 답을 실시간으로 찾을 수 있는 인공지능(AI) 모델을 개발했다고 밝혔다.

이번 AI 모델은 강재우 교수의 연구팀(이진혁 박사, 성무진 박사과정)과 프린스턴 대학교 당지 첸(Danqi Chen) 교수가 공동연구를 통해 개발했다. 덴스프레이즈(DensePhrases)라 불리는 이 AI 모델은 영문 위키피디아의 500만개 이상의 문서에 대한 사용자의 자연어 질의를 100㎳(0.1초) 내외로 처리한다.

고려대학교 내 덴스프레이즈 시연페이지 모습 / 고려대학교
특히 기존 최고 성능의 AI 모델과 유사한 성능을 제공하면서 처리 속도가 20배 이상 향상됐다고 연구팀은 강조했다. 또한, 이 AI 모델은 딥러닝 모델의 학습 및 구동에 필요한 고가의 GPU가 없어도 구동이 가능하다고 덧붙였다.

덴스프레이즈는 사용자가 일상어로 작성한 질문에 대한 답을 위키피디아에서 찾는다. 예를 들어 "2016년 올림픽 남자 에페에서 금메달을 딴 사람(Who did win a gold medal in the men's epee at the 2016 Olympics)"이라고 질문하면 실시간으로 ‘Fencing at the 2016 Summer Olympics’라는 위키피디아 문서로에서 ‘Park Sang-young’이라는 구체적인 정답을 찾아 사용자에게 답한다.

(왼쪽부터) 강재우 고려대학교 컴퓨터학과 교수, 이진혁 박사, 성무진 박사과정 / 고려대학교
이번 연구는 프린스턴대에 방문 연구 중인 고려대 이진혁 박사 주도하에 성무진 박사과정과 프린스턴대 당지 첸 교수가 참여했다. 지난 수년간 이진혁 박사가 주도해온 ‘구 기반 질의응답(Phrase-Indexed QA)’과 ‘오픈도메인 질의응답(Open-Domain QA)’기술을 발전 시켜 덴스프레이즈를 개발했다.

덴스프레이즈의 학습에는 기계 독해(Machine Reading Comprehension) 데이터셋과 질의생성(Question Generation) 모델을 활용해 생성한 150만여 건의 데이터를 사용했다. 이 모델은 위키피디아뿐만 아니라 다양한 도메인의 대용량 문서 빅데이터에도 적용할 수 있도록 설계되어 학계와 산업계의 다양한 분야에서 자연어 기반 QA 플랫폼으로 활용할 수 있다.

한편, 연구팀의 이번 성과와 덴스프레이즈는 8월 첫째 주에 개최한 AI 언어처리 분야 최고 권위 학회인 ‘ACL(Annual Meeting of the Association for Computational Linguistics)’에서 4일 처음으로 공개됐다. 덴스프레이즈의 실제 작동 모습은 별도의 시연 페이지(영문)에서 직접 체험할 수 있다.

최용석 기자 redpriest@chosunbiz.com


T조선 뉴스레터 를 받아보세요! - 구독신청하기
매일 IT조선 뉴스를 받아보세요 닫기