인공지능(AI) 기술이 진화하고 있다. 사람과 대화가 가능한 수준으로 텍스트를 작성하는 언어 모델까지 등장했다. 핵심 기반은 자연어 처리(Natural Language Processing) 기술이다. 자연어 처리는 컴퓨터 프로그래밍처럼 인공적으로 만들어진 언어가 아닌 사람과 사람 사이 실제 사용하는 언어를 분석·처리하는 기술이다. 이를 위해 머신러닝·딥러닝 등 AI 기술을 활용한다.

완성도 높은 번역기와 대화형 챗봇도 자연어 처리 기술을 기반으로 탄생했다. 소비자가 원하는 쉽고 편리한 맞춤형 서비스를 자동화된 방식으로 제공하기 위해 각 기업은 기술 확보에 분주하다. 높은 수준의 자연어 처리 기술을 보유한 기업과 협업하거나 실무 경험을 지닌 인재를 확보, 연구·개발에 나서는 방식이다.

 / 아이클릭아트
/ 아이클릭아트
MS, 언어 모델 GPT-3 라이선스 독점 획득

마이크로소프트(MS)는 AI 기반 언어 모델 GPT-3(Generation Pre-trained Transformer 3) 라이선스를 독점으로 획득했다고 지난 9월 밝혔다.

GPT-3는 오픈 AI사가 개발한 GPT시리즈 최신 버전으로 머신러닝을 활용한 언어 모델이다. 1750억개 매개변수와 데이터세트 3000억개를 사전학습해 대화나 통·번역뿐 아니라 의학지식과 같은 전문 영역도 정리할 수 있다. 이를 기반으로 인간과 대화할 수 있을 정도의 텍스트 작성 능력을 보유했다고 평가받는다.

구글 등 경쟁사에 비해 번역 분야에서 뒤처진 MS가 GPT-3 라이선스 독점 확보로 추격의 발판을 마련했다. 케빈 스콧 MS 최고기술책임자(CTO)는 "GPT-3를 활용해 기존 서비스에 새로운 기능을 더하고, 새로운 솔루션도 개발하겠다"고 밝혔다.

AI 학습용 데이터 구축사업’ 주관 수행기업으로 선정된 ‘포티투마루’

포티투마루는 정부가 추진하는 ‘AI 학습용 데이터 구축사업’ 주관 수행기업으로 선정됐다. 사업에서 자연어 처리 분야를 담당한다.

포티투마루 관계자는 "자연어 생성 기반 대화 모델링을 이용해 ‘일상 대화가 가능한 챗봇’을 구현해 주관 수행기업으로 선정될 수 있었다"고 설명했다.

이 기업은 검색 포털에서의 오랜 경험을 가진 인재들과 노하우를 바탕으로 딥러닝 인공지능 기반의 자연어 처리 기술을 고도화했다. 다양한 종류의 콘텐츠를 검색 시스템에 담은 경험을 바탕으로 IA(Information Architecture)를 고안했다. 이를 기반으로 대화형 챗봇 서비스를 개발했다.

포티투마루는 사용자 질문 의도를 정확하게 이해하기 위한 ▲딥러닝 기반 자연어 처리 ▲유사 질의어와 문서를 자동매칭하는 패러프레이징(Paraphrasing) ▲기계가 사람처럼 지문을 읽고 이해해 질문에 답하는 기계 독해(MRC, Machine Reading Comprehension)를 바탕으로 서비스 고도화를 꾀하고 있다.

패션 AI 기업 ‘오드컨셉’ 자연어처리 분야 권위 지닌 국제 학회서 연구 성과 발표

오드컨셉은 쇼핑몰에 접속한 소비자가 마음에 드는 상의를 선택하면, 상의와 유사한 상품뿐 아니라 어울릴 만한 모자나 신발까지 분석해 제시하는 ‘AI 코디 서비스’ 제공 기업이다. 제품 재질과 종류, 색깔까지 분석할 수 있을 정도로 정교한 서비스를 개발, 200여개가 넘는 패션 기업의 선택을 받았다.

서비스 고도화를 위해 컴퓨터 비전 기술뿐 아니라 자연어 처리·검색 기술을 오랫동안 연구한 오드컨셉은 최근 노력의 결실을 거뒀다. 기술 개발을 담당하는 문상환 엔지니어링 본부장이 주도한 논문 2편이 자연어처리 분야 국제 학회 EMNLP(Empirical Methods in Natural Language Processing) 발표 논문으로 채택된 것이다.

문 본부장은 단독 연구한 ‘기학습 버트(BERT)의 사전(dictionary) 개선을 통한 전이학습 개선 방법론(PatchBERT)’을 학회에서 발표할 예정이다. 연구를 통해 구글이 제시한 자연어처리 딥러닝 모델 ‘버트’의 성능 향상 기법을 제안하고 검증했다.

두 번째 논문 ‘Machines Getting with the Program’은 서울대, 인하대와 문 본부장이 비정형 지시문의 의도 파악을 주제로 진행한 합동 연구다. 연구를 통해 기계가 인간의 대화를 이해할 수 있도록 하는 한국어 학습 데이터 및 구축 방법론을 제안했다.

오드컨셉은 문 본부장의 텍스트 분야 연구 성과와 이미지 콘텐츠 분석 기술을 결합해 기술 고도화에 박차를 가하겠다고 밝혔다.

김동진 기자 communication@chosunbiz.com