자연어 처리 전문 기업 투블럭에이아이는 페이스북의 BART 모델에 대응하는 한국어 버전인 HanBART를 공개한다고 29일 밝혔다.

투블럭에이아이는 한국어 심층언어 이해와 생성모델  HanBART를 공개했다. / 투블럭에이아이
투블럭에이아이는 한국어 심층언어 이해와 생성모델 HanBART를 공개했다. / 투블럭에이아이
지난해에는 구글 BERT 모델의 한국어 버전인 HanBERT를 공개한 바 있는 투블럭에이아이가 이번에 HanBART를 공개함에 따라 비상업적인 연구나 교육, 경진대회에서 누구나 무료로 다운로드받아 개발에 사용할 수 있게 됐다.

투블럭에이아이 관계자는 "HanBART에 이미 공개한 HanBERT의 학습 결과를 재활용하는 기술을 적용하고, 한국어 특성을 딥러닝에 접목시켰다"라며 "관련 특허 출원도 진행했다"라고 말했다.

사람이 언어를 사용할 때에는 다른 사람의 말이나 글을 이해하는 부분과 자신의 생각을 작성하는 부분이 필요한데, 기존 BERT 모델이 언어를 이해하는 솔루션이었다면, BART 모델은 문장을 생성하는 모델인 셈이다.

BART 모델은 구글에서 발표한 트랜스포머 모델을 페이스북이 발전 시켜 언어의 이해와 생성이 동시에 가능하도록 개선한 모델이다. 주요 활용처는 기계번역, 자동요약, 문제생성, 챗봇대화 등으로 그동안 언어 이해만 가능했던 BERT모델과 언어생성까지 가능한 GPT 모델이 연결된 형태다.

회사 관계자는 "기존에 보유하던 HanBERT에 기반한 자연어 이해 능력 솔루션에 이번에 공개한 HanBART를 통해 자연어 생성 솔루션이 한층 더 강화하게 됐다"라며 "앞으로도 자연어 처리 분야에서 독보적인 기술력으로 시장에 새로운 솔루션을 계속 공개할 계획이다"라고 전했다.

과학기술정보통신부 주최의 인공지능 온라인 경진대회에서 3년 연속 우수기업으로 선정이 되어 사업화 지원을 받은 투블럭에이아이의 조영환 대표는 정부의 AI 사업화 지원을 받은 결과물을 AI 연구자들에게 공유하는 것이 당연하다는 뜻을 전했다.

한편, 한국어의 특성을 딥러닝에 접목해 비상업적 연구에 누구나 무료로 사용 가능한 HanBART는 오픈소스 공개 사이트나 투블럭에이아이 홈페이지에서 다운로드받을 수 있다.

하순명 기자 kidsfocal@chosunbiz.com