#서울특별시의 특징을 묻는 질문에 인공지능(AI) 스피커가 "도시 중앙으로 한강이 흐르고 북한산, 관악산, 도봉산 등의 여러 산들로 둘러싸인…"이라는 장문의 답을 말한다. AI 학습용 표준데이터 ‘코쿼드 2.0(KorQuAD 2.0)’ 덕분이다.

LG CNS는 지난해 12월 위키백과 정보를 기반으로 AI 학습용 한국어 표준데이터 7만개가 탑재된
‘코쿼드 1.0’을 제작해 공개한 바 있다. ‘코쿼드 2.0’은 ‘코쿼드 1.0’ 대비 한국어 표준데이터를 10만개로 확대하고, 장문의 답변이 가능한 AI를 개발할 수 있도록 데이터를 강화한 버전이다. AI가 표나 리스트 형태에 담긴 정보도 읽어 답변할 수 있게끔 표준데이터 범위도 확대했다.


LG CNS가 코쿼드(The Korean Question Answering Dataset) 2.0을 발표했다. / 코쿼드 웹사이트 갈무리
LG CNS가 코쿼드(The Korean Question Answering Dataset) 2.0을 발표했다. / 코쿼드 웹사이트 갈무리
LG CNS는 5일 강서구 마곡 LG사이언스파크에 국내 AI 전문가 300여명을 초청해 AI 커뮤니티 행사
‘AI Tech Talk(테크톡) for NLU*’을 열고 ‘코쿼드 2.0’ 출시를 발표한다.

현신균 부사장은 "응용분야가 무궁무진한 AI 언어 개발 분야에서 내부적으로 쌓은 데이터를 AI 업계 전체에 개방해 국내 AI 연구자들 간 상생을 위한 개방형 생태계 조성에 기여코자 한다"고 밝혔다.

회사 측에 따르면 언어 AI 개발을 위해서는 학생들이 공부하는 교과서와 유사한 개념인 AI 학습용 표준데이터가 필요하다다. 해외는 美 스탠포드대학, 마이크로소프트 등이 제작한 영문 표준데이터가 존재해 AI 개발에 활용되고 있으나 국내는 한국어 표준데이터가 없어 영문을 번역하거나 자체적으로 데이터를 마련해야 했다고 설명했다.

코쿼드 학습으로 개발된 AI는 코쿼드 홈페이지에 등록해 성능 평가를 받을 수 있으며 리더보드에
등재돼 다른 AI와의 성능 수준을 비교해볼 수도 있다. 네이버 클로바AI팀은 LG CNS의 코쿼드를 활용해 개발한 AI 모델의 성능평가를 받고 리더보드에 등재된 50여개 팀 중 1위를 기록 중이다.

이번에 출시한 한국어 표준데이터는 ‘코쿼드 2.0’ 웹사이트에서 누구나 다운로드 가능하다.

LG CNS AI커뮤니티 행사에서 이주열 AI빅데이터연구소장이 코쿼드2.0을 소개하고 있다. / LG CNS 제공
LG CNS AI커뮤니티 행사에서 이주열 AI빅데이터연구소장이 코쿼드2.0을 소개하고 있다. / LG CNS 제공
#LG CNS #AI #인공지능 #개방형생태계 #네이버