국립국어원 ‘빅데이터 토론회’서 이경일 솔트룩스 대표 발언
강인호 네이버 "정부 개발 학습된 AI모델 산업계 큰 힘"
이연수 엔씨소프트, 언어의 가변성 주목해야

한국형 인공지능(AI)시대 개막을 위해 데이터-AI 통합 환경 구축이 시급하다는 주장이다. 정부가 지난 8월 공개한 ‘모두의 말뭉치’는 한국형 AI 개척을 위해 상당히 의미있는 성과란 평가도 나왔다.

국립국어원은 14일 서울 종로구 통인동 역사책방에서 자연어처리 대표기업인 네이버·
엔씨소프트·솔트룩스를 초청, ‘인공지능 시대를 향한 우리말 빅데이터’ 활용을 주제로 토론을 펼쳤다. 국립국어원이 개발한 모두의 말뭉치는 한국어 빅데이터로, 한국어 학습자료 13종, 18억어절 분량이 수록돼 있다. 지난 2007년까지 추진한 ‘21세기 세종기획’과 달리, 이번 사업은 구어체 비중이 높은 점이 특징이다.

왼쪽부터 사회를 맡은 송상헌 고려대 교수, 강인호 네이버 책임리더, 이연수 엔씨소프트 실장, 이경일 솔트룩스 대표. /IT조선
왼쪽부터 사회를 맡은 송상헌 고려대 교수, 강인호 네이버 책임리더, 이연수 엔씨소프트 실장, 이경일 솔트룩스 대표. /IT조선
이경일 솔트룩스 대표는 인공지능을 넘어선 ‘증강지능(Augmented Intelligence)’ 개념을 언급했다. 그는 "과거 육체노동이 자동화됐고, 지금은 지적 노동이 자동화 중이다. 다음 단계는 기계와 협력한 지적 능력 증강이다. 의사소통과 데이터 학습이 중요한 이유"며 "앞으로 한국어 활용에서 모두의 말뭉치가 중요해질 것"라고 전했다.

강인호 네이버 자연어처리 분야 책임리더는 "한국어 학습 세트 확보에는 저작권, 개인정보보호라는 어려움이 있다. 아무리 많은 텍스트가 있어도 사용하기 어렵다. 풍요 속의 빈곤인 셈이다"며 "국립국어원이 공개한 모두의 말뭉치가 큰 도움이 된다. 연구용으로는 자유롭게 사용할 수 있어 GPT-3 등 최신 AI를 실험할 때, 유용했다"라고 밝혔다.

이어서 그는 "새로운 AI모델이 나오면 실험을 해야 한다. 경우에 따라 2~3주가 필요하다"며 "학습 세트와 함께 미리 학습된 AI모델을 제공하면 연구 진입장벽도 낮추고, 전력낭비도 줄일 수 있을 것으로 기대된다"라고 덧붙였다.

이연수 엔씨소프트 실장(인공지능 분야)은 모두의 말뭉치 실제 활용 결과를 소개했다. 모두의 말뭉치를 세종 말뭉치 등 기존 학습 세트와 함께 사용한 대부분은, 기대와 달리 정확도가 떨어졌다. 이 실장은 "학습 세트가 문제라는 결과가 아니다. 언어를 다르게 해석했기 때문"이라며 "실제로 가이드라인이 다르다. 기존 데이터도 같은 가이드라인을 참고해야 한다"라고 설명했다.

언어의 가변성에 대한 지속적인 관심도 촉구했다. 이연수 실장은 "NLP연구자로 모두의 말뭉치는 반갑다. 구어체 위주 데이터로 활용 가능성도 높은 편"이라면서도 "언어는 변한다. 디지털 뉴딜 등 많은 데이터를 확보하는 중이지만, 변화하는 현상에 대한 지속적인 관심이 있어야 한다"라고 강조했다.

송주상 기자 sjs@chosunbiz.com