국어원, 혐오·차별 논란 말뭉치 서비스 중단

송주상 기자
입력 2021.01.19 13:43
AI윤리 침해 논란에 휩싸인 국립국어원의 인공지능(AI) 빅데이터의 일부 서비스가 중단된다.

국립국어원은 18일 빅데이터 공유 플랫폼 ‘모두의 말뭉치’에서 지원하는 일부 말뭉치(한국어 빅데이터) 등의 내려받기를 중단한다고 발표했다.

국립국어원 측은 "메신저 말뭉치에 부적절한 내용이 포함됐다는 지적이 있었다"며 "메신저 말뭉치, 구어 말뭉치, 웹 말뭉치를 전수 검토할 것이며, 수정 후 재공개하겠다"고 밝혔다.

모두의 말뭉치 내려받기 중단 안내문 모습 / 국립국어원
이번 중단은 국립국어원이 제공하는 말뭉치에 혐오·차별 발언 등이 포함됐다는 논란에 따른 결정이다.

지난 주 일부 매체는 "에이즈는 OO(성소수자)이 걸리는 거 아닌가", "마누라 OO하고 죽인다고 해줄게" 등이 말뭉치 데이터에서 확인됐다고 보도했다. 말뭉치가 국내 자연어처리(NLP) 과정에서 AI학습에 쓰이는 만큼 AI윤리를 침해된다는 지적이다.

말뭉치를 신청했던 이용자도 데이터를 받지 못한다. 기존에는 모두의 말뭉치 사이트에서 신청한 이용자는 받을 수 있었다. 제한 대상은 13종의 말뭉치 중 메신저·구어·웹 등 3종이다.

국립국어원은 "자료 구축 시 윤리적 관점에서 선별 기준을 객관화, 구체화하여 제시하고 작업자 대상 교육을 강화하겠다"고 이후 개선 사항을 전했다.

말뭉치 데이터 내려받기 재개 시점은 연내가 될 가능성이 높다. 말뭉치 사업을 총괄하는 이승재 국립국어원 언어정보과장은 "연내 재개를 목표로 하고 있다"며 "수요가 많은 데이터이기에 최대한 빠르게 재개하겠다"고 말했다.

이어 "말뭉치 데이터가 방대해 나온 실수다"며 "말뭉치 개선 작업은 별도 사업으로 진행될 가능성도 있다"고 덧붙였다.

지난해 8월 공개된 말뭉치 전체 데이터는 18억 어절쯤에 달한다.

일각에서는 무분별한 혐오·차별 발언 지적에 관해 도를 넘었다고 밝힌다. 익명을 요구한 스타트업 관계자는 "AI챗봇 등 자연어처리 연구에서 혐오·차별 발언 데이터가 구하기 더 힘들다"며 "데이터 자체로 혐오를 배운다고 보면 안 된다"고 토로했다.

송주상 기자 sjs@chosunbiz.com


T조선 뉴스레터 를 받아보세요! - 구독신청하기
매일 IT조선 뉴스를 받아보세요 닫기