18일 오전 국립국어원 말뭉치 내려받기 중단 결정
업계 "과도한 AI규제 우려"

인공지능(AI) 챗봇 이루다로 시작된 AI윤리 이슈가 무차별적인 AI혐오로 확산하는 추세다. AI산업 규제에 대한 우려와 함께 AI윤리전문가가 개발 현장에 나서야 한다는 평가가 나온다.

18일 국립국어원에 따르면, 이날 오전부터 일부 말뭉치(한국어 빅데이터) 내려받기가 중단됐다. 말뭉치 내에 혐오·차별 발언이 포함됐다는 지적에 따른 후속 조치다. 일각에서는 국립국어원이 여론을 의식해 과잉 대응을 했다는 지적도 나온다.

이번에 서비스가 중단된 말뭉치는 총 13종 중 메신저·구어·웹 말뭉치 등 3종이다. 이들 말뭉치는 신문·문어 말뭉치 등과 다르게 사람과 비슷한 AI챗봇을 만들기 위해 필요한 데이터다. 특히 대량의 한국어 데이터를 구축하기 힘든 스타트업과 학생이 자주 사용한다.

모두의 말뭉치 안내 이미지 / 국립국어원
모두의 말뭉치 안내 이미지 / 국립국어원
익명을 요구한 스타트업 관계자는 "큰 기업이 아닌 경우 영어가 아닌 한국어 빅데이터를 별도로 구축하기 쉽지 않다"며 "국립국어원의 결정이 이해되지만, 연구·개발 저해가 우려된다"고 전했다.

음성인식AI와 챗봇을 서비스 중인 스타트업 대표는 "이루다 논란 이후로 데이터 확보에 조심스러워졌다"며 "필요한 부분도 있지만, AI에 관해 단편적으로 이해하는 경우도 많아 난감하다"고 밝혔다.

그는 또 "AI라면 무조건 의심하는 분위기가 형성된 것 같다"고 덧붙였다. 이루다로 시작된 AI윤리 필요성이 과도한 흠집 내기로 이어진다는 것이다.

학습 데이터에 대한 이야기도 지적된다. 자연어처리(NLP) 연구를 지원하는 한 관계자는 "AI 편향성은 막아야 하는 문제지만, AI가 편향되지 않게 하려면 학습 데이터가 다양해야 한다"며 "단순 욕설·차별 데이터 존재만으로는 문제 삼으면 안 된다"라고 지적했다. 그는 "현실적으로 억 단위의 데이터를 전수조사 하는 것은 어려운 일이다"며 "조사도 불가능하고, 현행 필터링 기술이 완벽하지도 않다"고 지적했다.

AI윤리전문가 필요성 대두

국립국어원 등 AI연구를 수행하는 기관이 최소한의 조치를 통해 욕설·혐오 표현을 막아야 한다는 지적도 있다. 국립국어원의 말뭉치가 데이터 수집 과정에서 편향 데이터를 수집하지 않으려고 주의했지만, 정작 데이터를 공유 과정에서는 별도의 절차가 없었다는 것이다.

윤리 전문가가 AI개발 과정에 참여해야 한다는 목소리도 크다. 전창배 인공지능윤리협회 이사장은 "AI윤리 전문가가 개발 과정에 참여해 진행하는 것이 필요하다"며 "AI 학습의 빅데이터는 신뢰할 수 있고 편향적이지 않으며 합법적이어야 한다"고 말했다.

현재 소프트웨어 개발과정에서 정보보안 전문가나 개인정보보호 전문가가 필수인 것처럼 AI윤리 전문가가 필요하다는 설명이다. 예를 들어 원본 데이터를 수집한 뒤, 개발사 또는 전문가가 편향·차별 단어 등을 걸러낸다. 이후 별도의 AI윤리 담당자가 검수해 최종 데이터를 마련한다는 것이다. 이어 외부 AI윤리 전문기관 또는 전문가가 추가적인 검증 등으로 공감대를 형성할 수 있다.

전 이사장은 "데이터 제공자와 실제 개발자 모두 신뢰할 수 있고, 편향되지 않고, 합법적인 데이터를 위해 노력해야 할 때다"며 전문가가 참여해 AI학습용데이터를 단계별로 관리하는 방법 등을 제안했다.

송주상 기자 sjs@chosunbiz.com