AI 학습용 데이터 품질 자신감 정부, 정확도 90~99% 검증

정부가 대규모 인공지능(AI) 학습용 데이터 품질에 자신감을 드러냈다. 개인정보 침해 여지가 없도록 교차 검증도 마쳤으며, 혹시 모를 데이터 흠결에 대비해 집중개선기간을 3개월간 갖는다.

양기성 과기정통부 데이터진흥과장(왼쪽)과, 고윤석 NIA 지능데이터본부장 / 류은주 기자

과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 18일 AI 학습용 데이터 170종(4억8000만건)을 AI 허브를 통해 18일부터 순차 개방한다고 밝혔다.

앞서 15일 열린 기자설명회에서 과학기술정보통신부는 데이터 품질에 자신감을 내비쳤다. 품질검증 항목에는 다양성, 구문정확성, 의미정확성, 유효성 등이 있는데 이중 구문정확성에서는 정확도가 99%, 의미정확성에서는 90% 이상의 정확도를 보인다.

신준호 한국정보통신기술협회(TTA) AI시험검증팀장은 "170종을 총망라해서 평균을 내기에는 정확지는 않지만, 대부분 90% 이상이다"며 "구문정확성은 기준이 99%인데 99%를 넘었으며, 의미정확성 항목은 텍스트나 영상, 동영상, 음성마다 기준 차이는 있지만 정확도 90~95%사이로 결과가 나온다"고 말했다

구문정확성 항목에서는 라벨링 데이터 포맷과 값이 정확하게 입력돼 있고 필수항목 중 누락된 내용이 없는지를 확인한다. 의미정확성은 분류라벨, 경계박스 등이 일관된 기준에 따라 작업자가 정확하게 라벨링 했는지를 확인한다.

품질검증을 담당하는 TTA는 해외 사례 및 논문 분석 등을 바탕으로 데이터의 다양성, 정확성, 유효성 등 종합적인 평가기준을 제시하고 검증방법 적용했다고 설명했다.

정부가 품질에 신경을 쓰는 이유는 데이터를 구축해도 품질이 좋지 않으면 무용지물이기 때문이다. 이에 2020년 9월부터 품질 관리를 위해 분야별 활용기업 및 전문가들이 참여하는 ’품질자문위’를 운영했다. 자연어, 헬스케어, 자율주행 등 8개 분야 전문가 총 80여명이 참여했다.

데이터 개방에 그치지 않고 일정기간 품질을 집중적으로 관리한다. 개방 후 3개월인 9월말까지 베타테스트 기간처럼 이용자 의견을 반영해 계속 수정해 나간다.

양기성 과기정통부 데이터진흥과장은 "이용자 대상 오류신고 창구를 운영하고, 데이터 유지보수 의무화 등을 통해 품질을 관리하겠다"며 "데이터 개방 전 5~6월에 활용기업·기관 및 전문가를 대상으로 활용성 검토를 한 결과 음성·자연어 등 얻기 어려운 데이터 중심으로 반응이 좋았다"고 말했다.

개인정보 문제 줄이기 위해 시나리오 베이스…행인은 블러 처리

개인 신상정보를 특정할 수 있는 데이터가 담기지 않게 하기 위한 노력도 기울였다. 영상 데이터는 시나리오 기반으로 개인정보 동의를 받은 배우가 촬영한 영상이거나, 일반인과 차량번호는 블러처리할 수 있도록 처리를 했다.

일각에서는 편향성 논란이 불거졌던 AI 챗봇 이루다로 인해 학습용 데이터의 윤리적 검증을 우려하는 목소리도 있다. 정부는 품질자문위에서 이같은 검증을 거쳤다고 설명했다.

고윤석 한국지능정보사회진흥원(NIA) 지능데이터본부장은 "편향성, 혐오적 표현이 들어갈 수 있는 데이터는 전수조사를 시켜 수정 보완했다"며 "다만, 방대한 양의 데이터를 구축하다 보니 혹시라도 들어갈 수 있는 부분이 있기 때문에 처음 공개할 때는 베타 버전에 가깝다"고 설명했다.

자율주행 등의 데이터는 영상이 많기 때문에 일반인의 얼굴이나 차량 번호판 블러 처리가 제대로 안 된 사례가 발견될 수 있다.

송경희 과기정통부 인공지능기반정책관은 "개인정보 침해 여지가 있을 수 있는 종이 170종 중 48종 정도가 있어 집중 점검을 다시 했다"며 "시나리오 기반으로 했을지라도 우연의 일치로 실제 인물과 겹칠 수 있으므로 다시 처리했으며, 그러다 보니 2월부터 검증을 했음에도 오래 걸렸다"고 말했다.

이어 "KISA, 개인정보위원회와 교차 검증하고 있으며, 그럼에도 불구하고 혹시 모를 사례가 발견할 수 있으니 이용자가 피드백을 주면 신속하게 대응하겠다"고 말했다.

다만, 감성 말뭉치의 경우 편향성 문제를 해결하기 위해 엄격한 기준으로 데이터를 거르다 보니 학습 차원에서는 무미건조한 대화로 바뀔 수 있다는 한계가 있다.

박운규 정보통신정책실장은 기자설명회 후 "상당히 많은 문제점을 지적받아 꼼꼼하게 준비했는데도 보완할 부분들이 있다는 것을 느꼈다"며 "4차위 데이터 특위에도 협조를 구했으며, AI 학습용 데이터가 보다 많이 활용될 수 있도록 문제점들을 지속해서 개선해 나가겠다"고 말했다.

류은주 기자 riswell@chosunbiz.com

기자의 전체기사