말뭉치부터 CCTV영상까지 170종 데이터댐 열린다

170종 데이터 18일부터 30일까지 순차개방
‘AI 데이터 활용협의회’ 출범

정부가 한국어 음성, 헬스케어, 자율주행 등 170종 인공지능(AI) 학습용 데이터를 개방한다. 스타트업, 개별 연구자 등이 자체 구축하기 어려운 AI 학습용 데이터를 대규모로 구축해 AI 허브에 개방해 국내 AI 산업 발전의 촉진제 역할을 하기 위해 정부는 데이터댐 구축에 막대한 예산을 투입했다.

과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 국내 AI 기술 및 산업 발전의 촉진제가 될 AI 학습용 데이터 170종(4억8000만건)을 AI 허브를 통해 6월 18일부터 개방한다고 밝혔다.

과기정통부는 AI 학습용 데이터의 활용 촉진과 성과 확산 등을 위해 18일 오전 10시 LG사이언스파크에서 ‘AI 데이터 활용협의회’ 출범식을 갖고, 의견수렴을 위한 간담회를 개최했다.

과기정통부는 2017년부터 2019년까지 21종의 AI 학습용 데이터를 구축·개방했다. 2020년은 디지털 뉴딜 ‘데이터 댐’ 구축 프로젝트의 일환으로 8대 분야 170종의 AI 학습용 데이터를 구축했다. 데이터 구축에는 국내 주요 AI·데이터 전문기업은 물론 주요 대학(서울대, KAIST 등 48개), 병원(서울대병원, 아산병원 등 25개) 등 총 674개 기업·기관이 대거 참여했다.

데이터 수집·가공 등 구축 과정에 경력단절여성, 취업준비청년 등 국민 누구나 참여할 수 있는 크라우드소싱 방식을 도입해 4만여명의 국민이 참여했다. 2020년 9월부터 8대 분야별 산·학·연 전문가 80여명이 참여하는 ‘품질자문위’를 운영해 전문적 품질관리 지원체계를 구축했다.

주요 대기업(네이버, LG, 삼성전자, KT, 현대차 등), 스타트업(딥노이드, 스트라드비젼, 비바엔에스 등), 대학 및 연구기관(KAIST, GIST, ETRI, 농정원 등) 등 20여개 기업·기관이 참여해 데이터 개방 전, 활용성 검토를 진행(5~6월)해 실제 수요자가 요구하는 데이터 품질을 확보하고자 했다.

과기정통부와 지능정보원(NIA)은 데이터 개방 후에도 이용자 참여형 집중개선기간 운영 등을 통해 이용자의 요구사항을 적극 반영하는 등 민·관 협력을 기반으로 데이터를 지속적으로 개선한다.

정부가 30일 공개를 앞두고 있는 한국어 방언(경상·전라·충청·강원·제주) 발화 데이터는 표준어에 비해 사투리를 잘 인식하지 못하던 음성 기반 AI 서비스의 문제점을 상당 부분 해결할 수 있을 것으로 기대한다. 특히, 데이터 개방 전 활용성 검토 결과 업계로부터 ‘자연스러운 방언이 수집됨’, ‘기존 서비스의 인식률이 12% 향상됨’ 등의 좋은 평가를 받기도 하였다.

18일부터 30일까지 순차적으로 공개할 자율주행 데이터(21종)는 국내 도로주행 영상뿐 아니라, 주차 장애물·이동체 인지 영상, 버스 노선주행 영상 등 다양한 데이터를 제공한다. 자율주행차 개발에 사용할 수 있다. 활용성 검토 결과 ‘특수 차선, 장애물, 포트홀 등 다양한 객체가 포함’된 점은 대표적인 장점으로 꼽힌다.

그동안 과기정통부와 NIA는 품질관리 전문기관인 한국정보통신기술협회(TTA) 및 전문기업 등과 협력해 고품질의 데이터를 안전하게 활용하도록 데이터 품질관리 수준을 강화했다. 향후 개인정보위와 한국인터넷진흥원(KISA) 등과도 지속적으로 협력을 가아화한다.

TTA는 전문가 및 활용기업 의견 수렴을 통해 품질기준을 정립하고, 이를 적용해 전반적인 데이터 품질을 검증했다.

NIA는 AI 데이터를 안심하고 사용할 수 있는 활용 여건을 조성하기 위해 이미지와 영상 데이터의 경우 사전에 개인정보 동의를 받아 구축했다. 개인정보 등이 포함되지 않도록 한국어 텍스트 데이터 등은 시나리오를 기반으로 창작한 재현 데이터로 구축했다.

과기정통부는 AI 학습용 데이터의 대규모 개방과 함께, 데이터 활용 촉진과 성과 확산 등을 위해 18일 ‘AI 데이터 활용협의회’ 출범식을 갖고, 현장 간담회를 개최해 데이터를 실제로 활용하는 기업·기관들의 의견을 수렴했다.

‘AI 데이터 활용협의회’는 데이터 품질관리 전문기관인 TTA와 이번 170종 데이터의 활용성 검토에 참여한 기업·기관을 중심으로 구성했다. AI 허브 데이터를 활용하고 성과를 공유·확산하는 한편, 데이터 품질 제고와 지속적 개선에 협력해 나갈 예정이다. 향후 참여를 희망하는 기업 및 기관을 중심으로 협의회를 지속적으로 확대해 나갈 계획이다.

과기정통부는 본인인증 한 번만으로 데이터에 대한 접근 및 활용이 가능하도록 회원가입 시스템도 개선한다. 직관적인 데이터 탐색을 위해 UI/UX를 개선했다. 하반기에는 데이터 검색체계를 과제명 중심에서 자동차, 표지판 등 사물·객체 중심으로 개편한다. AI 학습용 데이터를 활용한 알고리즘 고도화 등을 지원하기 위해 데이터 활용 경진대회도 추진할 계획이다.

헬스케어 데이터의 활용 활성화를 위해 폐쇄형 안심존의 확대 및 클라우드 기반의 개방형 안심존 구축도 추진한다.

어떤 데이터가 언제 개방되나

과기정통부와 NIA는 2020년에 구축한 8대 분야 170종의 데이터를 18일 60종을 시작으로 6월말까지 순차적으로 개방할 예정이다.

구체적으로 음성·자연어(한국어 방언 등 39종), 헬스케어(암진단 영상 등 32종), 자율주행(도로주행영상 등 21종), 비전(스포츠 동작 영상 등 15종), 국토환경(산림수종 이미지 등 12종), 농축수산(가축행동 영상 등 14종), 안전(노후 시설물 이미지 등 19종), 기타(패션상품 이미지 등 18종) 등이 있다.

헬스케어 데이터(27종) 등 개인정보 및 민감정보가 포함될 우려가 있는 59종의 데이터는 최종검증을 거쳐 30일에 개방한다. 이번 개방은 더 나은 데이터 제공을 위한 개선점을 찾기 위해 9월말까지 3개월간의 참여형 데이터 집중 개선기간을 운영한다.

AI 허브에 데이터 개선의견 수렴을 위한 온라인 창구를 운영하고, 전문기관(TTA, KISA 등)과 협력해 데이터 품질 등 이용자 의견에 신속하게 대응하기 위한 TF를 운영한다.

해당 기간 데이터 개선에 도움이 되는 의견을 제시한 이용자에게는 추첨을 통해 소정의 상품도 지급한다.

류은주 기자 riswell@chosunbiz.com

기자의 전체기사