내년 AI 핵심 기반 데이터 라벨링 예산 '3000억'

송주상 기자
입력 2020.12.10 06:00
올해 추경반영한 2925억원 책정
다년도 사업 신설…계절, 날씨 데이터 등
짧은 사업 기간 개선

디지털 뉴딜의 핵심 ‘인공지능 학습용 데이터 구축(일명 데이터 라벨링) 사업’이 올해와 달리 내년에는 좀 더 체계가 갖춰질 전망이다. 다년도 사업이 등장하는가하면 내년에는 좀 더 장기적 관점에서 운영될 예정이다.

9일 관련업계에 따르면 2021년도 인공지능 학습용 데이터 구축 예산은 2925억원으로 책정됐다. 올해 추경 예산과 같다. 학습용 데이터 종류도 150종으로 동일하다. 과학기술정보통신부는 내년도 인공지능 학습용 데이터 구축 사업 공고안을 2021년 초 공개할 것으로 보인다.

2021년 학습용 데이터 사업이 장기적인 관점으로 운영될 전망이다. /getty images
내년에는 데이터 품질관리 체계를 강화하고, 구축 데이터 활용 활성화를 위한 이용자 친화 서비스를 제공하는 등 다양한 방안을 시행할 예정이다.

가장 큰 변화는 사업 기간이다. 올해 추경 사업은 규모나 과제 수는 많았지만 10월 초부터 시작해 사업 기간이 절대적으로 부족했다. 당시 데이터 가공 기업 관계자는 "데이터 수집도 잘 안 돼, 연내 수행은 실질적으로 불가능에 가깝다"라고 지적했다.

이 같은 지적에 과기정통부는 내년도에는 충분한 시간을 배정했다는 설명이다. 과기정통부 관계자는 "(참여 기업의) 어려움은 알고 있다"며 "올해는 추경으로 편성돼 쉽지 않았던 것이 사실이다"라고 말했다. 그는 이어 "내년에는 사업 기간을 충분하게 확보할 예정이다"라고 말했다.

다년도 사업도 신설한다. 학습용 데이터 구축 사업은 2025년까지 1300종의 데이터 세트 조성을 목표로 한다. 데이터 중 일부는 계절, 날씨 등 1년 이상의 시간이 있어야 수집할 수 있다.

과기부 관계자는 "계절 데이터를 얻는 사업의 경우, 3월부터 시작하면 1,2월 데이터를 놓치게 된다. 이런 점을 보완한다"고 다년도 사업 배경을 밝혔다. 그는 이어 "연구 기간 확보가 중요하다고 느껴 최대한 빠르게 공고하고 2021년도 사업을 시작한다"고 덧붙였다.

한편 올해 추경 사업은 마무리 단계다. 마감 기한은 2021년 2월이다. 학습용데이터 사업 주관 기업인 한국정보화진흥원 관계자는 "사업은 마무리 단계"라며 "많은 기업이 고품질 데이터 제출을 위해 사업기간 연장에 대한 수요가 있어 기한을 연장 공고했다"라고 말했다.

송주상 기자 sjs@chosunbiz.com

T조선 뉴스레터 를 받아보세요! - 구독신청하기
매일 IT조선 뉴스를 받아보세요 닫기