과학기술정보통신부가 민간 데이터 활용도를 높이기 위해 ‘빅데이터 플랫폼 및 센터’ 사업을 선보였지만 사업 운영에서 여러 문제에 노출돼 실효성 논란이 일고 있다. 자칫 ‘빛 좋은 개살구’가 되는 것 아니냐는 우려의 목소리가 높다. 특히 최근 데이터3법(개인정보보호법·정보통신망법·신용정보법) 개정안이 국회를 통과하면서 데이터 개방과 활용에 대한 기대가 높은 상황에서 정부의 데이터 경제 활성화 사업 추진에 빨간불이 켜졌다는 지적이다.

 2019년 7월 22일 열린 ‘빅데이터 플랫폼 및 센터’ 출범식 모습. / IT조선
2019년 7월 22일 열린 ‘빅데이터 플랫폼 및 센터’ 출범식 모습. / IT조선
19일 정보화사회실천연합에 따르면 과학기술정보통신부(과기정통부)가 2019년 7월부터 선보인 빅데이터 플랫폼과 센터 관련 사업에서 여러 문제가 불거지고 있다. 수준 이하의 플랫폼과 방만한 운영은 물론 업계가 원하는 데이터 품질보다는 단순 정보 제공에 머물러 있다는 지적이다. 민간과 계약도 1년 단위로 제공해 데이터 제공 연속성을 보장할 수 없다는 주장도 나온다.

‘천억원대’ 예산 들여 빅데이터 플랫폼 구축하는 과기정통부

과기정통부는 7월 22일 ‘빅데이터 플랫폼·센터’ 출범식 행사를 열고 민관이 협동해 데이터 생태계를 구축하겠다는 계획을 밝혔다. 빅데이터 센터가 데이터를 생산·구축하는 곳이라면 빅데이터 플랫폼은 각 센터에서 모인 데이터를 수집·분석해 유통한다.

과기정통부는 2021년까지 총 1516억원의 예산을 들여 5100여종의 데이터를 산업계에 제공한다는 목표를 세웠다. 해당 사업은 ▲통신 ▲유통·소비 ▲금융 ▲중소기업 등으로 분야를 나눠 빅데이터 플랫폼 10곳을 개설하고 연계된 기관별 빅데이터 센터 100곳을 구축하는 것이 핵심이다.

과기정통부는 이를 위해 2019년 3월 1차 사업공모로 10개 분야 플랫폼과 72개 빅데이터 센터를 선정했다. 그해 9월에는 2차 공모로 한국감정평가사협회(금융)와 서울대 산학협력단(헬스케어) 등 22개 센터를 더했다. 한 해 동안 플랫폼과 센터에 각각 240억원(24억 x 10개소)과 400억원(4억 x 100개소)을 투입하며 총 640억원의 예산을 쏟았다.

올해 1월에는 데이터3법 통과로 데이터 경제 활성화 기대가 높아지자 빅데이터 플랫폼 활용 방안을 구체화했다. 10개 빅데이터 플랫폼 간 연계로 이종 분야 간 데이터 결합을 돕고 플랫폼 내 거래를 촉진한다는 계획을 내놨다. 이미 플랫폼에서 제공하는 일부 데이터는 유료화를 시행하고 있다.

특히 과기정통부는 10개 빅데이터 플랫폼을 구축하며 국제 표준을 따랐다고 자부했다. 실제 해당 플랫폼은 빅데이터 플랫폼 교과서로 불리는 ‘영국 데이터 포털’을 따랐다. 개방형 데이터관리시스템(CKAN) 기반 데이터카탈로그(DCAT) 형식이다. 미국과 캐나다, 호주뿐 아니라 공공데이터 포털을 운영하는 행정안전부(행안부)도 해당 표준을 준수한다.

과기정통부는 지난해 9월 두 차례에 걸친 빅데이터 플랫폼 및 센터 공모 결과를 공개했다. / 과기정통부 제공
과기정통부는 지난해 9월 두 차례에 걸친 빅데이터 플랫폼 및 센터 공모 결과를 공개했다. / 과기정통부 제공
"제품 상세 정보도 없이 구매하라니"

문제는 데이터셋 관리와 검색에 용이한 국제 표준 플랫폼을 만들어놓고도 올라오는 데이터셋 관리에 소홀하다는 점이다. 데이터 접근성과 시인성(눈에 띄는 정도)이 부족해 활용도가 떨어진다는 지적이 나온다. 행안부 공공데이터 포털보다도 수준이 떨어진다는 주장도 있다.

정보화사회실천연합이 조사한 내용에 따르면 빅데이터 플랫폼 10곳의 데이터 접근성과 시인성 수준은 미흡했다. 데이터셋 기본 정보와 검색 기능, 샘플 제공을 기준으로 살폈을 때 3가지 기준에서 ‘보통’ 평가를 받은 곳은 한 곳도 없었다. 되려 금융과 헬스케어, 유통·소비 분야는 3가지 항목에서 모두 ‘미흡'으로 평가받았다.

정보화사회실천연합 조사 결과 데이터셋 기본 정보와 검색 기능, 샘플 제공 세 가지 기준에서 모두 ‘미흡' 평가를 받은 플랫폼은 금융과 헬스케어, 유통·소비 세 곳이었다. / 정보화사회실천연합 제공
정보화사회실천연합 조사 결과 데이터셋 기본 정보와 검색 기능, 샘플 제공 세 가지 기준에서 모두 ‘미흡' 평가를 받은 플랫폼은 금융과 헬스케어, 유통·소비 세 곳이었다. / 정보화사회실천연합 제공
업계 한 관계자는 "데이터셋을 플랫폼에 올리려면 메타 정보와 샘플이 어떻게 구성이 됐는지 보여줘야 하지만 과기정통부 빅데이터 플랫폼에는 해당 정보가 제대로 제공되지 않아 (데이터) 활용이 어렵다"며 "유료 데이터셋은 금액이 몇십만원에서 몇천만원까지 할 정도로 다양한데 제대로 된 상세 정보 없이 구매하라고 하는 게 이해가 되지 않는다"고 지적했다.

집계 데이터는 단순 정보일 뿐 양질의 데이터 아냐

데이터 품질도 현저히 떨어진다는 지적이다. 손영준 정보화사회실천연합 대표는 "빅데이터 플랫폼에 올라온 데이터 다수가 원시(raw) 데이터가 아닌 가공 형태의 단순 집계 데이터다"라며 "단순 집계 데이터는 활용 면에서 가치가 떨어진다"고 지적했다.

한국정보화진흥원(NIA)이 지원하는 다수 플랫폼에 올라와 있는 무료 데이터셋을 기자가 직접 내려받아 확인한 결과 원시 데이터를 찾아보기 힘들었다. 특정 기간별로 통계를 낸 이용량 변화나 순위 목록이 주를 이뤘다. 이용량 변화에 따른 결괏값만 알 뿐 이용량 변화가 ‘왜’ 일어났는지 원인을 세세히 파악할 수 없었다.

빅데이터 플랫폼에서 내려 받은 데이터셋. 해당 데이터셋은 1~2월 애플리케이션(앱) 이용 집계 결괏값만 보일 뿐 이용량 변화 세부 요인은 찾아볼 수 없다. / 빅데이터 플랫폼 홈페이지 갈무리
빅데이터 플랫폼에서 내려 받은 데이터셋. 해당 데이터셋은 1~2월 애플리케이션(앱) 이용 집계 결괏값만 보일 뿐 이용량 변화 세부 요인은 찾아볼 수 없다. / 빅데이터 플랫폼 홈페이지 갈무리
손 대표는 "업계가 요구하는 데이터는 원시 데이터를 말하는 것이지 단순 집계 데이터를 말하는 게 아니다"라며 "집계 데이터는 사실 데이터가 아닌 단순 정보에 지나지 않기에 사업 활용도가 떨어진다"고 짚었다.

그는 이어 "데이터 경제는 다양성의 다른 말이다"라며 "똑같은 원시 데이터를 갖고도 분석 기법에 따라, 업계가 원하는 사업 방향에 따라 다른 결과를 도출할 수 있다"고 강조했다. 또 "이미 특정 기법에 따라 분석을 마친 결괏값 데이터는 다수 기업에 별다른 활용이 되지 못한다"고 덧붙였다.

이와 관련해 빅데이터 플랫폼 운영 담당자는 "현행법 상 개인정보가 포함된 원시 데이터는 제공할 수 없다"며 "데이터3법이 8월 시행되면 원시 데이터를 포함한 융복합 결합 데이터 상품을 제공할 계획이다"라고 말했다.

과기정통부는 데이터 접근성과 시인성이 떨어진다는 지적에 동의할 수 없다고 반박했다. 임정규 빅데이터진흥과 과장은 "영국 데이터 포털이나 행안부 공공데이터 포털과 비교하는 건 공공 데이터와 비교다"라며 "민간 데이터를 다루는 빅데이터 플랫폼과 비교하기에 부적절하다"고 주장했다.

그는 또 데이터셋과 관련해서는 "빅데이터 플랫폼에서 온라인으로만 모든 거래 이뤄지는 건 아니다"라며 "올라온 데이터셋을 보고 업체 간 따로 거래하는 경우도 있다 보니 온라인에서만 보이는 데이터셋이 완전하지 않을 수 있다"고 밝혔다.