'AI허브'는 인공지능(AI) 데이터 활용 인프라를 위한 플랫폼이다. 개인정보보호법으로 원할한 데이터 공유에 발목이 잡혔다. 개인정보를 알아볼 수 없게 만드는 익명화 기술이 새로운 해결책으로 주목받는다.

23일 IT 업계에 따르면, AI허브와 모두의말뭉치 등 정부가 운영하는 AI 데이터 플랫폼이 개인정보보호법으로 AI 학습용 데이터 공유에 어려움을 겪고 있다. 안면 이미지나 음성 데이터 등 개인을 특정할 수 있는 데이터일수록 공유 과정이 까다롭다.

AI 학습용 한국인 안면이미지 데이터 홈페이지. /갈무리
AI 학습용 한국인 안면이미지 데이터 홈페이지. /갈무리
AI 학습용 한국인 안면이미지 데이터(K-페이스)가 대표적인 사례다. K-페이스는 2017년부터 성별, 연령대 분포를 고려한 한국인 1000명의 안면데이터로 구성된 AI 학습용 데이터다.

하지만 개인정보보호법상 제3자에게 민감한 개인정보를 공유하려면 공유 대상을 명시해야 하고, K-페이스 운영사 한국과학기술연구원(KIST)는 ‘AI허브 회원’으로 명시된 별도 동의를 2019년부터 새로 받았다. 그 결과 공유할 수 있는 데이터는 안면 데이터 400명분으로 줄었다.

2020년 8월 실시된 데이터 3법은 이런 상황을 완화할 것으로 기대를 받았지만, 혼란만 더 가중한다. 데이터 수집 시기에 따라 동의 내용이 다르기 때문이다. 데이터 3법 도입 후 수집된 데이터만이 데이터 3법 적용을 받는다. 이전에 수집한 데이터는 여전히 별도 동의를 받아야 사용할 수 있다.

데이터 3법이 자리 잡아도 한계는 남아있다. 가명화된 데이터는 연구 목적으로만 쓸 수 있고, AI기반 서비스에는 사용할 수 없다. 스타트업 등 기업이 K-페이스나 AI 허브의 데이터를 활용하기 어렵다.

AI 스타트업 한 관계자는 "안면 데이터 등 민감한 개인정보 관련 서비스에는 각 기업이 나서는 게 맞긴하다"며 "다만 시간이 흐를수록 안면, 목소리 등 데이터 구축이 쉽지 않은 분야는 몇몇 기업만의 전유물이 될 가능성도 크다"고 말했다.

가명화된 데이터 활용의 어려움 덕에 최근 익명화 기술이 주목 받는다. 익명화는 가명처리와는 달리 완벽하게 특정 개인과 연결할 수 없는 단계를 말한다. 익명화가 처리된 데이터는 개인정보도 침해하지 않는다.

데이터 익명화 기업 딥핑소스의 김태훈 대표는 "데이터는 기술적으로도, 가시적으로도 익명화된다"며 "입술, 코, 피부, 표정 등 연구 목적에 맞게 익명화를 진행해 잘못된 사용도 막을 수 있다"고 말했다.

익명화 기술은 이미지를 비롯해 영상, 음성에도 적용할 수 있다. 김 대표는 "영상, 음성 나아가 텍스트도 익명화할 수 있다"며 "익명화 데이터로 구축된 AI는 성능 면에서 원본 데이터로 학습한 것과 비교할 때 1% 내외 차이를 보일 정도로 큰 차이가 없다"고 밝혔다.

데이터 활성화에 맞춰 각 개인이 데이터 주체로써 역할이 커짐에 따라 익명화 기술로 인한 새로운 시장 형성도 기대되는 부분이다.

한 IT 업체 관계자는 "AI, IoT, 빅데이터, 마이데이터 등 개인 정보가 나날이 중요하고, 익명화 기술 주목도 커진다"며 "익명화 기술 자체가 새로운 개념이 아니기에 기존 보안 소프트웨어업계에게도 기회의 땅이다"고 말했다.

송주상 기자 sjs@chosunbiz.com