[해설] 빅데이터 시대, '가명정보'는 뭐고 '익명정보'는 뭐지?

노동균 기자
입력 2018.03.21 17:05
금융위원회(이하 금융위)가 19일 발표한 '금융 분야 데이터 활용 및 정보보호 종합 방안'에는 공공기관, 기업 등이 금융 분야 빅데이터를 적극적으로 활용할 수 있도록 하겠다는 내용이 담겼습니다. 금융위는 상반기 중 관련법 개정을 추진하며, 2019년부터 금융사나 핀테크 기업이 빅데이터를 활용해 다양한 맞춤형 금융상품을 개발할 수 있도록 한다는 방침입니다.

빅데이터는 다양한 산업 간 데이터 융합으로 신규 서비스를 발굴하고, 새 가치를 창조할 '21세기의 원유'로 평가받습니다. 애플, 구글 등 글로벌 IT 기업은 전 세계에 걸친 자사 제품 사용자를 기반으로 빅데이터를 구축해 인공지능(AI) 시스템의 정확도를 높이는 등 다방면에 활용하고 있습니다. 최근에는 IT 기업뿐 아니라 유통, 의료, 서비스 등 산업 전반에 걸쳐 다양한 빅데이터 활용 사례가 쏟아져 나오기 시작했습니다.

빅데이터 이미지. / SAS 제공
문제는 개인정보를 곳곳에서 활용함에 따라 사생활 침해 등의 부작용이 우려된다는 점입니다. 개인정보는 기업이 마케팅 등에 활용할 수 있는 가장 좋은 데이터지만, 엄밀히 개인 신원을 드러내는 정보는 개인정보보호법에 의해 활용에 제한이 따릅니다.

◆ 행자부의 구분

개인정보에서 정보 주체를 알아볼 수 없도록 조치하면 이를 개인정보가 아닌 것으로 보고 빅데이터 분석 등에 활용할 수 있도록 해야 한다는 주장이 나왔습니다. 국내에서는 이러한 일련의 조치를 '비식별 조치'로, 비식별 조치를 적절히 수행한 데이터를 '비식별 정보'라고 부르기 시작했습니다.

행정자치부는 2016년 6월 비식별 정보를 바탕으로 기업이 새 시장을 창출할 수 있도록 하기 위한 '개인정보 비식별 조치 가이드라인'을 내놨습니다. 가이드라인에서 제시하는 비식별 조치 기준은 크게 ▲가명처리 ▲총계처리 ▲데이터 삭제 ▲데이터 범주화 ▲데이터 마스킹 5가지로 구분합니다.

가명처리는 말 그대로 이름을 임의의 다른 이름으로 대체하는 것을 말합니다. 총계 처리는 특정 개인을 파악할 수 있는 수치가 아닌, 모집단의 총합이나 평균만 이용하도록 하는 개념입니다. 나이를 예로 들면 모집단의 평균 나이만 나타내고 개인별 나이는 알 수 없도록 하는 식입니다.

데이터 삭제는 주민등록번호에서 앞 두 자리만 남기고 나머지는 삭제하는 것과 같다고 보면 됩니다. 데이터 범주화의 경우 개인의 나이를 37세로 특정하지 않고, 35~39세로 묶어서 표현하는 것을 말합니다. 데이터 마스킹은 OO대학교와 같이 정보 주체가 대학생이라는 정보만 제공하되, 구체적인 대학명만 드러나지 않게 가리는 조치를 의미합니다.

하지만, 시민단체와 일부 전문가는 비식별 정보도 다른 다양한 정보와 결합하면 일부 재식별이 가능하다는 점을 들어 강력히 우려를 표했습니다. 행자부는 가이드라인에서 재식별 가능한 정보는 즉시 폐기해야 한다고 명시하고 있지만, 얼마나 많은 사업자가 법적 구속력 없는 가이드라인을 따를지도 미지수입니다. 실제로 대기업이 고객 개인정보를 팔아 수백억원대의 부당이득을 챙기고도 개인정보의 제삼자 제공 동의를 받았다는 이유로 무죄 판결을 받은 사례도 있습니다.

◆ 4차산업혁명위원회의 구분

대통령 직속 4차산업혁명위원회는 2월 '제2차 규제·제도 혁신 해커톤'을 열고, 개인정보 보호와 활용의 균형 방안 마련을 주제로 끝장토론을 펼쳤습니다. 위원회는 기존 개인정보 비식별 조치 가이드라인의 경우 비식별 조치라는 용어가 불필요한 오해를 부른다고 판단했습니다.

토론 결과, 위원회는 개인정보와 관련된 법적 개념체계를 ▲개인정보 ▲가명정보 ▲익명정보로 각각 구분해 정비하기로 했습니다. 위원회는 가명정보와 익명정보를 정의하기 위해 유럽연합(EU)이 5월 25일부터 시행하는 '일반 개인정보보호법(GDPR)'을 참조했습니다.

개인정보는 이름, 주민등록번호, 신체 및 생활 관련 정보를 그대로 포함해 그 자체로 정보 주체가 누구인지 알 수 있는 정보를 말합니다.

가명정보는 추가적인 정보를 결합하지 않으면 정보 주체가 누구인지 알 수 없는 정보를 의미합니다. 가명정보는 개인정보보호 대상에 속하므로 이를 취급하는 기업은 기술적·관리적 조치를 취해야 하고, 학술·연구 등 공익적인 목적으로만 사용해야 합니다.

익명정보는 사실상 개인정보로서는 의미가 없고, 통계나 분석에만 쓸 수 있을법한 정보를 말합니다. '런던에 사는 35~39세 남성 수'의 경우 이것만으로 특정 개인을 찾아내기는 불가능하므로 이 정보는 개인정보보호 대상이 아니라고 간주합니다. 이 익명정보를 기업이 적극적으로 활용할 수 있도록 규제 장벽을 낮춰 빅데이터 산업을 활성화하겠다는 게 정부 기조입니다.

일각에서는 익명정보가 지나친 익명화로 효용 가치가 떨어진다고 주장합니다. 하지만, 빅데이터는 전혀 상관없어 보이던 데이터를 합쳐 기존에는 몰랐던 통찰을 끌어낸다는 점에서 섣불리 효용성을 따지기 어렵습니다. 비식별 조치 기술의 완성도보다 애초부터 재식별 시도 자체가 처벌 기준이 돼야 한다는 주장도 있습니다. 기술적인 문제를 논하기에 앞서 사회적 합의를 마련하는 것이 더 시급한 이유입니다.

◆ EU 기준의 시사점

GDPR은 엄밀히 정보 주체의 개인정보 보호권을 보장하는 한편, 개인정보의 자유로운 이동을 보장함으로써 EU가 4차 산업혁명을 주도하려는 조치라는 해석이 지배적입니다. 대신 위반 기업에 대해서는 처벌도 단호합니다.

만약 GDPR 적용 기업의 개인정보 유출이나 규정 위반 사항이 발견되면 EU는 2000만유로(265억원) 또는 전 세계 연간 매출의 4% 중 더 높은 금액으로 과징금을 부과합니다. 265억원이 과징금 하한선인 셈입니다. 매출이 조 단위가 넘는 기업의 경우 규모에 따라서는 천문학적인 금액의 과징금이 부과될 수 있습니다.

우리도 무작정 GDPR 수준으로 처벌 수위를 높이는 것은 현실적으로 불가능합니다. 하지만, 국내에서는 그동안 기업 부주의로 개인정보 유출 사고가 발생해도 사업자 제재는 솜방망이 처벌에 그쳤던 게 사실입니다. 적어도 기업 간 과징금의 차별적 소지를 줄이고, 실질적인 처벌을 통해 법적 실효성을 높이기 위한 방안을 함께 모색할 때입니다.
 
T조선 뉴스레터 를 받아보세요! - 구독신청하기
매일 IT조선 뉴스를 받아보세요 닫기