우리가 모르는 데이터는 왜 아는 데이터보다 치명적인가?

빅데이터 시대를 사는 우리는 의사결정에 필요한 정보를 다 가지고 있다고 착각하고 살고 있는지도 모른다. 사실 우리가 가진 데이터가 온전했던 적은 없었다. 손에 쥔 데이터는 빙산의 일각일지도 모르고, 정보의 세계는 우리가 위험천만하게 간과할 수 있는 다크 데이터로 가득하다.

저자는 온갖 유형의 누락된 데이터를 통칭해 ‘다크 데이터’라 부른다고 정의했다. 다크 데이터는 우리가 볼 수 없게 숨겨져 있는데, 그 때문에 우리는 오해하고 틀린 결론을 내리거나 나쁜 결정을 할 수도 있다. 다크 데이터는 발생 형태도 다양할 뿐만 아니라 발생하는 이유도 가지각색이다.

우리는 모두 환한 곳을 바라보는 데 익숙해져 있다. 하지만 데이터는 완전히 객관적이지도 않고 진리도 아니다. 어둠 속 보이지 않는 곳에 분명 더 나은 결정을 위한 결정적 세부 사항이 숨어 있다. 이 책은 데이터 관점을 다크 데이터 관점으로 뒤집어서 더 나은 결정을 향한 또 다른 시야를 열어줄 것으로 기대한다.

자자는 "우리는 무엇을 놓치고 있는가?"를 끊임없이 경계하며 자문해야 한다고 강조한다.

다크 데이터
데이비드 핸드 지음 | 노태복 옮김 | 더퀘스트 | 240쪽 | 1만9000원

#10줄 요약 #다크 데이터 #2장 다크 데이터 찾아내기

1. 데이터는 애초부터 존재해서 누군가가 분석해주길 기다리는 게 아니다. 누군가가 데이터를 하나씩 모아나가야 한다. 그리고 누구나 예상할 수 있듯이 데이터 수집 방법이 달라지면 종류가 다른 다크 데이터가 생길 수 있다.

2. 인구총조사의 대안은 사람들의 일부 표본에 대해서만 데이터를 수집하는 것이다. 이때 조사 표본을 추출하는 것은 매우 중요하기 때문에 우리는 표본 추출하기 및 이와 관련된 다크 데이터 사안을 자세히 살펴본다. 덜 공식적인 경우지만, 때때로 데이터는 바로 구할 수 있는 대상에게서 수집하기도 한다. 쇼핑 고객이 어떻게 행동하는지 파악하려면 마침 오늘 가게에 들른 사람들을 관찰하면 된다.

3. 데이터를 수집하는 상황을 바꾼다면, 다시 말해 상황에 개입한다면 그 데이터는 ‘실험’ 데이터라고 한다. 실험 데이터는 특히 중요한데, 그 이유는 반사실에 관한 정보를 제공할 수 있기 때문이다.

4. 데이터가 인간의 행동을 설명할 때는 행정 데이터라고 불리곤 한다. 행정 데이터의 특별한 장점은 사람들이 ‘무엇을 한다고 말하는지’가 아니라 ‘무엇을 하는지’를 실제로 알려준다는 것이다. 행정 데이터는 사람들이 무엇을 샀는지, 그것을 어디서 샀는지, 무엇을 먹었는지, 웹에서 무엇을 검색했는지 등을 알려준다. 행정 데이터는 사람들에게 무엇을 했는지 또는 어떻게 행동하는지 직접 물을 때보다 사회적 현실을 훨씬 더 잘 파악하게 해준다.

5. 행정 데이터가 ‘사람들이 실제로 무엇을 하는지’를 정말로 알려준다는 것이다. 유용한 정보가 분명한데, 다만 사람들의 생각과 감정까지 엿보려고 하지 않을 때만 그렇다. 질문의 종류에 따라 알맞은 데이터 수집 전략이 있으며, 각 전략에는 서로 다른 다크 데이터 문제가 등장한다.

6. 한군데 카드 회사에서 나온 데이터는 전체 신용카드 소지자 집단을 대표하기 어려우며, 당연히 전체 인구를 대표하지 못한다. 따라서 행정 데이터는 솔깃한 희망을 던져주긴 하지만, 그 역시 언뜻 봐서는 확실히 드러나지 않는 다크 데이터로 인한 약점을 갖기 쉽다.

7. 아주 최근까지도 여러분의 온갖 데이터는 자동으로 저장되었다. 여러분이 알지도 못하는 사이에, 아무런 관여도 하지 않았는데도 말이다. 그런데 유럽연합의 일반정보보호규정이 그 관행을 바꾸었다. 이제는 누구나 알듯이 요즘 웹사이트에서는 개인정보를 수집할 때 당사자의 이해 여부와 동의 여부를 물어야 한다.

8. 옵트아웃을 활용하려는 사람들은 적극적으로 자기 의사를 표현해야 한다. 귀찮다는 이유로 기본 내용대로 따르면 자기 의도와 상관없이 데이터베이스에 포함되고 만다. 더 심각한 결과가 나올 수 있는 경우는 사람들에게 옵트인 방식을 요구하는 것이다. 옵트인 방식은 당사자가 개인의 데이터 수집을 허용해야 데이터 수집할 수 있는 제도다.

9. 그런데 앞에서 표본을 ‘무작위로 뽑았’고 ‘적절히 뽑았다’는 무심코 내뱉은 듯한 말이 사실은 매우 중요하다. 나이트클럽에 있는 사람들이나 노인 전용 주택단지에서만 표본을 얻었다면 아마도 전체 인구의 평균 나이에 관해 그리 정확한 추산치를 얻지 못할 것이다. 따라서 연구 대상 모집단을 적절히 대표할 수 있도록 만전을 기해야 한다.

10. 데이터 수집 전략은 인간이 고안하고 실시하며, 수집된 데이터도 인간이 해석하고 분석한다. 어떤 데이터를 수집할지, 그리고 분석의 결과가 무슨 의미인지 결정하는 일도 우리의 이전 경험에 바탕을 두므로 이런 결정은 장래에 이 세계의 상황을 대변해주지 못할지도 모른다.

하순명 기자 kidsfocal@chosunbiz.com