광고 덕분에 DAU(일 이용자 수)가 늘었다? 사실일까?

간혹 특정 변수 간의 상관계수가 의미 있게 나온다고, 해당 변수를 특정 문제의 원인으로 꼽는 식으로 데이트를 분석하는 경우가 있다. 소아마비 예방을 위해 아이스크림을 적게 먹을 것을 권고했던 웃지 못할 일도 이런 경우다.

숫자 자체의 변화는 중요하고, 숫자 변화를 기반으로 한 판단은 명확한 듯 보인다. 하지만 이렇게 직접적이고 단순한 숫자 비교에는 여러 딜레마가 있다. 1년에 36일 비가 오는 곳이라고 해도 매달 세 번의 비가 내리지 않는 것처럼 말이다.

숫자의 차이는 절대적인 것처럼 보이지만, 수학은 불확실성 위에 쌓아 올려진 학문이고, 통계는 항상 확률과 같이 등장하며, 숫자는 한 번도 절대적인 적이 없다.

많은 기업이 실험을 통해 데이터를 수집하고 의사결정을 한다. 하지만 여기엔 불확실성이 고려되지 않았다. 대부분의 변화는 기존에 없었던 것이기에 기존의 기록인 데이터를 사용해서 이런 불확실성을 메이기에는 한계가 있다.

저자는 직장에서 흔히 발생하는, 데이터를 오해하면서 일어나는 에피소드를 만화와 글로 담았다. 누구나 착각하기 쉬운 ‘숫자유감’을 재밌게 만나보자.

데이터 분석가의 숫자유감
권정민 지음 | 주형 그림 | 골든래빗 | 344쪽 | 1만6000원

#10줄요약 #1화 상관관계와 인과관계

1. 사람들은 문제를 해결하기 위해 숫자를 사용해서 문제와 관련된 사실을 그려내고, 그 숫자 간에 어떤 관계가 맺어지는 것처럼 보이면 이를 토대로 결론을 짓곤 한다. 우리는 이런 현상을 보고 ‘데이터 기반 의사결정’이라고 한다. 하지만 각자의 머릿속에는 각자의 이야기가 있고, 같은 숫자를 보고도 다른 결론을 꿈꾸기도 한다.

2. ‘상관관계는 인과관계와 다르다’라고 이야기한다. 이 애매한 말은 대체 무엇일까?

3. 실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태처럼, 원인과 결과 관계가 명확한 것을 ‘인과관계’라고 한다.

4. 데이터를 보면서 흔히 ‘인과관계’와 ‘상관관계’를 혼동한다. 상관관계는 두 변수가 얼마나 상호 의존적인지를 의미한다. 이를 파악하는 방법은 한 변수가 증가하면 다른 변수가 따라 증가하거나, 감소하되 그 추이를 따르는 식이다. 이를 숫자로 표현하는 것이 상관계수다.

5. 간혹 특정 변수 간의 상관계수가 의미 있게 나온다고, 해당 변수를 특정 문제의 원인으로 꼽는 식으로 데이터를 분석하는 경우가 있다. 하지만 사실은 그렇지 않다.

6. 실제로는 어떤 관계도 없지만 나비의 날갯짓 빈도와 태풍의 발생 빈도를 데이터로 나타냈을 때 우연히 상관관계가 있는 것처럼 보일 수도 있다. 이렇게 우연히 데이터가 들어맞을 때 혹여 나비의 날갯짓과 태풍에 대한 상관관계를 파악하고자 상관계수를 구한다면 태풍과 나비의 상관계수와 나비와 태풍의 상관계수는 같다.

7. 상관관계가 인과관계를 나타내지 않는다는 사례는 많은 곳에서 찾아볼 수 있다. 대표적으로 1940년대 보건 전문가는 소아마비와 아이스크림 섭취 간에 상관관계가 있다는 것을 발견하고, 소아마비 예방을 위해 아이스크림을 적게 먹을 것을 권고했다. 하지만 한참 후에 단순히 소아마비가 여름에 많이 발병하고, 아이스크림도 여름에 주로 팔린다는 사실이 밝혀졌다.

8. 소아마비와 아이스크림 섭취 간에는 어떤 인과관계도 없었고, 그저 ‘날씨’라는 외생 변수가 소아마비와 아이스크림 변수에 공통으로 영향을 주었을 뿐이다.

9. 사람들은 무분별한 정보 사이에서 패턴을 찾고, 거기에 의미를 부여하는 데 능하다. 이는 사는데 있어서 굉장히 유용하지만, 많은 경우 비정보성 데이터에도 큰 의미를 부여하여 오히려 혼란을 일으키기도 한다.

10. 데이터 분석에서 상관관계는 기본적이며 중요한 항목이다. 변수 간의 관계와 추세를 파악할 수 있고, 이후 여러 분석에서 고려할 수 있다. 하지만 이를 가지고 섣불리 어떤 결과를 내는 것은 위험하다.

하순명 기자 kidsfocal@chosunbiz.com


관련기사