광고 덕분에 DAU(일 이용자 수)가 늘었다? 사실일까?
간혹 특정 변수 간의 상관계수가 의미 있게 나온다고, 해당 변수를 특정 문제의 원인으로 꼽는 식으로 데이트를 분석하는 경우가 있다. 소아마비 예방을 위해 아이스크림을 적게 먹을 것을 권고했던 웃지 못할 일도 이런 경우다.
숫자 자체의 변화는 중요하고, 숫자 변화를 기반으로 한 판단은 명확한 듯 보인다. 하지만 이렇게 직접적이고 단순한 숫자 비교에는 여러 딜레마가 있다. 1년에 36일 비가 오는 곳이라고 해도 매달 세 번의 비가 내리지 않는 것처럼 말이다.
숫자의 차이는 절대적인 것처럼 보이지만, 수학은 불확실성 위에 쌓아 올려진 학문이고, 통계는 항상 확률과 같이 등장하며, 숫자는 한 번도 절대적인 적이 없다.
많은 기업이 실험을 통해 데이터를 수집하고 의사결정을 한다. 하지만 여기엔 불확실성이 고려되지 않았다. 대부분의 변화는 기존에 없었던 것이기에 기존의 기록인 데이터를 사용해서 이런 불확실성을 메이기에는 한계가 있다.
저자는 직장에서 흔히 발생하는, 데이터를 오해하면서 일어나는 에피소드를 만화와 글로 담았다. 누구나 착각하기 쉬운 ‘숫자유감’을 재밌게 만나보자.
권정민 지음 | 주형 그림 | 골든래빗 | 344쪽 | 1만6000원
#10줄요약 #1화 상관관계와 인과관계
1. 사람들은 문제를 해결하기 위해 숫자를 사용해서 문제와 관련된 사실을 그려내고, 그 숫자 간에 어떤 관계가 맺어지는 것처럼 보이면 이를 토대로 결론을 짓곤 한다. 우리는 이런 현상을 보고 ‘데이터 기반 의사결정’이라고 한다. 하지만 각자의 머릿속에는 각자의 이야기가 있고, 같은 숫자를 보고도 다른 결론을 꿈꾸기도 한다.
2. ‘상관관계는 인과관계와 다르다’라고 이야기한다. 이 애매한 말은 대체 무엇일까?
3. 실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태처럼, 원인과 결과 관계가 명확한 것을 ‘인과관계’라고 한다.
4. 데이터를 보면서 흔히 ‘인과관계’와 ‘상관관계’를 혼동한다. 상관관계는 두 변수가 얼마나 상호 의존적인지를 의미한다. 이를 파악하는 방법은 한 변수가 증가하면 다른 변수가 따라 증가하거나, 감소하되 그 추이를 따르는 식이다. 이를 숫자로 표현하는 것이 상관계수다.
5. 간혹 특정 변수 간의 상관계수가 의미 있게 나온다고, 해당 변수를 특정 문제의 원인으로 꼽는 식으로 데이터를 분석하는 경우가 있다. 하지만 사실은 그렇지 않다.
6. 실제로는 어떤 관계도 없지만 나비의 날갯짓 빈도와 태풍의 발생 빈도를 데이터로 나타냈을 때 우연히 상관관계가 있는 것처럼 보일 수도 있다. 이렇게 우연히 데이터가 들어맞을 때 혹여 나비의 날갯짓과 태풍에 대한 상관관계를 파악하고자 상관계수를 구한다면 태풍과 나비의 상관계수와 나비와 태풍의 상관계수는 같다.
7. 상관관계가 인과관계를 나타내지 않는다는 사례는 많은 곳에서 찾아볼 수 있다. 대표적으로 1940년대 보건 전문가는 소아마비와 아이스크림 섭취 간에 상관관계가 있다는 것을 발견하고, 소아마비 예방을 위해 아이스크림을 적게 먹을 것을 권고했다. 하지만 한참 후에 단순히 소아마비가 여름에 많이 발병하고, 아이스크림도 여름에 주로 팔린다는 사실이 밝혀졌다.
8. 소아마비와 아이스크림 섭취 간에는 어떤 인과관계도 없었고, 그저 ‘날씨’라는 외생 변수가 소아마비와 아이스크림 변수에 공통으로 영향을 주었을 뿐이다.
9. 사람들은 무분별한 정보 사이에서 패턴을 찾고, 거기에 의미를 부여하는 데 능하다. 이는 사는데 있어서 굉장히 유용하지만, 많은 경우 비정보성 데이터에도 큰 의미를 부여하여 오히려 혼란을 일으키기도 한다.
10. 데이터 분석에서 상관관계는 기본적이며 중요한 항목이다. 변수 간의 관계와 추세를 파악할 수 있고, 이후 여러 분석에서 고려할 수 있다. 하지만 이를 가지고 섣불리 어떤 결과를 내는 것은 위험하다.
하순명 기자 kidsfocal@chosunbiz.com
- 현태호 깃랩 한국 지사장 "단일 데브옵스 플랫폼 깃랩 15, 기업 비즈니스 돕는다"
- [IT 북마당] 개발자에서 아키텍트로 · 데브옵스 도입 전략 외
- 깃랩, 데브옵스 단일 플랫폼 깃랩14 선봬
- [10줄 서평] 피닉스 프로젝트 "위기에 빠진 IT 프로젝트를 구하라"
- [10줄 서평] 개발 함정을 탈출하라…"프로덕트 매니지먼트의 길"
- [10줄 서평] 임태규의 '텐서플로 라이트를 활용한 안드로이드 딥러닝'
- [10줄 서평] 홍성원의 '생각하는 기계 vs 생각하지 않는 인간'
- [10줄 서평] 냉장고를 여니 양자역학이 나왔다
- [10줄 서평] 실리콘밸리 리더십…마이클롭 애플 테크 리더가 꼽은 30가지 리더십 비법
- [10줄 서평] 메타물질로 해리포터의 투명망토를 만들 수 있다고?
- [10줄 서평] 37년 주식투자 전문가가 전하는 합리적 투자의 조건
- [10줄 서평] 자본 생존 전략은 임팩트 투자와 ESG
- [10줄 서평] 메타버스 새로운 기회
- [10줄 서평] 임창환의 브레인 3.0 "인류의 미래는 AI와 뇌공학이 바꾼다"
- [10줄 서평] “김 팀장, 예측이 아니라 추론을 해야죠!"
- [10줄 서평] MBA 마케팅 필독서 45
- [10줄 서평] 김재필의 'ESG 혁명이 온다'
- [10줄 서평] 이재환의 자바 프로그래밍 입문
- [10줄 서평] "AI는 어떻게 기업을 살리는가"…김경준·손진호의 AI 피보팅
- [10줄 서평] 조원경의 '넥스트 그린 레볼루션'
- [10줄 서평] 윤영호의 '그러니까, 영국'
- [10줄 서평] 컨테이너 인프라 환경 구축을 위한 쿠버네티스/도커
- [10줄 서평] 데브옵스 도입 전략
- [10줄 서평] 네이버 스마트스토어 마케팅 시작하기
- [10줄 서평] 개발자에서 아키텍트로…"38가지 실전 훈련법"
- [10줄 서평] 산제이 굽타의 '킵 샤프 늙지 않는 뇌'
- [10줄 서평] 메타버스가 만드는 가상경제 시대가 온다
- [10줄 서평] 데이터 스토리…"데이터를 설득력 있는 이야기로 바꾸는 방법"
- [10줄 서평] 알고리즘 윤리
- [10줄 서평] 프라이버시 중심 디자인은 어떻게 하는가
- [10줄 서평] 김호섭 등 6인의 '일본, 한국을 상상하다'
- [10줄 서평] 시오노 나나미의 '황제 프리드리히 2세의 생애'
- [10줄 서평] 지금 모빌리티에 투자하라
- [10줄 서평] 린 AI…"비즈니스를 성장시키는 실용적 방법"
- [10줄 서평] AI하라…누구나 AI가 필요한 시대
- [10줄 서평] 비전공자를 위한 첫코딩 챌린지
- [10줄 서평] 윤석남·김이경의 '싸우는 여자들, 역사가 되다'
- [10줄 서평] 최종, 최최종…엑셀 탈출 '구글 스프레드시트 제대로 파헤치기'
- [10줄 서평] Tucker의 Go 언어 프로그래밍
- [10줄 서평] 김규봉·박광혁의 '뜻밖의 화가들이 주는 위안'
- [10줄 서평] 이다혜의 '내일을 위한 내 일'
- [10줄 서평] 존 리의 '부자되기 습관'
- [10줄 서평] 맥 쓰는 사람들을 위한 mac OS 완전정복
- [10줄 서평] 수포자를 위한 '친절한 딥러닝 수학'
- [10줄 서평] 이명호의 디지털 쇼크, 한국의 미래
- [10줄 서평] 김난도의 '마켓컬리 인사이트'
- [10줄 서평] 리처드 윌린의 '하이데거, 제자들 그리고 나치'
- [10줄 서평] 유현준의 '어디서 살 것인가'
- [10줄 서평] 비트코인 창시자, 사토시의 서
- [10줄 서평] 야마구치 슈의 '철학은 어떻게 삶의 무기가 되는가'
- [10줄 서평] 사피 바칼의 '룬 샷'
- [10줄 서평] 자외선이 당신을 늙게 한다
- [10줄 서평] 정여울의 '1일1페이지, 세상에서 가장 짧은 심리수업 365'
- [10줄 서평] 김시덕의 '동아시아, 해양과 대륙이 맞서다'
- [10줄 서평] 곽재식의 '괴물, 조선의 또 다른 풍경'
- [10줄 서평] 유닉스의 탄생
- [10줄 서평] 데이터 쓰기의 기술
- [10줄 서평] 메리 앤 섀퍼, 애니 배로스의 '건지 감자 껍질파이 북클럽'
- [10줄 서평] 홍춘욱의 '50대 사건으로 보는 돈의 역사'
- [10줄 서평]이철승의 '쌀 재난 국가'
- [10줄 서평] 김용섭의 프로페셔널 스튜던트
- [10줄 서평] 이동륜의 인간교
- [10줄 서평] 임홍택의 '관종의 조건'
- [10줄 서평] 홍일립의 국가의 딜레마
- [10줄 서평] 임동근, 김종배의 '메트로폴리스 서울의 탄생'
- [10줄 서평] 미국 외교의 거대한 환상
- [10줄 서평] 이형재의 '직장인 공부법'
- [10줄 서평] 빌게이츠의 '빌게이츠, 기후재앙을 피하는 법'
- [10줄 서평] 김강원의 '카카오와 네이버는 어떻게 은행이 되었나'
- [10줄 서평] 정세랑의 '시선으로부터,'
- [10줄 서평] 알터 에고 이펙트 "부캐 열풍, 내 안의 영웅을 끌어낸다"
- [10줄 서평] 니와 우이치로의 죽을 때까지 책읽기
- [10줄 서평] 최은수의 더 위험한 미국이 온다
- [10줄 서평] 미치오 카쿠의 초공간
- [10줄 서평] 윌리엄 퀸·존 터너의 버블:부의 대전환
- [10줄서평] 정연태의 ‘식민지 민족차별의 일상사’
- [10줄 서평] 조산구의 공유경제2.0
- [10줄 서평] 최원석의 ‘테슬라 쇼크’
- [10줄서평] 달러구트 꿈 백화점
- [10줄 서평]오노레 드 발자크의 '공무원 생리학'
- [10줄 서평] 니시노 세이지의 ‘스탠퍼드식 최고의 수면법’
- [10줄 서평] 린더 카니의 팀 쿡(Tim Cook)
- [10줄 서평]라나 포루하의 '돈비이블(Don’t be evil)'
- [10줄 서평]백재현의 '1일 1페이지 그날 세계사 365'
- [10줄 서평] 레베카 패닌의 중국이 세계를 지배하는 날