소프트웨어 전문지 마이크로소프트웨어 395호는 데이터과학을 주제로 담았습니다. 데이터과학에 대한 개론, 학습 방법, 실무 적용 사례, 학계 등 마소 395호 주요 기사들을 IT조선 독자에게도 소개합니다. [편집자주]
2017년 인구주택총조사 전수집계 결과에 따르면 서울의 인구수는 약 974만 명, 가구 수는 약 390만 가구다. 그리고 같은 해에 약 98만 가구가 서울을 떠났고(전출), 약 95만 가구는 서울로 들어왔다(전입). 이 수치는 서울과 다른 시도 간 이동뿐 아니라 서울 내에서 발생한 인구이동, 즉 서울에서 서울로 이사한 건수도 포함하고 있다.
국내인구이동통계에 따르면 2017년의 서울 내 인구이동 발생 횟수는 81만6442건이다. 이는 전출 기준 약 84%, 전입 기준 약 86%에 해당하는 수치로, 이동의 상당수가 서울 내에서 이뤄졌다는 것을 의미한다. 그렇다면 이들은 서울의 어디에서 어디로 가는가? 서울발 서울행 이동의 실체가 궁금하다.
위 그림의 마지막 행을 예로 들면, 서울시(11) 종로구(110) 청운효자동(51500)에 살던 가구가 가족(2) 관련 문제로 2017년 1월 12일에 같은 행정동으로 이사했다는 것을 알 수 있다.
여기서 하나의 행은 한 건의 가구 이동을 의미한다. 서울 내 이동 데이터만 선택 추출했기에 해당 데이터는 81만6442개 행으로 이뤄져 있다. 따라서 서울 내 인구이동 현상을 분석하기 위해서는 81만6442개 행을 분석해 각 가구가 어디에서 어디로 이동했는지 파악해야 한다. 그러나 위 그림과 같은 나열식 데이터를 사람이 일일이 살펴보려면 상당한 시간이 소요될 뿐 아니라 데이터로부터 의미 있는 인사이트를 얻기도 어려울 것이다.
그럼 어떻게 해야 할까? 인구이동 데이터는 필연적으로 출발지와 도착지가 있기에 항상 위치정보를 포함한다. 따라서 해당 데이터를 지도 위에 시각화할 수 있다면 훨씬 많은 것을 볼 수 있다. 이 글에서는 서울 내 인구이동 데이터를 시각화하기 위해 오픈소스 기반 지리 정보(Geospatial) 분석 도구인 Kepler.gl(https://kepler.gl)을 선택했다. Kepler.gl은 2018년 초 우버(Uber)에서 출시했다. 복잡한 코딩 없이 누구나 공간 데이터를 멋지게 시각화할 수 있다.
먼저 서울 내 인구이동 81만6442건을 전출/전입 행정동에 따라 분류하고 이동 횟수에 따라 정렬한 결과, 상위 168개 이동이 모두 동일 행정동 내에서 이뤄진 것으로 나타났다. 전체에서 보면 행정동 내 이동은 22만3387건으로 전체의 약 27%를 차지한다. ‘동일 행정동 내 이동 시각화’ 그림은 Kepler.gl을 이용해 행정동 내 이동을 발생 건수에 따라 시각화한 것이다. 본래 이동이라는 것은 출발지와 도착지가 달라야 한다. 하지만 인구이동 데이터의 최소 공간 단위가 행정동이다 보니 이보다 상세한 이동 경로를 알 수 없고, 동일 지역 내 이동은 경로로 표현할 수 없기에 ‘동일 행정동 내 이동 시각화’ 그림과 같은 시각화 방법을 택했다.
이영민 필자의 ‘Kepler.gl을 이용한 2017년 서울 내 인구이동 시각화’에 대한 자세한 내용은 ‘마이크로소프트웨어 395호(https://www.imaso.co.kr/archives/4654)’에서 확인할 수 있다.