국내 유일 소프트웨어 전문 잡지 마이크로소프트웨어(이하 마소)가 395호 ‘데이터 탐험(Data Adventure)’을 1월 28일 발간했다. 마소 395호는 데이터 사이언스와 데이터 엔지니어링을 주제로 데이터 수집부터 전처리, 모델링, 시각화 등을 구현하는 분석 예시를 중심으로, 데이터를 기업 내 의사결정에 도입한 과정을 담았다.

정보통신과 하드웨어 기술이 성장하며, 미처 돌아보지 못했던 많은 데이터가 쌓였다. 유의미한 데이터를 선별해 활용했던 기존 시스템은 레거시 시스템(Legacy System)이 됐다. 데이터 사이언스에서 데이터 수집, 정제, 탐사 분석, 모델링, 검증, 시각화 등 모든 단계가 중요해졌다.

마이크로소프트웨어 395호 ‘데이터 탐험(Data Adventure)’편 / 마이크로소프트웨어 제공
마이크로소프트웨어 395호 ‘데이터 탐험(Data Adventure)’편 / 마이크로소프트웨어 제공
김나현, 오희령 엔씨소프트 신입 데이터 분석가는 데이터 분석가로 2018년에 첫발을 내디뎠다. 유예진 엠로보 연구원은 인문학을 전공한 후, 2017년 12월에 데이터 분석가가 됐다. 이들은 이론 수업과 스터디에서 겪지 못한 부족한 영역을 어떻게 대처해 왔는지, 실무 경험을 들려준다.

캐글(Kaggle)은 2010년에 설립한 빅데이터 예측 모델 및 분석 솔루션 대회 플랫폼이다. 학생 외 일반 연구자도 캐글에서 진행되는 대회(Competition)에 참여하며 기량을 뽐내는 대표적인 서비스가 됐다. 엔씨소프트는 2017년 ‘게임 데이터를 활용한 데이터 마이닝 경진 대회’를 개최했던 경험을 토대로, ‘2018 빅콘테스트’를 공동 주관(신한은행, SK텔레콤, 신한카드)했다. 많은 참가자가 캐글에서의 경험과 비슷한 수준으로 2018 빅콘테스트에 도전했다. 이은조 엔씨소프트 분석모델링팀 팀장과 장윤제 엔씨소프트 데이터분석가는 ‘Analysis 분야 - 챔피언 리그’에 참가한 팀이 활용한 데이터 전처리, 탐사 분석 방법, 예측 모델링 기법, 모델 해석 및 원인 분석 등을 소개한다. 대회 진행 관련 후기와 참가자의 분석 노하우를 살펴볼 수 있다.

기업에서 데이터를 비즈니스에서 활용하기 위한 첫 단계는 공감대 형성에서 시작한다. 김택규 케어랩스 데이터 엔지니어는 자사가 운영 중인 ‘굿닥’ 서비스에 적용한 팁을 알려준다. 기존에 활용하던 도구가 새로 적용할 시스템과 다른 점이 무엇인지 전달하기 위한 노력을 엿볼 수 있다. 김상우 쏘카 데이터그룹장 역시, 쏘카 차량과 배치를 최적화하기 위한 데이터 인프라 개선점을 알려준다. 윤창호 버즈니 팀장과 조창호 버즈니 검색 프로덕트 매니저는 ‘홈쇼핑모아’에서 검색을 구성하는 보조 기능 구축 사례로 데이터가 주는 장점과 함정을 들려준다.

이외에도 최현영 연구원은 텍스트 데이터를 활용하는 자연어 처리와 언어 모델을, 변규현 모빌리스트 CTO는 서버리스 아키텍처에서 실시간 검색어 분석을, 이태화 슬기로운생각 대표와 심경섭 펜타시큐리티시스템 개발자는 파이썬을 활용한 데이터 수집 자동화를 들려준다.

데이터 사이언스에 관한 다양한 해설을 볼 수 있는 마이크로소프트웨어 395호는 마소 홈페이지와 인터넷 서점에서 구매할 수 있다.

<마소 395호 목차>

SCHEMA
S1. 데이터 사이언스, 타이디버스로 향하다 – 이광춘
S2. 데이터 분석가는 어떤 스킬셋을 가져야 하는가 – 서희

OPINIONS
O1. 일상을 기만하는 데이터와 거리 두기 – 김도균
O2. 금융업계에 부는 데이터 사이언스 바람 – 권용진
O3. 데이터 기반 의료를 향해 – 박찬익
O4. 데이터는 스포츠를 어떻게 바꿨는가 – 김인범
O5. 연습용 데이터 세트를 찾아라 – 오세용 기자

FUTURE
F1. 인문학도, 데이터 사이언티스트가 되다 – 유예진
F2. 데이터 분석가로서 첫 발을 내딛으며 – 김나현, 오희령
F3. 홍콩에서 보내는 편지: 놀고먹던 사람이 연구자로 살기까지 – 홍원의

TECHNOLOGY
T1. 데이터로 본 검색 서비스 – 윤창호, 조창래
T2. 엘라스틱 스택 기반 데이터 분석 – 조인석
T3. 데이터 엔지니어를 위한 아파치 임팔라 안내서 – 임상배
T4. AI 네트워크에서 개인 정보 보호와 보안 – 김민현
T5. 이미지 데이터 분석의 특징 시각화와 스타일 전이 – 김영민

WORKS
W1. 메르스맵을 되돌아보며 – 박순영
W2. 2018 빅콘테스트를 마치고 – 이은조, 장윤제
W3. 굿닥의 데이터 플랫폼 도입기 – 김택규
W4. 케라스팀이 들려주는 협업 그리고 머신러닝 이야기 – 조아라, 케라스팀
W5. 핵심 비즈니스를 혁신하는 데이터팀 이야기 – 김상우

APPLIED
A1. 파이썬으로 계좌 거래 목록 수집하기 – 이태화
A2. 파이썬으로 특정 키워드 사업 공고 알림 받기 – 심경섭
A3. 클라우드 서버리스 아키텍처로 실시간 검색어 분석하기 – 변규현
A4. Kepler.gl을 이용한 2017년 서울 내 인구이동 시각화 – 이영민
A5. 캐글 데이터를 비주얼 스튜디오 코드로 톺아보기 – 김영하
A6. 데이터 시각화의 올바른 차트 유형 고르기 – 배준오

RESEARCH
R1. 회귀 모형을 통한 프로모션 효과 분석, promotionImpact – 안태희, 엄혜민
R2. 자연어 처리와 언어 모델 – 최현영
R3. 게임 로그를 활용한 봇 분류 모델 – 강병수, 서상덕, 안진옥
R4. 반복 크롤링 작업 시 크론탭은 이제 그만, 아파치 에어플로우로 가자 – 배준현, 김도형

ETC
E1. 가치를 만드는 머신러닝 – 마이클 후스, 임현민
E2. 당신의 드라이빙 데이터는 얼마입니까 – 심상규, 아모랩스
E3. 데이터와 인문학 – 오세용 기자