소프트웨어 전문지 마이크로소프트웨어 395호는 데이터과학을 주제로 담았습니다. 데이터과학에 대한 개론, 학습 방법, 실무 적용 사례, 학계 등 마소 395호 주요 기사들을 IT조선 독자에게도 소개합니다. [편집자주]

2016년 초, 굿닥 내 극소수 인원 사이에서 처음 이슈가 된 데이터 기반 업무가 있었다. 가장 현실적이고 효율적인 결과물(Output)을 낼 수 있다고 판단했다. 그래서 마음이 맞는 몇몇 동료와 이를 실천해 보고자 노력했으나, 기존 업무를 병행하며 관련 작업을 진행하기란 모든 면에서 무리가 있었다. 그 과정에서 크고 작은 실패와 포기를 경험했다.

필자는 서버 개발자였다. 서버개발업무 중에 우연히 마케팅 플랫폼 API를 사용할 일이 있었는데, 왜인지는 잘 모르겠지만, 이를 활용하는 작업 과정이 너무 재미있었다. 원래 가지고 있던 개발 지식과 새로 알게 된 디지털 마케팅의 조합은 너무나 신선했으며, 회사에서 필요로 하는 것을 만들어낸다는 뿌듯함도 느낄 수 있었다. 앞으로 이런 일을 계속할 수 있다면 보람 있고 즐겁게 일할 수 있을 것 같다는 생각도 들었다.

정말 자연스럽게 데이터 수집, 가공, 시각화 같은 데이터 프로세스에 접근하게 됐고, 이에 대한 환상도 품기 시작했다. 어느새 굿닥에서의 내 메인 업무가 데이터 엔지니어로 전환이 되었다. 하지만, 본격적으로 데이터 실무를 진행하면서, ‘아 데이터 쟁이는 이게 힘들겠구나, 이게 짜증 나는구나’ 등 데이터 중심의 시점을 몸소 느끼게 됐다.

케어랩스가 운영하는 ‘굿닥’
케어랩스가 운영하는 ‘굿닥’
굿닥은 현재 병원과 약국 찾기 서비스를 기본으로 제공하는 업체며, 비급여 시술 관련 CPA 광고를 집행해 수익을 내고 있다. 이외 건강 정보 관련 지식을 제공하며, 성장곡선을 빠르게 이어가고 있다.

2016년 입사 당시, 서버는 모놀리틱(Monolitic) 구조였다. 실사용자 500명이 넘어갈 경우 장애가 발생하는 아주 조그마한 구조였다. 하지만 급성장을 이룬 이후, 현재는 굉장히 많은 서버로 구성돼 있고, 클라우드 서버 사용 비용은 월 기준 약 4배 이상 뛰어올랐다.

굿닥은 병원 찾기부터 예약/진료 처방전까지 모든 과정에서 굿닥 서비스를 이용할 수 있도록 확장해, 더욱 편리하고 의미 있는 서비스를 제공할 수 있도록 노력하고 있다.

플랫폼 도입 초기에는 굿닥 내의 모든 로우 데이터를 집결시키는 작업부터 진행했다. 모든 데이터를 새로 다시 구축하기에는 작업량이 너무 방대해 기존에 있었던 데이터와 신규로 수집해야 할 부분을 정리했다.

다양한 소스에서 제공되는 커넥터와 다양한 언어의 래퍼(Wrapper)를 지원했기에 실제 기술적인 부분에서는 어려움이 없었다. 도입 후, 전사적 공유를 하고 본격적인 작업을 시작했다. 본격적인 작업 역시 많은 난관이 있었다.

특히 데이터 태깅 작업에서 어려운 부분이 많았다. 이벤트 태깅 작업은 실제 각 영역 담당자들에게 부탁했다. 개발자에게 이 태깅 작업은 단순하지 않았고 또 하나의 업무 부담이 가중됐다. 그 외 타 직군은 눈에 보이는 시각화 정보가 작업 초기에는 기존 툴과 다를 것이 없어, 이 작업 목적에 대한 공감대를 형성하기 쉽지 않았다. "원래 사용하던 플랫폼에도 데이터를 계속 보내고 있고 시각화 기능도 충분했던 것 같은데, 다시 처리해야 할 필요가 있나요?"라는 질문을 제일 많이 받았다.

기존 플랫폼은 온전한 로우 데이터 상태의 결과를 전달받지 못하는 상태였으며, 새 플랫폼의 필요성을 설명하는데 많은 시간이 들었다. 깔끔하게 정리된 상태의 고품질 로우 데이터를 확보하기 위해, 초반부터 모든 태깅은 아니더라도 조금씩 준비해보자는 계획으로 요청을 했다. 이에 대한 규격 논의 등도 진행했지만, 태깅 작업을 하기 위한 목적 자체를 설득하기에도 꽤 오랜 시간이 걸렸다. 그들에겐 단순 반복작업에 불과했고 서비스 개발이 주목표인지라 더더욱 공감대를 형성하기 쉽지 않았다.

내부 개발자와 타 직군의 설득뿐 아니라 경영진에게 데이터 관련 인원을 배치받기 위한 의사소통도 쉽지 않았다. 내부 인원 배치는 서비스 개발 위주로 초점이 맞춰져 있었기 때문에, 외부업체를 이용해 데이터 서비스나 비즈니스를 구현하려는 시도도 있었다.

플랫폼 도입 후 약 1년이 지났다. 현재도 데이터를 모으는 일이 끝나지 않았고, 데이터도 점점 많아지고 있다. 데이터양은 계속해서 증가하고 있고, 새로운 서비스가 추가될 때마다 상승 폭은 더 커지고 있다. 구축 초반에는 100만 건/일 정도 발생하던 데이터가 현재는 평균적으로 600만 건/일까지 상승했다. 전체 데이터는 10억 건을 돌파했고, 앞으로도 점점 늘어날 것이다. 개인화 타깃팅, 새로운 서비스와 기존 서비스의 성장 곡선을 위한 그로스 해킹 또한 2019년의 주요 과제다.

굿닥처럼 이제 막 시작하는 단계에 있는 자원이 풍부하지 않은 스타트업이 많으리라 생각한다. 그런 회사일수록 업무는 수직적일 수 있지만, 충분한 준비 과정과 공감대 형성이 핵심이라고 이야기하고 싶다. 이것이 잘 된다면 분야를 떠나 굿닥보다 훨씬 빠른 속도로 데이터 비즈니스를 진행할 수 있을 것이다.

김택규 필자의 ‘굿닥의 데이터 플랫폼 도입기’에 대한 자세한 내용은 ‘마이크로소프트웨어 395호(https://www.imaso.co.kr/archives/4654)’에서 확인할 수 있다.