소프트웨어 전문지 마이크로소프트웨어 395호는 데이터과학을 주제로 담았습니다. 데이터과학에 대한 개론, 학습 방법, 실무 적용 사례, 학계 등 마소 395호 주요 기사들을 IT조선 독자에게도 소개합니다. [편집자주]

2017년, 엔씨소프트는 우연한 기회를 통해 ‘IEEE Conference on Computational Intelligence and Games’라는 국제 학회에서 최초로 게임 데이터를 활용한 데이터 마이닝 경진 대회(CIG 2017 Data Mining Competition)를 개최했다. 그러나 경험 미숙과 홍보 부족으로 참가 규모가 크지 않았고, 우승팀을 제외한 다른 참가팀의 결과물이 기대에 미치지 못한 아쉬움이 있었다.

2018년에는 지난해 대회를 타산지석 삼아, 문제 난이도를 조금 낮추고 홍보에 많은 노력을 기울였다. 최대한 많은 참여를 유도하는 것을 목표로 했다. 이를 위해 캐글 플랫폼을 이용할 계획을 갖고 연락을 취했다. 그러나 캐글 측 담당자와 상담한 결과, 캐글 플랫폼 이용 비용이 매우 크다는 사실을 알게 됐다.

일반 회사에서 캐글을 통해 경진 대회를 주최할 경우, 상금을 제외하더라도 컨설팅 및 호스팅 명목으로 최소 6만 달러(6700만원) 이상의 비용이 필요했다. 더불어 캐글 측에서는 우리가 하려는 정도의 대회는 총상금 규모를 최소한 2만 달러 이상 책정해야 한다는 의견도 줬다.

결국 우리가 책정한 것보다 예산 규모가 크고, 상금보다 최소 3배가 넘는 비용을 대회 운영을 위해 소비하는 것은 적절하지 않다고 판단했다. 차라리 국내에서 진행 중인 행사에 참여하는 쪽으로 방향을 바꿨다. 결국 여러 조사 과정을 통해 한국정보화진흥원과 빅데이터 포럼에서 공동으로 주최하는 ‘빅콘테스트’라는 행사에 주관사로 참여했다.

빅콘테스트는 2013년에 처음 시작됐고, 2018년에 6회째를 맞이했다. 한국정보화진흥원과 빅데이터 포럼이 공동으로 주최하며, 전반적인 대회 운영은 한국정보통신진흥협회에서 담당했다. 주관사는 매년 바뀌었으며, 2018년에는 신한은행, SK텔레콤, 신한카드, 엔씨소프트가 참여해 총 4개 트랙으로 대회가 진행됐다.

빅콘테스트 트랙별 문제. / 마이크로소프트웨어 395호
빅콘테스트 트랙별 문제. / 마이크로소프트웨어 395호
2018년 7월 10일부터 참가팀 접수를 받았으며, 설명회와 함께 데이터를 공개했다. 이후 참가팀은 2018년 9월 14일까지 주어진 데이터(혹은 외부에서 입수 가능한 데이터)를 활용해 각 트랙에서 요구한 문제를 풀어 그 결과를 제시하는 형태로 진행했다.
‘Analysis 분야’의 ‘챔피언 리그’에는 총 531개 팀이 참여했으며, 이 중 93개 팀이 최종 결과물을 제출했다. 최종 결과물은 최종 예측 결과 외에도 예측에 사용한 모델링 코드와 분석 보고서를 같이 제출하는 형태였다. 참여자가 자율 평가 시스템에서 모델의 예측 정확도를 개략적으로 확인할 수 있기 때문에, 상위 순위에 들지 못한 다수의 참가팀이 최종 결과물 제출을 포기한 것으로 추정된다.

제출한 결과물과 최종 예측 결과를 토대로 1차 심사를 진행해 12개 팀을 선별하고, 2차 심사를 진행했다. 2차 심사는 엔씨소프트 R&D 센터에서 진행했다. 참가팀이 직접 자신의 예측 모델과 이탈 분석 결과를 15분 동안 발표하고 10분 동안 Q&A를 하는 방식이었다. 이후 1, 2차 심사 결과를 바탕으로 최종 수상자를 결정했으며, 2018년 11월 21일에 진행한 ‘2018 데이터 진흥 주간’의 시상식을 통해 최종 순위를 발표했다.

이번 2018 빅콘테스트를 통해 직접 대회를 주관하면서 우리나라에 데이터 분석가를 꿈꾸는 우수한 학생이 정말 많다는 점을 알 수 있었다. 대부분 참가자가 취업을 준비하는 대학생이었음에도 불구하고, 웬만한 현업 분석가와 비교하더라도 전혀 부족함이 없을 정도로 분석 수준이 매우 높았다. 최근 다양한 분석 관련 경진 대회가 꾸준히 개최됨에 따라 이런 경험을 쌓을 기회가 많아진 점, 캐글 같은 인터넷 사이트나 블로그 등을 통해 여러 분석 노하우가 공유돼 분석 기술이 보편화되고 있는 점 등이 그 이유라 생각한다.

엔씨소프트에서는 향후에도 데이터 분석가를 위한 분석 경진 대회를 지속해서 이어갈 계획이다. 이를 통해 우수한 예비 분석가를 발굴할 뿐 아니라, 다양한 탐사 분석 및 모델링 기법을 정리함으로써 게임 데이터 분석 기법의 체계화 및 발전에 조금이나마 기여할 수 있기를 바란다.

이은조, 장윤제 필자의 ‘2018 빅콘테스트를 마치고’에 대한 자세한 내용은 ‘마이크로소프트웨어 395호(https://www.imaso.co.kr/archives/4654)’에서 확인할 수 있다.