[마소 395호] 금융업계에 부는 데이터 사이언스 바람

소프트웨어 전문지 마이크로소프트웨어 395호는 데이터과학을 주제로 담았습니다. 데이터과학에 대한 개론, 학습 방법, 실무 적용 사례, 학계 등 마소 395호 주요 기사들을 IT조선 독자에게도 소개합니다. [편집자주]

국내에서나 해외에서나 데이터 사이언스는 큰 화제다. 그동안 쓰레기 더미로 치부하던 데이터를 이용해 자동으로 의미를 찾거나 최적화하고, 비약적인 퍼포먼스 향상이나 수익을 낼 수 있는 일을 한다는 것이 마법과 같아서일 것이다. 실제로 월스트리트로 대표되는 금융업계에 데이터 사이언스와 인공지능 관련 직업이 비약적으로 늘어났다. 반면, 기존 월스트리트를 대표하던 ‘트레이더’, ‘퀀트’ 등은 하향세를 면치 못하고 있다.

퀀트는 금융의 여러 분야 중 투자와 자산관리 측면에서 가장 많은 활약을 했다. 주가가 어떻게 변하는지 분석했고, 통계적으로 어떤 요인이 주가에 영향을 미치는지 분석해 가장 영향을 많이 주는 요인을 모아서 팩터 모델이라 명명했다. 퀀트는 주가에 아직 반영되지 않은 재무 데이터를 미리 파악해, 주가에 반영되기를 기다리면서 이익을 얻었다.

그러던 중 컴퓨팅 파워 증가로 새로운 형태의 퀀트가 등장했다. 주문 빅데이터를 이용해 이익을 얻는 퀀트다. 기존 재무 데이터는 비교적 용량도 적고 복잡하지 않았지만, 주문 데이터는 시장 참여자가 주문을 내고 취소하거나 변형적인 주문을 내는 것을 모두 기록했다. 그 때문에 데이터 규모도 어마어마했고 노이즈도 심했다. 하지만 컴퓨터 성능이 비약적으로 증가하고 통계 분석 툴의 진화 덕분에 주문 데이터를 이용한 퀀트가 2010년경부터 많은 활약을 시작했다. 이들의 수익은 어마어마해서 대학에서 앞다퉈 퀀트를 양성하는 금융공학 과정을 만들었다. 투자 은행이나 헤지펀드에서는 통계학과 컴퓨터 공학을 공부한 퀀트를 대거 영입하기 시작했다.

알고리즘 트레이딩 시장 점유율(출처 : www.experfy.com/uploads/ckeditor/pictures/222/content_image5.png). / 마이크로소프트웨어 395호

2010년부터 2016년까지는 이렇게 머신러닝, 빅데이터, 데이터 엔지니어링을 이용해 주문 흐름을 읽고 수익화하는 퀀트가 굉장히 인기였다. 이들을 ‘알고리즘 트레이더’라고도 불렀는데, 워낙 수익을 많이 내고 멋진 직종이었기 때문에 수많은 순수 과학 데이터 분석가가 이 분야로 넘어오기도 했다. 그러나 여전히 한계가 있었는데, 기존 통계학이나 데이터 분석 방법론으로 쉽게 접근할 수 있는 정형 데이터 위주의 분석이 이뤄졌다는 점이다. 주가, 거래량, 매출, 부채, 현금 흐름, 주문 비율, 스프레드 등 계량화가 이미 됐거나 손쉽게 계량화할 수 있는 데이터를 주로 이용했다. 이 때문에 복잡한 머신러닝 모델이나 비정형 데이터 분석 도구를 이용하기보다 더 많고 고도화된 데이터를 이용하는 방향으로 발전했다.

급격히 줄어든 초단타매매 수익(출처: TABB Group, Deutsche Bank Research). / 마이크로소프트웨어 395호 발췌

이런 흐름 자체는 데이터 분석론의 발전보다는 더 많은 데이터를 수집하는 ‘고빈도 데이터 수집’이나 레이턴시(latency)를 줄이는 ‘초단타 매매’ 등이 발전하는 바탕이 됐다. 고속 시스템을 설계하는 엔지니어나 데이터 처리를 자동화해 빠르게 할 수 있는 사람이 더 큰 역할을 하던 시기였다. 그런데 이런 데이터 분석은 결국 레이턴시나 데이터가 평준화될수록 엣지가 떨어질 수밖에 없다. 같은 데이터 세트를 비슷한 방식의 모델로 만들고 분석했기 때문에 패턴 자체를 보는 방식이 비슷해질 수밖에 없었다. 결국 이런 부분은 단순히 속도로 승부를 보는 방식의 군비 경쟁으로 바뀌게 됐고, 점점 수익이 떨어지는 형국으로 갔다.

권용진 필자의 ‘금융업계에 부는 데이터 사이언스 바람’에 대한 자세한 내용은 ‘마이크로소프트웨어 395호(https://www.imaso.co.kr/archives/4654)’에서 확인할 수 있다.