이세돌 프로바둑기사를 이긴 알파고(AlphaGo)가 경기에서 패했다. 알파고를 이긴 알파고 제로(AlphaGo Zero)의 백서(White Paper)는 인공지능의 바둑 학습에서 더는 기보 데이터가 필요하지 않다고 밝혔다. 팀 휠러(Time Wheeler) 스탠포드대 지능시스템 연구원은 바둑 기보 데이터 없이 자가 학습한 알파고 제로의 알고리듬인 알파 제로를 분석한 글을 마소 391호에 소개했다.

바둑은 완벽한 정보로 빠르게 의사결정을 해야 한다. 몬테카를로 트리 탐색(MCTS) 알고리듬은 스스로 계산한 수가 얼마나 좋은지 계산해, 가능성이 가장 높은 수를 찾아준다. 체스판에서 생기는 경우의 수는 10의 46제곱이며, 19X19 크기인 바둑판에서는 약 10의 170제곱이다.

몬테카를로 트리의 확장·백업 단계 / 마이크로소프트웨어 391호 발췌
몬테카를로 트리의 확장·백업 단계 / 마이크로소프트웨어 391호 발췌
알파 제로 알고리듬의 핵심 아이디어는 신경망 예측의 향상과 몬테카를로 트리 탐색으로 생성된 경기를 학습 데이터로 제공하는 것이다. 신경망의 정책 부분은 'S0'에 대한 예측 확률 'p'를 학습해, 몬테카를로 트리에서 얻은 향상된 'S0'의 확률 π와 일치하도록 개선된다. 몬테카를로 트리 탐색을 진행한 후, 개선된 정책 예측값은 다음 공식을 따른다.

몬테카를로 트리 탐색을 진행한 후, 개선된 정책 예측값이 따르는 공식 / 마이크로소프트웨어 391호 발췌
몬테카를로 트리 탐색을 진행한 후, 개선된 정책 예측값이 따르는 공식 / 마이크로소프트웨어 391호 발췌
팀 휠러가 설명해주는 알파고 제로 알고리듬의 자세한 원리는 '마이크로소프트웨어 391호(www.imaso.co.kr/archives/1301)'에서 확인할 수 있다.