알파고 승리 이끈 강화학습, 로봇·자율주행서 재조명

입력 2021.02.28 06:00

2016년 구글 딥마인드가 개발한 인공지능(AI) 알파고는 당시 세계 최고로 꼽히던 바둑기사 이세돌 9단을 꺾으며 AI 시대 개막을 알렸다. 그와 동시에 알파고의 원리 '딥러닝(심층학습)'도 유명세를 탔다.

알파고의 승리를 이끈 AI 기술은 하나 더 있다. 바로 '강화학습'이다. 강화학습은 최근 우버 AI 연구팀이 클래식 게임에서 활용해, 게이머나 다른 AI보다 뛰어난 성적을 받아 다시 주목받는다.

최근 우버의 AI 연구팀은 자체 개발한 강화학습 기반 AI가 고전 게임에서 사람이나 다른 AI 모델보다 높은 점수를 획득하는 것에 성공했다고 발표했다. 연구에 활용된 게임은 '복수(1981)'와 '핏볼(1982)'이다. 두 게임 모두 높은 난도로 유명한 게임이다.

1982년 출시된 고전 게임 ‘핏볼’ 모습. 굴러오거나 날라오는 장애물을 피하면서 다양한 통로로 이동하며 점수를 얻는 게임이다. 이동방식이 다양하고, 경로도 독특해 당시 고난도 게임으로 꼽혔다. 우버의 AI는 규칙도 실시간으로 배우며, 역대 최고의 점수를 얻는 것에 성공했다. /갈무리
강화학습은 행동심리학에서 나온 AI 알고리즘이다. 원리는 간단하다. AI가 더 높은 점수(보상)가 될 때까지 게임(행동)을 계속해서 반복한다. 특히 위아래와 같은 행동 목록만 입력하면 된다. 별도로 게임의 규칙을 입력할 필요가 없다.

규칙을 하나하나 입력할 필요가 없는 특징 덕에 강화학습은 로봇, 자율주행차 등 AI가 현실에서 사용되기 위한 필수 기술로 꼽힌다. 하지만 큰 한계가 있다. 강화학습은 모든 행동을 하나하나 수행하며 최고의 방법을 찾기 때문에, 무한에 가까운 계산이 필요하다. 다시 말해 AI가 행동을 정하는 데 오랜 시간이 걸린다.

이를 해결한 대표적인 사례가 알파고다. 알파고는 딥러닝을 통해 '그럴듯한 최고의 방법(근사값)'을 찾아내 효율적으로 강화학습의 답을 찾아냈다. 이를 통해 이세돌 9단에게 승리를 따낸 것이다.

그리고 우버 AI 연구팀은 알파고보다 더 효율적인 강화학습을 선보이며 기술 한계를 돌파했다.

앞서 밝혔듯이 강화학습은 모든 행동을 하나하나 수행하기 때문에 실시간 반응은 불가능에 가깝다. 실제 알파고도 이세돌 9단과의 경기에서 실제 바둑 기사처럼 시간을 쓰며 대국했다. 최근 강화학습 AI는 일부 행동을 생략해 실시간 대응에 나섰지만, 최고의 행동을 자주 놓치며 한계에 부딪혔다.

우버 AI 연구팀은 이런 생략 과정에서 최고의 행동을 놓치지 않는 기술을 개발했다. 또 강화학습 AI가 일부 행동을 고민하는 것에 시간이 길어지는 경우를 막기 위한 최적화 방법도 새롭게 소개했다. 그들은 AI가 과거에 사용한 방법과 새로운 방법을 동시에 고민하도록 설계해 AI 최적화를 이끌었다.

그 결과 우버의 강화학습 AI는 게이머는 물론 기존 AI보다 뛰어난 결과를 얻는 것에 성공했다.

우버 AI 연구팀은 이번 연구가 로봇과 자율주행차 발전에 큰 영향을 끼칠 것으로 자평했다. 로봇과 자율주행차는 완전 자동주행을 하기 위해서는 새롭게 마주하는 환경에서도 오류 없이 최고의 선택을 이어가야 한다. 실시간으로 최고의 답을 내놓는 강화학습이 열쇠라는 것이 연구팀의 설명이다.

연구팀은 "기존 AI는 미리 학습한 상황이 아니면 성능이 떨어진다"며 "구출 로봇처럼 위험한 환경에 계속해서 노출되는 상황에 사용되기 어렵다"고 영국 공영방송 BBC와의 인터뷰에서 말했다. 이어 그들은 "강화학습이 실시간으로 답을 내놓는다면 활약할 수 있다"며 "이미 자율주행차에서도 잠재된 실수를 미리 발견하는 등 성과가 이어지고 있다"고 덧붙였다.

송주상 기자 sjs@chosunbiz.com


키워드