알파고를 만든 딥마인드(Deepmind)와 자율주행 연구 기업 웨이모(Waymo)가 협력한다. 인공지능(AI) 알고리즘 연구 효율성을 개선해 자율주행 기술 고도화에 나선다.

25일(현지시각) 딥마인드는 자사 블로그를 통해 ‘인구 기반 학습(Population Based Training, PBT)’ 기술을 웨이모에 제공한다고 밝혔다. 딥마인드와 웨이모는 구글의 지주 회사 알파벳(Alphabet)을 모기업으로 둔 형제기업이다.

웨이모 자율주행차. / 웨이모
웨이모 자율주행차. / 웨이모
웨이모는 ‘노동집약적’인 강화학습 연구 과정을 개선하기 위해 딥마인드 기술력을 빌렸다.
자율주행차가 안전하게 운행하려면 개별 신경망을 학습해야 한다. 물체를 감지하고 어디로 이동할지 스스로 판단하기 때문이다. 연구자들은 최적의 결과를 내기 위해 인공지능(AI) 알고리즘 강화 학습에 개입한다. 주기적으로 약한 매개변수(파라미터)를 제거한 후 다시 학습하는 식이다.

딥마인드의 PBT는 알고리즘 강화학습에 ‘생존’ 법칙을 도입했다. 다윈의 진화생물학에서 영감을 받았다. PBT는 강한 파라미터를 자동으로 결정한다. 약한 파라미터를 없애고 강한 파라미터의 복제본(progeny)을 추가한다. 복제본 생산과 함께 네트워크를 업데이트하기 때문에 학습을 새로 시작할 필요가 없다.

PBT는 강화학습 효과와 효율성을 높인다. 기존 방식은 개별 신경망을 반복 학습시키기 위해 고성능 컴퓨터와 자원이 필요했다. 연구자가 수동 조정하기 때문에 학습 시간도 길었다. 딥마인드 측은 PBT 기술이 시간과 자원을 각각 50%씩 절약한다고 설명했다.

자율주행 성능 개선도 효과적으로 진행한다. 딥마인드와 웨이모간 프로젝트를 이끈 조이스 첸 웨이모 선임 소프트웨어 엔지니어는 "웨이모가 보행자, 자전거와 오토바이, 고속도로 차선 등을 식별하는 과정에서 ‘가긍정적 판단(기준변인상에서는 실패인데 검사에서는 성공자로 잘못 예언하는 사례)’이 24%감소했다"며 "하나의 모델에서 (PBT를) 테스트를 한 후 다른 웨이모 모델에 적용하기로 결정했다"고 말했다.

한편, PBT는 오리올 빈얄스(Oriol Vinyals) 딥마인드 연구원은 전략 게임 ‘스타크래프트2’에 도입할 AI를 만드는 과정에서 고안한 것이다. 딥마인드는 2017년부터 변수가 많은 스타크래프트2 경기 과정을 AI가 이해하도록 돕는 학습 방법을 연구했다.