2016년 이세돌과 알파고가 치른 대국은 한국 인공지능(AI) 열풍이 시작된 계기였다. 알파고 컴퓨터 시스템은 1200개쯤의 CPU와 1000개 GPU(Graphic Processing Unit)로 구성됐다고 추정됐지만 나중에 공개된 내용에 따르면 GPU 대신 구글이 자체 개발한 TPU(Tensor Processing Unit)라는 컴퓨터 칩을 사용한 것으로 나타났다.


구글이 자체 개발한 TPU(왼쪽)와 이세돌과 대국했던 알파고 시스템 (오른쪽). TPU는 CPU와 함께 핵심 역할을 했다. / 구글 갈무리
구글이 자체 개발한 TPU(왼쪽)와 이세돌과 대국했던 알파고 시스템 (오른쪽). TPU는 CPU와 함께 핵심 역할을 했다. / 구글 갈무리
구글은 왜 번거롭게 새로운 AI 칩을 개발했을까? 구글을 비롯해 마이크로소프트(MS), 인텔, IBM, 엔비디아(NVIDIA) 등 IT 기업이 인공지능에 총력을 기울이는 건 돈이 되기 때문이다.

시장조사업체 IDC는 2020년 AI 시장 규모가 460억달러(49조원)에 이를 것으로 추정했다. 또 다이앤 브라이언트 인텔 부사장은 2020년 데이터센터에서 AI 수요가 가장 많은 것으로 예측했다.

이는 AI 열풍 주역인 딥러닝(Deep Learning) 때문이다. 딥러닝에선 인공신경망을 데이터로 학습시키며 이를 이용해 ▲음성 인식 ▲자동차 운전 ▲바둑 묘수 제안 등의 추론을 한다. 계산 측면에서 학습은 주어진 데이터에 대해 원하는 정답이 도출될 수 있도록 파라미터를 튜닝하는 것에 불과하다. 그 과정은 사람의 개입 없이 많은 데이터를 기계적으로 비교하는 것이기 때문에 빠른 학습을 위해서는 대규모 계산능력이 필수다.

학습이 완료된 인공신경망으로 주어진 데이터에 대해 정답을 추론한다. 대규모 데이터를 처리하는 학습 단계에 비해 추론은 하나의 데이터에 대해 정답을 추리한다.

학습 단계를 가속하기 위해선 병렬처리 성능을 향상해야 한다. 추론단계 가속화는 순차처리 성능에 집중해야 한다. 경쟁력 핵심인 모형개발 시간(Time to Model)을 줄이는 노력은 상대적으로 많은 계산이 필요한 학습 단계에 집중된다.

시스템 측면에서 보면 대규모 처리능력을 위해 당연히 많은 수의 계산요소(Processing Element)가 필요하지만, 이들이 끊임없이 일할 수 있도록 지속해서 데이터를 공급하는 것도 이에 못지않게 중요하다.

또 고성능컴퓨팅에선 통상 64비트 정밀도를 사용하지만, 같은 하드웨어를 사용해 더 많은 계산을 할 수 있도록 32비트, 16비트, 심지어 8비트 데이터를 종종 활용한다. 하지만 정밀도를 줄이는 경우 파라미터 최적화 시간이 오히려 늘어날 수 있다.

현재 이 분야 최강자는 엔비디아다. 지난 몇 년간 전사 노력으로 하드웨어뿐 아니라 개발도구, 라이브러리, 활용 등을 포함한 전체 생태계를 구축했다. 소문에 따르면 2017년 신규사업 절반 이상이 인공지능에 관련됐다.

엔비디아가 승기를 이어가기 위해 야심차게 내놓은 핵심 제품이 '볼타(Volta)' GPU다. 최근 출시된 볼타는 30억달러(3조2000억원)의 개발비용이 투입됐다. 210억개의 트랜지스터가 84개 SM(Streaming Machine)을 구성한다


엔비디아 볼타 GPU. 엔비디아가 30억달러 개발비를 투자해 개발한 차세대 GPU로 210억개 트랜지스터로 7.5테라플롭스 성능을 구현했다. / 엔비디아 제공
엔비디아 볼타 GPU. 엔비디아가 30억달러 개발비를 투자해 개발한 차세대 GPU로 210억개 트랜지스터로 7.5테라플롭스 성능을 구현했다. / 엔비디아 제공
하나의 SM에는 5376개의 32비트 부동소숫점 연산기와 2688개의 64비트 부동소숫점 연산기, 5376개의 32비트 정수 연산기, 그리고 딥러닝을 위한 672개의 텐서 연산기가 있다.

그 결과 볼타는 고성능 컴퓨팅에 적합한 부동소숫점 연산 성능이 7.5 테라플롭스(Tera FLOPS)에 달하며 딥러닝을 위한 성능은 무려 120테라플롭스에 달한다. 이는 구글이 자체 개발한 TPU와 대등한 것으로 알려졌다.

엔비디아는 GPU를 카드형태로 판매하는 것 외에도 이를 활용한 시스템을 판매하며 사업영역을 확장하고 있다. 최근 발표한 DGX-1 시스템은 2개 인텔 제온 브로드웰 CPU와 8개의 볼타 GPU로 구성됐다. 이 시스템 부동소숫점 연산성능은 60테라플롭스, 딥러닝 연산성능은 무려 960테라플롭스에 달해 웬만한 슈퍼컴에 뒤지지 않는다.

다음에는 엔비디아를 맹렬히 추격하는 인텔과 구글, 마이크로소프트 등의 노력을 살펴보고자 한다.

※ 외부필자의 원고는 IT조선의 편집방향과 일치하지 않을 수 있습니다.

이지수 소장은 미국 보스턴대학에서 물리학 박사를 했고 독일 국립슈퍼컴센터 연구원, 한국과학기술정보연구원(KISTI) 슈퍼컴퓨팅센터 센터장, 사단법인 한국계산과학공학회 부회장, 저널오브컴퓨테이셔널싸이언스(Journal of Computational Science) 편집위원, KISTI 국가슈퍼컴퓨팅연구소 소장을 거쳐 현재는 사우디 킹 압둘라 과학기술대학교(KAUST) 슈퍼컴센터장을 맡고 있습니다.

관련기사