가우디 2 가속기, AI 시대 GPU의 현실적 대안 [5세대 인텔 제온]
경쟁력 있는 성능과 뛰어난 확장성, 높은 코드 이식성 갖춰 인텔, 차세대 ‘가우디 3’에서 가우디 2의 4배 성능 제공 제시
‘생성형 AI’와 ‘거대언어모델(LLM)’이 등장하면서 AI 인프라 시장에서 ‘그래픽처리장치(GPU)’는 전략적 자원으로까지 주목받고 있다. 하지만 꼭 GPU가 아니더라도, AI를 위한 연산을 효율적으로 처리할 수 있는 ‘가속기’들이 GPU의 대안으로 주목받고 있다. 그리고 인텔의 ‘가우디 2’가속기는 현재 AI 인프라를 위한 엔비디아의 GPU에 가장 근접한 대안으로 평가된다.
인텔은 11월 30일 미국 오레곤주 포틀랜드의 인텔 존스팜 캠퍼스(Jones Farm Campus)에서 미디어 워크샵을 개최하고 코드명 ‘에메랄드 래피즈(Emerald Rapids)’로 알려진 ‘5세대 인텔 제온 스케일러블 프로세서’를 소개했다.
딥러닝 영역에 특화된 인텔의 ‘가우디 2’ 가속기는 생성형 AI와 거대언어모델(LLM)이 주목받는 최근 시장 상황에서 엔비디아 GPU의 대안으로 주목받고 있다. ‘가우디 2’는 칩당 24개의 텐서 프로세서 코어와 96기가바이트(GB)의 HBM2E 메모리를 탑재했으며, 칩당 24개의 100Gbps 이더넷 인터페이스를 통해 높은 확장성을 갖췄다. 인텔은 이 ‘가우디 2’가 엔비디아의 A100 GPU 이상의 성능, H100 GPU보다 뛰어난 전력과 비용 효율을 제공한다고 제시했다.
◇ 가우디 2, 딥러닝과 거대모델 AI 시대 위한 기술 갖춰
레자 자자예리(Reza Jazayeri) 인텔 가우디 고객 엔지니어링 리드는 이 자리에서, 고객들은 오늘날의 ‘생성형 AI’와 거대언어모델 환경에서 높은 딥러닝 성능과 유연한 확장성, 개발자의 사용 용이성 측면을 중요하게 여기고 있다고 소개했다. 그리고 ‘가우디’ 가속기가 집중하는 영역은 지금까지 AI기술이 거쳐 온 여정 중 2010년 이후 본격화된 ‘딥러닝’과 2016년 이후 본격화된 ‘대규모’ 시대에 해당된다고 덧붙였다.
인텔은 향후 ‘모든 곳에서의 AI(AI Everywhere)’ 전략에 기반해 클라이언트와 엣지에서부터 데이터센터에 이르는 폭넓은 영역에서의 제품군을 갖추고 있다. 이러한 넓은 포트폴리오 안에서도 ‘가우디 2’는 데이터센터 등에서의 딥러닝 훈련과 추론에 특화된 위치에 있고, 높은 처리량과 낮은 지연속도를 제공한다고 소개했다. 또한 1세대는 AWS 등에서 사용된 바 있고, 현재의 2세대는 하드웨어로는 슈퍼마이크로의 서버 등으로, 서비스로는 인텔 개발자 클라우드 등으로 제공된 바 있다고 밝혔다.
현재의 ‘가우디 2’는 7nm 공정으로 만들어지고 있으며, 생성형 AI와 거대언어모델 처리에 뛰어난 성능을 제공한다. ‘이종 AI 커스텀 컴퓨트 엔진(Heterogenous AI-Custom Compute Engine)’을 표방하는 가우디 2는 칩당 24개의 텐서 프로세서 코어(Tensor Processor Cores)와 듀얼 행렬 곱셈 엔진(Dual Matrix Multiplication Engines)을 갖췄다. 또한 칩당 96기가바이트(GB)의 HBM2E 메모리를 갖춰, 주요 경쟁 GPU들보다 좀 더 큰 모델을 구동하는 데 있어 수월한 환경을 제공한다.
‘가우디 2’의 또 다른 특징은 ‘확장성’이다. 가우디 2의 레퍼런스 디자인은 시스템당 2개의 CPU, 8개의 가우디 2를 탑재하며, 시스템과 가우디 2의 연결에는 ‘PCI 익스프레스’ 인터페이스를, 시스템에 탑재된 가우디 2 가속기간 연결에는 ‘이더넷’을 사용한다. 가우디 2는 총 24개의 100Gbps 이더넷 인터페이스를 갖췄는데, 이 중 21개는 주변에 배치되는 7개의 다른 가우디 2 가속기와 직접 연결되고, 나머지 3개는 스케일 아웃 확장에 활용된다. 대역폭이나 인터페이스의 유연성 측면에서 모두 장점을 가지는 측면이 돋보인다.
인텔은 가우디 2 기반의 레퍼런스 시스템 디자인으로 크게 두 가지 유형을 제시했다. 첫 번째는 ‘스몰 팟(Small Pod)’ 구성인데, 가우디 2를 탑재한 시스템 노드 8대와 3개의 400Gbps 이더넷 스위치의 조합이며, 더 큰 규모로의 확장도 쉽게 가능하다. 두 번째는 최대 16개의 가우디 2 시스템 노드를 연결하는 ‘라지 팟(Large Pod)’ 구성이며, 이는 400Gbps 이더넷 스위치 이외에도 서버, 스토리지, 네트워크 구성 요소를 포함한 ‘인프라 랙’을 가우디 노드 랙과 함께 조합하는 방법이다.
한편, 인텔은 ‘가우디 2’의 구성 확장에서 네트워크 구조는 ‘리프-스파인(Leaf-Spine)’ 구조를 기반으로 한 1:1 연결을 제공해, 최신 거대언어모델(LLM)을 위한 대규모 인프라 구축에서도 선형에 가까운 이상적인 성능 확장을 제공할 수 있다고 소개했다. 그리고 가우디 2 가속기 기반 시스템은 슈퍼마이크로 등의 파트너를 통해 구입과 온프레미스 구축이 가능하며, 서비스 형으로는 인텔의 ‘개발자 클라우드’ 서비스를 활용할 수 있다고 밝혔다.
이와 함께, 인텔은 2024년 중 선보일 차세대 ‘가우디 3’에 대해서도 소개했다. 인텔은 차세대 ‘가우디 3’는 기존 ‘가우디 2’의 아키텍처를 기반으로 더 큰 규모로 확장해 성능을 올릴 계획이다. ‘가우디 3’는 기존 가우디 2 대비, BF16 기준 4배의 연산 성능과 2배의 네트워크 대역폭, 1.5배의 HBM 대역폭 성능을 제공할 것이며, 5nm급 공정으로 제조될 것이라 밝혔다.
가우디 3에서는 새로운 쿨링 옵션으로 ‘수냉’ 구성도 제공된다. 인텔은 버티브(Vertiv)와의 협력을 통해 에너지 효율적인 수냉 쿨링 옵션을 제공할 예정인데, 이 쿨링 시스템은 45℃ 정도의 수온에서도 운영이 가능하도록 설계돼 냉각에 사용되는 에너지 소비를 최소화한 것이 특징이다. 특히, 이 구성은 비교적 높은 온도에서 운영되는 ‘고온 데이터센터’ 설계와 함께 사용할 수도 있어, 데이터센터의 에너지 부담을 최적화할 수 있다. 물론, 인텔은 수냉 옵션 뿐 아니라, 기존의 공냉 옵션도 함께 제공한다고 덧붙였다.
◇ 가우디 2, 생성형 AI에서 엔비디아 GPU의 유일한 대안 위치
인텔은 ‘가우디 2’가 현재의 생성형 AI 시장에서 엔비디아의 H100 GPU를 대체할 수 있을 유일한 대체제가 될 수 있다고 소개했다. 특히, 인텔은 소프트웨어 개선을 통해 ‘가우디 2’에서 FP8 형식의 처리를 지원함으로써, 최신 MLPerf의 GPT-3 벤치마크에서 이전 대비 두 배 이상의 처리량을 달성했다고 밝혔다.
현재 ‘가우디 2’의 성능은 GPT-3나 스테이블 디퓨전, BERT 등에서 엔비디아의 H100 대비 절반 정도 수준이다. 하지만 GPT-3에서는 FP8 지원으로 이전보다 성능 격차를 줄였고, 구글의 TPU보다는 확연히 앞서 있다고 소개했다. 또한 ResNet의 경우에는 BFloat16을 사용한 가우디 2가 FP16을 사용한 H100에 15% 정도의 성능 차로 근접하고, GPT-J에서는 H100보다 10~30% 정도 성능 차이가 있지만 A100보다는 두 배 이상 빠르다고 밝혔다.
에너지 효율 또한 눈여겨 볼만한 부분이다. 인텔은 ‘가우디 2’ 가속기가 엔비디아의 H100 GPU 대비, BLOOMZ 176B 추론 기준, 디바이스 당 전력 소비는 50% 낮고 전력 효율은 79% 높은 결과를 보였다고 소개했다. 이어, ‘가우디 2’는 현재 높은 가격과 수급 문제로 구입이 어려운 상황에 놓인 H100 GPU와 비교해, 경쟁력 있는 성능과 효율을 갖춘 강력한 대안이 될 수 있다는 점을 강조했다.
최근 ‘가우디 2’는 몇 가지 주목할 만한 성과를 거뒀다. 먼저, ‘스태빌러티.AI(Stability.AI)’가 4000개의 가우디 2 가속기를 사용한 시스템을 도입하기로 결정했으며, 인텔 개발자 클라우드에서도 수천 개의 가우디 2 기반 ‘샌드박스’ 환경이 준비돼 있다. 또한 최근 발표된 MLPerf 결과에서, 가우디 2는 FP8 형식으로 기존 BF16 대비 두 배의 처리량을 기록해, 비용 대비 매력을 크게 끌어올렸다고 덧붙였다.
가우디 2는 소프트웨어 측면에서도 높은 호환성, 이식성을 갖췄다. 인텔은 가우디 2를 활용할 수 있는 기본 환경으로 ‘원API(oneAPI)’를 제시하며, 원API에 통합된 시냅스AI(SynapseAI)는 가우디 소프트웨어에서 추후 발표 예정인 XPU ‘팔콘 쇼어(Falcon Shores)’까지 호환성을 제공할 것이라 밝혔다.
또한 가우디의 소프트웨어 생태계에는 파이토치(PyTorch)와 텐서플로우(TensorFlow) 등의 프레임워크와 개발 도구, 모델 라이브러리, 경량화된 프레임워크와 오케스트레이션(Orchestration) 도구까지 포함돼 있어, 다양한 모델에 빠르게 접근하고 활용할 수 있다고 밝혔다.
특히 인텔은 GPU 기반으로 만들어진 최신 모델을 활용하고자 할 때, GPU 호출 관련 코드 정도를 가우디 2에 맞게 바꾸는 정도로 바로 활용할 수 있는 높은 이식성을 강조했다. 이 외에도, 쿠다(CUDA)를 SYCL 코드로 바꿔 주는 툴 또한 제공하고 있다고 덧붙였다.
이와 함께, 소프트웨어 지원에서의 ‘적극성’ 또한 강조했다. 인텔은 최신 모델을 가우디 2에 사용할 수 있도록 빠르게 지원하고 있으며, 천 억 파라미터 이상의 LLM 모델에 대해 추론 지원에는 6개월, 훈련 지원은 12개월 정도에 제공했고, 이는 GPU 생태계보다 빠른 움직임이라고 밝혔다.
포틀랜드=권용만 기자 yongman.kwon@chosunbiz.com