엔비디아가 ‘생성형 AI’ 시대에 최적화된 차세대 ‘블랙웰(Blackwell)’ 그래픽처리장치(GPU)와 플랫폼을 발표했다. ‘블랙웰’ 기반 B200 텐서 코어 GPU는 기존 ‘호퍼’ 대비 트랜지스터 집적 수는 두 배 이상 증가했고, FP4 기반의 AI 성능은 호퍼의 FP8 대비 다섯 배까지 올라간 것이 돋보인다.
엔비디아는 18일(현지시각) 미국 캘리포니아주 새너제이 컨벤션 센터(SAP 센터)에서 열린 ‘GTC 2024’ 행사의 기조연설을 통해, 차세대 ‘블랙웰’ 아키텍처 기반 GPU와 플랫폼을 발표했다.
새로운 ‘블랙웰’ GPU는 두 개의 다이를 10TB/s 대역폭으로 연결해 하나의 GPU로 구성했으며, TSMC의 맞춤형 2레티클 제한 4NP 공정을 통해 제조된다. 탑재된 2세대 트랜스포머 엔진은 FP4 형식의 연산을 지원하며, 이전 세대 ‘호퍼’ 대비 FP8 기반 성능은 2.5배, FP4 사용시에는 5배 향상된 성능을 제공할 수 있다. 한편, 엔비디아는 새로운 ‘블랙웰’ GPU 뿐만 아니라 노드에서 데이터센터 스케일에 이르는 다양한 구성 옵션을 함께 제시했다.
젠슨 황 엔비디아 CEO는 “트랜스포머 모델이 등장한 이후 거대언어모델(LLM)의 크기는 6개월마다 두 배로 커지는 추세고, 성능에 대한 요구도 그만큼 커졌다. 지금의 GPU로는 앞으로의 모델에 충분히 대응하기 어렵고 더 큰 GPU가 필요할 것이다”라고 지적했다.
엔비디아의 GPU 또한 이러한 요구에 따라 빠르게 성능을 높여 가고 있다. 2021년의 셀린(Selene) 슈퍼컴퓨터는 4480개의 A100 GPU로 3엑사플롭스(EFlops) 성능을 제공했지만, 2023년의 이오스(EOS)는 1만752개 H100 GPU로 43엑사플롭스 성능을 제공할 수 있을 정도로 성능과 확장성 측면에서 빠른 발전을 보였다고 덧붙였다.
‘호퍼(Hopper)’의 뒤를 잇는 차세대 GPU 아키텍처 명은 ‘블랙웰(Blackwell)’로, 미국의 통계학자이자 수학자인 ‘데이비드 헤롤드 블랙웰(David Harold Blackwell)’의 이름을 땄다. 이 ‘블랙웰’ 실리콘은 TSMC의 맞춤형 2레티클 제한 4NP 공정을 통해 제조되며, 개당 1040억 개의 트랜지스터를 집적했다. 실제 GPU는 이 실리콘 다이 두 개를 결합해 구성하며, 이 때 실리콘 수는 2080억개고, 다이간 연결 대역폭은 10TB/s에 이른다.
이렇게 ‘초대형’ 패키지로 등장한 블랙웰 GPU는 칩당 최대 20페타플롭스(PFlops) 연산 성능을 제공한다. 메모리는 192기가바이트(GB) 용량의 HBM3e를 탑재해, 이전 세대보다 두 배 이상 높아진 8TB/s의 메모리 대역폭을 제공한다. 엔비디아는 이전 세대의 ‘호퍼’와 비교하면, 블랙웰 GPU는 호퍼보다 트랜지스터 수는 1280억개 더 많고, 온-다이(on-die) 메모리는 4배 증가했으며, AI 성능은 5배까지 높아졌다고 소개했다.
이 블랙웰 GPU는 두 가지 구성으로의 활용이 가능하다. 먼저, 기존 ‘호퍼’ 기반 인프라 설계에 호환되는 HGX 구성에 블랙웰 GPU를 적용할 수 있다. 이와 함께, 새로운 구성으로는 두 개의 블랙웰 GPU와 하나의 그레이스 CPU를 조합한 형태로 사용할 수 있다. 이 조합에서는 각각 900GB/s 대역폭으로 연결된 CPU와 GPU가 384GB의 HBM3e 메모리 전체를 공유해 사용할 수 있다. 한편 이 조합을 하나의 패키징으로 구현한 ‘GB200 그레이스 블랙웰 슈퍼칩’은 HBM을 포함해 유닛당 총 864GB의 메모리를 갖추고, 3.6TB/s의 NV링크 대역폭을 제공한다.
블랙웰 GPU에 탑재된 2세대 트랜스포머 엔진은 새로운 FP6, FP4 연산을 지원해, LLM과 생성형 AI 등에서 이전 세대보다 큰 성능 향상을 제공한다.
젠슨 황 CEO는 “이제 생성형 AI 시대를 위한 새로운 기준과 구조가 필요하다. 블랙웰 GPU가 지원하는 FP4는 생성형 AI의 토큰 생성과 추론 성능에서 실질적인 성능 향상을 제공할 것이다”라고 밝혔다.
엔비디아는 블랙웰 GPU가 기존 호퍼 대비, 같은 FP8 기준에서 2.5배 높은 20페타플롭스 성능을, FP4에서는 5배 높은 40페타플롭스 성능을 제공한다고 밝혔다. 또한 HBM 모델 사이즈와 대역폭도 각각 6배, 5배 늘어났다고 덧붙였다. 그리고 2016년 ‘파스칼’ 아키텍처의 FP16 연산 성능이 19테라플롭스(TFlops)였던 것과 비교하면, 블랙웰은 8년만에 AI 성능에서 1000배 향상을 실제로 이뤄낸 것이라 평했다.
이와 함께, 블랙웰 GPU 기반 시스템에서 GPU간 직접 연결에 사용하는 NV링크(NVLink) 기술 또한 1.8TB/s로 이전 세대 대비 대역폭이 두 배 향상돼, 멀티 GPU간 연결에서의 성능이 대폭 향상됐다. 이 외에도 신뢰성을 위한 RAS(Reliability, Availability, and Serviceability) 엔진을 탑재하고 각 구성 요소의 신뢰성, 무결성을 지속적으로 확인해, 시스템 전체의 신뢰성과 가용성을 높였다고 덧붙였다.
일정 수준까지의 GPU 구성에서는 칩간 직접 NV링크 연결이 가능하지만, 일정 수준 이상의 GPU 구성에서는 스위치 칩이 필요하다. 새로운 NV링크 스위치 칩은 TSMC의 4NP 공정으로 500억 개의 트랜지스터를 집적했으며, 72포트의 듀얼 200Gbps 서데스(SerDes)를 제공한다. 이를 기반으로 확장된 DGX GB200 NVL72 시스템은 18개의 컴퓨트 트레이에 36개의 그레이스 CPU, 72개의 블랙웰 GPU를 고속 NV링크로 연결해 엑사플롭스 급 AI 시스템을 싱글 랙에 구현하고 30테라바이트(TB) HBM3e를 갖춘 하나의 거대한 GPU로 활용할 수 있게 한다.
한편, 엔비디아는 GPT-MoE-1.8T 모델을 90일만에 훈련시키는 데 기존에는 호퍼 GPU 8000개와 15메가와트(MW)의 전력이 필요했지만, 블랙웰 GPU는 이를 달성하는 데 2000개 GPU와 4MW 전력으로 충분해 전력 사용량을 75%까지 줄일 수 있다고 소개했다. 이 모델을 서비스하는 데 있어, 최적화된 ‘GB200’ 기반 시스템은 기존 H200 기반 시스템 대비 크게는 30배까지 높은 성능을 제공하며, 이는 GPU 뿐만 아니라 NV링크 성능 향상도 큰 역할을 했다고 덧붙였다.
엔비디아의 블랙웰 기반 제품은 올해 말부터 파트너사를 통해 구매 가능할 예정이다. 또한 AWS와 구글 클라우드, 마이크로소프트 애저, 오라클 클라우드 인프라가 블랙웰 기반 클라우드 인스턴스 서비스를 최초 제공할 예정이며, 이외에도 다수의 파트너들이 블랙웰 기반 클라우드 서비스와 인프라를 제공할 예정이다.
이와 함께, GB200은 엔비디아의 DGX 클라우드에서도 사용할 수 있으며, AWS와 구글 클라우드, 오라클 클라우드 인프라는 올해 말 그레이스 블랙웰 기반 인스턴스를 호스팅할 계획이다. 앤시스, 케이던스, 시놉시스 등 엔지니어링 시뮬레이션 분야의 글로벌 선도업체들도 블랙웰 기반을 사용해 자사 소프트웨어의 가속화를 지원할 계획이다.
한편, 엔비디아는 이번 GTC 2024 행사를 통해, 기업이 최적화된 생성형 AI 환경을 더 쉽게 구축, 활용할 수 있도록 생성형 AI를 위한 마이크로서비스를 선보인다고 밝혔다. 이 마이크로서비스는 컨테이너 형태로 제공되며, 쿠다(CUDA) 플랫폼과 엔비디아의 NIM 마이크로서비스를 포함한 풀 스택 구성과 사전 훈련된 모델을 갖췄다.
NIM 마이크로서비스는 엔비디아, A121, 어뎁트(Adept), 코히어(Cohere), 게티이미지, 셔터스톡 모델과 더불어 구글, 허깅페이스, 메타, 마이크로소프트, 미스트랄 AI, 스태빌리티 AI 의 오픈 모델을 배포할 수 있는 프로덕션 AI 컨테이너를 제공한다. 언어, 음성, 신약 개발과 같은 도메인을 위한 업계 표준 API도 제공한다. 개발자는 이러한 지원을 바탕으로 자체 인프라에서 안전하게 호스팅되는 독점 데이터를 사용해 AI 애플리케이션을 빠르게 구축할 수 있다.
권용만 기자 yongman.kwon@chosunbiz.com
- AI 시대 개막 “AI, 어디에 어떻게 쓸 것인가”…3월 27일 AI&CLOUD 2024 개최
- 생성AI와 클라우드 “미래 방향을 묻다”…3월 27일 AI&CLOUD 2024 개최
- 엔비디아도 채택한 HBM, 성능 경쟁 나선 차세대 인터페이스 [권용만의 긱랩]
- 델, 엔비디아 기반 생성형 AI 지원 포트폴리오 강화
- 레노버, 맞춤형 ‘하이브리드 AI’ 솔루션 공개…“최신 GPU 탑재”
- 엔비디아, 비주얼 콘텐츠 제공업체 위한 ‘3D 생성형 AI’ 출시
- 엔비디아와 협력 강화 나선 클라우드 기업들…‘블랙웰 GPU’ 품는다
- GTC 2024에서 ‘블랙웰’보다 더 눈에 띈 ‘로봇’ [인공지능 365]
- 지코어, 국내 첫 'H100' GPU 기반 AI 클라우드 데이터센터 15일 개소
- AI 열풍 속, 슈퍼컴퓨터 시장은 치열히 경쟁 중 [권용만의 긱랩]