젠슨 황 “블랙웰 울트라, AI 시대 40배 큰 생산성 제공” [GTC 2025]

차세대 ‘루빈’ 내년 출시

2025-03-19 권용만 기자

“블랙웰 시스템의 토큰 생산성은 기업의 AI 팩토리에 ‘40배’ 높은 생산성을 제공할 수 있다.”

젠슨 황 엔비디아 CEO는 18일(현지시각) 미국 캘리포니아주 새너제이에서 열린 엔비디아의 연례 콘퍼런스 행사 GTC 2025의 기조연설을 통해 최신 데이터센터 그래픽처리장치(GPU)와 인프라 포트폴리오를 소개하면서 이와 같이 밝혔다.

이번 GTC 2025서 엔비디아는 기존 ‘블랙웰’보다 1.5배 높은 성능을 제공하는 ‘블랙웰 울트라’와 새로운 GPU가 탑재된 시스템 디자인을 공식 발표했다. 블랙웰 울트라 기반의 ‘GB300 NVL72’는 기존 ‘GB200 NVL72’ 대비 1.5배 뛰어난 AI 성능을 제공한다. 기존 ‘호퍼’ 기반으로 구축된 AI 팩토리 대비 토큰 생산성을 기반으로 한 수익 기회는 50배까지 높일 수 있다. 이 외에도 엔비디아는 이번 행사에서 향후 ‘루빈’과 ‘루빈 울트라’로 이어지는 차세대 제품 로드맵도 제시했다.

기조연설에 나선 젠슨 황 엔비디아 CEO / 엔비디아 영상 갈무리

젠슨 황 엔비디아 CEO는 기조연설을 통해 “AI는 빠르게 바뀌고 있다”며 “이제 AI는 사용자의 맥락을 이해하고 대답을 생성하고 있다. 에이전틱 AI는 이를 기반으로 생각하며 새로운 추론(Reasoning) 모델, 로보틱스와 물리 AI에 기회를 만들고 있다”고 언급했다. 이어 “에이전틱 AI와 추론 모델의 등장은 컴퓨트 수요를 100배 이상 더 요구할 것”이라 말했다.

이러한 시대의 전환은 IT 인프라의 ‘AI 팩토리’화를 이끌고 있다. 젠슨 황 CEO는 “블랙웰 GPU는 현재 대량 생산 중이다”라며 “AWS와 마이크로소프트, 구글, 오라클 등 세계 4대 클라우드 업체의 지난 1년간 블랙웰 구매량은 360만개로 이전 ‘호퍼’의 130만개보다 크게 늘었다”고 말했다. 한편, 블랙웰은 칩당 두 개의 GPU가 탑재되는 특징이 있다.

AI는 실험실을 나와 데이터센터로 왔고 이제는 데이터센터를 벗어나 ‘어디에나’ 있는 존재로 확장되고 있다. 젠슨 황 CEO는 이에 대해 “AI가 어디서나 활용되기 위해서는 칩 뿐만 아니라 라이브러리, 프로그래밍 모델을 포함한 ‘풀 스택’이 함께 가야 한다”고 제시했다. 또한 ‘엣지’에서는 시스코, 티모바일(T-mobile)과 협력한 가속 컴퓨팅 기반 풀 스택 AI 무선 네트워크 환경 구현을 소개했고 로보틱스와 자율주행 관련에서는 GM(General Motors)과의 협력을 언급했다.

블랙웰 기반 ‘AI 팩토리’ 환경의 토큰 생산성은 호퍼 대비 40배까지도 높다. / 엔비디아 영상 갈무리

이번 GTC 2025에서는 ‘블랙웰 울트라(Blackwell Ultra)’가 공식적으로 선보였다. 이 GPU는 기존 ‘블랙웰’이 1.5배 더 확장돼 최대 288GB의 HBM3e 메모리를 탑재하고 1.5배 더 높은 성능을 제공한다. 이 ‘블랙웰 울트라’를 탑재한 ‘GB300 NVL72’는 랙 당 20TB의 HBM 메모리와 40TB의 고속 메모리, 14.4TB/s의 네트워킹 대역폭과 130TB/s의 NV링크 대역폭을 제공한다. FP4 기준 연산 성능은 1.1엑사플롭스(EFlops)다. ‘블랙웰 울트라’는 올해 하반기에 본격 출시 예정이다.

DGX 슈퍼팟(SuperPOD) 또한 블랙웰 울트라의 발표와 함께 업그레이드됐다. 엔비디아는 DGX GB300 시스템 기반의 DGX 슈퍼팟은 576개 블랙웰 울트라 GPU와 288개 그레이스 GPU, 300TB의 고속 메모리를 탑재해 11.5엑사플롭스 FP4 성능을 제공할 수 있다고 발표했다. DGX B300 시스템 기반의 DGX 슈퍼팟은 엔비디아 MGX 랙과 엔터프라이즈 데이터센터를 위한 새로운 디자인이 적용됐고, 확장 가능한 공랭식 아키텍처를 사용한다.

엔비디아는 새로운 블랙웰 기반 시스템이 기존 호퍼 대비 토큰 생성량 기준 뛰어난 경제성을 제공해 AI 서비스 등에서 고객의 매출 확장을 최대 ‘40배’까지 확장시킬 수 있다고 제시했다. 호퍼의 NVL8 디자인과 FP8 정밀도 대비 블랙웰의 NVL72 디자인과 FP4 정밀도의 성능은 최대 25배까지 높으며 다양한 워크로드를 위한 요구사항들에 유연하게 대응할 수 있다. 100메가와트(MW) 전력 용량의 AI 팩토리 환경에서 GB200 NVL72는 H100 NVL8 대비 절반 이하의 랙 수에 두 배 가까운 GPU 다이를 집적하고 토큰 생성량은 40배 더 높다고 제시했다.

차세대 ‘베라 루빈 NVL144’ 주요 특징 / 엔비디아 영상 갈무리

블랙웰과 루빈 이후로 이어지는 엔비디아 ‘AI 팩토리’ 포트폴리오 로드맵 / 엔비디아 영상 갈무리

‘블랙웰’ GPU의 차기 제품으로는 ‘루빈(Rubin)’이 준비된다. 이 GPU는 2 랙티클 사이즈의 GPU로 디자인되며 288GB 용량의 HBM4를 탑재하고, 50PF FP4 성능을 제공할 계획이다. ‘그레이스’ CPU의 차기 제품은 ‘베라(Vera)’가 준비된다. 이 CPU에는 커스텀 설계 기반 Arm 코어가 88개 탑재돼 176쓰레드 구성을 제공하고 1.8TB/s 대역폭의 NV링크-C2C로 연결된다.

이 ‘베라’와 ‘루빈’이 모인 슈퍼칩 기반 시스템은 ‘베라 루빈 NVL144’로 2026년 하반기 선보일 예정이다. 3.6EF FP4 추론 성능과 1.2EF FP8 훈련 성능을 제공하며 이는 최신 ‘GB300 NVL72’의 3.3배에 해당된다. HBM4의 메모리 대역폭은 13TB/s, 탑재되는 고속 메모리 용량은 75TB에 이르며 차세대 ‘NV링크6’ 대역폭도 기존의 두 배인 260TB/s, 차세대 CX9을 사용한 네트워크 연결 대역폭도 기존의 두 배인 28.8TB/s가 될 것이라 언급됐다.

2027년 하반기에는 ‘루빈 울트라’가 준비된다. ‘루빈 울트라’는 4 랙티클 사이즈 GPU로 루빈의 두 배가 되며 FP4 성능은 100PF에 이를 것으로 언급됐다. 메모리도 HBM4e로 1TB 용량이 탑재될 계획이다. 이 ‘루빈 울트라’ GPU와 ‘베라’ CPU가 조합된 슈퍼칩 기반 시스템은 ‘루빈 울트라 NVL576’으로, GB300 NVL72의 14배에 이르는 15EF FP4 추론 성능과 5EF FP8 훈련 성능을 제공한다. ‘NV링크7’ 대역폭은 기존의 12배인 ‘1.5PB/s’, ‘CX9’ 기반 네트워크 대역폭도 ‘115.2TB/s’까지 확장될 것이라 언급됐다.

이러한 공격적인 성능 향상은 ‘AI 팩토리’의 경제성을 크게 바꾼다. 젠슨 황 CEO는 기조연설에서 “기존 대비 블랙웰과 루빈을 거치면서 성능이 크게 오르고, 비용 대비 성능으로 계산되는 비용 효율은 크게 낮아진다”고 말했다.

‘실리콘 포토닉스’를 도입한 엔비디아 포토닉스 스위치 시스템 / 엔비디아 영상 갈무리

데이터센터의 GPU 인프라를 확장하기 위한 또 다른 과제는 ‘네트워크’다. 이 부분에서도 엔비디아는 네트워크 칩 패키징에 ‘실리콘 포토닉스(Silicon Photonics)’를 통합한 칩을 선보인다고 발표했다. 실리콘 레벨로 통합된 광학 입출력은 더 고밀도, 대용량 네트워크 스위치를 효율적으로 구현할 수 있게 한다. 엔비디아는 실리콘 포토닉스 통합을 통해 기존 대비 4배 적은 레이저를 통합해 3.5배 높은 전력 효율성, 63배 뛰어난 신호 무결성, 10배 개선된 대규모 네트워크 복원력, 1.3배 빠른 배포 속도를 제공한다.

엔비디아 스펙트럼-X 포토닉스 스위치는 총 대역폭 100Tb/s를 제공하는 800Gb/s 128포트 또는 200Gb/s 512포트와 총 처리량 400Tb/s를 제공하는 800Gb/s 512포트 또는 200Gb/s 2,048포트 등 다양한 구성이 준비됐다. 퀀텀-X 포토닉스 스위치는 800Gb/s 인피니밴드 144포트를 제공하며 수냉식 설계를 사용해 온보드 실리콘 포토닉스를 효율적으로 냉각한다. 퀀텀-X 포토닉스 인피니밴드 스위치는 올해 하반기, 스펙트럼-X 포토닉스 이더넷 스위치는 2026년 출시 예정이다.

권용만 기자

Yongman.kwon@chosunbiz.com