삼성 품은 AMD 인스팅트 MI350, 엔비디아 ‘블랙웰’에 견줄 성능 갖춰 [AMD AAI 2025]
이전 세대 대비 성능 4배 높아져… 차세대 ‘MI400’은 2배 성능 향상 제시
AMD의 차세대 그래픽처리장치(GPU) ‘인스팅트 MI350(Instinct MI350)’이 미국 캘리포니아주 새너제이(San Jose)에서 열린 ‘AMD 어드밴싱 AI(Advancing AI) 2025’ 행사를 통해 모습을 드러냈다.
새로운 MI350 시리즈는 기존 MI300X에서는 지원되지 않던 FP4 데이터 형식을 지원해 기존 MI300X의 FP8 성능보다 4배 높은 최대 20PF(페타플롭스)의 성능을 낼 수 있게 됐다. 또한 총 288GB 용량의 HBM3E 메모리를 갖춰 대규모 모델을 쉽게 다룰 수 있게 됐다. 특히 이번 인스팅트 MI350 시리즈에는 삼성전자와 마이크론의 HBM3E 메모리가 탑재되는 것이 공식 확인돼 눈길을 끈다.
칩렛 구조 고도화, 메모리와 연산 성능 크게 높아져
AMD의 인스팅트 MI350 시리즈 GPU는 기존 인스팅트 GPU나 에픽(EPYC) 프로세서가 사용하던 ‘칩렛’ 디자인 기조를 이어 간다. 이 아키텍처의 기반이 되는 ‘XCD(Accelerator Complex Die)’는 TSMC의 N3P 공정으로 제조되고, 4개의 XCD가 TSMC N6 공정 기반의 IOD(I/O Base Die) 위에 올라간다. 그리고 두 개의 IOD, 8개의 HBM3E 메모리가 결합돼 전체 제품을 구성하게 된다. 전체 제품 차원에서는 2개의 IOD에 8개의 XCD, 8개의 HBM3E가 연결되는 구조다.
개별 XCD는 32개의 컴퓨트 유닛(CU)이 탑재됐고, IOD당 4개의 XCD가 탑재된 IOD 두 개가 5.5TB/s 대역폭의 인피니티 패브릭 어드밴스트 패키지(IF-AP)로 결합됐다. 탑재된 HBM3E는 8개로, 단순히 보면 XCD 한 개에 HBM3E 한 개가 연결될 수 있는 구조다. 삼성전자나 마이크론이 만든 12단 구성의 36GB HBM3E 메모리를 8개 탑재해, 총 288GB 용량에 8TB/s 대역폭을 제공한다. 그리고 최대 8개까지의 GPU가 직접 연결될 수 있게 1075GB/s 대역폭의 4세대 인피니티 패브릭 연결을 7개 갖는다. 호스트 시스템과는 PCIe 5.0으로 연결된다.
AMD는 이 MI350 시리즈 GPU를 효과적으로 활용할 수 있도록 이전보다 더 다양하게, 단일 GPU를 최대 8개로 쪼갤 수 있는 구성을 제공한다. AMD는 이에 대해 MI350 시리즈를 단일 구성으로 사용했을 때는 최대 5200억 파라미터의 모델을 사용할 수 있고, 8개 파티션으로 분할했을 때는 라마 3.1 700억 파라미터 규모의 모델을 8배 더 많이 구동할 수 있다고 제시했다.
AMD 인스팅트 MI350 시리즈 GPU의 데이터 유형 지원도 FP4/6를 지원할 수 있게 확장됐고 성능 향상 또한 행렬 연산 유형에 집중됐다. AMD의 자료에 따르면 MI350 시리즈는 MI300X 대비 FP64/32/16이나 행렬 FP32에서는 이전 세대 대비 비슷한 성능이고, 행렬 FP64에서는 이전 세대 성능의 절반이다. 하지만 행렬 유형의 FP16/BF16부터는 이전 세대 대비 두 배 성능을 제공하고, 새로운 FP4/6 지원은 FP8 대비 두 배 성능을 제공할 수 있다. MI350X의 FP4 성능은 이전 세대 MI300X의 FP8 성능과 비교하면 최대 4배 높아진다.
메모리와 내부 연결 대역폭 향상 또한 성능 향상에 일조했다. MI350 시리즈는 288GB 용량의 HBM3E 메모리를 사용하고, 공정 개선과 메모리 읽기 성능 최적화로 와트당 HBM 메모리 읽기 성능이 기존 MI300X 대비 1.3배 높아졌다. 또한 혼합 정밀도의 GEMM(General Matrix Multiply) 성능이 두 배 높아지고, FP4/FP6 데이터 형식 지원이 추가됐으며, 내부 메모리 전송 효율도 높였다. 이러한 최적화로 MI350X가 제공 가능한 컴퓨트 유닛당 메모리 읽기 성능은 기존 MI300X 대비 1.5배까지 높아졌다.
이전 세대 대비 같은 조건에서 두 배 가까운 성능을 달성했음에도 전력 소비량이 두 배가 되지 않은 점은 제품의 전력 효율이 높아졌음을 보여준다. 특히 AMD는 MI350 시리즈에서 컴퓨트 유닛 주변의 ‘언코어’ 전력소비량을 최적화해 전력 효율을 높였다고 소개했다. 패키지 전체에 사용할 수 있는 전력이 제한된 상황에서 성능에 영향이 적은 언코어 영역의 전력 소비를 줄이면, 그 만큼 ‘코어’ 영역에서 더 많은 전력과 더 높은 성능을 얻을 수 있다.
공랭과 수랭 구성 옵션 마련, 수랭 시 랙당 128개 GPU 집적
AMD는 인스팅트 MI350 시리즈에 크게 두 가지 옵션을 준비했다. 이 중 공랭 방식으로 디자인된 것이 ‘MI350X’로, GPU당 1000W의 열설계전력(TDP)을 가진다. 수랭 방식으로는 ‘MI355X’가 준비됐고, GPU당 TDP는 1400W다. 하나의 서버 노드에는 최대 8개의 GPU가 탑재돼 직접 연결되며, 각 노드당 성능에서는 MI355X 쪽이 10% 정도 높은 것으로 소개됐다.
AMD는 MI355X 기반 구성에서 개별 노드의 크기로 2U~5U 정도의 폼팩터를 제안했다. 이 중 2U 구성을 기반으로 최대 밀도로 구성할 경우 랙당 서버 16대로 128개 MI355X GPU와 36TB HBM3E 메모리를 탑재할 수 있으며 이 때 FP6/4 기반의 최대 성능은 2.57EF(엑사플롭스)에 이른다고 제시했다.
공랭 기반의 MI350X 기반 구성에서 개별 노드 크기는 6U~10U 정도 크기로 구성된다. 이 중 가장 높은 밀도의 폼팩터를 기준으로 랙을 구성할 경우, 랙당 서버 8대로 64개의 MI350X GPU와 18TB HBM3E 메모리를 탑재하고 1.18EF FP6/4 성능을 구현할 수 있을 것으로 제시했다.
AMD는 새로운 MI355X GPU가 기존 MI300X 대비 라마 3.1 4050억 파라미터 규모에서 AI 에이전트와 챗봇에서는 4.2배까지, 요약에서는 3.8배, 콘텐츠 생성에서는 2.9배까지 높은 성능을 보인다고 소개했다. 이러한 성능 향상은 최신 GPU의 새로운 데이터 유형 지원과 최신 ROCm 7 버전 등에 힘입은 것으로도 보인다. 딥시크-R1 모델이나 라마 3.3 700억 파라미터 모델에서 FP4를 사용한 MI355X는 FP8 기반 MI300X 대비 3배 이상의 성능을 보인 것으로 소개됐다.
경쟁 제품으로는 엔비디아의 ‘블랙웰’ 기반 제품이 제시됐다. AMD는 SGLang을 적용한 MI355X가 텐서RT-LLM을 적용한 B200 대비 딥시크-R1 FP4 환경에서 20% 높은 성능을 제공하며, vLLM을 적용한 MI355X는 텐서RT-LLM 환경의 B200 대비 라마 3.1 4050억 파라미터의 FP4 구성에서 30% 높은 성능을 제공한다고 언급했다. MI355X는 B200 대비 같은 비용에서 40% 더 많은 토큰을 생성할 수 있다며 가격 경쟁력 또한 강조했다.
AMD의 새로운 랙 스케일 솔루션 ‘헬리오스(Helios)’ AI 랙은 AMD의 최신 프로세서와 GPU, DPU(Data Processing Unit), ROCm 소프트웨어 스택이 모두 결합된 구성으로 2026년 중 공급이 시작될 예정이다. 이 솔루션은 AMD의 최신 기술들을 OCP(Open Compute Project), 울트라 이더넷, UALINK(Ultra Accelerator Link) 등의 표준 기술을 기반으로 연결했다. 업계 표준 랙마운트와는 다른 ‘더블 와이드 랙’을 사용하며, AMD는 이에 대해 “현재 데이터센터 환경이 면적보다 전력에 더 민감한 만큼, 디자인 균형 측면에서 충분히 타협할 만한 수준으로 봤다”고 언급했다.
한편, AMD는 차세대 ‘MI400 시리즈’ GPU에 대한 대략적인 사항도 공개했다. 2026년 중 선보일 이 제품은 432GB의 HBM4 메모리를 탑재하고 FP4 기준 40PF 성능을 제공할 것으로 알려졌다. 연산 성능에서는 현재 MI355X의 두 배 수준이 된다. AMD의 차세대 MI400 시리즈 GPU가 탑재된 ‘헬리오스’ AI 랙은 엔비디아의 차세대 ‘베라 루빈’ 탑재 솔루션 대비 동급의 연산 성능에 1.5배 많은 메모리 용량과 대역폭, 외부 연결 성능을 제공할 것으로 소개됐다.
새너제이=권용만 기자
yongman.kwon@chosunbiz.com