GPU 서버 ‘델 파워엣지 XE8640’ ②성능편 “하드웨어 최적화로 AI 성능 극대화” [리뷰]
AI 성능 극대화 ‘4세대 제온 CPU’ ‘엔비디아 H100 GPU’ 조합 AI/HPC 시장에서 고성능·고밀도·고효율 균형잡힌 구성 매력적
현재의 인공지능, 특히 딥러닝(DL)과 거대언어모델(LLM)에서 그래픽처리장치(GPU)가 성능에 미치는 영향은 절대적으로 평가받는다. 하지만 원론적으로, 시스템에는 GPU만 있어서는 사용할 수 없고, CPU와 메모리, 스토리지와 네트워크 등 다양한 부분들이 적절한 ‘균형’을 이뤄야 한다. 특히 초대형 AI 워크로드에서는 고성능 GPU 뿐만 아니라 높은 성능의 CPU와 대용량 메모리, 시스템 내부의 주요 구성요소들을 연결하는 고성능 인터커넥트와 스토리지가 모두 필요하다.
델의 파워엣지 XE8640은 현존 최고 수준의 성능을 가진 CPU와 GPU를 탑재한 것 뿐만 아니라 이들의 잠재력을 극대화할 수 있는 설계를 갖췄다. 프로세서 지원에서는 최대 열설계전력(TDP) 350W, 56코어 구성의 인텔의 4세대 제온 스케일러블 프로세서를 두 개까지 사용할 수 있다. 메모리는 시스템 수준에서 최대 4테라바이트(TB)를 탑재할 수 있어, 대형 AI 워크로드의 주요 과정에서 부족함 없는 구성을 제공한다.
파워엣지 XE8640은 80GB HBM3 메모리를 갖춘 엔비디아의 H100 텐서코어 GPU를 네 개 탑재해 GPU 가속 가능한 AI, HPC 워크로드에서 최고의 성능을 제공한다. 엔비디아의 H100 GPU는 이젠 세대 대비 두 배 이상의 연산 성능을 제공한다. GPU간에는 NV링크(NVLink) 기술로 직접 연결돼 뛰어난 성능 확장성도 갖췄다. XE8640은 최대 소비전력 700W에 달하는 이 H100 80GB GPU 네 개를 장시간 안정적으로 사용할 수 있는 뛰어난 기반을 갖춘 점이 인상적이다.
모든 AI 워크로드 유형에 최적화된 기술 구성
델의 파워엣지 XE8640은 현존 최고 수준의 성능을 가진 CPU와 GPU를 탑재한 것에 그치지 않고, 비교적 작은 4U 폼팩터에서도 타협 없는 최대 성능 구성을 갖출 수 있다는 점이 돋보인다. 파워엣지 XE8640은 인텔의 4세대 제온 스케일러블 프로세서의 듀얼 소켓 구성을 제공하며, 소켓당 최대 350W TDP를 갖춘 프로세서를 사용할 수 있다. 4세대 제온 스케일러블 프로세서 중 가장 높은 성능을 갖춘 제품은 56코어 구성과 TDP 350W 설정을 사용하는 ‘제온 플래티넘 8480+’ 모델이다.
4세대 제온 스케일러블 프로세서는 이전 세대 대비 기능과 성능 면에서 크게 향상된 것이 특징이다. 코어당 성능은 물론이고, 프로세서 당 코어 수도 최대 56코어까지 사용할 수 있다. 기존의 AVX-512 뿐만 아니라 AI 워크로드에 효과적인 행렬 연산을 가속하는 ‘AMX(Advanced Matrix Extensions)’ 명령어가 탑재된 것도 특징이다. 메모리는 8채널 DDR5 구성을 지원한다. 스토리지나 주변 장치와 연결되는 인터페이스도 이전 세대 대비 대역폭이 두 배 올라간 PCIe 5.0을 지원한다.
델은 파워엣지 XE8640의 설계에서 이러한 4세대 제온 스케일러블 프로세서와 기반 플랫폼의 주요 특징을 타협 없이 담았다. 파워엣지 XE8640의 CPU부에서는 최대 TDP 350W 급의 ‘제온 플래티넘 8480+’ 프로세서도 성능이나 전력 소비량의 제약 없이 사용할 수 있다. 메모리 지원에서도 소켓당 8개 채널, 16개 소켓을 모두 사용할 수 있어, 시스템 레벨에서는 총 32개 메모리 소켓으로 최대 4테라바이트(TB)에 이르는 대용량 메모리를 구성할 수 있다. PCIe 확장 슬롯이나 스토리지에서 등 어떤 구성에서도 대역폭의 타협이 필요 없다는 점이 인상적이다.
파워엣지 XE8640에 탑재된 GPU는 엔비디아의 ‘H100’으로, SXM5 폼팩터를 사용한다. 이 SXM5 폼팩터의 H100 GPU는 엔비디아의 DGX 시스템이나 파트너들의 HGX 시스템에 사용되며 최대 700W TDP 구성을 사용할 수 있다. H100에는 PCIe 와 SXM 폼팩터 옵션이 있는데, SXM 쪽이 좀 더 높은 TDP 설정과 GPU메모리 대역폭, NV링크 대역폭을 갖춰 더 높은 성능을 제공한다. 4개 혹은 8개 GPU 구성이 레퍼런스인데, 8개 구성 시에는 GPU간 연결에 별도의 스위치가 필요하다. 델의 포트폴리오 중 8개 GPU 모델은 XE9680이 있다.
SXM5 폼팩터를 사용하는 엔비디아 H100 GPU는 최신 ‘호퍼’ 아키텍처를 기반으로 한다. 총 1만6896개의 FP32 쿠다(CUDA) 코어와 528개의 4세대 텐서 코어(Tensor Core)를 갖춰 현재 엔비디아의 GPU 중 최고 수준의 연산 성능을 제공한다. 특히 4세대 텐서 코어를 탑재한 H100은 이전 세대 A100 대비 유닛당 두 배의 행렬곱 성능을 제공하며, GPU 수준에서는 최대 6배까지 높은 성능을 발휘한다. 이 외에도 FP64, FP32 성능에서는 A100 대비 3배까지 성능이 높고, 새로운 DPX 명령어나 비순차적 실행, 텐서 메모리 가속기, 분산된 공유 메모리 등의 새로운 특징을 갖췄다.
H100 GPU에 탑재된 80GB의 HBM3 메모리는 3.35TB/s 대역폭을 갖춰, 최신 대형 LLM 모델에서 그 가치가 더 높다. 이전 세대인 A100과 비교하면 메모리 크기는 두 배, 대역폭은 두 배 이상 높아졌다. 여러 개의 GPU를 연결하는 ‘NV링크’는 이전 세대 대비 1.5배까지 높아진 900GB/s 대역폭을 갖췄다. 이를 통해 여러 개의 GPU와 GPU에 연결된 메모리를 함께 공유해 활용할 수 있는 점도 장점이다.
한편, 파워엣지 XE8640은 플랫폼 차원에서 좀 더 다양한 형태로 GPU를 활용할 수 있는 방법을 제공하는 점도 돋보인다. 먼저, GPU와 스토리지의 연결에서는 엔비디아의 GDS(GPUDirect Storage) 기술을 지원해, GPU가 스토리지의 데이터에 직접 접근해 CPU 부담과 지연시간을 줄이고 시스템 대역폭을 최적화할 수 있다. 멀티태넌트 가상화 환경에서도 엔비디아의 MIG(Multi-Instance GPU)를 지원해 GPU 활용 효율을 높일 수 있다.
델은 ‘파워엣지 XE8640’의 공식 지원 운영체제로 레드햇의 ‘레드햇 엔터프라이즈 리눅스(RHEL: Red Hat Enterprise Linux)’와 캐노니컬의 ‘우분투 서버 LTS(Ubuntu Server LTS)’를 제시한다. 이들 운영체제를 설치하는 데 있어 델의 ‘라이프사이클 컨트롤러(Lifecycle Controller)’는 시스템에 공식 지원 운영체제를 설치할 때 주요 구성 요소들에 사전 설정을 제공해, 사용자가 운영체제 설치 이후 복잡한 시스템 설정을 진행해야 하는 수고와 시간 낭비를 크게 줄여준다.
AI와 HPC를 위한 GPU 서버 도입에서 소프트웨어 스택의 지원 또한 중요한데 인텔과 엔비디아는 이 부분에서도 높은 역량을 제공한다. 인텔은 최신 프로세서의 활용에 최적화된 다양한 개발 도구와 라이브러리를, 엔비디아는 최신 세대의 GPU 활용에 최적화된 라이브러리와 툴킷을 제공한다. 특히 엔비디아의 경우 GPU 가속 환경에 최적화된 소프트웨어 구성을 갖춘 컨테이너 구성 등을 제공해 예전보다 GPU 가속 환경을 구축하는 데 들어가는 수고도 크게 줄었다.
파워엣지 XE8640은 시스템의 설치와 사용에서의 ‘보안’ 측면에서도 다양한 대비를 갖췄다. 하드웨어 구성이나 펌웨어에서의 변조를 확인하고 신속하게 복구하는 기능이나, 시스템 관리 환경에서 기준 이상의 변경시 작동하는 가상 잠금 기능은 시스템의 신뢰성을 높인다. 물리적 USB 포트를 필요에 따라 잠금, 해제할 수 있는 기능이나 시스템 내부 데이터의 데이터를 빠르고 안전하게 복구 불가능하게 삭제하는 기능도 있다. 시스템의 기본 패스워드도 제품마다 다르게 제공돼 공용 ‘초기 패스워드’로 인한 위협을 차단했다.
하드웨어 잠재력 극대화된 성능 발휘
테스트에 사용한 델 파워엣지 XE8640은 인텔 제온 플래티엄 8462Y와 소켓당 32GB DDR5 메모리의 8채널 구성으로 총 512GB 메모리, 엔비디아 H100 GPU 4개 구성을 사용했다. CPU의 경우 인텔 ‘스피드 셀렉트(Speed Select)’ 기본 프로필인 32코어 2.8GHz, 300W TDP 설정을 사용했고, 시스템과 운영체제의 전력 관리 모드는 기본값을 유지했다.
운영체제는 우분투 22.04 LTS를 사용했으며, 테스트 당시의 커널은 6.1.5 버전대였다. 또한 MLPerf 테스트의 경우 델이 MLPerf 공식 결과 제출에 제공한 엔비디아의 도커 이미지 기반 스크립트를 활용했다. 모든 테스트 과정은 원격에서 iDRAC의 ‘버추얼 콘솔(Virtual Console)’을 통해 진행했으며, 단일 노드 구성이다.
한편, 이번 테스트는 델의 국내 총판사인 다올TS의 서울 역삼동 본사 14층에 마련된 ‘델 익스피리언스 센터(Dell Experience Center)’에 장비를 설치하고 진행했다. 다올TS의 ‘델 익스피리언스 센터’는 고객이나 파트너사 임직원 누구나 델의 서버 및 스토리지에서부터 노트북, 데스크톱 제품에 이르기까지 델의 다양한 제품을 직접 체험할 수 있는 기회를 제공하는 공간으로 구성됐다.
‘MLPerf 트레이닝 v3.1’ 테스트에서 파워엣지 XE8640은 전반적으로 GPU 수 대비 놀라운 성능을 보여준다. XE8640의 테스트 결과를 공식 MLPerf v3.1 결과와 간단히 비교해 보면, GPU 8개를 장착한 델의 플래그십 GPU서버 모델인 XE9680에 비해서는 대략 절반 정도의 성능으로 나타나지만, 타 브랜드에 비해서는 뛰어난 성능을 보여준다. 특히 SXM5 폼팩터가 아닌 PCIe 폼팩터의 H100으로 구성된 서버에 비해서는 GPU당 성능이 두 배 이상 높은 모습도 보여준다.
한편, 비슷한 GPU 구성에서도 테스트 워크로드의 특성에 따라 성능 차이가 나타나는 모습도 있다. BERT 모델 기반의 테스트에서 XE8640 시스템은 델이 제출한 XE9640 시스템보다도 더 높은 성능을 기록했다. 하지만 R-CNN이나 RNN-T 모델 기반 테스트에서는 XE9640보다 조금 떨어지는 모습을 보였다. 물론, 이 결과는 여타 제조사들의 H100 PCIe 기반 GPU 서버보다는 GPU 수 대비 크게 높은 성능이며, 비슷한 구성의 제품간 비교에서도 우위를 보인다.
한편, 이러한 레퍼런스 데이터와의 차이는 사용한 ‘프로세서’의 특성 차이로도 해석할 수 있겠다. MLPerf 테스트에서 델이 제출한 XE9640, XE9680 결과는 각 4개, 8개의 엔비디아 H100 GPU와 인텔 제온 플래티넘 8480+ 56코어 프로세서를 사용한 것이다. 테스트에 사용한 ‘인텔 제온 플래티넘 8462+’는 32코어로 코어 수는 더 적지만, 고부하 상황에서 코어별 동작속도는 조금 더 높다. 이에, GPU 서버를 구성할 때도 GPU의 폼팩터와 시스템 설계, 그리고 CPU 성능도 충분히 살릴 수 있는 시스템인지를 고려할 필요가 있겠다.
델 파워엣지 XE8640은 GPU뿐 아니라 CPU 기반의 서버로도 뛰어난 기본기를 갖추고 있다. HPC 성능의 기준으로도 꼽히는 ‘린팩(Linpack)’ 테스트는 인텔의 MKL(Math Kernel Library) 2024에서 제공되는 바이너리를 사용했는데, 테스트 사이즈 4만5000에서 성능은 약 4.5테라플롭스(TFlops) 정도를 기록했다. 테스트 시스템의 프로세서 동작 조건 등을 고려하면 이상적인 조건에 가까운 성능이 나온 것으로 평가할 수 있겠다. 또한 높은 메모리 대역폭으로, 문제 크기 45000 급에 이르기까지도 안정적인 성능 추이를 보이는 점도 인상적이다.
델 파워엣지 XE8640은 CPU와 GPU가 갖춘 기술적 특징을 최대한 활용하는 최적화된 환경을 벗어나는 경우에도 여전히 최고 수준의 뛰어난 성능을 제공한다. CPU 성능을 반영하는 Phoronix 시나리오 기반의 HPCG(High Performance Conjugate Gradient) 테스트에서, XE8640의 제온 플래티넘 8462Y는 총 64코어 구성에 걸맞은 높은 성능을 기록했다. 특히 96코어 구성의 AMD 에픽 9654 프로세서 듀얼 구성까지도 훌쩍 넘어서는 부분이 인상적이다.
분자동역학 시뮬레이션 기반의 NAMD(Nanoscale Molecular Dynamics) 기반 테스트는 CPU와 GPU용 코드가 모두 있다. 이 때, CPU 기반 테스트 대비 GPU 기반 테스트에서는 대략 19배 정도의 성능 차가 나타났다. GPU기반 테스트에서는 H100 GPU를 한 개만 사용했음에도, 일반적인 워크스테이션 수준에서 사용하는 지포스 RTX 4090 기반의 결과보다 두 배 가량 높은 성능을 보였다.
믹스벤치(Mixbench)의 오픈CL(OpenCL) 기반 테스트 결과에서도 인상적인 부분이 있다. 이 테스트도 시스템에 탑재된 H100 GPU 중 한 개만을 사용한 결과인데, 테스트 결과 중 정수 연산이나 단정밀도 수준의 결과는 쿠다 코어 수가 비슷한 지포스 RTX 4090 급 카드와 비슷하거나 조금 더 느린 모습이다. 하지만 H100의 배정밀도 연산 성능은 단정밀도의 절반 정도로 나타나는데 일반 소비자용 GPU는 이 부분에서 성능이 크게 제한된다. 이런 부분도 AI나 HPC 환경에서 데이터센터용 GPU와 이에 특화된 시스템을 사용해야 하는 중요한 이유다.
사회의 모든 부분에서 AI로 인한 변화는 점점 가속화되고 있다. 이제 변화에 적응하고 이를 뛰어넘는 것은 모든 조직의 생존과 경쟁력에 중요한 문제가 됐다. AI 기술 또한 여전히 빠르게 변하고 있다. 이런 변화의 시기에 무엇보다 중요한 것은 ‘시간’이다. 전 세계적으로 수많은 기업과 조직이 GPU 서버를 도입하려는 이유도 궁극적으로는 시간을 벌기 위해서다. 기업의 입장에서, GPU서버의 도입과 문제해결에 드는 시간은 최소화하고 가치 창출을 위한 시간을 극대화하는 게 중요할 것이다.
델의 파워엣지 XE8640은 많은 조직들이 AI 시대에 당면한 이러한 까다로운 과제를 해결할 수 있는 훌륭한 구성을 갖춘 것이 특징이다. 당대 최고의 성능을 갖춘 CPU와 GPU를 모두 갖추고, 이들 구성 요소가 모든 잠재력을 다 발휘할 수 있는 높은 효율의 설계까지 갖췄다. 특히 SXM5 폼팩터로 탑재된 엔비디아 H100 GPU 네 개를 거뜬히 소화하는 쿨링 구성은 시스템의 성능과 신뢰성, 고효율 고밀도 구성까지 모든 IT 환경에 필요한 점들을 만족스럽게 제공한다.
파워엣지 XE8640은 AI나 HPC 등 고성능 GPU 컴퓨트 환경이 필요한 모든 영역에서 뛰어난 성능과 균형을 제공하는 매력적인 제품이 될 것으로 보인다. 특히 상위 모델 대비 상대적으로 부담이 적은 4U급 폼팩터와 기존 공랭 기반 시설에서도 운영 가능한 점, 4개 GPU 구성으로 비교적 도입에 부담이 적고 CPU-GPU간 밸런스가 좋은 점 등이 돋보인다. 연구실 수준에서의 단일 노드 도입에서부터 대규모 클러스터 구성까지 어디에나 효과적인 선택이 될 것으로 기대된다.
권용만 기자 yongman.kwon@chosunbiz.com