GPU서버 ‘델 파워엣지 XE9680’ ①기능편 “AI 시대 혁신 엔진” [리뷰]
고성능 CPU 2개와 GPU 8개 탑재...생성형 AI와 고성능 컴퓨팅에 최적화 타협 없는 설계, 공랭식 설계로 운영 환경 범용성 극대화, 편리한 관리 장점
최근 IT 뿐만 아니라 사회 전반의 관심이 ‘인공지능(AI)’에 모이고 있다. 특히 ‘생성형 AI’와 ‘거대언어모델(LLM)’은 앞으로의 AI 시대에 핵심이 될 기술로 관심을 모은다. AI 기술의 수준은 조직, 나아가서는 국가의 경쟁력을 좌우할 것으로 기대된다. 이러한 상황 속에서 현재 AI 기술을 개발, 활용하는 데 가장 뛰어난 역량을 갖춘 것으로 평가받는 데이터센터용 ‘그래픽처리장치(GPU)’와 이를 탑재한 ‘GPU 서버’를 확보하는 것 또한 치열한 움직임이 나타나고 있다.
비단 GPU 서버 뿐만 아니라, 모든 IT 인프라에서 성능을 높이는 데는 ‘스케일 업’과 ‘스케일 아웃’의 두 가지 접근법이 있다. 이 중 ‘스케일 업’은 시스템 한 대의 역량을 극대화하는 방식이지만, 현실적으로 도달 가능한 성능에는 한계가 있다. 그리고 ‘스케일 아웃’은 수많은 시스템을 연결하고 워크로드를 분산 처리해 성능을 높이지만, 시스템간 ‘연결’에서 효율 문제가 나타난다. 오늘날 GPU 서버는 내, 외부적으로 ‘스케일 업’과 ‘스케일 아웃’을 모두 사용하며, 대규모 인프라 구성에서는 양 쪽 사이에서의 적절한 균형을 찾아야 한다.
델의 고성능 GPU 서버인 ‘델 파워엣지 XE9680’은 델 최초의 ‘8개 GPU 탑재’ 서버 제품이자 현재 델의 GPU 서버 제품군에서는 최상위 모델로, 머신러닝이나 딥러닝, 생성형 AI나 고성능 컴퓨팅(HPC) 등의 가장 복잡한 워크로드를 위해 설계됐다. 특히 2개 CPU와 8개 GPU를 6U급 섀시에 집적하고 공랭식으로 냉각함으로써, 현재 AI 시대 시장이 요구하는 성능과 밀도, 효율과 편의성의 균형을 가장 잘 잡은 구성으로 뛰어난 경쟁력을 갖춘 점이 돋보인다.
델 파워엣지 XE9680에는 최대 350W급 열설계전력(TDP)를 갖춘 4세대 인텔 제온 스케일러블 프로세서를 두 개까지 탑재하고, 최대 TDP가 700W에 이르는 엔비디아의 H100 SXM5 GPU를 8개까지 장착할 수 있다. 시스템 전체의 냉각 방식은 공랭식을 사용한다. 공랭식 냉각 방식을 고려해 설계된 만큼 전력 공급에 대한 문제가 없다면 기존의 데이터센터 환경에도 큰 고민 없이 설치할 수 있는 범용성을 갖춘 것도 장점이다.
델 파워엣지 XE9680의 제품 전면에서는 크게 CPU부문과 GPU부문으로 나뉜 구성을 확인할 수 있다. 대략 전체 6U 높이 중 2U 정도는 CPU와 스토리지에, 4U 정도는 GPU에 사용되는 모습이다. 흥미로운 점이라면, 일반적으로는 시스템 후면에 위치하던 PCIe(PCI Express) 확장 슬롯이 시스템 전면에 위치하고, CPU부의 팬은 스토리지 베이 뒤에, GPU부 팬은 시스템 후면부에 배치됐다는 점이다. 모든 팬은 ‘고성능’ 제품을 사용해 2개 CPU와 8개 GPU에서 나오는 막대한 발열량을 공랭식 냉각으로도 충분히 감당할 수 있게 했다.
CPU부와 GPU부의 공간과 공기 흐름은 독립된 구성이며, CPU부는 내부에서 6개의 팬을 이용해 최대 TDP 350W에 이르는 CPU를 식힌다. 또한 시스템 전체에 전력을 공급하기 위한 파워 서플라이와 전원 분배 보드가 CPU 바로 뒤에 위치한 점도 독특하다. 이러한 전원 분배 보드의 위치는 최대 1만와트(Watt) 이상에 달하는 높은 전력량을 공급하는 전원 분배 보드의 냉각 측면을 고려한 것이기도 하다. 그리고 대부분의 서버에서 CPU부 근처에 있는 확장 슬롯 등은 대부분 GPU부 쪽의 외부 확장 슬롯 쪽에 배치된 모습이다.
시스템 후면 또한 CPU부와 GPU부가 명확히 나뉘어 있다. 그리고 CPU부의 후면에는 대부분의 면적을 파워 서플라이가 차지하고 있다. 또한 후면에는 시스템 보드에 연결된 기본 네트워크 인터페이스와 OCP(Open Compute Project) 규격의 네트워크 인터페이스, 원격 시스템 관리를 위한 iDRAC9 모듈 등도 찾아볼 수 있다. 이 외에도, 운영체제 설치와 관리의 편의를 위한 BOSS(Boot Optimized Storage Subsystem)-N1 솔루션도 옵션으로 사용할 수 있다.
델 파워엣지 XE9680의 GPU부는 모듈 형태로 설계돼, 시스템 후면의 팬 모듈 제거 후 섀시에서 슬라이드 식으로 분리할 수 있다. 섀시 수준에서 공기 흐름은 외부 공기가 전면의 PCIe 확장 슬롯부에서부터 들어와 GPU를 거쳐 뒤로 나가는 식이다. 이런 일련의 흐름이 완전한 ‘공랭식’으로 구성돼 있어 기존의 익숙한 데이터센터 환경에서도 최대 성능을 문제없이 유지할 수 있다. 한편, 델 파워엣지 XE9680은 외부온도 35℃ 까지 정상적으로 운영 가능해 데이터센터의 온도 유지에 대한 부분에서도 상대적으로 여유롭다.
파워엣지 XE9680의 GPU부 쿨링 설계의 독특한 점은 팬이 후면에 위치해 공기를 빨아들이는 흐름이라는 점이다. 특히 공기의 흐름 속도는 팬 바로 앞에 배치된 GPU부에서 극대화된다. 이러한 설계는 적절한 섀시 디자인과 함께 할 때, 앞에서 불어주는 것보다 시스템 뒷쪽에 남아 있는 열까지 모두 제거하고 일관적인 흐름을 만들기 유리하며, 발열량이 많은 고속 인피니밴드(Infiniband) 네트워크 카드까지도 충분히 사용할 수 있다. 한편, 시스템 후면에 장착되는 10개의 팬도 모두 핫 스왑을 지원해, 교체를 위해 시스템을 끌 필요는 없다.
이러한 GPU부의 모듈형 설계는 시스템 설계 수준에서의 유연성을 극대화하는 데도 활용된다. 파워엣지 XE9680은 GPU보드를 교체하는 것만으로 시스템 수준에서는 큰 설계 변경 없이 다양한 GPU 구성을 바로 적용할 수 있다. 이를 활용해 델은 파워엣지 XE9680 섀시에서 GPU 보드와 후면 쿨링 모듈 정도를 바꾸는 것으로 엔비디아의 H100 뿐만 아니라 A100, AMD의 ‘MI300X’도 지원하며, 인텔의 ‘가우디 3’를 탑재한 모델도 출시할 예정이다.
시스템 전면에서 사용할 수 있는 PCIe 확장 슬롯은 총 10개다. 모든 슬롯이 PCIe 5.0 x16을 지원하고, 사용 가능한 카드 규격은 FHHL(Full-height, Half-length)까지다. 인텔의 4세대 제온이 지원하는 PCIe 레인 수는 프로세서 당 80개, 2소켓 시스템에서는 최대 160개고, XE9680의 GPU, 스토리지 연결 등을 모두 고려하면 모든 PCIe 레인을 CPU에 직접 연결할 수는 없다. 이를 해결하기 위해, XE9680의 전면 확장 슬롯 쪽에는 PCIe 확장 스위치를 사용해 시스템 전반의 PCIe 레인 배분을 최적화하고 있다.
스토리지 구성은 크게 보편적인 ‘2.5인치’ 드라이브 8개 혹은 ‘E3.S’ 폼팩터의 NVMe 드라이브 16개 구성이 가능하다. 2.5인치 드라이브에서는 SSD를 위한 NVMe 뿐만 아니라 SAS(Serial Attached SCSI)나 SATA(Serial ATA) 인터페이스도 활용할 수 있다. 내부적으로는 드라이브 폼팩터에 상관없이 NVMe 구성에서는 소프트웨어 RAID ‘S160’을, SAS/SATA 사용시에는 ‘PERC H965i’ 컨트롤러를 사용하는 구성을 제공한다. 한편, 모든 스토리지 구성에서 ‘핫 스왑’을 기본 지원해, 이상이 생긴 드라이브를 시스템 중단 없이 교체할 수 있다.
파워엣지 XE9680은 총 6개의 파워 서플라이를 사용해 전원을 공급받는다. 그리 크지 않은 파워 서플라이지만 개당 용량은 2800W에 이르며, 6개 중 한 개의 파워 서플라이에 이상이 생기더라도 시스템은 정상 동작할 수 있다. 또한 동시에 두 개의 파워 서플라이에 문제가 생길 경우에도 GPU에 전력 제한을 적용해 시스템 가용성을 유지한다. 파워 서플라이는 54V 출력으로 효율을 극대화했으며, 최대 96% 효율을 제공하는 ‘80플러스 티타늄’ 인증을 갖췄다.
델 파워엣지 XE9680은 관리성 측면에서도 최신 파워엣지 시리즈 서버 제품군의 검증된 장점들을 모두 이어받았다. 하드웨어의 기본 설계에서부터 모듈형 설계와 함께 대부분의 유지보수 작업에는 드라이버 등의 도구를 갖출 필요 없는 툴리스 설계를 기본으로 한다. 특히 파워엣지 XE9680 특유의 모듈식 설계는 필요에 따라 시스템 내부에 접근해야 할 구역이 명확히 구분돼, 물리적인 유지보수 부분을 좀 더 단순하게 만든다.
델의 서버 제품군에서 원격 관리의 시작인 ‘iDRAC’ 시스템으로, 원격지에서도 시스템의 정보를 모니터링하고 주요 설정을 수정할 수 있으며, 원격 제어까지 가능하다. 특히 파워엣지 XE9680은 iDRAC에서 시스템과 GPU의 사용량, 소비 전력과 온도 상황 등을 모두 확인할 수 있고, 고객 지원 과정을 돕는 ‘서포트어시스트(SupportAssist)’도 통합돼 있다. 좀 더 큰 규모의 경우 100노드 미만에서는 ‘iDRAC 그룹 매니저’를, 그 이상에서는 ‘오픈매니지(OpenManage)’ 환경을 이용해 관리성을 높일 수 있다.
신뢰할 수 있는 시스템을 위한 ‘보안’ 측면도 다양한 대비가 마련됐다. 델의 보안 관련 기술은 제품이 공장에서 출하될 때부터 시스템을 보호하는 인증과 변조 방지 기능에서부터 시작해, 암호화 서명된 펌웨어나 데이터 암호화 지원, 유사 상황시 시스템을 잠그는 기능까지 시스템의 생애 주기 전반에 적용돼 있다. TPM(Trusted Platform Module) 2.0 등 최신 운영 환경에서 요구되는 기술과 인증도 빠짐없이 갖추고 있다.
엔터프라이즈 환경에서 GPU 서버를 제대로 활용할 수 있게 돕는 지원 체계도 델과 파워엣지 XE9680의 강점이다. 델은 서버 등 인프라 제품에 대해 도입 검토 단계에서부터 최적의 조합을 찾아 가는 컨설팅 서비스부터, 도입시 설치 시간을 최소화하기 위한 사전 구성 옵션도 제공한다. 도입 후 지원 측면에서도 하드웨어 관련은 물론이고, 제한적인 서드파티 소프트웨어 지원에 대한 옵션까지 제공하고 있다.
특히, 델은 설치와 운영에서의 지원에서 일반적인 엔터프라이즈 환경 뿐만 아니라 AI와 고성능 컴퓨팅(HPC)을 위한 특화된 지원 옵션을 제공한다는 점도 차별화된 부분이다. 델은 이를 통해 고객에 제품을 설치하는 단계에서부터 최적화된 환경 구성과 전문가의 지원으로 차별화된 가치를 제공한다. 고객 지원에서도 전문가와 함께 설치된 장비가 최적의 성능을 낼 수 있게 돕는다.
이와 함께, 델은 기업들이 생성형 AI를 위한 플랫폼을 빠르고 손쉽게 구축할 수 있게 돕는 커스텀 방식 구축 서비스도 갖추고 있다. 이 서비스는 검증된 아키텍처를 기반으로 생성형 AI 인프라 환경을 구축하고, 엔비디아의 기본 커맨드 매니저(Base Command Manger), 쿠버네티스, 트리톤(Triton) 추론 서버, 네모(Nemo) 프레임워크로 생성형 AI 소프트웨어 환경을 구성한다. 델의 파트너사들을 통해서도 전문적인 지원을 받을 수 있으며, 파트너의 오퍼링에 따라서는 구독형 모델 ‘APEX’에 이르기까지 다양한 조합이 가능하다.
권용만 기자 yongman.kwon@chosunbiz.com