오늘날 인공지능(AI) 기술은 비단 IT 업계 뿐 아니라 사회 전반에 큰 변화의 계기로 다뤄지고 있다. 특히 ‘생성형 AI’ 기술의 등장 이후 AI 기술은 모든 산업군의 미래를 근본적으로 바꿔 놓을 수 있을 정도까지 큰 기대를 받고 있고, AI 기술 역량 확보는 조직의 미래 경쟁력에 큰 영향을 미칠 것으로 보인다. 이에 전 세계적으로 AI 기술에 효과적인 데이터센터용 그래픽처리장치(GPU)와 이를 탑재한 ‘GPU 서버’를 확보하기 위한 경쟁이 펼쳐지고 있다.

하지만, AI를 위한 GPU 서버는 기존의 중앙처리장치(CPU) 중심 범용 서버와는 접근 방식이 제법 다르고, 그만큼 다루기 까다로운 존재다. 일단 데이터센터용 고성능 GPU는 CPU 이상으로 뜨겁고 전력 소비가 심한 만큼, 단순히 범용 서버에 GPU를 추가하는 것이 아니라 하나의 시스템 안에서 CPU와 GPU 모두를 충분히 안정적으로 동작시킬 수 있는 세심한 설계가 필요하다. 이와 함께, 안정적이고 효율적인 운영 환경과 복잡한 운영 환경에 대한 기술적 지원 등이 모두 갖춰져야 GPU 서버를 제대로 활용할 수 있다.

델의 ‘파워엣지(PowerEdge) XE8640’ GPU 서버는 현재 AI를 위해 가장 주목받는 조합인 ‘인텔 CPU’와 ‘엔비디아 GPU’를 탑재한 고성능, 고밀도 GPU 서버다. 인텔의 4세대 제온 스케일러블 프로세서 2개와 엔비디아의 ‘H100’ GPU 4개를 4U 섀시 안에 넣은 이 시스템은 AI와 고성능 컴퓨팅(HPC) 등 높은 연산 성능이 필요한 모든 곳, 모든 과정에서 뛰어난 성능과 효율을 제공한다. 특히 GPU 집약적인 AI와 HPC 환경에 최적화됐다.

델 파워엣지 XE8640 GPU서버 / 권용만 기자
델 파워엣지 XE8640 GPU서버 / 권용만 기자
델 파워엣지 XE8640의 CPU부 모습 / 권용만 기자
델 파워엣지 XE8640의 CPU부 모습 / 권용만 기자

고밀도 구성 위한 고효율 냉각 설계 돋보여

델 파워엣지 XE8640의 첫 인상은 ‘고밀도’다. 최대 350W 열설계전력(TDP)을 갖춘 인텔 4세대 제온 스케일러블 프로세서 두 개와 최대 700W의 TDP를 갖춘 엔비디아의 H100 GPU 네 개가 4U 높이의 서버에 모두 들어가 있으면서도 외부적으로는 ‘공랭’ 쿨링을 사용하기 때문이다. 시스템의 전면에는 8개의 스토리지 베이와 5개의 팬을 찾아볼 수 있다. 전면의 팬 다섯 개는 외부에서 시스템을 끄지 않고도 교체 가능한 ‘핫 스왑(Hot-Swap)’ 방식이다.

시스템의 내부는 상단 CPU부와 하단 GPU부의 두 개 층으로 나뉘어 있고, 각 층별로 별도의 냉각 경로를 가진다. 이 중 상단의 CPU부는 이미 범용 서버에서 익숙할 정석적인 공랭 설계를 사용한다. 외부 공기는 전면의 스토리지 베이를 거쳐 CPU와 메모리를 식히고, 후면의 확장 카드 등을 거쳐 외부로 나간다. 공기 흐름은 1U 서버 급에서 많이 사용하는 6개 팬 구성을 사용한다. 이미 이러한 구성은 길게는 1987년 파워엣지 서버가 처음 선보인 이후 16세대에 걸쳐 충분히 검증된 바다.

한편, 이러한 CPU부의 냉각 설계는 최신 세대 파워엣지 서버와도 상당 부분 공유한다. 최신 세대의 파워엣지 서버는 파워 서플라이 등 공기 흐름을 막는 구성 요소를 최대한 가장자리로 배치하고, 시스템의 공기 흐름이 후면 중앙부로 집중돼 나갈 수 있도록 만들어졌다. 이러한 설계는 시스템 내에 뜨거운 공기가 남아 효율을 떨어뜨리는 일을 최소화한다. 이와 함께, 내부의 상황에 따라 팬을 지능적으로 제어해 성능과 효율을 극대화한다.

델 파워엣지 XE8640의 GPU부는 내부적으로는 ‘폐쇄형 수랭식’ 쿨링 구성이다. / 권용만 기자
델 파워엣지 XE8640의 GPU부는 내부적으로는 ‘폐쇄형 수랭식’ 쿨링 구성이다. / 권용만 기자

파워엣지 XE8640의 GPU부는 상단에 배치된 CPU부의 메인보드를 분리하면 접근할 수 있다. 이 GPU부에는 SXM5 폼팩터의 엔비디아 H100 GPU 네 개가 장착됐다. GPU당 최대 TDP는 700W다. 네 개의 GPU면 GPU부에서만 2800W의 전력 소비와 상당한 발열을 채 3U가 되지 않는 공간에서 해결해야 한다. 델은 이러한 GPU부의 발열을 해결하기 위해 파워엣지 XE8640의 GPU부에 폐쇄형 수랭식 냉각을 사용했다.

‘액체보조공기냉각(LAAC: Liquid Assisted Air Cooled)’ 방식으로 표현되는 이 방식은 GPU의 냉각을 폐쇄형 수랭식으로 구성하고, 냉각수를 식히는 라디에이터까지 모두 시스템 안에 내장된 형태다. 즉, 사용자는 시스템에 수랭을 위한 별도의 수랭 관련 시설을 마련하고 관 등을 연결할 필요 없이 일반적인 공랭식 서버를 쓰는 것과 동일하게 사용하면 된다. 이 때, 시스템 전면의 다섯 개 팬으로 라디에이터를 식히고, 뜨거워진 공기는 시스템 뒤로 배출된다.

GPU를 식히는 라디에이터는 제품의 전면 팬 뒤에 배치돼 최대한 시원한 외기를 사용해 쿨링 효율을 높일 수 있게 했다. 폐쇄형 수랭식을 사용하는 덕분에 GPU 주위로 지나가는 라디에이터의 뜨거운 공기는 GPU의 동작에 영향을 주지 않는다. 한편 GPU부에 구성된 폐쇄형 수랭 시스템에는 액체의 유출 센서 등도 충분히 갖춰져 있고, 델의 제품 보증에도 포함되어 있어 안심하고 사용하면 된다.

이러한 고효율의 쿨링 설계는 서버의 성능 극대화와 함께, 운영 환경의 비용을 줄이는 데도 큰 역할을 한다. 델의 16세대 파워엣지 제품군은 외기 냉각을 사용하는 데이터센터나 ‘고온’ 데이터센터 환경에서도 안정적으로 사용할 수 있는 설계를 기본적으로 갖추고 있다. 파워엣지 XE8640의 경우도 섭씨 35도 환경까지 동작이 보증되는데, 이는 일반적으로는 공조 환경에 이상이 생긴 조건에 가까운 극한 조건이다. 서버 운영에서 에너지 비용의 상당 부분이 ‘공조 시설’에 들어가는 만큼 파워엣지 XE8640은 가용성과 비용 모두에서 장점이 돋보인다.

시스템 전면에서는 U.2나 E3.S 폼팩터의 드라이브를 8개까지 쓸 수 있다. / 권용만 기자
시스템 전면에서는 U.2나 E3.S 폼팩터의 드라이브를 8개까지 쓸 수 있다. / 권용만 기자
운영체제 설치를 위한 별도의 소형 스토리지 베이 ‘BOSS-N1’도 특징이다. / 권용만 기자
운영체제 설치를 위한 별도의 소형 스토리지 베이 ‘BOSS-N1’도 특징이다. / 권용만 기자

스토리지 구성은 전면부에서도 CPU 층에 해당하는 부분에 구성됐다. 사용할 수 있는 드라이브는 NVMe를 전제로, 옵션에 따라 U.2 폼팩터의 NVMe 드라이브 8개나 E3.S 폼팩터의 NVMe 드라이브 8개를 사용할 수 있다. 스토리지는 기본적으로 플랫폼의 PCIe 버스로 직결되는 구성이다. 또한 스토리지의 안정성과 확장성 측면에서 델 PERC12(PowerEdge RAID Controller) 시리즈 하드웨어 RAID 컨트롤러를 조합해 SAS, SATA 드라이브의 RAID 구성도 할 수 있다.

파워엣지 XE8640에는 운영체제 설치를 위한 별도의 소형 스토리지 베이와 RAID 컨트롤러가 마련됐다. BOSS(Boot Optimized Storage Solution)-N1으로 불리는 이 솔루션은 시스템의 뒷면에 장착되며, 크기가 작은 M.2 NVMe SSD를 두 개 장착해 RAID 1 구성할 수 있다. 이를 사용하면, 전면 스토리지 베이에 장착된 드라이브는 온전히 데이터에 사용해 공간 효율성과 관리성을 더 높일 수 있다.

기본 네트워크 연결은 기가비트 이더넷 포트 두 개다. 하지만 내부에서의 확장 옵션으로는 4개의 PCIe 5.0 x16 슬롯을 갖춰, 외장 스토리지 연결이나 고속 네트워크 확장 옵션 등을 사용할 수 있다. 또한 OCP(Open Compute Project) 3.0 규격 기반의 네트워크 인터페이스 확장 옵션도 제공한다. 이 외에도, 원격 관리 환경인 ‘iDRAC9’을 위한 전용 이더넷 포트도 마련됐다.

전원 공급을 위한 파워 서플라이는 2800W 출력과 80플러스 티타늄 등급 효율을 갖춘 모듈을 총 4개 사용해 이중화 구성됐다. 총 네 개의 파워 서플라이 중 한 개에 이상이 생겨도 시스템의 성능과 가용성에는 지장이 없고, 두 개 유닛에 이상이 생기면 시스템 보호를 위한 전력 제한 설정이 적용되지만 시스템의 가용성 자체는 유지할 수 있다. 이상이 생긴 유닛은 시스템 가동 중 핫 스왑 교체도 가능하다. 흥미로운 점은 파워 서플라이의 출력 전압인데, 전력 효율 향상을 위해 일반적인 12V가 아닌 54V 출력을 사용한다. 

시스템의 팬이나 드라이브 등은 시스템 가동 중 교체 가능한 ‘핫 스왑’이 기본이다. / 권용만 기자
시스템의 팬이나 드라이브 등은 시스템 가동 중 교체 가능한 ‘핫 스왑’이 기본이다. / 권용만 기자
복잡한 데이터센터 환경에서도 빠르게 서버에 접근 가능한 ‘iDRAC 퀵싱크 2’ / 권용만 기자
복잡한 데이터센터 환경에서도 빠르게 서버에 접근 가능한 ‘iDRAC 퀵싱크 2’ / 권용만 기자

핵심 목표에 집중할 수 있게 돕는 높은 관리 편의성

서버의 핵심은 ‘생산성’이고, 이는 GPU서버도 예외가 아니다. 서버의 생산성에서 핵심 요소는 ‘성능’이지만 ‘신뢰성’과 ‘관리성’이 함께 갖춰져야 생산성을 극대화할 수 있다. 특히 서버의 관리성은 가용성에도 영향을 미치며, 모든 작업에 필요한 시간이 ‘비용’으로 환산되는 데이터센터 환경 등에서 더욱 각별한 의미를 가진다. 이러한 서버의 ‘관리성’ 측면에서 델의 파워엣지 서버 제품군은 이미 오랜 시간동안 기능과 성능이 검증된 관리 환경을 제공한다.

파워엣지 XE8640은 관리성 측면에서도 최신 파워엣지 시리즈 서버 제품군들과 여러 가지 특징을 공유한다. 하드웨어의 기본 설계에서도 대부분의 주요 유지보수 작업에서는 드라이버 등의 도구를 갖출 필요 없는 ‘툴리스’ 설계가 기본이다. 서버를 사용 중에 팬이나 파워 서플라이, 전면 스토리지 베이에 장착된 SSD가 고장난 경우, 시스템을 종료하지 않고도 이를 교체할 수 있는 ‘핫 스왑’ 기능도 있다. 메모리나 확장 슬롯에 카드를 장착하는 등의 작업도 별도의 도구 없이 진행할 수 있다.

시스템 전면에 장착된 LED는 시스템의 현재 상태를 좀 더 직관적으로 파악할 수 있게 돕는다. 또한 시스템의 전면을 보호하는 베젤에는 시스템의 주요 정보를 표시할 수 있는 작은 디스플레이가 제공돼 관리 편의성을 높였다. 이와 함께, ‘iDRAC 퀵싱크(Quick Sync) 2’는 서버와 모바일 디바이스를 편리하게 페어링하고 빠르게 서버의 정보를 확인할 수 있게 해 관리자가 개별 서버의 정보를 확인하는 데 드는 시간과 노력을 크게 줄여준다.

델 파워엣지 XE8640의 iDRAC 접속 화면 / 권용만 기자
델 파워엣지 XE8640의 iDRAC 접속 화면 / 권용만 기자

델의 서버 제품군에서 ‘원격 관리’의 핵심은 ‘iDRAC’ 시스템이다. 이 ‘iDRAC’을 사용하면 원격지에서도 터미널이나 웹을 통해 시스템 관리 환경에 접속해 시스템의 정보를 모니터링하고 설정을 수정할 수 있으며, 원격에서 화면 출력을 확인하고 시스템을 로컬처럼 조작할 수 있다. 파워엣지 XE8640에는 최신 세대인 ‘iDRAC9’이 기본 탑재되며, iDRAC9의 엔터프라이즈 라이선스에서는 완전한 원격 제어를 위한 가상 콘솔과 가상 미디어 지원, 원격 파일 공유, 가상 폴더와 가상 플래시 파티션 등 다양한 고급 기능들이 제공된다.

파워엣지 XE8640의 iDRAC9에서는 시스템의 주요 상태를 확인하고 설정을 바꿀 수 있으며, ‘가상 콘솔’을 통해 완전한 원격 제어도 가능하다. iDRAC을 통해 볼 수 있는 항목에서, 시스템에 장착된 엔비디아의 H100 GPU를 일반적인 PCIe 연결 장치 등으로 취급하지 않고 별도의 ‘가속기’ 항목에서 확인할 수 있는 점도 특징이다. 서버의 전원 제어와 전력 사용량 등도 iDRAC9을 통해 할 수 있고, 고객 지원 과정을 돕는 ‘서포트어시스트(Support Assist)’도 통합됐다. 

iDRAC9 시스템이 개별 시스템을 위한 강력한 관리 도구라면, ‘iDRAC 그룹 매니저’는 100 노드 미만의 환경을 간편하게 통합 관리할 수 있는 도구다. 이 ‘iDRAC 그룹 매니저’는 그룹 단위로 구성된 서버의 인벤토리 관리와 인증 정보 관리, 멤버간 통신 등을 제공해 손쉽게 다수의 서버를 통합 관리할 수 있게 한다. 이보다 서버 수가 늘어나면 델의 ‘오픈매니지(OpenManage)’ 환경을 사용할 수 있는데, ‘오픈매니지 엔터프라이즈’는 데이터센터 단위에서 델의 서버, 네트워크, 스토리지들을 포괄적으로 인벤토리, 모니터링하고 관리할 수 있는 방법을 제공한다.

델의 주요 파트너 프로그램 유형 / 델 홈페이지 갈무리
델의 주요 파트너 프로그램 유형 / 델 홈페이지 갈무리

한편, 엔터프라이즈 환경을 위한 GPU 서버는 단순히 하드웨어만 가져다 놓는다고 쉽게 사용할 수 있는 것이 아니다. 또한 기업 환경에서, 새로운 장비가 부가 가치를 창출하기 위해 준비하는 시간과 노력 또한 모두 ‘비용’이다. 이에, 파워엣지 XE8640 등 고가의 고부가가치가 기대되는 GPU 서버의 도입에서는 도입 전부터 이를 어떻게 설치하고 활용할지에 대한 ‘컨설팅’부터 빠른 설치와 설치 이후 활용, 문제 해결을 위한 '지원’도 중요한 가치다.

델은 서버 등 인프라 제품에 대해 컨설팅부터 설치, 지원과 교육에 이르기까지 다양한 지원 체계를 제공하고 있다. 도입 단계에서부터 최적의 조합을 찾아 가는 컨설팅 서비스와 함께 설치 단계에서는 고객의 사이트에서 설치 시간을 최소화하기 위한 사전 구성 후 설치 등의 옵션도 제공한다. 지원 측면에서는 옵션에 따라 하드웨어에 대한 지원은 물론이고, 제한적인 서드파티 소프트웨어 지원에 대한 옵션까지도 제공한다.

특히 파워엣지 XE8640과 같은 GPU 서버를 도입한 기업들은 좀 더 빠르고 손쉽게 생성형 AI를 위한 플랫폼을 구축할 수 있도록, 델이 커스텀 방식으로 제공하는 구축 서비스를 활용할 수도 있다. 델은 검증한 아키텍처를 기반으로 서버, 네트워크 스위치, 스토리지로 생성형AI 인프라 환경을 구축하고, 엔비디아의 기본 커맨드 매니저(Base Command Manger), 쿠버네티스, 트리톤(Triton) 추론 서버, 네모(Nemo) 프레임워크로 생성형 AI 소프트웨어 환경을 구성한다. 

또한 이렇게 구축한 생성형AI 플랫폼이 최적의 성능을 낼 수 있도록 델은 다양한 테스트 및 검증의 과정도 지원한다. 델의 ‘생성형 AI 서비스’는 도입 전략 수립과 플랫폼 구축, 비즈니스 활용 사례 구현과 플랫폼 운영에 이르기까지 기업들이 AI 관련 전략을 수립하고 실행하는 각 단계에서 비즈니스 가치를 도출할 수 있는 시간을 단축하고, 운영 효율성을 극대화할 수 있도록 지원한다.

델의 파트너 생태계를 통한 지원은 좀 더 고객의 요구에 밀접한 기술 지원도 가능하다. 이러한 파트너 생태계에서는 단일 제품 수준이 아니라 솔루션과 인프라 환경 전반에 대한 구성과 단일 공급, 지원도 가능하다는 점이 특징이다. 국내에서는 다올TS 등 주요 총판사 등을 통해 파워엣지 XE8640 GPU 서버를 공급받을 수 있다. 파트너의 서비스 오퍼링에 따라서는 서버 뿐 아니라 스토리지와 네트워크, 구독형 모델인 APEX 서비스에 이르기까지 다양한 서비스를 유연하게 결합할 수도 있다. 

권용만 기자 yongman.kwon@chosunbiz.com