복잡한 세상에서 다양한 당면 문제를 해결하기 위한 ‘고성능 컴퓨팅(HPC: High Performance Computing)’에 대한 관심과 필요성은 지속적으로 높아지고 있다. 인텔은 이러한 HPC 시장의 다양성에 대응하기 위해 성능이 향상된 제온 프로세서 뿐 아니라 프로세서에 HBM을 탑재해 메모리 성능을 극대화한 ‘제온 CPU 맥스’ 제품군을 선보이며 경쟁력 강화에 나섰다.

제프 맥베이(Jeff McVeigh) 인텔 슈퍼컴퓨팅 그룹 수석부사장과 우고나 에체루오(Ugonna Echeruo) 수석 아키텍트는 지난 12월 13일과 14일 양일간 미국 오레곤주 인텔 존스팜(Jones Farm) 캠퍼스에서 진행한 워크숍에서 4세대 제온 스케일러블 프로세서 포트폴리오의 슈퍼컴퓨팅 관련 내용을 공유했다.

이들은 4세대 제온 스케일러블 프로세서가 슈퍼컴퓨팅 영역에서도 이전 세대 대비 최대 2.6배의 성능을 제공하며, HBM 메모리와 결합한 ‘제온 맥스 CPU’ 제품군은 이전 세대 대비 최대 3.7배의 성능을 제공한다고 소개했다.

우고나 에체루오 인텔 수석 아키텍트(좌), 제프 맥베이 인텔 수석부사장(우) /오레곤=권용만 기자
우고나 에체루오 인텔 수석 아키텍트(좌), 제프 맥베이 인텔 수석부사장(우) /오레곤=권용만 기자
다양한 HPC 워크로드 유형에 맞춘 4세대 제온 스케일러블 프로세서

HPC(High Performance Computing)와 AI 영역은 대표적인 컴퓨트 집약적 분야으로 알려졌지만, 이 안에서도 분야에 따라 필요한 성능의 성격이 다르다. 이 영역의 워크로드 중 대략 절반 정도는 ‘컴퓨트’성능이 중요하지만, AI나 오일&가스, 지구 시스템 모델 등의 영역에서는 ‘메모리 대역폭’이 중요하게 여겨진다. 금융의 리스크 모델링이나 충돌 시뮬레이션, 유체 시뮬레이션 같은 부분은 컴퓨트 성능 중에서도 ‘동작 속도’가 중요한 부분으로 꼽힌다.

HPC 영역을 위한 인텔의 포트폴리오에서도 중심은 ‘제온’ 프로세서다. 4세대 제온 스케일러블 프로세서는 HPC 영역에서도 새로운 마이크로아키텍처와 최대 60개의 코어 수, AVX-512와 AMX 등 프로세서 아키텍처에 포함된 가속 기능으로 이전 세대 대비 크게 향상된 성능을 제공한다. 메모리 성능에서도 더 높은 성능을 제공하는 DDR5 메모리를 사용하며, PCIe 5.0과 CXL 1.1의 지원 또한 HPC 성능을 극대화하는 요소로 꼽혔다.

인텔은 4세대 제온 스케일러블 프로세서가 이전 세대 대비 HPC 영역의 주요 업계 벤치마크로 꼽히는 HPL(High Performance Linpack)에서 1.4배, HPCG(High-Performance Conjugate-Gradient)에서는 1.6배의 성능을 제공한다고 소개했다. 주요 실제 워크로드의 성능에서도 이전 세대 대비 최대 2.6배, 평균 1.6배 정도 향상된 성능을 제공한다고 덧붙였다.

4세대 제온 스케일러블 프로세서에는 HPC 워크로드의 주요 ‘성격’에 맞출 수 있는 다양한 구성이 마련되어 있다. 예를 들어, ‘연산 성능’ 최적화에는 56코어와 3GHz 올 코어 터보, 350W TDP 사양을 가진 제온 플래티넘 8480+ 모델이 적합하다. 제온 플래티넘 8658Q는 32코어, 4GHz 올 코어 터보, 350W TDP로 ‘액체 냉각’ 방식 구성에 적합하다. 한편 코어 수보다 ‘동작 속도’가 중요한 워크로드에서는 8코어에 4.1GHz 올 코어 터보 동작속도, 195W TDP 사양의 제온 골드 6434 같은 제품이 준비되어 있다.

HBM 탑재로 메모리 성능 극대화 ‘제온 CPU 맥스’ 시리즈

64GB HBM2e가 탑재된 ‘제온 CPU 맥스 시리즈’ 프로세서 /권용만 기자
64GB HBM2e가 탑재된 ‘제온 CPU 맥스 시리즈’ 프로세서 /권용만 기자
코드명 ‘사파이어 래피즈-HBM’으로 알려졌던 ‘제온 CPU 맥스 시리즈’는 프로세서 패키지에 64GB HBM2e를 결합해 메모리 성능을 극대화한 것이 특징이다. 제온 CPU 맥스 시리즈에 탑재된 HBM2e의 전체 대역폭은 최대 1TB/s에 이르며, 용량 또한 산술적으로 코어당 1GB 이상을 할당할 수 있는 수준을 갖췄다. 이 ‘제온 CPU 맥스 시리즈’는 메모리 대역폭 집약적인 유형의 워크로드에서 일반적인 DDR4 메모리 구성의 이전 세대 제온 스케일러블 프로세서 대비 최대 3.7배 향상된 성능을 제공한다.

제온 CPU 맥스 시리즈의 HBM 메모리는 크게 세 가지 방식으로 사용할 수 있다. 먼저, 최고의 성능을 추구한다면 시스템에 별도의 DDR5 메모리를 장착하지 않고 프로세서 내장 HBM 메모리만 사용할 수 있다. 혹은 대용량의 DDR5 메모리를 장착하고, HBM을 메모리와 프로세서 간의 대용량 고속 캐시처럼 사용할 수 있다. ‘HBM 플랫 모드(HBM Flat Mode)’는 DDR5와 HBM을 별도의 영역으로 다루는 방법인데, 최적의 활용을 위해 소프트웨어의 수정이 필요하다.

제프 맥베이 수석부사장은 이 ‘제온 CPU 맥스’에 대해 "4세대 제온과 동일한 기술적 기반을 사용하지만 실리콘 레벨에서부터 다른 제품이다"고 소개했다.

양 프로세서가 같은 ‘사파이어 래피즈’ 계열이고 같은 기술적 기반을 사용하지만, 4세대 제온 스케일러블 프로세서와 제온 CPU 맥스 시리즈는 실리콘 다이를 공유하지 않는다. 이는 ‘사파이어 래피즈’의 다이 구성에서, HBM2e 컨트롤러까지 공용으로 탑재해 사용하기에는 공간적인 문제가 있었을 것으로 추측된다.

또한, ‘제온 CPU 맥스’ 프로세서는 HBM 메모리를 사용함에 따라 몇 가지 ‘최적화’가 적용된 점도 차별화된 점으로 꼽혔다. 인텔은 제온 CPU 맥스 프로세서에서 달라진 점으로 하드웨어 프리패칭 알고리즘 조정, 언코어 영역의 동작속도 조정, 로컬 메모리 요청에 따른 코어 반응 부분 조정, 소켓간 일관성을 위한 스눕 필터(Snoop Filter) 조정 등을 소개했다.

제온 CPU 맥스 시리즈 프로세서는 지연시간과 대역폭의 최적화를 위해 내부 구역을 나누어 다루는 ‘클러스터링’ 구성도 지원한다. 이 때 ‘서브 NUMA 클러스터링(SNC4: Sub-NUMA Clustering)’은 각 컴퓨트, HBM 타일이 NUMA 도메인으로 구성되는 형태로 동작한다. 반면 ‘UMA 클러스터링(Quadrant: UMA Clustering)’은 소켓 단위가 단일 NUMA 도메인으로 구성되어, CHA(Caching and Home Agent)와 메모리 컨트롤러(MC)는 연관되지만, CHA와 코어는 연관되지 않는 형태다.

’제온 CPU 맥스 시리즈’는 총 다섯 개 모델이 선보인다. /인텔
’제온 CPU 맥스 시리즈’는 총 다섯 개 모델이 선보인다. /인텔
인텔은 제온 CPU 맥스 시리즈가 메모리 대역폭이 중요한 애플리케이션에서 이전 세대 제온 스케일러블 프로세서나 경쟁사의 프로세서와 큰 성능, 에너지 효율 차이를 보인다고 소개했다. 먼저, HPCG 성능과 효율에서는 ‘제온 CPU 맥스’ 시리즈 프로세서가 63% 더 적은 전력 소비량으로 AMD 에픽 7773X 프로세서와 동등한 성능을 내며, HBM만 사용했을 때 전력 소비량은 68%까지 차이가 발생한다고 소개했다.

인텔은 알테어 아큐솔브(ALTAIR AcuSolve)를 사용하는 환경에서도 제온 CPU 맥스 시리즈는 기존 3세대 제온 스케일러블 프로세서 기반 시스템 네 대가 처리하던 작업을 한 대로 처리할 수 있으며, 이 때 전체 시스템의 전력 소비량은 43%까지 줄일 수 있다고 소개했다. 이 외에도 주요 ‘실제 워크로드’ 성능에서도 최대 3.7배 향상된 성능을 제공하며, 누멘타(Numenta)의 AI 솔루션에서도 경쟁 프로세서 사용 환경 대비 20배 높은 NLP 성능을 제공했다고 덧붙였다.

인텔의 ‘제온 CPU 맥스’ 시리즈는 구성 특징에 따라 총 다섯 가지 모델이 준비되어 있다. 이 중 9480 모델이 가장 높은 성능을 갖췄으며, 9470은 성능과 비용의 균형을 추구한 모델이다. 9468은 ‘공냉’ 방식에서 최대 성능을 추구하는 모델이며, 9462는 최고의 ‘코어당 성능’을 추구하는 모델이다. 마지막으로 9460 모델은 최고의 비용 대비 메모리 대역폭을 제공하는 것이 특징이다.

GPU와 소프트웨어 지원까지 갖춰 HPC 경쟁력 극대화

인텔은 HPC에서 CPU-GPU-소프트웨어 지원을 모두 갖춰 경쟁력을 극대화했다. /인텔
인텔은 HPC에서 CPU-GPU-소프트웨어 지원을 모두 갖춰 경쟁력을 극대화했다. /인텔
인텔의 HPC를 위한 포트폴리오에서 또 다른 중요한 축인 인텔 데이터센터 GPU 맥스 시리즈는 최대 128개의 Xe HPC 코어와 128GB HBM2e 메모리를 갖추고, 최대 52테라플롭스(TFlops) 연산 성능을 제공한다. 인텔은 ‘데이터센터 GPU 맥스 시리즈’를 PCIe카드와 OAM 모듈 형태로 제공하며, 모듈 네 개를 조합한 서브시스템 구성도 마련했다. 미국 아르곤 국립연구소의 오로라 슈퍼컴퓨터가 이 ‘제온 CPU 맥스 시리즈’와 ‘데이터센터 GPU 맥스 시리즈’ 조합을 사용하고 있다.

인텔은 제온 CPU 맥스 시리즈 프로세서와 데이터센터 GPU의 조합이 기존의 프로세서만 사용하는 시스템 대비 큰 성능 향상을 제공한다고 소개했다. LAMMPS 연산 성능에서 제온 CPU 맥스 시리즈는 기존 3세대 제온 스케일러블 프로세서보다 1.3배의 성능을 제공하지만, 데이터센터 GPU 맥스 시리즈 6개가 조합되면 성능 차이는 8.2배로 커진다. 또한 HBM 메모리만으로의 사용은 성능을 1.5배 높이며, 이 때 3세대 제온 스케일러블과의 성능 차이는 12.9배에 이른다.

이러한 인텔의 HPC를 위한 포트폴리오의 가치를 극대화하는 것은 ‘원API(oneAPI)’다. 인텔의 원API는 CPU와 GPU, 가속기 등으로 이루어진 복잡한 이종 아키텍처 구성의 시스템에서도 하드웨어의 성능 잠재력을 효과적으로 최대한 끌어낼 수 있게 돕는다. 특히 인텔의 하드웨어 뿐만 아니라 타사의 하드웨어 아키텍처와도 함께 활용할 수 있는 유연성을 갖췄으며, 널리 사용되는 주요 라이브러리, 프레임워크들에 대한 지원도 제공한다.

권용만 기자 yongman.kwon@chosunbiz.com


관련기사