[4세대 제온 CPU] ①디지털 인프라 '세대 교체'

북마크 완료!

마이페이지의 ‘북마크한 기사’에서 읽으실 수 있습니다.

북마크한 기사 보러가기 close
입력 2023.01.11 06:00
인텔은 11일, 코드명 ‘사파이어 래피즈(Sapphire Rapids)’로 알려졌던 4세대 인텔 제온 스케일러블 프로세서를 출시한다. 4소켓 이상의 서버 시장에서는 약 5년 만에 실질적 세대 교체가 이뤄진다. 인텔이 2022년 12월 13일과 14일 양일간 미국 오레곤주 포틀랜드의 인텔 존스팜(Jones Farm) 캠퍼스에서 진행한 미디어 워크숍에서 발표한 4세대 인텔 제온 스케일러블 프로세서 제품군의 주요 특징을 정리했다. 오레곤=권용만 기자

데이터센터의 실질적 표준으로 자리잡은 인텔의 제온 스케일러블 프로세서가 4세대로 세대 교체된다. 기능과 성능, 효율 등 모든 부분에서 이전 세대와 비교해 변화의 폭이 대단히 큰 만큼, 디지털 시대로의 전환 본격화와 함께 시장 전반에 큰 변화를 불러올 것으로 기대된다.

코드명 ‘사파이어 래피즈’로 알려졌던 4세대 인텔 제온 스케일러블 프로세서는 이전 세대 대비 코어 마이크로아키텍처부터 제조 공정, 플랫폼 구성에 이르기까지 많은 부분이 바뀌었다. 특히 4소켓 이상의 서버 시장에서는 약 5년 만에 실질적 세대 교체가 이뤄진다.

인텔은 이번 4세대 제온 스케일러블 프로세서의 방향성으로 ‘워크로드 최적화’를 제시했다. 범용 연산 성능 뿐 아니라 보편적으로 사용되는 특정 유형의 워크로드를 위한 ‘가속기’를 활용해 성능을 크게 끌어올렸다는 평가다.

◇ ‘뛰어난 워크로드’ 4세대 제온 스케일러블 프로세서

리사 스펠만 인텔 수석부사장 /오레곤=권용만 기자
리사 스펠만(Lisa Spelman) 인텔 수석부사장은 이 자리에서 "인텔 제온 스케일러블 프로세서는 디지털 시대의 기반 인프라로 광범위하게 활용되고 있다"고 소개했다. 이어 "인텔은 제온 스케일러블 프로세서가 단순한 ‘기록 수립’이 아니라 실제 워크로드에서 뛰어난 가치를 제공하는 것을 가장 중요하게 생각하고 있다"고 강조했다.

인텔의 제온 프로세서 기반 플랫폼은 데이터센터 엣지에서 하이퍼스케일 데이터센터에까지 다양한 위치에서 광범위하게 활용되고 있다. 또한 빠르게 변해 가는 시장에서 새롭게 등장하는 새로운 비즈니스 유형과 IT 소비 모델을 신속하게 지원한다. 인텔은 광범위한 시장에 효과적으로 대응하기 위한 핵심 경쟁력으로 제온 스케일러블 프로세서와 제온 맥스 시리즈 CPU-GPU 포트폴리오, 업계의 실질적 표준으로 자리잡은 소프트웨어 생태계를 꼽았다.

엣지에서 하이퍼스케일에 이르기까지 다양한 규모와 유형의 데이터센터 시장에 접근함에 있어,인텔이 가장 중요하게 여기는 가치는 ‘워크로드 우선’이다. 이를 위해 인텔은 프로세서의 구성에 단순히 더 많은 코어를 넣는 것보다, 특정 유형의 워크로드 처리에 효과적인 ‘가속기’를 함께 사용해 소프트웨어의 최적화와 함께 실제 워크로드 성능을 극대화한다고 소개했다.

4세대 제온 스케일러블 프로세서의 주요 성능 향상 /인텔
인텔은 4세대 제온 스케일러블 프로세서를 코어 마이크로아키텍처의 변화는 물론, 지금까지의 제온 프로세서 중 가장 많은 ‘가속기’를 내장한 프로세서로 꼽았다. 이러한 다양한 가속기의 조합은 일반적인 디지털 서비스 뿐 아니라 AI, HPC, 소프트웨어 정의 스토리지와 네트워크에 이르기까지 다양한 영역에서 성능 병목점을 효과적으로 제거하고 전체 성능을 극대화한다. 인텔은 4세대 제온 프로세서가 제조에서 폐기에 이르는 제품 라이프사이클 전반에서 ‘가장 지속가능한 프로세서’라고 덧붙였다.

4세대 제온 스케일러블 프로세서는 프로세서 내장 가속기를 적극적으로 활용함으로써, 이전 세대 대비 최대 2.9배의 단위전력당 성능을 제공하며, 최적화된 파워 모드의 활용으로 프로세서 당 70W의 전력 소비량을 줄일 수도 있다. 이러한 향상된 전력 효율과 전력 소비량 절감은 비용과 탄소배출량 부담을 크게 줄여, 기업과 사회의 지속가능성 목표 달성에도 기여할 수 있다.

4세대 제온 스케일러블 프로세서는 일반적인 ‘범용 컴퓨팅’ 환경에서 이전 세대 대비 평균 53%에 이르는 성능 향상을 기대할 수 있다. 이러한 성능 향상은 프로세서 내의 다양한 가속 기능을 활용할 때 극적으로 높아진다. AI 추론의 경우 최대 10배의 성능 향상이 가능하고, 5G vRAN에서는 같은 전력소비량에서 두 배의 처리량을 제공한다. 데이터 분석에서도 최대 3배, 네트워크와 스토리지에서는 95% 더 적은 코어 사용률로도 2배의 성능을 제공한다. 한편, HBM이 적용된 제온 CPU 맥스 시리즈는 메모리 대역폭 의존적인 HPC 워크로드에서 3.7배 향상된 성능을 제공한다.

인텔은 4세대 제온 스케일러블 프로세서의 또 다른 장점으로 ‘품질’을 꼽았다. 이는 제품 자체의 품질 뿐 아니라 하드웨어와 소프트웨어의 다양한 조합에 있어 광범위한 검증, 제품의 생애 주기 전반에 걸친 가시성 측면이 모두 포함된다. 지금까지 850만개의 제온 스케일러블 프로세서가 고객에 공급되고, 3세대 제온 스케일러블 프로세서는 2년이 채 되지 않는 기간 동안 150만 개가 공급되는 등 시장에서 이미 충분히 성능과 신뢰성을 검증받았다고 강조했다.

최신 아키텍처와 새로운 패키징 기술이 총집합

4세대 제온 스케일러블 프로세서의 아키텍처 특징 /인텔
4세대 인텔 제온 스케일러블 프로세서는 점점 광범위해져 가는 컴퓨트 수요에 대응하기 위해 이전 세대들과 비교할 때 프로세서의 마이크로아키텍처, 기능 구성, 제조 공정, 플랫폼에 이르기까지 모든 부분에서 크게 바뀌었다. 인텔은 이러한 4세대 제온 스케일러블 프로세서의 변화가 ‘실제 워크로드’에 초점을 맞춘 것이며 도입 즉시 ‘바로 사용할 수 있는’ 기능들이란 점을 강조했다.

4세대 제온 스케일러블 프로세서의 코어 마이크로아키텍처는 이전 세대 대비 제법 큰 변화가 있다. 프론트엔드의 OoO(Out-of-Order) 윈도우 크기는 352개에서 512개로 커졌으며, 스케줄러 엔트리도 160개에서 248개로 확장됐고, 프로세서 내부의 레지스터와 할당 큐 등도 더 커졌다. 캐시 크기도 L2, L3 모두 제법 확장됐다.

이러한 변화에 힘입어 4세대 제온 스케일러블 프로세서는 코어당 15% 향상된 IPC(사이클당 명령어 처리 수)를 제공한다. 새롭게 도입된 AMX나 vRAN을 위한 AVX 확장 명령어 등의 가속 기능을 사용하면 성능 향상 폭은 더욱 커진다.

크게 세 가지 다이 패키지로 구성된 4세대 제온 스케일러블 프로세서 /인텔
4세대 제온 스케일러블 프로세서의 다이 패키징 구성은 크게 세 가지이다. 제온 프로세서에서는 처음으로 4개 다이를 하나의 프로세서로 묶는 구성이 사용된다. 4개의 다이를 EMIB(Enbedded Multi-die Interconnect Bridge)로 묶은 XCC(Extreme Core Count) 패키징은 최대 60개 코어를 사용할 수 있으며, 제품의 TDP 범위는 225~350W다. 32코어 이하의 제품에서는 전통적인 단일 다이 구성인 MCC(Medium Core Count) 패키징이 사용된다.

4세대 제온 스케일러블 프로세서는 프로세서 내부의 구성 요소 간 연결에 그물망 형태의 ‘메시 인터커넥트’를 사용한다. XCC 패키지에 사용되는 개별 다이 구성은 MCC 다이의 최대 49개 타일 구조보다는 작아진 20개 타일 정도의 규모다. XCC에서 좀 더 작은 크기의 개별 다이를 사용하는 이유는 생산 비용 뿐 아니라 다이간 인터커넥트에서의 부하와 밸런스 문제도 있다. 각 다이간 연결에서는 각 구성 요소간에 사용되는 메시 엔터커넥트를 다이 간에도 직접 연결함으로써 자연스럽게 하나의 큰 패키징을 만들어 낸 모습이다.

HBM(High Bandwidth Memory)이 조합되는 제온 CPU 맥스 시리즈는 XCC와 같이 4개 다이를 EMIB로 결합하지만, 사용 가능한 최대 코어 수는 56개, 제품의 TDP는 350W다. 인텔은 이 제온 CPU 맥스 CPU가 4세대 제온 스케일러블 프로세서의 XCC 패키징과 주요 기술적 특징에서 동일한 점이 많지만, 두 제품간에는 서로 다른 다이를 사용한다고 덧붙였다.

플랫폼 차원에서의 주요 인터페이스들도 성능이 크게 올랐다. /인텔
4세대 제온 스케일러블 프로세서 제품군은 최대 8채널 DDR5-4800 메모리 구성을 지원한다. 옵테인 퍼시스턴트 메모리(Optane Persistant Memory) 300 시리즈도 4400MT/s 속도로 사용할 수 있다. 멀티프로세서 지원은 XCC 패키지에서 최대 8소켓, MCC 패키지에서 최대 4소켓이다. 이에 따라 프로세서 간 연결을 위한 UPI(Ultra Path Interconnects)는 XCC에서 최대 4개, MCC에서는 최대 3개가 제공된다. 모든 패키지 형태에서 PCIe 5.0 인터페이스는 프로세서 당 최대 80개, CXL(Compute Express Link) 1.1 은 최대 4개 디바이스 연결을 지원한다.

4소켓, 8소켓 급 서버에서 4세대 제온 스케일러블 프로세서는 최근 5년 사이에 가장 큰 업그레이드다. 고밀도와 미션 크리티컬 급 무중단 운영을 위한 기능이 지원되는 이 시장에서, 4세대 제온 스케일러블 프로세서는 단일 서버에서 8소켓 구성으로 최대 480개 코어와 32TB 메모리를 제공할 수 있고, UPI 2.0 기반으로 성능이 최적화된 토폴로지로 이전 대비 1.9배의 소켓당 연결 대역폭을 지원한다.

대용량 워크로드를 효과적으로 다루기 위한 주요 인터페이스의 성능 또한 크게 올랐다. 8채널 구성의 DDR5 메모리는 이전 세대의 DDR4 대비 1.5배의 대역폭과 함께 향상된 용량과 가용성을 위한 기능들을 제공한다. PCIe 인터페이스는 이전 세대 대비 두 배의 대역폭을 갖춘 PCIe 5.0을 최대 80레인 제공한다. CXL 1.1은 프로세서 당 4개의 디바이스를 연결할 수 있으며, 타입1, 타입2 디바이스를 모두 지원한다.

‘가속기’ 활용으로 더욱 다양한 워크로드에 적용성 높여

4세대 제온 스케일러블에서는 다양한 ‘가속기’로 성능과 효율을 최적화했다. /인텔
프로세서에 내장된 다양한 가속기들은 보편적으로 사용되지만 범용 프로세서로는 처리하기에 비효율적인 워크로드들을 전용 회로로 빠르게 처리해 실제 워크로드 처리 성능과 효율을 극대화한다.

QAT(QuickAssist Technology)는 네트워크 데이터의 암호화와 압축 등에서 높은 성능을 제공하며, DLB(Dynamic Load Balancer)는 네트워크 패킷의 스케줄링과 로드밸런싱을 통해 전송량을 최적화한다. DSA(Data Streaming Accelerator)는 메모리 내에서의 이동과 복사 작업에서 프로세서의 개입을 줄이며, IAA(In-Memory Analytics Accelerator)는 인메모리 분석에서의 데이터 압축과 해제 처리 등에서 프로세서의 처리 부담을 최소화한다.

프로세서의 코어 마이크로아키텍처 차원에서 내장된 새로운 명령어 체계도 특정 유형의 워크로드 처리 성능 가속에 큰 도움을 준다. 4세대 제온 스케일러블 프로세서의 AMX(Advanced Matrix Extensions)는 AI 워크로드 등에서 프로세서의 행렬 처리 성능을 크게 높일 수 있다. 또한 AVX(Advanced Vector Extensions) for vRAN 기능은 AVX-512에서 FP16의 복소 곱셈(Complex Multiplication)을 지원해 패킷 처리 관련에서 기존의 FP32 대비 최대 두 배의 처리량을 제공한다.

한편 인텔은 4세대 제온 스케일러블 프로세서에 포함된 가속 기능들에 대해 제품 구성을 단순화하면서 특정 기능이 필요한 사용자들이 필요할 때 활성화해서 사용할 수 있는 ‘인텔 온디멘드(Intel On Demend)’ 기능을 적용한다. 이 기능을 통해 대부분의 4세대 제온 스케일러블 프로세서에서 특정 워크로드의 필요에 따라 DLB나 DSA, IAA, QAT, SGX 등의 기능을 소프트웨어적으로 활성화할 수 있다. 기능은 한번의 비용 지불로 영구히 활성화 가능하며, 가속기 구성에 따라 ‘커뮤니케이션과 스토리지’ 스위트 2종, ‘애널리틱스’ 스위트 2종, SGX 스위트 1종 등 총 5종이 마련되어 있다.

가속기의 활용은 일반적 기대 이상의 성능 향상을 제공한다. /인텔
인텔은 4세대 제온 스케일러블 프로세서가 이전 세대 대비 일반적인 환경에서 평균 53% 향상된 성능을 제공하며, 몇몇 주요 영역에서는 프로세서 내장 가속 기능을 활용해 이보다 큰 폭의 성능 향상을 제공한다고 소개했다. 대표적으로, AI 워크로드에서는 AMX를 활용해 최대 10배의 성능 향상을, 네트워크와 스토리지에서는 QAT나 AVX for vRAN 등을 활용해 최대 두 배의 성능과 효율을 얻을 수 있고, 데이터 분석에서도 AMX와 IAA 등을 사용해 최대 3배 성능 향상을 제공한다.

이러한 성능과 효율 향상은 구형 서버의 교체에서 성능 향상 뿐 아니라, 다운사이징을 통한 비용 절감도 가능하게 한다. 예를 들면, AI 워크로드에서 50대의 3세대 제온 스케일러블 프로세서 기반 서버로 얻을 수 있던 성능은 단 17대의 4세대 제온 스케일러블 프로세서 기반 서버로 얻을 수 있다. 이 때 절감 가능한 소비전력량은 22.1kW, 4년간 비용 절감 효과는 55%에 이를 것으로 소개됐다. 이러한 비용 절감 효과는 데이터베이스에서도 52%, HPC에서는 66%에 이른다고 덧붙였다.

물론 프로세서와 플랫폼에 장착된 다양한 가속기와 기능들은 소프트웨어에서 제대로 활용할 수 있어야 효과를 볼 수 있다. 이 부분에서도 인텔은 4세대 제온 스케일러블 프로세서가 제공하는 주요 가속 기능들을 바로 사용할 수 있도록 생태계 전반에 걸쳐 준비해 놓은 상태다. 제품 구성 차원에서도 클라우드나 스토리지, 네트워크, IoT 등 특정 워크로드 유형에 최적화된 ‘워크로드 최적화’ 제품군이 마련됐다. 인텔은 이미 제온 프로세서 판매량의 56%가 이러한 ‘워크로드 최적화’ 제품이라고 언급했다.

권용만 기자 yongman.kwon@chosunbiz.com

0
주요 뉴스
지금 주목할 뉴스