5세대 제온, 최대 ‘64코어’ 이전 세대보다 3배 많은 캐시 갖춰 [5세대 인텔 제온]
최대 64코어, 캐시 크기는 이전 세대의 ‘3배’까지 증가 구성 단순화해 성능 최적화, 에너지 효율성·보안성 향상
인텔이 AI 성능이 크게 향상된 ‘5세대 인텔 제온 스케일러블 프로세서(5th Gen Intel Xeon Scalable Processor, 이하 ‘5세대 인텔 제온’)’를 14일(현지시각)공식 발표했다. ‘5세대 인텔 제온’은 기존 ‘4세대’ 대비, 전체 성능에서는 최대 21%, AI 추론에서는 최대 42% 성능이 향상됐다.
인텔은 11월 30일(현지시각) 미국 오레곤주 포틀랜드의 인텔 존스팜 캠퍼스(Jones Farm Campus)에서 미디어 워크샵을 열고 코드명 ‘에메랄드 래피즈(Emerald Rapids)’로 알려진 ‘5세대 인텔 제온 스케일러블 프로세서’를 소개했다.
5세대 인텔 제온 프로세서는 기존 4세대 인텔 제온 프로세서의 ‘워크로드 최적화’ 장점을 더욱 극대화했다. 코어 수는 60코어에서 64코어로 소폭 증가했지만, LLC(Last Level Cache) 용량은 이전 세대 대비 최대 3배 증가하고, 메모리 동작 속도 또한 DDR5-5600으로 높아졌다. 이를 통해, 이전 세대 대비 평균 21%, AI 추론에서는 42%에 이르는 세대간 성능 향상을 제공한다. 전력 효율 또한 더 높아져, 전체적인 ‘비용’ 측면에서의 매력도 높였다.
◇ 기존 세대의 장점 강화와 최적화로 성능 높인 ‘5세대 인텔 제온’
로낙 싱할(Ronak Singhal) 인텔 시니어 펠로우는 이 자리에서 5세대 제온 프로세서에서 집중한 가치에 대해 “5세대 제온 프로세서는 현재 고객들이 직면한 AI 관련 문제에 대한 해결책과 함께 다양한 ‘워크로드 최적화’ 성능 측면을 제공하고자 하며, 효율과 보안성 향상에도 주안점을 뒀다”고 소개했다.
코드명 ‘에메랄드 래피즈’로 알려진 ‘5세대 인텔 제온’은 기존 4세대 인텔 제온 ‘사파이어 래피즈’의 기술과 플랫폼을 기반으로 경쟁력을 높인 것이 특징이다. 5세대 인텔 제온 프로세서는 기존 4세대 인텔 제온 프로세서 기반 플랫폼과 시스템에 호환 가능해, 시스템과 플랫폼 단위의 교체 없이 손쉬운 성능 향상 도모가 가능하다.
5세대 인텔 제온 프로세서는 ‘랩터 코브(Raptor Cove)’ 마이크로아키텍처를 기반으로 한다. 이 ‘랩터 코브’ 마이크로아키텍처는 기존 4세대 제온 프로세서의 ‘골든 코브’를 기반으로 지금까지 알려진 문제 수정과 캐시 구성 변경 등을 통한 최적화가 적용된 것이다. 최대 코어 수는 기존 4세대의 60코어보다 4개 더 증가한 최대 64코어를 제공하며, LLC는 이전 세대 대비 최대 3배 증가한 최대 320MB 구성을 제공한다.
메모리 지원은 기존 DDR5-4800 대비 동작 속도가 올라간 DDR5-5600 규격의 8채널 구성을 지원해, 메모리 전송 성능에 민감한 대규모 AI나 HPC 워크로드에서 향상된 성능을 지원한다. 이와 함께, ‘옵테인 메모리’ 지원이 빠진 대신 CXL(Compute Express Link) 1.1 타입 3 메모리의 4채널 구성을 지원해, 메모리 확장 또는 별도 메모리 영역으로의 활용 방안을 제공한다. 이 외에도, 소켓간 UPI(Ultra Path Interconnect) 연결도 기존의 16GT/s에서 20GT/s로 올라가, 소켓간 자원 접근 성능도 높아졌다.
제품의 다이 패키징 방법도 달라졌다. 4세대 제온의 경우 4개 다이를 하나로 패키징한 최대 60코어의 XCC, 단일 다이 구성으로 최대 32코어를 제공하는 MCC의 두 가지 구성이 있었다. 하지만 5세대 제온의 경우 XCC에서 두 개 다이를 하나로 패키징해 최대 64코어를 제공하며, MCC에서는 이전과 마찬가지로 단일 다이에서 최대 32코어 구성을 제공한다. 그리고 새롭게 등장한 EE(Edge Enhanced) LCC(Low core count) 다이는 단일 다이 구성에서 최대 20코어를 제공하며, 전력 소비 제한이 까다로운 엣지 애플리케이션 등에 최적화됐다.
4세대 제온의 XCC 다이는 총 4개의 다이를 4개의 EMIB(Embedded multi-die interconnect bridge)로 연결했었다. 하지만 5세대 제온의 XCC 다이는 두 개의 더 큰 다이를 3개의 EMIB로 연결하는 형태다. 인텔은 5세대 제온의 XCC 다이에서 구성을 변경한 이유로 “공정 안정화에 따른 수율 향상에 따라 더 큰 다이라도 충분한 수율을 달성할 수 있으며, EMIB 연결 수를 줄여서 프로세서의 복잡성과 지연시간을 줄이고, 전력 효율 측면에서도 개선이 가능했다”고 설명했다.
XCC에서 다이 구성이 두 개로 간소화되면서 다이 간 인터커넥트의 부하가 줄고, 이는 프로세서 내부적으로 지연 시간을 줄이는 효과로 나타난다. 또한 5세대 제온은 지연시간에 민감한 애플리케이션을 위해, 프로세서 내부를 구역 단위로 분리해 프로세서 코어와 메모리 컨트롤러 간의 경로 길이를 최소화하는 ‘클러스터링 모드’를 제공한다. 이 때, 기존 4세대에서는 SNC4, SNC2, 쿼드의 세 가지 모드를 제공했지만, 5세대에서는 다이 수가 줄면서 SNC2, 헤미(Hemi)의 두 가지 모드를 제공하는 것으로 변경됐다.
◇ 성능과 보안, 에너지 효율 높이는 새로운 특징들 제공
5세대 인텔 제온 프로세서에서는 이제 ‘옵테인’ 기술에 대한 지원이 공식적으로 사라졌다. 하지만 CXL(Compute Express Link 1.1)의 타입 3 메모리를 지원해, 시스템 차원에서 더 큰 용량의 메모리를 확보할 수 있게 했다. 5세대 제온 프로세서는 8채널 DDR5 메모리 컨트롤러 이외에 4채널의 CXL 메모리 구성이 가능하며, 이를 서로 분리된 2개 계층으로 사용하거나, 혹은 더 큰 용량의 단일 계층 12채널 메모리로 사용할 수 있다. 2개 계층의 경우 인메모리 데이터베이스 등에서 유용하고, 단일 계층의 경우 메모리 용량이 중요한 경우에 효과적일 것으로 기대된다.
에너지 효율 측면에서는 아키텍처와 공정 측면에서의 변화가 제한적인 상황에서도 최적화된 설정을 통해 상당한 효율 향상을 이뤄냈다. 인텔은 5세대 제온 프로세서가 더 향상된 코어와 시스템온칩(SoC) 인터커넥트 전력 효율과 공정 최적화, FIVR(Fully Integrated Voltage Regulator) 최적화를 통한 유휴 상태 전력소비 최적화 등을 통해, 이전 세대 대비 패키지 단위에서 유휴 전력은 소켓당 100W까지 줄였고, 전력 효율은 고효율 모드에서 1.34배 향상됐다고 소개했다.
5세대 제온 프로세서는 이전 세대 대비, 50% 이하 부하에서 기본적으로도 이전 세대 대비 소비 전력이 줄었다. 하지만 5세대 제온에 적용된 ‘최적화된 파워 모드(OPM: Optimized Power Mode)’를 적용하면, 350W TDP의 64코어 프로세서에서 OPM의 사용 여부에 따라 30% 부하에서는 2소켓 기준 110W, 40% 부하에서는 66W 적은 전력 소비량을 보인다고 소개했다.
5세대 제온 프로세서에서는 ‘터보 부스트’ 동작 단계 또한 이전 세대보다 세분화됐다. 4세대 제온 프로세서에서는 명령어 셋 활용에 따라 최대 4단계로 구분된 동작 속도는 5세대 제온에서는 총 5단계로 늘었다. 이에 따라 AMX와 AVX-512의 부하 단계도 좀 더 세분화됐으며, 부하별 밸런싱 조절로 전반적인 실제 성능도 향상됐다. 인텔은 이에 따라 저부하 AVX-512 상태의 성능이 10% 정도 오르고, AMX int8, bfloat16 기반 Resnet50 인스턴스의 성능이 5% 향상됐으며, AVX-512나 AMX 사용에 따른 성능 패널티를 줄였다고 설명했다.
인공지능 시대와 함께 그 중요성이 더 높아지고 있는 ‘보안’ 측면에 대해, 인텔은 5세대 제온 프로세서 전체 라인업에서 ‘TDX(Trust Domain Extensions)’ 지원을 제공한다고 밝혔다. 신뢰성이 보장된 ‘기밀 컴퓨팅(Confidential Computing)’ 환경 확보에 있어, 기존의 SGX(Software Guard Extensions)가 ‘앱 단위’의 환경을 제공한다면, TDX는 ‘가상 머신(VM) 단위’의 환경을 제공하는 점이 특징이다. 각 VM간 기밀성을 하드웨어 수준에서 보장함으로써, 가상화와 클라우드 등 멀티 테넌트 환경에서 신뢰성을 보장하면서도, 앱 단위보다는 좀 더 유연한 활용이 가능하다.
인텔은 이 ‘TDX’ 기술이 가상 머신 단위의 보안성을 크게 향상시키면서도 성능 측면에서의 경쟁력도 높다고 소개했다. 인텔의 테스트 결과에 따르면 8개 vCPU를 할당한 가상 머신에서 5세대 제온 프로세서 기반 시스템은 4세대 제온 프로세서 기반 시스템 대비 12~15% 높은 성능을 제공한다. 그리고 TDX 적용에 따라 성능에 1~2% 정도의 영향이 나타나지만, 그럼에도 TDX를 활성화한 5세대 제온 프로세서 기반의 가상 머신이 TDX를 사용하지 않는 4세대 제온 프로세서 기반 가상 머신보다 10% 가량 성능이 높다고 강조했다.
포틀랜드=권용만 기자 yongman.kwon@chosunbiz.com