인텔 ‘코어 울트라’ 프로세서 ①기능편 “AI PC 시대 개화” [2024 기대주]
세 가지 코어 구성, 두 배 이상 강력해진 GPU, AI 위한 NPU 갖춰 새로운 ‘인텔 4’ 공정 포함 3개 공정 ‘포베로스 3D’ 패키징으로 결합
인공지능(AI) 기술은 이미 세상의 많은 부분을 바꿔 놓고 있다. 이 기술은 IT 기술의 근간에도 큰 변화의 계기로 다가오고 있다. 특히 AI 기술의 부각과 함께 하나의 단일 중앙처리장치(CPU) 중심으로 구성되던 컴퓨팅 환경이 이제는 CPU와 여러 가지 주요 작업들에 최적화된 ‘가속기’들의 조합으로 바뀌고 있는 점을 주목할 만 하다.
2024년의 PC 시장 역시 가장 중요한 화두는 ‘AI’다. PC에서 AI의 활용은 이제 단순한 ‘기능 강화’와 ‘도움’을 넘어, 생성형 모델의 추론을 PC에서 단독으로 실행하는 단계에 이르고 있다. 2024년형 PC에서 AI 성능의 강화는 사용자의 생산성과 경험을 새로운 차원으로 바꿀 것으로 기대되며, 제품의 경쟁력을 차별화하는 데 핵심 요소로 꼽힌다. 이에 인텔과 AMD 모두 2024년형 PC를 위한 차세대 프로세서의 중요한 변화 중 하나로는 AI를 위한 ‘신경망처리장치(NPU)’ 탑재가 꼽힌다.
코드명 ‘메테오 레이크(Meteor Lake)’로 알려진 인텔의 ‘코어 울트라’ 프로세서는 새로운 AI 시대를 맞아 많은 것들이 바뀌었다. 새로운 마이크로아키텍처는 물론이고, 새로운 그래픽처리장치(GPU)와 AI를 위한 ‘NPU’까지 탑재됐다. 프로세서 전반의 구성 방법론 자체도 바뀌었고, 제조 공정 또한 새로운 미세공정 도입 이상의 변화가 적용됐다. 브랜드 또한 14세대에 걸쳐 이어져 오던 ‘코어 i시리즈’ 대신 ‘코어 울트라’로 새출발한다. ‘코어 울트라’의 등장 시점은 여러 모로, 새로운 시대를 시작하는 데 있어 모든 것이 다 모이는 시기가 아닐까 싶을 정도다.
인텔 ‘코어 울트라’는 지금까지 인텔 프로세서의 역사를 모두 통틀어 봐도 가장 큰 폭의 변화가 한 번에 적용된 프로세서로 꼽힐 만 할 정도로 많은 것이 바뀌었다.
가장 먼저 꼽을 수 있을 변화는 SoC(System-on-chip)의 구성 방법이 바뀌었다는 것이다. 지금까지 인텔의 CPU는 주로 하나의 다이에 프로세서에 필요한 주요 구성 요소를 모아 만드는 형태였지만, ‘코어 울트라’는 프로세서에 탑재된 주요 기능들을 몇 개의 실리콘 다이로 재배치하고, 이를 ‘포베로스 3D(Foveros 3D)’ 패키징 기술로 묶는 방법을 사용했다.
‘포베로스’ 패키징 기술은 이미 ‘데이터센터 GPU 맥스’ 시리즈 등에 사용된 바 있다. 이 기술은 여러 개의 실리콘 타일 간 고속 연결을 구현할 수 있고, 서로 다른 공정으로 만든 타일들도 하나의 제품으로 패키징할 수 있는 것이 특징이다. 현재의 코어 울트라 프로세서는 CPU 코어에 해당하는 컴퓨트 타일, GPU 타일, NPU와 다양한 가속기들이 탑재된 ‘SoC’ 타일, 그리고 PCIe와 썬더볼트 4 등의 인터페이스를 위한 ‘입출력(I/O)’ 타일 등 네 가지로 구성됐다.
이 중 컴퓨트 타일은 ‘인텔 4’ 공정을, GPU 타일은 ‘TSMC N5’ 공정을, SoC 타일 등은 ‘TSMC N6’ 공정을 사용하는 것으로 알려졌다. ‘인텔 4’ 공정은 고성능과 전력 모두에 최적화됐으며, EUV(Extreme Ultraviolet)를 사용하는 점도 특징이다. 인텔은 이 ‘인텔 4’ 공정이 기존 인텔 7 대비 두 배의 밀도와 20% 높은 전력 효율을 제공할 수 있다고 소개했다.
인텔은 이 ‘인텔 4’ 공정을 일반 소비자용 제품인 ‘코어 울트라’에 사용하고, 이를 기반으로 좀 더 미세화된 ‘인텔 3’ 공정은 차세대 데이터센터용 프로세서 제품군에 사용한다는 계획이다.
코어 울트라 프로세서는 새로운 ‘타일’ 구조를 사용함에 따라, 제품에 탑재된 기능들도 대거 재배치됐다. 특히 기존에는 GPU에 포함됐던 미디어 디코더와 인코더, 디스플레이 출력이 SoC 타일로 이동했고, 새롭게 탑재된 ‘NPU’ 또한 SoC 타일에 자리잡았다. 이전 세대까지는 SoC 전체가 공유하던 메모리 컨트롤러도 ‘코어 울트라’에서는 SoC 타일에 위치한다. 이 외에도, SoC 타일에는 새로운 ‘저전력 E코어(Low Power island E-cores)’가 탑재되는데, 이를 통해 부하가 아주 낮을 때 CPU 타일을 아예 끌 수 있게 돼 전력 효율을 높였다.
코어 울트라에 사용된 새로운 타일 구조는 시스템 전반의 성능과 전력 효율 최적화, 제조 측면에서의 유연성 강화 등 다양한 효과를 제공한다. 지난 세대까지는 CPU 코어와 GPU, 주요 기능들이 모두 CPU의 링버스와 시스템 에이전트를 통해 움직이는 구성이었는데, 코어 울트라에서는 이 공유 버스가 SoC 타일의 ‘NoC(Network on Chip) 패브릭’으로 연결되는 구조가 됐다. 이에 코어 울트라 프로세서에 탑재된 주요 기능들은 CPU를 거치지 않고 독립적으로 메모리에 접근할 수 있게 됐고, 시스템 전반의 대역폭 측면에서도 좀 더 유연한 배치와 확장이 가능하게 됐다.
여기에, 영상 재생 등의 상황에서는 아예 컴퓨트, 그래픽 타일 등을 꺼 버릴 수 있게 돼, 전력 효율을 더 높일 수도 있게 됐다. 코어 울트라 프로세서는 부하가 아주 낮은 상황이나 영상 재생 등의 환경에서 SoC 타일에 있는 ‘저전력 E 코어’와 미디어 엔진 등 필요한 부분만 사용하고, 컴퓨트와 그래픽 타일 등은 아예 꺼 버릴 수 있다. 이 외에도, 제조 차원에서는 상황에 따라 각 타일의 기능 구성이나 제조 공정을 변경할 여지도 있어, 제조 측면에서의 유연성을 높였다.
새로운 ‘인텔 4’ 공정 기반으로 만들어지는 코어 울트라 프로세서의 컴퓨트 타일에는 퍼포먼스 코어와 에피션트 코어 모두 새로운 아키텍처가 사용된다.
이 중 ‘퍼포먼스 코어’에는 ‘레드우드 코브(Redwood Cove)’가 사용되는데, 12세대 코어 프로세서에 사용된 ‘골든 코브(Golden Cove)’ 대비 연산 효율 향상, 메모리와 캐시 대역폭의 향상, 성능 효율 향상, 성능 모니터링과 피드백 기능 향상 등이 주요 특징이다. 이 ‘레드우드 코브’도 설계상에서는 AVX-512의 지원 가능성이 남아 있지만 실제 제품에서는 비활성화돼 있다.
새로운 에피션트 코어인 ‘크레스트몬트(Crestmont)’도 기존의 ‘그레이스몬트’ 대비 다양한 상황에서 성능이 향상됐다. 특히 AI 성능에 영향을 미치는 VNNI에서 처리 성능이 향상된 점이 주목할 만한 부분이다. 한편, SoC 타일의 ‘저전력 E 코어’의 아키텍처도 같은 ‘크레스트몬트’로, 코어 울트라 프로세서에는 동일한 아키텍처지만 다른 공정으로 만들어진 코어가 탑재된 독특한 조합을 선보인다.
하이브리드 아키텍처에서 작업에 적절한 코어 자원을 할당하는 ‘쓰레드 디렉터(Thread Director)’ 또한 변화가 있다. 일단, 쓰레드 디렉터에서 다뤄야 하는 코어 종류가 세 가지로 늘어난 점이 가장 먼저 보이는 차이점이다. 또한 작업이 들어왔을 때 코어별 스케줄링 우선 순위도 바뀌었다. 기존에는 작업이 일단 ‘퍼포먼스 코어’에 먼저 배정되고 작업 우선 순위에 따라 에피션트 코어로 이동하는 형태였지만, 코어 울트라 프로세서에서는 일단 ‘저전력 E-코어’에서 시작해 에피션트 코어, 퍼포먼스 코어 순으로 이동한다.
쓰레드 디렉터의 이런 변화는 기존 구조에서 활용 우선도가 상대적으로 떨어지던 에피션트 코어의 활용을 높이고, 사용자의 체감 배터리 효율과 성능 향상을 만들어낼 것으로 기대된다. 기존에는 체감 성능과 반응성을 우선해 전력 소비량이 큰 퍼포먼스 코어를 먼저 사용했지만, 코어 울트라에서는 전원 관리와 스케줄링 정책에 따라 더 많은 작업을 에피션트 코어 수준에서 해결할 수 있기 때문이다. 이는 이제 예전 ‘스카이레이크’ 이상의 성능을 내는 에피션트 코어의 기본 성능이 있기에 가능한 전략이기도 하다.
‘코어 울트라’의 중요한 변화 중 하나는 효율적인 AI 추론 워크로드를 위한 ‘NPU(Neural Processing Unit)’의 탑재다.
코어 울트라 프로세서에 탑재된 NPU ‘인텔 AI 부스트(AI Boost)’는 인텔이 2016년 인수한 ‘모비디우스(Movidius)’의 VPU기술을 기반으로 하며, 비전 모델을 넘어 다양한 추론 모델을 전력 소비에 대한 부담 없이 사용할 수 있게 해 주는 것이 장점이다. 이 NPU는 SoC 타일에 배치되며 최대 동작 속도는 1.4GHz 정도고, INT8, FP16, FP32 데이터 유형을 지원한다. 현재 사용 가능한 프레임워크는 ONNX 런타임, 윈도ML과 오픈비노(OpenVINO) 등이 준비돼 있다.
코어 울트라에 탑재된 NPU ‘인텔 AI 부스트’는 두 개의 ‘뉴럴 컴퓨트 엔진’을 갖추고 있고, 각 뉴럴 컴퓨트 엔진에는 추론 처리를 위한 파이프라인과 프로그램 가능한 VLIW(Very Long Instruction Word) DSP(Digital Signal Processor)가 마련돼 있다. 이 추론 처리를 위한 파이프라인의 핵심은 효율적이고 유연한 MAC 어레이(MAC Array: Multiply Accumulate array)로, INT8과 FP16 데이터 타입을 지원한다. 엔진 전체의 연산 성능은 10TOPS(Tera Operations per Second)수준이다.
코어 울트라의 NPU는 이미지 처리 기반 AI 모델을 넘어 최근 주목받는 자연어처리 모델과 생성형 AI의 처리에도 활용할 수 있다. 최신 윈도11 환경에서 NPU의 탑재는 ‘윈도 스튜디오 이펙트’에 활용돼 배경 흐림 처리나 자동 리프레임 등의 기능을 제공할 수 있다. 또한 다양한 애플리케이션에서 이미지 인식과 업스케일링 등의 수정에도 활용 가능하다. 이와 함께, 이 NPU는 ‘스테이블 디퓨전’이나 ‘라마2’ 등 생성형 AI와 자연어처리 모델에서도 이용할 수 있다.
한편, 인텔의 AI를 위한 하드웨어 전략은 CPU와 GPU, NPU를 모두 활용하는 ‘하이브리드’ 구성이다. 이 때, CPU는 반응성이 중요한 영역에, GPU는 처리량이 중요한 영역에, 그리고 NPU는 효율이 중요한 영역에 배치되며 CPU나 GPU의 부담을 덜어주는 형태다. 코어 울트라 프로세서에서도 AI 추론에 가장 뛰어난 연산 성능을 보이는 것은 GPU지만, GPU의 워크로드 일부를 NPU로 처리해 성능에 대한 영향을 최소화하면서도 전력 소비량을 크게 낮출 수 있다.
코어 울트라의 GPU는 기존의 ‘Xe-LP’ 기반 ‘아이리스 Xe’가 아닌, ‘Xe-LPG’ 기반 ‘아크 A-시리즈’를 사용하며, 이전 세대 대비 기능과 성능 모두가 크게 향상됐다. 새로운 ‘Xe-LPG’ 기반 아크 그래픽은 기존의 외장 그래픽 ‘아크 A-시리즈’와 같은 수준의 기술을 제공하지만, 프로세서 내장 그래픽으로 구성되면서 기존에는 GPU에 구성되던 미디어 엔진이나 디스플레이 엔진 등이 SoC 타일로 분리된 독특한 구조다.
코어 울트라의 아크 그래픽은 최대 8개의 Xe 코어와 128개 벡터 엔진을 갖췄다. 기존의 아이리스 Xe 대비로는 대략 33% 확장된 구성인데, 기능 지원 수준에서 차이가 있어 직접 비교하기는 어렵다. 그리고 ‘아크’ 계열의 GPU인 만큼, 이전 세대에서는 빠져 있던 ‘레이 트레이싱’ 기술을 지원한다. 이 외에도, ‘Xe-LPG’에서는 ‘비순차적 샘플링(Out of Order Sampling)’ 기술을 지원해 처리 효율을 높였다. 기존 Xe-LP 대비, 새로운 ‘Xe-LPG’는 순수 성능과 에너지 효율 모두에서 두 배 이상의 향상을 제공한다.
미디어 엔진에서는 기존 아이리스 Xe가 ‘AV1’의 하드웨어 디코드만을 지원했던 데 비해, 코어 울트라에서는 외장형 아크 그래픽카드와 마찬가지로 AV1의 인코딩까지 지원한다. 디코드는 8k60 10비트 HDR 규격까지, 인코드는 8k 10비트 HDR 규격까지 하드웨어 가속 처리 가능하다. 출력을 위한 ‘Xe 디스플레이 엔진’은 HDMI 2.1과 DP(DisplayPort) 2.1 20G 등의 표준을 지원해 8K60 HDR 디스플레이 한 개나 4개의 4K60 HDR 디스플레이, 고주사율로는 1440p 360Hz 디스플레이도 사용할 수 있다.
권용만 기자 yongman.kwon@chosunbiz.com