이름 빼고 다 바꾼 3세대 오라이온 코어, 이전 대비 성능 39% 높여 [스냅드래곤 X2]

최신 아키텍처 기반 코어당 성능 극대화 두 가지 유형 코어로 ‘하이브리드’ 구성 사용

2025-11-20     샌디에고=권용만 기자

퀄컴의 차세대 인공지능(AI) PC용 프로세서인 ‘스냅드래곤 X2 엘리트’ 시리즈에 탑재될 3세대 오라이온(Oryon) CPU의 기술적 상세 내용들이 공개됐다. 이전 세대 대비 최신 명령어 셋을 기반으로 성능에 최적화된 확장이 눈에 띈다. 더 높아진 동작 속도와 시스템 차원의 변화와 더불어 코어당 성능은 최대 39% 높아졌다.

퀄컴은 11월 11~12일 양일간 미국 캘리포니아주 샌디에고의 퀄컴 본사에서 ‘스냅드래곤 X 시리즈 아키텍처 딥다이브 2025’ 행사를 통해 지난 10월 발표한 ‘스냅드래곤 X2 엘리트’ 시리즈의 자세한 기술적 특징을 소개했다.

스냅드래곤 X2 엘리트 시리즈 프로세서는 최대 18개의 3세대 오라이온 기반 코어를 탑재한다. 이전 세대가 단일 유형의 코어를 탑재한 것과 달리, 스냅드래곤 X2 엘리트 시리즈 프로세서는 같은 마이크로아키텍처 기반이지만 내부 구성을 차별화한 두 가지 유형의 코어를 탑재한 ‘하이브리드’ 구성을 사용하는 모습이다. 이 중 고성능을 추구하는 ‘프라임’ 코어는 이전 세대 대비 최대 39% 높은 성능을 제공하며, 효율을 추구해 구조를 간소화하고 면적을 줄인 ‘퍼포먼스’ 코어는 저전력 동작 상황에 최적화됐다.

프라딥 카나파티필라 퀄컴 엔지니어링 부사장 겸 CPU 아키텍트 / 샌디에고=권용만 기자

프라딥 카나파티필라(Pradeep Kanapathipillai) 퀄컴 엔지니어링 부사장 겸 CPU 아키텍트는 “스냅드래곤 X2 엘리트에 사용된 3세대 오라이온(Oryon) CPU(중앙처리장치)는 커스텀 디자인을 사용하며 이전 대비 성능과 효율 면에서 크게 향상했다”고 설명했다. 이 3세대 오라이온 CPU는 Armv9 계열 명령어와 호환성을 갖춘 커스텀 코어를 사용해 이전 세대 대비 큰 폭으로 변화했다. 특히, 이전 세대와 달리 스냅드래곤 X2 엘리트는 같은 아키텍처 기반이지만 두 가지 유형의 코어를 탑재한 하이브리드 형태인 점도 눈에 띈다.

스냅드래곤 X2 엘리트는 3세대 오라이온 커스텀 마이크로아키텍처를 기반으로 18개 코어가 3개 클러스터로 탑재된다. 각 클러스터당 탑재되는 코어 수는 6개다. 3개의 클러스터 중 2개는 면적이 크고 코어당 성능이 높은 코어들이 구성된 ‘프라임’ 클러스터고 나머지 한 개는 좀 더 면적과 효율에 균형을 맞춘 ‘퍼포먼스’ 클러스터로 구성됐다. 프라딥 카나파티필러 부사장은 “두 클러스터 모두 같은 아키텍처 기반”이라 했지만 실제로는 내부 파이프라인 구성 등까지 제법 줄여 면적과 성능을 조절한 형태다.

‘프라임’ 클러스터는 코어당 성능을 중시하는 설계다. 클러스터에는 6개의 프라임 코어와 한 개의 매트릭스 엔진(Matrix Engine), 16MB의 공유 캐시가 탑재됐다. 기본 동작 속도는 4.4GHz, 최대 동작 속도는 5GHz로 이전 세대보다 제법 향상했다. 이전 세대 클러스터와 비교하면 코어당 공유 캐시는 16MB로 늘어났지만 코어 수도 두 개 늘어서 코어당 공유 캐시 용량은 조금 줄어든 모습이다. 

프라임 코어의 구성은 이전보다 좀 더 확장됐다. L1 명령어 캐시는 192KB로 이전과 비슷하며 사이클당 16개 명령어를 가져온다. 디코드에서는 이전 세대의 클럭당 8개에서 클럭당 9개를 처리할 수 있는 구조로 확장됐고 백엔드에서는 효율을 위해 몇 개 마이크로 명령어를 묶어 처리할 수도 있게 했다. 정수 연산 처리에는 6개의 64비트 파이프 구조를 사용하며 사이클당 6개의 명령어나 2개의 곱셈 연산을 처리한다. 벡터 연산에는 4개의 128비트 폭 벡터 파이프를 갖췄고 사이클당 4개의 FP32, INT32 명령어 처리가 가능하다.

스냅드래곤 X2 엘리트의 프라임 클러스터 주요 특징 / 퀄컴
3세대 오라이온 프라임 코어의 주요 성능 특성 / 퀄컴

메모리 유닛에서 눈에 띄는 부분은 다양한 크기의 페이지 사이즈를 지원하는 것과 함께 중첩가상화 등을 지원할 수 있는 2단계 변환(2-Stage Translations)가 지원된다는 점이 있다. 클러스터 전체가 공유하는 L2 캐시는 클러스터 당 16MB고, 프로세서 전체에서는 프라임 클러스터가 클러스터당 16MB, 퍼포먼스 클러스터가 클러스터당 12MB를 갖춰 총 44MB 정도다. 한편, L2 캐시는 기본적으로 공유 구조지만 특정 코어에 고정 할당하는 파티셔닝 구성도 지원해 주변 코어 상황에 따른 특정 코어의 성능 영향을 막을 수도 있다.

프라임과 퍼포먼스 클러스터에는 클러스터당 한 개씩의 ‘매트릭스 엔진’이 탑재된다. 이는 머신러닝(ML) 등에서 많이 활용되는 행렬 연산에 최적화된 연산 유닛이다. 이 매트릭스 엔진은 기본적으로 64x64비트 폭을 가지고 있으며 레지스터 셋을 벡터 폭으로 사용할 때는 512비트 폭까지 지원할 수 있다. 이를 통해 벡터 유닛에서는 처리가 까다로운 행렬 연산을 좀 더 효율적으로 처리할 수 있게 했다. 한편 매트릭스 엔진의 동작 속도는 클러스터 내의 다른 구성 요소와 분리돼 더 나은 전력과 발열 관리를 구현했다.

이러한 다양한 요소들이 결합돼 3세대 오라이온 프라임 코어는 이전 세대 대비 코어당 최대 성능은 39%까지 높아졌고, 이전 세대의 최대 성능 수준을 43% 적은 전력 소비량으로 달성할 수 있다. 여기에는 기본적으로 더 높아진 코어당 최대 동작 속도와 더 넓어진 플랫폼 전력 대응 폭, 개선된 플랫폼 메모리 서브시스템 등 다양한 요소가 반영돼 온전히 아키텍처만의 향상 폭만은 아니게 됐다. 하지만 일반적인 코어당 8~10W 선에서 사용자가 체감할 수 있는 성능 향상도 제법 높을 것으로 예상할 수 있다.

스냅드래곤 X2 엘리트의 퍼포먼스 클러스터 주요 특징 / 퀄컴

‘퍼포먼스’ 코어가 모인 퍼포먼스 클러스터는 6개의 퍼포먼스 코어와 매트릭스 엔진, 12MB의 공유 캐시로 구성된다. 이 ‘퍼포먼스 클러스터’는 개별 코어의 성능보다는 좀 더 나은 에너지 효율성과 면적 효율, 저전력 효율 등을 고려해 구성됐다. 기본 동작 속도는 3.6GHz 정도로 프라임 클러스터보다 낮은데, 이는 실제 실리콘에서 성능 효율이 가장 높은 동작 속도 구간 안에서 동작하도록 구성했기 때문으로 보인다. 

이 퍼포먼스 클러스터는 다른 프로세서들에서 ‘효율’, ‘컴팩트’ 등으로 불리는 유형의 코어다. 퀄컴은 이 퍼포먼스 클러스터 구성에 있어 같은 세대의 아키텍처 기반이지만 제법 많은 수정을 거쳤다. 기본적으로 프라임 코어와 퍼포먼스 코어는 같은 아키텍처 기반을 공유하지만 퍼포먼스 코어에서는 더 적은 실행 파이프라인이나 프론트엔드 폭 축소, 더 작은 캐시 구성 등으로 효율과 면적에 맞췄다. 퀄컴은 이 디자인에 대해 “저전력과 물리적 디자인에 최적화했다”며 “특히 2W 이하의 저전력 구동 환경에서의 성능 효율에서 뛰어나다”고 언급했다.

샌디에고=권용만 기자

yongman.kwon@chosunbiz.com