“AI 에브리웨어 비전 확장” 인텔의 야심작 가우디3 [인텔 비전 2024]

‘인공지능(AI)’ 기술은 정보통신(IT) 기술의 역사에서 인터넷의 등장 이후, 혹은 IT의 등장 이후 가장 큰 변화의 계기로 꼽힌다. 인텔은 이러한 ‘AI 시대’를 위해, 올해 모든 시장에서 AI 성능이 대폭 높아진 신제품을 선보이면서 ‘AI 에브리웨어(AI Everywhere)’ 비전을 확장한다는 계획을 제시했다.

인텔은 9일(현지시각) 미국 애리조나주 피닉스에서 열린 ‘인텔 비전 2024’ 행사를 통해 인텔의 ‘AI 에브리웨어’ 비전과 주요 신제품들을 소개했다. 이 자리에서 인텔은 PC와 데이터센터를 위한 차세대 프로세서 제품군에 대한 예고와 함께 ‘가우디3’ AI 가속기를 공식 발표했다.

인텔의 ‘가우디 3’ AI 가속기는 기존 ‘가우디 2’의 아키텍처를 기반으로 새로운 공정에서 규모를 더 키운 것이 특징이다. BF16(BFloat16) 데이터 형식 기준 이전 세대 대비 4배 향상된 성능과 1.5배 높아진 메모리 대역폭, 2배 늘어난 네트워크 대역폭을 제공한다. 특히 엔비디아의 ‘H100’ 대비 ‘라마(Llama)’ 모델의 훈련과 추론에서 50% 높은 성능을 제공한다는 점이 눈길을 끌었다.

‘루나 레이크’의 AI 성능은 지금보다 세 배 높아진다. / 인텔 비전 기조연설 영상 갈무리

AI PC, 차기 ‘루나 레이크’ AI 성능 세 배 오른다

팻 겔싱어(Pat Gelsinger) 인텔 CEO는 이번 ‘인텔 비전 2024’의 기조연설을 통해, AI 시대의 한 축으로 ‘AI PC’를 지목했다. 그는 “코어 울트라 프로세서와 AI PC의 등장은 PC 경험을 근본적으로 바꿀 것이다. 지금까지 코어 울트라 기반 AI PC는 약 500만 대가 출하됐고, 올해는 4000만대 출하를, 2025년까지는 1억 대를 출하하는 것을 목표로 한다. 인텔은 이를 위한 ‘AI PC 가속화 프로그램’ 등으로 시장 확대를 지원하고 있다”고 밝혔다.

현재 세대 ‘코어 울트라’의 차기 제품은 코드명 ‘루나 레이크(Lunar Lake)’로 알려졌다. 이 제품은 현재 세대 대비 AI 성능이 세 배 올라 중앙처리장치(CPU)와 그래픽처리장치(GPU), 신경망처리장치(NPU)를 모두 합친 성능은 100 TOPS(Tera Operations per seconds)에 이를 것으로 알려졌다. 특히 NPU 성능은 최대 45TOPS에 이를 것으로 소개됐는데, 이는 현재 코어 울트라의 ‘AI 부스트’ 대비 4.5배 높은 성능이다.

한편, 팻 겔싱어 CEO는 “AI 기술은 다양한 비즈니스 애플리케이션을 바꿀 것이다. 코어 울트라 기반 AI PC는 이전 세대 대비 성능도 크게 높아졌지만, AI 기술은 이 가치를 더 높인다. 이제 윈도10의 지원 종료와 전환기도 앞두고 있다. 지금이 비즈니스 PC를 업그레이드 할 매력적인 시기다”라고 강조했다.

팻 갤싱어가 차세대 ‘제온 6’ 제품군의 웨이퍼 실물을 선보였다. / 인텔 비전 기조연설 영상 갈무리

‘그래나이트 래피즈’는 거대언어모델(LLM) 성능에서 크게는 6.4배 향상된 성능을 제시한다. / 인텔 비전 기조연설 영상 갈무리

차세대 ‘제온 6’ 제품군, AI 시대 성능과 효율 향상 돋보여

엣지에서 하이퍼스케일러까지 모든 유형의 데이터센터를 위한 제온 프로세서 제품군의 최신 브랜드는 ‘제온 6(Xeon 6)’다. 새로운 ‘제온 6’ 제품군에는 전통적인 ‘제온 스케일러블’ 시리즈를 잇는 ‘P(Performance) 코어’ 중심 구성의 ‘그래나이트 래피즈(Granite Rapids)’와 코어 밀도와 효율을 강조한 ‘E(Efficent) 코어’ 구성의 ‘시에라 포레스트(Sierra Forest)’가 있다. 두 프로세서 모두 인텔 3 공정을 사용한다. ‘시에라 포레스트’는 상반기 중 공식 출시 예정이고, ‘그래나이트 래피즈’는 ‘시에라 포레스트’ 출시 직후 선보일 예정으로 알려졌다.

‘시에라 포레스트’는 최대 288개의 ‘E 코어’를 탑재해 2세대 제온 프로세서 대비 2.7배 향상된 랙 밀도, 4배 향상된 전력 대비 성능 효율을 선보일 것으로 알려졌다. 특히 인텔은 통신 서버에서 ‘시에라 포레스트’가 2세대 제온 기반 200개 서버 랙을 72개 정도로 줄이고 100만 와트(W) 이상 전력 소비를 절감할 수 있으며, 전력 소비와 공간을 절감해 생성형 AI 등 새로운 혁신을 위한 여유를 만들 수 있다고 강조했다.

‘그래나이트 래피즈’는 전통적인 제온 프로세서처럼 코어당 성능이 강조된 ‘P 코어’를 탑재한다. 그리고 새로운 ‘그래나이트 래피즈’는 CPU 기반에서의 거대언어모델(LLM) 구동 성능이 대폭 향상될 것으로 소개됐다. 인텔은 ‘그래나이트 래피즈’에서 새로운 ‘MXFP4’ 데이터 유형을 활용하는 경우, 4세대 제온에서의 FP16 대비 라마(Llama) 2 700억 파라미터 모델에서 6.4배 향상된 성능과 함께 100ms 이하의 토큰 레이턴시를 달성할 수 있다고 밝혔다. 한편, 4세대 제온도 4비트 데이터 유형 사용시 FP16 대비 성능이 3배 향상된다.

한편, 인텔은 기업의 거대언어모델(LLM) 활용에 있어 검색증강생성(RAG: Retrieval-Augmented Generation)과 LLM의 결합이 변화의 계기를 만드는 데 중요한 역할을 할 것으로 기대했다. RAG와 LLM의 결합은 기업의 민감한 내부 데이터를 LLM 모델에 빠르고 안전하게 적용해 LLM을 더욱 실용적으로 만들어 준다. 그리고 제온 프로세서 제품군은 AI 시대 기업의 데이터 활용에 있어서 빠질 수 없는 존재라는 점을 강조했다.

팻 겔싱어 CEO가 ‘가우디 3’ AI 가속기를 공식 발표했다. / 인텔 비전 기조연설 영상 갈무리

팻 갤싱어가 ‘가우디 3’ 8개를 탑재하는 베이스보드 구성을 선보였다. / 인텔 비전 기조연설 영상 갈무리

인텔 ‘가우디 3’, 엔비디아 H100 대비 50% 높은 성능, 40% 높은 효율 제시

인텔은 이번 ‘인텔 비전 2024’를 통해 ‘가우디 3’ AI 가속기를 공식 발표했다. 기존 ‘가우디 2’의 아키텍처를 기반으로 더 확장된 ‘가우디 3’는 BF16(BFloat16) 데이터 형식 기준 이전 세대 대비 4배 향상된 성능과 1.5배 높아진 메모리 대역폭, 2배 늘어난 네트워크 대역폭을 제공하는 점이 특징이다. 제품은 3분기 중 델, HPE, 레노버, 슈퍼마이크로 등의 파트너사를 통해 제공될 예정이며, PCIe 제품은 4분기 중 제공 예정이다.

가우디 3 가속기에는 64개의 프로그래밍 가능한 텐서 프로세서 코어(TPC)와 8개의 MME(Matrix Multiplication Engine)가 탑재됐고, 메모리는 128기가바이트(GB)의 HBM2e를 탑재했으며, 대역폭은 3.7TB/s다. 또한 가속기마다 24개의 200Gbps 이더넷 포트가 탑재돼 다른 가우디 3 가속기와 연결, 확장될 수 있다. 제품은 OAM(OCP Accelerator Module) 2.0 폼팩터와 PCIe 기반이 제공되며, OAM 기반 제품의 TDP는 900W, PCIe 기반 제품의 TDP는 600W다. 한편, OAM 기반 제품 8개를 장착하는 베이스보드 구성도 마련됐다.

인텔은 새로운 ‘가우디 3’가 엔비디아의 H100 대비 더 뛰어난 성능과 효율을 제공한다고 발표했다. 인텔의 발표에 따르면, ‘가우디 3’는 엔비디아의 H100 대비 ‘라마2’ 70억, 130억 파라미터 모델이나 GPT-3 1750억 파라미터 모델의 훈련에서 50% 빠르며, ‘라마’ 70억, 700억 파라미터 모델과 팔콘(Falcon) 1800억 파라미터 모델에서는 50% 높은 추론 성능과 40% 뛰어난 효율을 제공한다. 또한 인텔은 엔비디아의 H200과 비교해서도 ‘라마’나 ‘팔콘’ 모델에서 30% 더 높은 추론 성능을 제공한다고 밝혔다.

한편, 인텔은 ‘가우디 3’가 훈련과 추론을 위한 클라우드 인프라를 비용 효율적으로 구현할 수 있게 지원하며, 국내에서도 네이버와의 협력 사례가 있다고 소개했다. 또한 인텔은 ‘생성형 AI’를 미국 애리조나 소재 오코틸로(Ocotillo) 팹의 생산 환경에 적용하고 있으며, 대량의 데이터와 장비가 결합된 복잡한 환경에 LLM을 결합해, 자연어로 문제를 파악하고 해결 과정을 진행할 수 있게 됐다고 소개했다.

권용만 기자 yongman.kwon@chosunbiz.com