인텔, 주요 제품군 ‘라마 3’ 대응 “데이터센터·PC서 성능 우수”

인텔 ‘가우디 2’ AI 가속기, ‘라마 3’ 모델 바로 사용 가능 차세대 ‘제온 6’, 라마 3 모델서 기존 4세대의 두 배 성능 코어 울트라 기반 최신 AI PC, ‘라마 3’도 충분히 대응해

2024-04-23     권용만 기자

메타(Meta)의 최신 인공지능(AI) 모델 ‘라마 3(Llama 3)’가 지난 18일(현지시각) 정식 공개됐다. ‘라마 3’는 이전 세대 대비 성능 측면에서 큰 도약을 선보이면서도, 여전히 ‘공개’ 모델로 다양한 하드웨어, 클라우드 플랫폼에서 사용 가능하게 제공될 계획이다. 

이 ‘라마 3’ 모델은 이미 주요 하드웨어 플랫폼에서 지원하고 있거나, 지원 할 예정이다. 이와 관련해 인텔은 기존 AI 가속기 ‘가우디 2(Gaudi 2)’와 제온 스케일러블 프로세서인 차세대 ‘제온 6’에서의 성능은 물론, PC에서는 ‘코어 울트라’ 프로세서와 ‘아크 A770’ 그래픽처리장치(GPU)에서 ‘라마 3’ 모델을 구동한 결과를 공개했다. 인텔은 이를 통해, 인텔의 하드웨어가 최신 모델 기술에 가장 빠른 접근을 지원한다는 점을 강조하는 모습이다.

인텔 가우디 2 AI 가속기 / 권용만 기자
라마 3에서 인텔 가우디 2의 성능 / 인텔 홈페이지 갈무리

가우디 2 기반 데이터센터, ‘라마 3’ 모델 바로 사용 가능

인텔은 기존 ‘가우디 2’ 가속기를 위해 지속적으로 소프트웨어를 최적화해 왔다. 이러한 노력은 기존 ‘라마 2’ 모델 뿐만 아니라 최신 ‘라마 3’까지도 이어진다고 소개했다. 인텔이 소개한 ‘가우디 2’의 추론 테스트 결과는 모델의 규모와 정밀도, 입력과 출력 길이에 따라 성능 기준이 달라지지만, 전반적으로는 다양한 조합에서 준수한 성능을 제시했다. 또한 라마 3에 대한 지원은 공식 출시 발표된 ‘가우디 3’까지도 이어진다.

가우디 2의 테스트는 라마 3의 80억, 700억 파라미터 모델을 사용했고, 정밀도는 FP8과 BF16을 사용했는데, 80억 파라미터에서는 대략 8밀리세컨드(ms) 정도의 지연시간이, 700억 파라미터에서는 대략 60ms 전후의 지연시간과 처리성능을 보인다. 테스트 시스템은 지금까지 인텔이 MLPerf에 가우디 2의 공식 데이터를 제출하는 데 사용했던 시스템과 동일한 것으로 보인다. 무엇보다, 새로운 모델의 등장과 동시에 성능 결과를 내 놓을 수 있을 정도로 발빠른 지원을 제공하고 있다는 점이 인상적이다. 

4세대 이후 제온 스케일러블 프로세서의 경우 대규모 행렬 연산을 위한 AMX(Advanced Matrix Extensions) 기술을 지원해 이전 세대 대비 AI 모델의 추론에서 프로세서만으로도 실용적인 성능을 제공한다. 특히 프로세서를 통한 AI 모델 처리에서는 소프트웨어의 최적화 측면이 중요한데, 인텔의 경우 ‘라마 2’ 등장 초기와 현재의 지연 시간 성능 차이는 다섯 배에 이를 정도다. 

라마 3 8B 모델은 4세대 제온 기반에서도 실용적인 성능을 얻을 수 있다. / 인텔 홈페이지 갈무리
차세대 ‘제온 6’는 같은 조건에서 기존 4세대 제온 대비 두 배 성능이 가능하다. / 인텔 홈페이지 갈무리

차세대 ‘제온 6’, 기존 ‘사파이어 래피즈’의 두 배 성능 제시

인텔은 프로세서 기반의 ‘라마 3’ 성능을 AWS의 4세대 제온 스케일러블 프로세서 기반인 m7i.metal-48xi 인스턴스로 측정했는데, 48코어의 제온 플래티넘 8488c 두 개와 768GB 메모리 등이 할당됐다. 이 상태에서 라마 3의 80억 매개변수 모델의 토큰간 지연시간은 BF16 기준 41~52ms 정도로 충분히 실시간성 사용도 가능할 수준을 확보했다. 또한 BF16 대신 INT8을 사용하면 성능이 상당히 높아지는 모습을 보였다.

한편, 인텔은 차세대 ‘제온 6’ 제품군 중 P(Performance)-코어 구성인 ‘그래나이트 래피즈(Granite Rapids)’ 기반의 시스템에서의 ‘라마 3’ 성능도 선보였다. 아직 정식 출시 전의 프로세서와 시스템으로 정확한 사양은 등장하지 않았지만, 4세대 제온 스케일러블 기반 AWS의 인스턴스 대비로는 두 배의 성능을 보이는 점이 인상적이다. 또한 그래나이트 래피즈의 2소켓 단일 서버는 라마 3의 700억 매개변수 환경에서도 지연시간 100ms 이하를 달성한 부분이 인상적이다.

‘그래나이트 래피즈’는 아직 정확한 사양이 나오지 않았지만, 기존 대비 크게는 두 배까지 더 많은 코어와 새로운 명령어 셋, 새로운 메모리 유형 지원 등이 기대된다. 또한 테스트에 사용된 제온 6 기반 시스템 구성의 메모리 동작속도는 DDR5-8800MT/s로 기재됐는데, 이는 메모리 랭크 두 개를 동시에 동작시키는 ‘MCR(Multiplexer Combined Ranks) DIMM’을 적용한 것으로 보인다. 이 MCR DIMM은 SK하이닉스 등이 개발 성공을 발표한 바 있다.

한편, 인텔은 라마 3 모델이 토큰 처리 성능 등에서 기존 ‘라마 2’ 대비 더 효율적이라고 평했다. 모델 크기가 70억 매개변수에서 80억 매개변수로 더 커졌지만, 모델 자체의 토큰 처리 성능이 더 좋아져서, 토큰 성능 측면에서는 더 큰 규모의 새로운 모델이 더 작은 규모의 이전 모델과 동급이라는 것이다.

코어 울트라 탑재 AI PC는 ‘라마 3’를 충분히 돌릴 수 있다. / 인텔 홈페이지 갈무리

최신 AI PC, ‘라마 3’도 외장 GPU 없이 돌릴 수 있어

최신 AI 모델을 돌리는 데 있어 ‘대안’이 필요한 곳은 데이터센터 뿐만이 아니다. PC에서도 ‘온디바이스 AI’에 대한 수요가 늘고, 신경망처리장치(NPU)가 장착된 프로세서가 선보이면서 ‘AI PC’가 주목받고 있다. 하지만 아직 많은 사람들이 PC에서 최신 모델을 사용하기 위해서는 제법 큰 전용 메모리를 갖춘 외장 GPU가 ‘필수’라고 생각한다. 의외로, 하드웨어와 소프트웨어에 대한 적절한 지원이 조합되면 꼭 특정 제조사의 외장 GPU가 ‘필수’인 것은 아니다.

이런 관점에서, 인텔이 이 ‘라마 3’ 모델을 외장 그래픽 없는 ‘코어 울트라’ 프로세서 기반 ‘AI PC’에서 시연한 부분은 성능을 떠나 제법 인상적이다. 인텔은 이번 사례에서, 코어 울트라 프로세서의 내장 아크 GPU의 DP4a 가속을 사용해 80억 매개변수의 라마 3 모델을 INT4 정밀도 수준으로 구동했으며, 기대 이상으로 실용적인 성능을 낼 수 있다고 소개했다. 또한 인텔은 메타와 PC 수준에서의 모델 성능 최적화를 위해 지속적으로 협력하고 있다고 밝혔다.

테스트에 사용된 ‘MSI 프레스티지 16 AI Evo’ 모델은 코어 울트라 7 155H 프로세서와 32GB 메모리를 사용한 것으로 알려졌다. 프로세서 내장 GPU는 메인 메모리를 공유해 사용하는 만큼, 32GB 정도의 여유로운 용량이 필요한 것으로 보인다. 또한 DP4a는 기존 ‘아이리스 Xe’에서도 지원하는 만큼, GPU 성능에서도 두 배 정도의 차이가 있지만 메모리가 충분하다면 기존 11~13세대 코어 프로세서에서도 시도는 가능할 것으로 예상된다.

인텔 ‘아크 A770’ GPU 또한 라마 3 모델에서 제법 훌륭한 성능을 보인다. 인텔의 테스트 결과에서는 라마 3 모델의 80억 매개변수 모델을 INT4 정밀도로 구동했을 때, 토큰 입력에 따라 14~17ms 정도의 지연시간을 제공했다고 소개했다. 또한 인텔은 주요 하드웨어 모델에 최적화된 파이토치(PyTorch) 라이브러리와 모델 등을 제공하고 있다. 이런 부분은 AI 활용에서 중요하게 여겨지는 소프트웨어 지원 측면에서 인텔의 경쟁력을 보여주는 사례로도 볼 수 있겠다. 

권용만 기자 yongman.kwon@chosunbiz.com