인공지능(AI)기술이 사회 전반에 큰 변화를 불러오고 있다. 하지만 아직 AI 기술로 인한 변화는 시작일 뿐이며 앞으로 그 영향력은 예측하기 힘들 만큼 커질 것이라는 전망이다. 그리고 일상 어디에서나 AI 기술을 활용하기 위해서는 다양한 모델과 이에 맞는 환경이 요구될 것으로 보인다. ‘하이브리드 AI’ 시대는 이러한 ‘다양성’이 중요한 시대다.

인텔은 11월 30일 미국 오레곤주 포틀랜드의 인텔 존스팜 캠퍼스(Jones Farm Campus)에서 코드명 ‘에메랄드 래피즈(Emerald Rapids)’로 알려진 ‘5세대 인텔 제온 스케일러블 프로세서’를 소개하는 미디어 워크샵을 개최하고, 5세대 인텔 제온 프로세서의 주요 특징을 소개했다.

인텔은 ‘하이브리드 AI’ 시대에 클라우드에서 엣지, PC에 이르는 폭넓은 영역을 위한 하드웨어, 소프트웨어 솔루션을 갖추고 있다. 특히 인텔의 핵심 제품군인 ‘코어’, ‘제온’ 프로세서는 향후 AI 워크로드를 로컬과 클라우드 양 쪽에서 함께 처리할 ‘하이브리드 AI’ 시대의 전략에서도 중요한 양대 축으로 자리잡고 있다. 또한 범용 프로세서에서 실용적인 AI 워크로드 성능을 확보하는 것은 향후 AI 기술의 활용 범위를 넓히는 데 중요한 부분이 될 것으로 기대된다. 

산드라 리베라 인텔 데이터센터 및 AI 그룹 총괄 수석부사장 / 포틀랜드=권용만 기자
산드라 리베라 인텔 데이터센터 및 AI 그룹 총괄 수석부사장 / 포틀랜드=권용만 기자

산드라 리베라(Sandra Rivera) 인텔 데이터센터 및 AI 그룹 총괄 수석부사장은 “AI는 많은 산업군에서 변화를 이뤄내고 있다”고 강조하며, 향후 2026년에는 전 세계의 AI 관련 지출 규모가 3000억 달러(한화 약 389조원)에 이를 것으로 예상된다고 소개했다. 또한 AI 기술은 최근 5년 사이 예측이 어려울 정도의 속도로 발전했으며, 모델의 크기는 지난 5년 간 1만5000배로 커졌고, 이에 따른 데이터 용량의 폭발적 증가, 전력 사용량 문제, 그리고 기술의 윤리적 문제 등이 중요한 문제로 지적되고 있다고 언급했다.

현재는 거대언어모델(LLM)과 생성형 AI 등의 대형 모델들이 주목받고 있지만, 앞으로 AI의 활용이 확산되면서 좀 더 다양한 규모의 더욱 다양한 모델들이 활용될 것으로 전망된다. 지금까지는 AI 기술을 위해 대규모 클라우드 인프라가 당연시됐다면, 앞으로는 엣지와 PC에 이르기까지 더욱 다양한 규모와 성능을 갖춘, 더욱 다양한 위치에서 AI 기술이 활용될 것으로 예상된다. 특히 필요에 따라 클라우드와 로컬 양 쪽의 역량을 함께 사용하는 형태가 ‘하이브리드 AI’의 지향점이다.

인텔은 이러한 ‘하이브리드 AI’ 시대에 모든 영역으로의 AI 기술 확장을 위한 폭넓은 포트폴리오를 갖추고 있다고 강조했다. 이 포트폴리오에서 핵심은 데이터센터의 ‘제온’, 클라이언트의 ‘코어’ 프로세서 제품군이며, 인텔은 제온 프로세서 이외에도 대규모 AI 데이터센터 환경을 위한 ‘가우디’ 가속기나 엣지와 데이터센터 서버를 위한 GPU도 갖추고 있다. 

클라이언트와 엣지 환경에서의 핵심은 ‘코어’ 프로세서로, 특히 새로운 ‘코어 울트라’ 프로세서는 아키텍처 자체 역량 뿐 아니라 새로운 그래픽처리장치(GPU), 신경망처리장치(NPU)까지 탑재해 뛰어난 AI 성능을 갖춘 것이 특징이다.

하드웨어의 역량을 극대화할 수 있는 소프트웨어 역량 측면 또한 새로운 ‘하이브리드 AI’ 시대를 지원한다. 인프라 수준에서는 가상화와 컨테이너 환경에서 빠르게 AI 서비스 환경을 구축, 배포할 수 있게 지원하며, 원API(oneAPI)와 다양한 라이브러리, 오픈비노(openVINO) 등 최적화된 프레임워크와 미들웨어 지원 등으로, 데이터의 수집부터 모델의 훈련과 추론까지 빠르게 진행할 수 있는 준비가 갖춰져 있다.

클라우드와 클라이언트가 매끄럽게 연결되는 ‘하이브리드 AI’ / 권용만 기자
클라우드와 클라이언트가 매끄럽게 연결되는 ‘하이브리드 AI’ / 권용만 기자

2025년에는 기업이 관리하는 데이터의 50% 이상이 데이터센터와 클라우드 이외의 위치에서 만들어질 것으로 예상되고, 2026년에는 엣지의 50% 이상에서 머신러닝 기술이 활용될 것으로 전망된다. 또한 AI ‘추론’에서는 클라이언트와 엣지에서의 처리 수요가 데이터센터에서의 수요보다 1.4배 이상 더 큰 것으로 추산된다. 이렇게 추론이 데이터센터가 아닌 사용자 근처의 ‘로컬’ 환경에서 처리되는 것이 선호되는 이유는 지연 시간 측면이나 민감한 데이터의 보안 등이 중요한 이유로 꼽힌다.

‘하이브리드 AI’는 데이터센터와 엣지, 클라이언트 사이의 매끄러운 연결로 서로의 장점만을 취하는 것이 특징이다. 모델의 추론은 로컬에서 수행해 실시간에 가까운 뛰어난 반응성을 제공하고, 민감한 데이터를 보안에 대한 우려 없이 활용할 수 있다. 클라우드로는 민감하지 않은 정보를 전달해 클라우드에서 모델을 훈련하고 고도화하며 그 결과를 클라이언트에서 받아 성능을 개선할 수 있게 한다. 이러한 일련의 과정이 아주 매끄럽고 자연스럽게 이뤄지는 것이 ‘하이브리드 AI’ 환경이다.

이렇게 다양한 위치에서 기술들이 서로 자연스럽게 연결되어 어디에서나 AI 기술을 구현하기 위해서는 몇 가지 필요한 것들이 있다. 먼저, 엣지에서 클라우드에 이르기까지 다양한 환경에 대응할 수 있는 ‘공용 AI 런타임’ 환경이 필요하다. 인텔은 이에 대해 ‘오픈비노’ 툴킷이 한 번 작성된 코드를 엣지에서 클라우드까지 다양한 하드웨어 환경에서 쉽게 활용할 수 있게 지원한다고 소개했다.

클라우드와 엣지, 데이터센터와 클라이언트 환경을 모두 아우를 수 있는 표준 기반의 고성능 연결 수단으로는 가장 보편적인 ‘이더넷’을 지목했다. 이와 함께 하이브리드 AI 환경에서는 ‘보안’이 무엇보다 중요한데, 보안에 대한 접근은 AI를 활용해 사용자 환경의 보안 신뢰성을 높이는 것, 그리고 AI의 안전한 활용을 위해 더 높은 보안성을 확보하는 점 양 쪽을 모두 고려해야 한다고 덧붙였다.

5세대 제온은 CPU만으로도 LLM 처리를 위한 성능 기준 충족이 가능하다. / 권용만 기자
5세대 제온은 CPU만으로도 LLM 처리를 위한 성능 기준 충족이 가능하다. / 권용만 기자

한편, 인텔은 AI 인프라에서 GPU가 필수불가결한 존재처럼 다뤄지고 있지만, 언제나 GPU가 ‘정답’은 아니라고 지적했다. 현실적으로는, CPU로도 필요한 수준의 성능과 효율을 얻을 수 있다면, 좀 더 범용적인 활용이 가능하고 구하기 쉬운 범용 CPU 기반 서버를 사용하는 것도 좋은 방법이 될 수 있다는 것이다. 또한 5세대 제온은 이전 세대 제품들 대비 하드웨어와 소프트웨어 양 쪽 모두에서 최적화가 적용돼, 3년 전의 3세대와 비교하면 지금은 몇 배 높은 성능을 제공한다고 밝혔다.

인텔은 5세대 제온 프로세서가 CPU 만으로도 거대언어모델 환경에서도 시장에서 요구되는 수준의 성능을 달성할 수 있다고 제시했다. 보통 거대언어모델 환경에서 어느 정도 실용적인 성능을 위해서는 토큰 지연시간이 100ms 이하로 내려가야 되는데, 5세대 제온의 2소켓 시스템은 60억 파라미터의 GPT-J나 130억 파라미터의 라마2(Llama2) 모델 모두에서 이 목표를 달성한다. 또한 5세대 제온 2소켓 서버의 4노드 구성은 ‘라마2’의 700억 파라미터 모델에서도 성능 목표를 충족한다고 덧붙였다.

인텔은 5세대 제온이 제시하는 이런 성과가 향후 하이브리드 AI 시대와 어디서나 AI를 활용하는 시대에 더 각별한 의미를 가지게 될 것이라고 강조했다. 특히 AI 워크로드가 다른 전통적인 워크로드와 함께 운영되고, AI가 서비스 내의 ‘기능’ 정도로 운영되는 경우, 일정 성능 기준을 충족할 수 있다면 범용 CPU를 활용하는 것이 유연성 측면에서 유리하다고 밝혔다. 또한 CPU 기반 환경은 더 큰 메모리를 사용할 수 있어 GPU의 메모리 범위를 넘어가는 경우에도 유연한 대응이 가능한 장점이 있다고 덧붙였다.

포틀랜드=권용만 기자 yongman.kwon@chosunbiz.com

관련기사