인텔은 22일(미국시각) 국제 슈퍼컴퓨팅 컨퍼런스(ISC)에서 향상된 고성능 컴퓨팅(HPC) 및 인공지능(AI) 성능을 제공할 차세대 HPC 및 AI 제품 포트폴리오와 다양한 국제적 협력 사례들을 소개했다.

인텔은 현재 세대의 ‘인텔 데이터센터 GPU 맥스 시리즈’와 ‘인텔 제온 맥스 시리즈 CPU’ 등이 경쟁 제품들 대비 뛰어난 성능을 제공한다고 밝히며, 일본 교토 대학교나 아르헨티나 국립 기상청 등이 인텔의 솔루션을 새롭게 도입했다고 발표했다. 또한 인텔은 아르곤 국립연구소의 ‘오로라’ 슈퍼컴퓨터에 1만개 이상의 블레이드 서버를 배송 완료했으며, 올해로 예정된 출시 예정 시점에는 2엑사플롭스(exaflops) 이상의 배정밀도 연산 성능을 예상했다.

또한 인텔은 차세대 XPU로 알려진 ‘팔콘 쇼어(Falcon Shores)를 차세대 ‘맥스 시리즈 GPU’로 소개했다. ‘팔콘 쇼어는 모듈식 타일 기반 아키텍처를 기반으로 CPU와 GPU 등 다양한 IP를 유연하게 조합할 수 있는 XPU 컨셉이 특징으로 알려진 바 있다. 인텔은 차세대 맥스 시리즈 GPU가 FP64에서 BF16, FP8 등 다양한 데이터 유형을 지원하며, 최대 9.8TB/s의 총 대역폭과 최대 288GB의 HBM3 메모리를 탑재할 것이라 언급했다.

아르곤 국립연구소의 ‘오로라’ 슈퍼컴퓨터 블레이드 노드 / 인텔
아르곤 국립연구소의 ‘오로라’ 슈퍼컴퓨터 블레이드 노드 / 인텔
인텔 ‘맥스 시리즈’, HPC 시장에서 뛰어난 성능으로 경쟁력 증명

인텔은 HPC 시장에서 CPU와 GPU, 딥 러닝 가속기 등 폭넓은 제품군에서 높은 경쟁력을 갖추고 있다고 강조했다. 먼저, ‘인텔 데이터센터 GPU 맥스 시리즈’는 경쟁 제품인 엔비디아의 H100 PCIe 제품 대비 다양한 워크로드에서 30% 향상된 성능을 제공한다고 소개했다. 또한 HBM 탑재로 메모리 대역폭을 극대화한 ‘제온 맥스 시리즈 CPU’는 경쟁 제품인 AMD의 에픽 ‘제노아’ 대비 HPCG 벤치마크에서 더 적은 전력으로 65% 향상된 성능을 제공한다고 소개했다.

4세대 제온 스케일러블 프로세서 또한 HPC 시장에서 경쟁 제품 대비 뛰어난 가치를 제공하고 있다고 소개했다. 인텔은 4세대 제온 스케일러블 프로세서가 HPC 시장에서 AMD의 에픽 ‘밀란’ 대비 평균 50% 높은 성능을 제공하며, BP의 4세대 제온 스케일러블 프로세서 기반 HPC 클러스터 구축 사례에서는 전 세대 대비 8배 높은 성능 및 향상된 에너지 효율성을 제공했다고 밝혔다. 이 외에도, 딥러닝 학습 및 추론에서 ‘가우디2’ 딥러닝 가속기는 엔비디아 A100 대비 최대 2.4배의 성능을 제공한다고 덧붙였다.

한편, 인텔은 4세대 인텔 제온 스케일러블 프로세서 및 맥스 시리즈 프로세서를 도입한 신규 고객들을 소개했다. 먼저, 일본 교토대학교(Kyoto University)는 로렐3(Laurel 3) 및 시나몬3(Cinnamon 3)에 4세대 인텔 제온 스케일러블 프로세서를, 캠퍼3(Camphor 3)에 인텔 제온 맥스 시리즈 프로세서를 탑재했다. 아르헨티나 국립 기상청(Servicio Meteorológico Nacional de Argentina)도 맥스 시리즈 CPU와 GPU가 모두 탑재된 시스템을 구축할 예정이다.

이탈리아 시네카(Cineca)도 4세대 인텔 제온 프로세서가 탑재된 레오나르도(Leonardo)를 구축했으며, 미국 로체스터 대학교(University of Rochester) 레이저 에너지학 연구소는 4세대 인텔 제온 프로세서를 탑재한 클러스터를 구축했다고 밝혔다. 이 외에도 영국 케임브리지 대학교(Cambridge University)의 케임브리지 오픈 제타스케일 연구소(Cambridge Open Zettascale Lab)는 ‘맥스 GPU’ 테스트베드를 구축했으며, 일본 이화학연구소(RIKEN)는 인텔과 첨단 컴퓨팅 기술 분야의 공동 연구 개발 가속화를 위한 MOU를 체결했다.

데이터센터 GPU 맥스 시리즈의 8개 OAM 서브시스템 구성이 선보였다 / 인텔
데이터센터 GPU 맥스 시리즈의 8개 OAM 서브시스템 구성이 선보였다 / 인텔
차세대 ‘맥스 시리즈 GPU’, ‘팔콘 쇼어’ 기반으로 강력한 성능 제공 목표

인텔은 새롭게 부상하는 HPC 및 AI 워크로드를 위한 차세대 제품들에 대해서도 언급했다. HPC 및 AI 워크로드에서 점점 더 중요해지는 메모리 대역폭 요구를 충족하기 위해, 인텔은 ‘맥스 시리즈’ CPU와 GPU에 높은 대역폭의 HBM을 탑재한 바 있다. 차세대 제온 스케일러블 프로세서 ‘그래나이트 래피즈’에는 멀티플렉서 결합 랭크(MCR:Multiplexer Combined Ranks) DIMM 기술을 지원해 2소켓 시스템에서 메모리 대역폭을 1.5TB/s까지 끌어올릴 예정이다.

기존의 ‘데이터센터 GPU 맥스 시리즈’의 구성에서도 새로운 옵션이 제공된다. 인텔은 슈퍼마이크로 등과 함께 딥러닝 트레이닝 등의 워크로드에 최적화된 ‘맥스 시리즈 GPU’ 8개 서브시스템 구성을 제공할 것이라는 계획을 소개했다. 인텔은 올 여름부터 주요 OEM을 통해 ‘맥스 시리즈 GPU’의 4개 혹은 8개 OAM 구성이 제공될 것이라고 밝혔다.

코드명 ‘팔콘 쇼어’로 알려진 차세대 ‘맥스 시리즈 GPU’는 모듈식 타일 기반 아키텍처를 기반으로 CPU와 GPU, 고대역폭 메모리 등 다양한 IP를 유연하게 조합할 수 있게 한 ‘XPU’ 컨셉이 특징으로 알려졌다. 인텔은 이 ‘팔콘 쇼어’ 기반 차세대 맥스 시리즈 GPU가 FP64에서 BF16, FP8 등 HPC와 AI에서 활용되는 주요 데이터 유형을 지원할 것이며, 최대 9.8TB/s의 총 대역폭과 최대 288GB의 HBM3 메모리를 제공할 수 있을 것이라 소개했다.

원API(oneAPI)는 인텔의 ‘개방형 가속 컴퓨팅’ 전략을 완성하는 중요한 구성 요소다. 최신 인텔 원API 툴은 오픈MP(OpenMP) GPU 오프로드를 통해 HPC 애플리케이션 성능을 높이고, 오픈MP 및 포트란 지원을 확장하며 최적화된 프레임워크와 AI 툴을 통해 워크로드 성능을 향상시켰다.

또한 쿠다 코드를 SYCL 등으로 자동 이관하는 DPC++ 호환 도구는 이제 호환성이 90~95% 수준까지 올라왔으며, 성능 또한 비슷한 수준이라 소개됐다. 인텔은 맥스 시리즈 GPU에서 실행하는 DPEcho 천체 물리학 애플리케이션의 SYCL 코드가 엔비디아 H100 기반 쿠다 코드보다 48% 더 높은 성능을 보였다는 결과도 소개했다.

오로라 슈퍼컴퓨터의 주요 제원 / 인텔
오로라 슈퍼컴퓨터의 주요 제원 / 인텔
오로라 슈퍼컴퓨터, 최종 성능은 2엑사플롭스 예상

인텔과 아르곤 국립연구소, HPE 등이 함께 구축하고 있는 ‘오로라’ 슈퍼컴퓨터는 인텔의 ‘제온 맥스 시리즈 CPU’와 ‘데이터센터 GPU 맥스 시리즈’의 대표적인 대규모 도입 사례로 꼽힌다. 인텔은 이번 ISC에서 오로라 슈퍼컴퓨터를 위한 1만개 이상의 블레이드 서버를 배송 완료했다고 밝히며, 현재 이 시스템에는 6만3744개의 GPU, 2만1248개 CPU가 탑재됐다고 소개했다.

오로라 슈퍼컴퓨터는 올해 출시 예정이며, 최고 성능은 배정밀도 기준 2엑사플롭스 이상의 성능이 예상된다. 인텔은 이 오로라 슈퍼컴퓨터의 초기 성능 측정 결과가 실제 과학 및 엔지니어링 워크로드에서 뛰어난 성능을 제시하며, 경쟁 제품인 AMD의 MI250 GPU 대비로는 최대 두 배 높은 성능을, QMCPACK 양자 기계 애플리케이션에서는 엔비디아의 H100 대비 20% 높은 성능을 제공한다고 밝혔다.

한편, 아르곤 국립연구소는 인텔 및 HPE와 협력해 과학 연구 공동체를 위한 일련의 생성형AI 모델 제작 계획을 공개했다. 이 프로젝트는 미국 에너지부 연구소 및 기타 연구소와 협력해 ‘다운스트림 과학’에 사용할 수 있는 리소스를 생산하는 것을 목표로 한다.

과학용 생성형 AI 모델은 일반 문서, 코드, 과학 문서를 비롯해, 생물학, 화학, 재료 과학, 물리학, 의학 및 기타 출처의 구조화된 과학 데이터를 학습한다. 1조 개에 달하는 매개변수가 포함된 결과 모델은 분자 및 물질 설계부터 수백만 개 출처에 걸친 지식을 학습하는 등 다양한 과학적 응용 분야에 사용되어 시스템 생물학, 고분자 화학 및 에너지 재료, 기후 과학, 우주론 등 다양한 분야에서 새롭고 흥미로운 실험을 제안할 예정이다.

또한 이 모델은 암 및 기타 질병과 관련된 생물학적 과정을 더욱 빨리 규명하도록 지원하며, 약물 설계를 위한 목표 제시에도 사용될 계획이다.

권용만 기자 yongman.kwon@chosunbiz.com