전 세계 슈퍼컴, 블랙웰·인스팅트 등장에 ‘지각 변동’ 기대감 [권용만의 긱랩]

로렌스 리버모어 국립연구소 ‘엘 캐피탄’, 기존 ‘프론티어’ 따돌리고 성능 1위 엘 캐피탄에 사용된 AMD ‘MI300A’, CPU+GPU+HBM 통합 ‘SoC’ 구성 눈길 국내외 다양한 새 시스템 등장과 기존 시스템 업그레이드로 순위 크게 변경 국내 최고 순위는 ‘세종’, KISTI의 ‘슈퍼컴퓨터 6호기’ 계획에 기대감 높아져

2024-12-04     권용만 기자

‘인공지능(AI)’ 시대가 본격화되면서 높은 연산 성능을 갖춘 ‘슈퍼컴퓨터’에 대한 관심이 높아지는 모습이다. 예전부터 슈퍼컴퓨터는 국가의 연구개발 역량의 지표 중 하나로 여겨져 왔고 국내에서도 새로운 슈퍼컴퓨터 시스템 구축에 대한 소식이 지속적으로 나오고 있다. ‘소버린 AI’에 대한 관심이 높아지면서 국내의 AI 인프라 규모도 다른 국가들 대비 작다는 문제도 제기되고 있다.

매년 두 번 갱신되는 전 세계 슈퍼컴퓨터 ‘톱500(TOP500)’ 리스트가 지난 11월 중순 64번째 개정판이 발표됐다. 새로운 순위에서 가장 눈길을 끄는 것은 ‘1위’가 바뀌었다는 것이다. 새로운 1위가 단순히 기존 기술의 확장성으로만 승부한 것이 아니라 새로운 기술적 구성을 선보였다는 점도 눈여겨 볼 만한 부분이다. 엔비디아와 AMD의 차세대 그래픽처리장치(GPU)들을 기반으로 한 시스템들이 곧 선보일 것으로 전망되는 만큼 당분간 흥미로운 순위 변화가 기대된다.

물론 이 ‘슈퍼컴퓨터’ 성능이 바로 ‘AI’ 성능으로 이어지지는 않는다. AI 워크로드를 위한 성능과 슈퍼컴퓨터를 위한 성능은 서로 다른 성격을 가지기 때문이다. 또한 ‘톱500’ 시스템 리스트에 성능을 등재하는 것이 강제는 아니라서 초대형 클라우드 사업자나 서비스 사업자들이 갖춘 것으로 알려진 수십 만개 GPU를 갖춘 시스템의 결과도 올라와 있지는 않다. 

새로운 슈퍼컴퓨터 1위에 오른 미국 로렌스 리버모어 국립연구소의 ‘엘 캐피탄’ / HPE

새로운 1위 ‘엘 캐피탄’, 새로운 시스템 아키텍처 화제

지난 11월에 발표된 64번째 순위표에서 1위를 차지한 시스템은 미국 로렌스 리버모어 국립 연구소(LLNL: Lawrence Livermore National Laboratory)의 엘 캐피탄(El Capitan) 슈퍼컴퓨터다. 제출한 성능(Rmax)은 1.742엑사플롭스(EFlops)로 기존 1위였던 ‘프론티어’보다는 28%가량 더 빠르다. 2위 ‘프론티어’는 이전보다 12% 가량 더 높아진 성능을 새로 제출했음에도 엘 캐피탄과는 성능 차이가 크게 나타났다.

이 ‘엘 캐피탄’은 HPE의 크레이(Cray) EX255a 시스템을 기반으로 구축됐다. AMD의 ‘인스팅트(Instinct) MI300A’ APU(Accelerated Processing Units)를 사용한 것이 특징이다. 기존의 1위였던 ‘프론티어’가 64코어 구성의 3세대 에픽 프로세서와 ‘인스팅트 MI250X’ GPU를 사용했던 것과 비교하면 엘 캐피탄은 프로세서와 GPU 모두 ‘차세대’ 아키텍처를 사용하는 점이 눈에 띈다. 

사실 ‘엘 캐피탄’에서 가장 흥미로운 점은 ‘인스팅트 MI300A’다. AMD의 ‘인스팅트’는 흔히 데이터센터용 ‘GPU’나 ‘AI 가속기’로 이야기한다. 하지만 이 ‘MI300A’는 패키지 내부에 전통적인 ‘CPU’와 ‘GPU’, 128GB의 HBM(High Bandwidth Memory)을 모두 갖춘 '시스템온칩(SoC)' 구성으로, 이론적으로는 별도의 CPU 없이도 시스템의 단독 구동이 가능하다. 패키지 내부에 갖춘 128GB HBM3 메모리를 CPU와 GPU가 함께 사용할 수도 있다.

AMD의 MI300A는 발표 당시 CDNA3 기반 GPU코어 다이 6개, 젠 4 기반 CPU 코어 다이 3개를 결합한 구성으로 알려졌다. MI300A가 사용하는 적층형 패키지에서 한 개의 입출력(I/O) 다이에는 두 개의 CDNA3 기반 XCD(Accelerator Complex Die) 혹은 3개의 CCD(CPU Complex Die)가 올라갈 수 있고 전체 패키지는 4개의 I/O 다이의 결합이 된다. MI300A의 경우 4개의 I/O 다이 중 1개를 XCD 대신 CCD를 올린 구성으로 CCD 3개를 사용해 최대 24코어의 ‘젠 4’ 코어를 갖췄다.

AMD 인스팅트 MI300A APU / 권용만 기자

MI300A처럼 CPU와 GPU가 같은 메모리 영역을 사용하면서 얻을 수 있는 장점은 메모리 구성이 단순하고 CPU에서 GPU간 데이터 이동 등에서도 PCIe(PCI Express) 등의 상대적으로 느린 외부 버스를 사용하지 않는 데서 오는 성능적 이점 등이 있다. 또한 GPU-GPU 연결에도 ‘인피니티 패브릭’을 활용해 높은 전송 성능과 칩 간 메모리 일관성을 유지할 수 있다. 반면 MI300X는 연산 성능에서는 더 높지만 연결성 측면에서는 조금 더 불리한 특성도 있다.

이런 구성을 AMD만 생각한 것은 아니지만 현재는 다들 처해 있는 상황이 다르다. 엔비디아의 경우 이와 가장 비슷한 구성이 ‘GH200’이나 ‘GB200’ 등의 ‘슈퍼칩’ 이지만 통합의 수준이 다르다. AMD의 MI300A가 프로세서 ‘패키지’ 단위의 통합을 구현했다면 엔비디아의 경우 GPU 패키지 두 개와 CPU 패키지 한 개를 ‘모듈 보드’ 수준에서 통합한 점에서 차이가 있다. 물론 엔비디아도 GPU 두 개와 CPU 한 개를 NV링크(NVLink)로 묶고 모든 메모리 계층에 대한 일관성을 제공한다는 점은 동일하다. 

인텔의 경우는 현재 이런 구성에 직접적으로 대응할 수 있는 제품이 없다. 현재 인텔의 ‘제온 CPU 맥스 시리즈’나 ‘데이터센터 GPU 맥스 시리즈’는 다른 유형의 칩들을 혼용 구성할 수 있는 유연성이 없는 상태다. 서로 다른 역할의 칩들을 혼용 구성하는 콘셉트의 제품은 2025년 목표의 ‘팔콘 쇼어(Falcon Shore)’에서 구현될 예정이었다. 하지만 이 목표는 ‘GPU 한정’으로 다소 축소된 것으로도 알려졌다. 이러한 콘셉트의 완전한 달성은 그 이후 세대에나 가능할 것 같다.

한편, 최근 마이크로소프트는 ‘이그나이트 2024’ 행사에서 ‘HBv5 가상머신’ 인스턴스에 AMD의 ‘에픽 9V64H’ 프로세서를 사용했다고 발표했는데 이 프로세서 또한 ‘MI300A’의 변형 모델인 것으로 알려졌다. MI300A가 I/O 다이 단위로 CPU와 GPU 타일을 교체할 수 있는 만큼 극단적으로는 CPU 타일만 쓰면 HBM을 쓸 수 있는 에픽 CPU도 등장할 수 있다. 물론 이에 대한 수요가 일반적이지는 않아서 앞으로도 주문 제작형으로만 등장할 것으로 보인다.

일본과 덴마크, 아랍에미리트 등의 시스템 구축에 기반이 된 엔비디아 DGX H100 / 엔비디아

주목할 만한 새 시스템들 등장에 순위 변화 커

이번 ‘톱500’에서는 새로운 1위 뿐만 아니라 전반적으로 제법 많은 순위 변화가 있었다. 먼저, 새로운 1위 등장과 함게 기존의 ‘프론티어’와 ‘오로라’, ‘이글’의 순위는 한 단계씩 내려갔다. 5위에는 이탈리아의 Eni S.p.A 센터에 설치된 ‘HPC6’가 새롭게 등장했다. 이 시스템은 ‘프론티어’와 마찬가지로 크레이 EX235a 시스템과 AMD의 3세대 에픽 64코어 프로세서, AMD 인스팅트 MI250X 가속기를 사용했다. 성능은 477.9페타플롭스(PFlops)를 기록했다.

일본의 ‘후가쿠’는 6위까지 내려왔다. 7위에는 엔비디아의 GH200 슈퍼칩을 사용한 스위스 국립 슈퍼컴퓨팅 센터의 ‘알프스’가 업그레이드된 성능을 제출해서 434.9페타플롭스 성능을 기록했다. 로렌스 리버모어 국립 연구소는 투올러미(Tuolumne) 시스템을 10위에 올리면서 10위권 안에 시스템 두 대를 올렸다. ‘투올러미’는 ‘엘 캐피탄’과 같은 아키텍처를 사용하는 ‘시스터 시스템’같은 존재다. 성능은 208.1 페타플롭스를 기록했다.

이번 순위의 10위권 안에서는 AMD와 크레이의 강세가 두드러진다. 먼저, 10위권 내의 시스템 중 1위와 2위를 포함해 5대가 AMD의 프로세서를 사용하는 점이 눈에 띈다. 10위권 내의 시스템 중 HPE 크레이의 시스템과 슬링샷 네트워크를 사용하는 시스템은 7대에 이른다. 크레이의 시스템과 슬링샷 네트워크는 CPU와 GPU 브랜드를 가리지 않고 선호도가 높은 모습이다. 

10위권 밖에서도 몇몇 주목할 만한 시스템들이 보인다. 먼저 일본 소프트뱅크는 ‘치에(CHIE)-2, 3’ 시스템을 각각 17위, 16위에 등재했는데, 두 시스템 모두 엔비디아의 ‘DGX H100’ 시스템 기반이다. 성능은 ‘치에-3’가 91.94페타플롭스, ‘치에-2’가 89.78페타플롭스를 기록했다. 덴마크의 ‘게피온(Gefion)’도 엔비디아의 ‘DGX H100’ 시스템 기반으로 구축돼 66.59페타플롭스 성능을 등재했다. 

아랍에미리트에서도 ‘코어42’의 엔비디아 DGX H100 기반 ‘슈퍼팟(SuperPOD)’ 시스템이 55.81페타플롭스 성능으로 25위에 등재된 것이 눈에 띈다. 대만도 31위에 ‘유비링크(Ubilink)’ 시스템을 등재했다. 이 시스템은 에이수스의 GPU 서버 시스템과 인텔 4세대 제온, 엔비디아 H100 GPU를 사용한 것으로 알려졌다. 등재된 성능은 45.82페타플롭스다. 이스라엘 또한 델 ‘파워엣지 XE9680’ 기반의 ‘이스라엘-1’ 시스템을 등재했는데 성능은 41.5페타플롭스로 34위다.

엔비디아 ‘그레이스 블랙웰’을 소개하는 젠슨 황 CEO / 엔비디아 영상 갈무리

전체 ‘톱500’ 목록에서는 53개의 새로운 시스템이 등장했다. 직전의 194개보다 좀 더 늘어난 210개 시스템이 ‘가속기’를 사용했다. 53개 새로운 시스템 중에서는 46개가 가속기를 사용했다. 가장 많이 사용되는 가속기는 엔비디아의 ‘암페어(Ampere)’ 아키텍처 기반으로 집계됐지만 최신 시스템들에서는 최신 ‘호퍼’ 기반 모델들의 사용이 크게 늘어나는 모습이다. AMD의 경우 MI210, MI250와 MI300X, MI300A 기반 시스템이 리스트에 오른 부분이 눈에 띈다.

전체 순위 중 인텔의 프로세서를 사용한 시스템의 비중은 61.8%로 집계됐지만 6개월 전의 63%보다는 소폭 내려갔다. AMD 프로세서를 사용한 시스템의 비중은 32.4%로 6개월 전의 31.2%보다 소폭 높아진 것으로 나타났다. HPC 제조사 순위에서는 161개 시스템을 구축한 레노버가 선두를 차지했다. 그 뒤를 HPE, 에비덴(EVIDEN), 델, 엔비디아, 후지쯔가 뒤따르고 있다. 

향후 슈퍼컴퓨터 순위에서 주목할 만한 부분으로는 새로운 ‘칩’의 등장이 꼽힌다. 가장 큰 기대를 받는 제품은 엔비디아의 ‘블랙웰’ 아키텍처 기반의 B200 GPU와 GB200 슈퍼칩이다. 최근에는 소프트뱅크 등이 GB200 기반 AI 슈퍼컴퓨팅 클러스터 구축 계획을 발표하기도 했다. 

AMD 또한 성능이 강화된 인스팅트 MI325X를 발표했으며 후지쯔와는 Arm 아키텍처 기반 CPU와 인스팅트 GPU를 결합한 ‘후지쯔-모나카(Fujitsu-Monaka)’를 위한 협력을 발표하기도 했다. 반면 인텔은 ‘제온 6’ 시리즈 프로세서를 발표했지만 GPU 등 가속기에 대한 전략은 아직 확실치 않은 모습이다.

국가별 분포에서는 미국이 173개 시스템을 올려 34.6%로 가장 큰 비중을 차지했다. 다음으로는 중국이 63개 시스템, 독일이 40개 시스템, 일본이 34개 시스템, 프랑스가 24개 시스템 등으로 집계됐다. 하지만 중국의 경우는 미국과의 무역 갈등 기조 속에 최신 시스템의 도입이나 ‘톱500’ 신규 결과 등재 등에 적극적으로 나서고 있지 않은 상태다. 이에 이번 순위에서 중국 국적의 시스템은 80개에서 63개로 줄었으며 새로운 시스템은 등장하지 않았다.

한국은 이전과 동일하게 13개 시스템을 올려 시스템 수 기준 8위에 올랐다. 시스템들의 총 성능 같은 부분을 보면 바로 윗 순위인 영국보다는 코어 수나 연산 성능 모두 높다. 이는 개별 시스템들이 상대적으로 더 높은 성능을 갖추고 있다고도 해석할 수 있을 부분이다. 물론 한국보다 슈퍼컴퓨터 수가 적은 국가들도 최신 시스템을 도입해 연산 성능 측면에서는 더 높은 경우도 있다.

지난 2018년 구축된 KISTI의 ‘누리온’ 슈퍼컴퓨터 / KISTI

국내 최고 순위는 여전히 ‘세종’, 새로운 ‘슈퍼컴퓨터 6호기’ 기대

이번에 발표된 ‘톱500’에서도 국내에서 가장 높은 순위를 기록한 시스템은 네이버의 ‘각 세종’에 구축된 ‘세종’이다. 하지만 상위권에 새로운 시스템들이 대거 등장하면서 순위는 이전보다 15계단 내려간 40위로 기록됐다. 이 시스템은 엔비디아의 ‘DGX A100’ 시스템을 기반으로 에픽 7742 프로세서와 엔비디아 A100 GPU를 탑재했다. 빠른 변화 속에서 최신 시스템들과 비교하면 이제는 경쟁력이 다소 부족할 수도 있을 시점이다.

국내 시스템간 순위에서도 변화가 있었다. 지난 회까지는 삼성전자의 ‘SSC-21’이 2위였지만 새로운 순위에서는 카카오엔터프라이즈의 ‘카카오클라우드’ 시스템이 2위를 차지했다. ‘카카오클라우드’ 시스템은 이전의 21.21페타플롭스보다 10.79페타플롭스 높은 32페타플롭스 성능을 제출하며 전체 순위에서는 41위에 등재됐다. 한편 카카오클라우드의 다른 시스템은 이전과 성능 변동 없이, 이전의 70위에서 17위 내려간 87위를 기록했다.

삼성전자의 SSC-21은 지난 번의 32위에서 16위 내려간 48위로 기록됐다. SK텔레콤의 ‘타이탄’은 새로운 성능 결과치를 제출하며 지난번의 73위보다 10위 오른 63위를 기록했다. SK텔레콤이 제출한 새로운 성능 수치는 19.53페타플롭스로 이전의 14.24페타플롭스보다 5.29페타플롭스 높아졌다. 이 외에도 기상청에 구축된 ‘그루’와 ‘마루’는 이전의 58위, 59위에서 15위 내려간 73위, 74위를 기록했다. 한국과학기술정보연구원(KISTI)의 ‘누리온’은 기존 75위보다 16위 내려간 91위를 기록했다. 

100위권 내의 마지막 국내 시스템은 97위로 등재된 ‘NHN 클라우드 광주 AI’ 시스템이다. 이 시스템은 델의 ‘파워엣지 XE9680’ 시스템을 기반으로 구축됐다. 인텔의 4세대 제온 프로세서와 엔비디아의 H100 80GB GPU, 인피니밴드 네트워크를 사용했다. 4만3776개 코어를 사용해 12.84페타플롭스 성능을 내는 것으로 측정됐다. 한편, 이 시스템은 최근 국내 AI 인프라에서 최신 GPU 수급 문제가 제기된 가운데 현재 등재된 국내 시스템 중 유일하게 최신 ‘H100’을 사용한 사례로도 눈길을 끈다.

한편, 앞으로의 슈퍼컴퓨터 성능 순위에서 기대할 만한 부분으로는 KISTI가 구축 예정인 ‘슈퍼컴퓨터 6호기’가 있다. KISTI는 2025년 슈퍼컴퓨터 6호기의 도입 절차를 거쳐 2026년 상반기 서비스 개시를 목표하고 있다. 기재부의 적정성 재검토를 통해 증액된 6호기 사업 예산을 토대로 사전규격 공개를 최근 게시한 바 있다. 

새로운 ‘슈퍼컴퓨터 6호기’는 세계 10위권 수준의 600페타플롭스 성능을 목표로 한다. 이전 ‘누리온’ 보다는 연산 성능에서 23배 이상 높은 성능이다. 또한 CPU 수는 4000개 이상, GPU 수는 8000개 이상으로 규정됐다. 사업비 또한 종전보다 53% 늘어난 4483억원으로 증액됐는데 이는 최근 크게 높아진 GPU 가격을 고려한 것으로 알려졌다.

권용만 기자 yongman.kwon@chosunbiz.com