AI 열풍 속, 슈퍼컴퓨터 시장은 치열히 경쟁 중 [권용만의 긱랩]
AMD ‘프론티어’ vs 인텔 기반 ‘오로라’, 슈퍼컴 ‘자존심 경쟁’ 상위권 시스템 ‘인텔+엔비디아’ 조합 대세 속 대안 등장 눈길 국내 시스템, 네이버 ‘세종’ 1위 유지...카카오 순위권 등장
지난 수년간 장마철이 다가오고, 기상 예보가 섣불리 예측하기 힘든 수준에 이를 때마다 언급되는 이름이 있다. 바로, 국가의 연구개발 역량의 지표 중 하나로도 여겨지는 ‘슈퍼컴퓨터’다. 일반적인 PC나 서버, 데이터센터나 클라우드 인프라 모두 성능이 중요하지만, 슈퍼컴퓨터는 특정 목적을 위해 만들어진 거대한 단일 시스템형 인프라라는 데서 특별한 의미를 가진다.
전 세계의 내노라하는 슈퍼컴퓨터들의 실제 연산 성능 순위를 따지는 대표적인 리스트로는 ‘톱500(TOP500)’이 꼽힌다. 톱500은 1993년 시작해 1년에 두 번 순위를 갱신하며, 지난 5월 63번째 순위표가 나온 바 있다. 기준은 아주 간결하게, 시스템의 64비트 배정밀도(Double Precision) 부동소수점(Floating Point) 연산 성능을 측정하는 HPL(High Performance Linpack)을 기준으로 한다.
전 세계적인 인공지능(AI) 열풍 속에서 다양한 이유로 새로운 슈퍼컴퓨터는 꾸준히 등장하고 있다. 최신 순위표에서는 AMD의 프로세서와 가속기를 사용한 ‘프론티어(Frontier)’가 1위를 지킨 가운데, 인텔의 프로세서와 그래픽처리장치(GPU)를 사용한 ‘오로라(Aurora)’가 두 번째로 엑사플롭스(EFlops) 급 성능에 진입하면서 양 사간 치열한 자존심 경쟁의 양상을 보였다. 국내 시스템에서는 네이버의 ‘세종’이 25위로 가장 높은 순위를 차지했고, 카카오의 시스템이 44위와 70위에 새롭게 등재됐다.
프론티어와 오로라, 1위 자존심 경쟁 중
지난 5월 기준, 여전히 ‘톱500’ 1위는 미국 오크리지 연구소의 ‘프론티어’가, 2위는 미국 아르곤 국립연구소의 ‘오로라’가 차지했다. 두 시스템 모두 3위 이하와는 두 배 가까운 큰 성능 차이를 내면서 ‘엑사플롭스(ExaFlops)’ 시스템의 시대를 열었다. 그리고 두 시스템 모두 ‘HPE 크레이 EX’의 아키텍처를 기반으로 설계, 구축됐지만 프론티어는 AMD의 프로세서와 가속기를, 오로라는 인텔의 프로세서와 가속기를 사용해 양 사간 성능 경쟁의 대리전 양상도 있다.
일단 ‘오로라’는 최신 결과에서 지난해 11월보다는 크게 향상된 성능을 선보였지만, 여전히 프론티어를 넘어서지 못했다. 사실 지난해 오로라의 성능은 전체 시스템의 절반 정도만을 사용한 결과로 알려졌으며, 이번에는 전체 시스템 구성에서의 결과를 선보일 수 있을 것으로 기대됐지만, 결과적으로는 이번에도 전체 시스템 구성의 결과는 아니다. 인텔의 자료에 의하면 이번 ‘오로라’의 성능 결과는 전체 시스템의 87%를 사용한 상황이다.
‘오로라’가 처음 선보일 때 인텔의 목표는 최대 성능 ‘2 엑사플롭스’와 ‘세계 1위 성능’이 제시됐지만, 사실 지금 상황에서는 HPL 성능 기준으로는 목표를 달성하기 쉽지 않아 보인다. 단순 산술적 계산으로, 프론티어와 오로라의 제출 성능 차이는 19% 정도인데 이를 메꾸기에는 13% 정도의 덜 사용된 시스템을 채우는 것 이상의 뭔가가 더 필요한 상황이다. 특히 소프트웨어 최적화를 통해, 이론상 최대 성능과 실제 성능 간 격차를 줄이는 노력이 좀 더 필요할 것으로 보인다.
HPL 기준의 톱500 이외에도 눈여겨 봐야 될 결과는 두 가지가 더 있다. 먼저, HPCG(High-Performance Conjugate Gradient) 결과에서는 HPL 기준 4위 정도던 일본의 ‘후가쿠(Fugaku)’가 16페타플롭스 정도로 1위를, ‘프론티어’가 14페타플롭스 성능으로 2위에 기록돼 있고, ‘오로라’는 5.6페타플롭스 정도로 두 시스템과는 두 배 이상의 격차를 보이며 3위에 기재돼 있다. 물론 오로라의 HPCG 결과는 전체 시스템의 39%만을 사용한 결과로, 전체 시스템을 사용한 경우 프론티어에 근접한 결과를 낼 수 있을 것으로 예상된다.
또한 기존 ‘HPL-AI’로 알려졌던 ‘HPL-MxP(High-performance LINPACK-mixed precision)’ 테스트에서는 오로라가 가장 높은 성능을 기록했다. 이 테스트는 64비트 배정밀도 뿐만 아니라 32비트 단정밀도나 그 이하의 정밀도를 함께 활용하는 상황을 고려한 것인데, 현재의 AI 워크로드와도 유사한 성격을 제공한다. 이 테스트에서 오로라는 프론티어의 10.2엑사플롭스를 살짝 넘어서는 10.6 엑사플롭스 성능을 달성했고, HPL 대비 성능 차이는 프론티어의 8.5배보다 더 높은 10.5배를 기록했다.
한편, ‘오로라’는 제법 야심차게 구축을 시작했지만 여전히 여러 가지 이유로 제대로 된 ‘완전체’의 모습을 선보이지는 못하는 모습이다. 그리고 최근 인텔은 이 시스템에 사용된 ‘데이터센터 그래픽처리장치(GPU) 맥스 시리즈’ GPU보다는 ‘가우디’ 시리즈 가속기에 전략적으로 더 집중하는 모습이다. 향후 ‘제온 중앙처리장치(CPU) 맥스 시리즈’ 프로세서와 ‘데이터센터 GPU 맥스 시리즈’ GPU의 차세대 제품은 다양한 IP 블록이 혼합된 ‘XPU’ 컨셉인 ‘팔콘 쇼어(Falcon Shore)’로 선보일 것으로 알려졌지만, 목표로 제시됐던 2025년을 목전에 둔 최근까지도 이에 대한 소식은 뜸하다.
상위권 시스템, ‘인텔+엔비디아’ 조합이 대세
최신 톱500 리스트의 상위 10개 시스템을 살펴보면, 1위 ‘프론티어’와 2위 ‘오로라’ 이외에는 보편적인 ‘인텔 CPU+엔비디아 GPU’ 조합이 많다. 3위에 오른 마이크로소프트 애저 기반의 ‘이글’은 인텔의 4세대 제온과 엔비디아 H100 조합을, 7위 ‘레오나르도’는 3세대 제온과 엔비디아 A100 조합을, 8위 ‘마레노스트롬 5 ACC’와 10위 ‘이오스’는 4세대 제온과 엔비디아 H100 조합이다.
후지쯔가 구축한 일본의 ‘후가쿠(Fugaku)’는 CPU만 가지고도 제법 오랜 시간 최상위권 성능을 보이는 점도 눈에 띈다. 특히 HPL에서는 이제 1, 2위의 성능을 따라가기 쉽지 않지만 HPCG에서는 2위의 프론티어보다도 13% 가량 높은 성능을 보여 여전히 경쟁력이 높다는 점을 보였다. 한편 6위 ‘알프스’는 엔비디아의 GH200 ‘그레이스 호퍼 슈퍼칩’ 기반인 점이 눈에 띈다.
톱500 시스템 리스트 전체로 눈을 넓혀 보면, 총 194개 시스템에서 GPU 등의 ‘가속기’를 써서 6개월 전의 185개보다 소폭 늘어난 것으로 나타났다. 그리고 가장 많이 쓰인 가속기는 엔비디아의 ‘암페어(Ampere)’ 기반으로 83개 시스템에서 쓰였고, 엔비디아 ‘볼타(Volta)’ 아키텍처 기반 제품이 48개 시스템에서 쓰여 뒤를 이었다. CPU 제조사별 점유율 측면에서는 인텔이 63%를 차지했는데, 지난 회의 67.8%보다는 다소 내려갔다. AMD의 CPU는 156개 시스템에서 사용되며 지난 회의 28%보다 올라간 31.2%를 기록했다.
국가별로는 미국과 중국의 양강 구도가 남아있지만 중국의 비중은 점차 줄고 있다. 미국의톱500 안에 171개 시스템이 등재돼 34.2% 점유율을 보인 데 비해, 중국의 경우 80개 시스템으로 16% 점유율을 기록했다. 특히 중국의 경우 지난 회의 104개보다도 더 줄었는데, 이는 지정학적 요인 측면이 상당 부분 작용하는 것으로도 해석된다. 한편, 중국의 시스템 중 가장 높은 순위를 기록한 시스템은 13위의 ‘선웨이 타이후라이트(Sunway TaihuLight)’인데, 2016년 구축 당시에는 놀라운 수준이었지만 이제는 제법 노후화된 상황이다.
슈퍼컴퓨터 제조사별 순위에서는 레노버가 163개 시스템을 구축하며 32.6%로 1위를 기록했고, HPE가 112개 시스템을 구축하며 22.4%로 2위에 올랐다. 또한 3위에는 에비덴이, 4위에는 델이 올라 있다. 의외로 엔비디아가 6위에 올라 있는데, 이는 ‘DGX 슈퍼팟’의 존재 때문으로 보인다. 한편, 전체 리스트에서 HPE와 인텔의 경우 시스템 수 대비 전체 시스템의 제공 성능 수치가 매우 높은 것이 특징인데, 이는 HPE가 현재 1위인 ‘프론티어’를 포함해 상위 10대 중 3대를 구축했고, 인텔은 2위 ‘오로라’를 구축한 덕분이다.
국내 톱500 슈퍼컴퓨터 총 13대, ‘카카오클라우드’ 시스템 새롭게 등장
슈퍼컴퓨터 톱500의 국가별 순위에서, 한국은 13개 시스템을 등재해 7위에 올라 있으며, 아시아 지역에서는 80개 시스템으로 2위에 등재된 중국, 29개 시스템으로 4위에 등재된 일본에 이어 세 번째다. 국내에서 가장 높은 순위를 기록한 시스템은 지난 회와 마찬가지로 네이버의 ‘각 세종’에 구축된 ‘세종’인데, 순위는 지난 회의 22위보다 3계단 내려간 25위로 기록됐다. 삼성전자의 SSC-21은 지난 번의 28위보다 4계단 내려간 32위를 기록했다.
국내 슈퍼컴퓨터 순위에서 새롭게 등장한 시스템도 있다. 카카오엔터프라이즈의 ‘카카오클라우드(kakaocloud)’ 시스템은 국내 시스템 중 3위, 전체 순위에서는 44위로 등재됐다. 이 시스템은 슈퍼마이크로의 시스템을 기반으로, AMD 에픽 7763 64코어 프로세서와 엔비디아의 A100 GPU, 인피니밴드 HDR200 네트워크 구성을 사용해 21.21페타플롭스 성능을 기록했다.
그리고 70위에는 또다른 카카오클라우드 시스템이 등재됐는데, 이 시스템은 ‘이슬림(eSlim)’이 구축한 것으로 알려졌고, 3세대 인텔 제온 플래티넘 8358 32코어 프로세서와 엔비디아 A100 GPU, 인피니밴드 HDR200 네트워크 구성을 사용해 15.94페타플롭스 성능을 기록했다. 한편, 카카오는 이들 시스템의 특징으로 ‘코어 수 대비 성능 효율’ 측면을 강조하며, 국내에서 가장 높은 효율성을 기록했다고 밝힌 바 있다.
레노버가 구축한 기상청의 슈퍼컴퓨터 ‘그루’와 ‘마루’는 지난 번의 47, 48위에서 11계단 내려간 58, 59위를 기록했으며, 연산 성능은 각 시스템당 18페타플롭스다. 지난 순위에서 59위에 올랐던 SK텔레콤의 ‘타이탄’은 이번 순위에서는 14계단 내려간 73위를 기록했고, 한국과학기술정보연구원(KISTI)의 ‘누리온’은 기존 61위에서 14계단 내려간 75위를 기록했다. 100위권 안의 마지막 국내 시스템은 KT의 ‘KT DGX 슈퍼팟’으로, 지난번의 72위보다 28계단 내려간 90위를 기록했다.
권용만 기자 yongman.kwon@chosunbiz.com