조셉 양 HPE 총괄 “AI 시대 인프라 발전, HPC 시대의 배움 되새겨야”
AI 시대 IT 인프라, 기존 HPC 기술 기반으로 더 발전된 형태 크레이 인수, 슈퍼컴퓨터 기술 AI 인프라에 적용하는 계기 돼 HPC 기술들, 향후 AI 인프라의 숙제 ‘효율’ 향상에 도움 기대
“인공지능(AI) 인프라의 근간에 고성능 컴퓨팅(HPC)의 기술이 필요하다.”
조셉 양(Joseph Yang) HPE APAC & 인도 HPC & AI 부문 총괄(이하 총괄)은 "AI 인프라는 전통적인 HPC 인프라와 여러 공통점과 차이점이 있지만 전적으로 AI는 HPC와 비슷하지만 더 어렵다"고 평하며 이와 같이 강조했다. 지난 3일 서울 여의도 콘래드 호텔서 열린 ‘HPE AI@Hyperscale 2024’ 컨퍼런스를 위해 방한한 조셉 양 총괄은 IT조선과 인터뷰를 갖고 AI 인프라에서 HPC 기술의 중요성에 대해 이야기를 나눴다.
HPE는 지난 2019년 슈퍼컴퓨터로 유명한 ‘크레이(Cray)’를 인수한 바 있다. 조셉 양 총괄은 이를 통해 확보한 역량이 AI 시대 인프라 환경 구축에 중요한 경쟁력이 될 것이라 강조했다. 특히 향후 AI 데이터센터는 단지 그래픽처리장치(GPU) 성능이 전부가 아니며 시스템의 전력 효율과 밀도 향상을 위해 서버 뿐만 아니라 네트워크, 효과적인 냉각을 위한 설비 설계 등이 모두 함께 바뀌어야 할 것이라고 언급했다. HPC 시장에서 검증된 기술들이 이러한 과제를 해결하는 데 큰 도움이 될 것으로도 기대했다.
AI 인프라 구축, 국가 안보와 세계 정세에도 영향
조셉 양 총괄은 HPE가 ‘AI@Hyperscale 2024’에서 전달한 메시지 중 중요하게 생각하는 점으로 크게 세 가지를 꼽았다. 그는 먼저, AI가 우리의 생활과 업무 방식을 어떻게 바꾸고 있는지, AI로 인한 컴퓨트 수요와 데이터에 대한 요구가 빠르게 높아지고 있다는 점을 이해해야 한다고 제시했다. 이러한 AI의 중요성은 ‘소버린 AI’의 중요성을 높이고 있다고도 강조했다.
조셉 양 총괄은 “각 국가에서 AI에 대한 주권을 갖는 것이 중요하고 AI에 관련된 인프라와 데이터, 모델에 대해 소유할 수 있을 만한 역량이 갖춰져야 한다. AI는 기본적으로 사람이 하던 의사결정을 컴퓨터가 할 수 있게끔 바뀌는 것이다. AI가 어떻게 구축됐고 어떤 인프라를 구축하는지 등을 우리가 제대로 파악하지 못하고 우리가 결정한 내용이 아니라면, 우리가 사용하는 AI는 다른 국가에서 통제하는 것이고 다른 국가에서 결정을 내리는 것에 이른다. 이는 국가 안보에도 연결될 것이다”라고 설명했다.
현재 전 세계의 AI 산업을 주도하는 것은 ‘미국’이지만 아시아태평양 지역은 가장 빠른 성장세를 보이고 있다고 평가된다. 조셉 양 총괄은 이에 대해 “AI를 얼마나 많이 사용하고 있는지, 그리고 AI를 위한 인프라가 얼마나 늘어나고 있는지라는 두 가지 측면에서 봐야 한다. 아시아태평양 지역이 가장 빨리 성장하고 있다고 평가되는 쪽은 인프라 성장 측면이다. 하지만 이것이 실질적인 AI 사용의 성장으로 이어지는 것은 아닐 수 있다. 미국과 아시아태평양 지역의 성장 사이에는 성격의 차이가 있다고 본다”고 밝혔다.
이와 함께 아시아태평양 지역의 AI 산업 동향에서 중요한 부분으로는 ‘지정학적 요소’를 꼽았다. 조셉 양 총괄은 “지난 2년간 지정학적 요소는 AI 산업에 큰 영향을 줬다. 미국 정부는 특정 그래픽처리장치(GPU)가 중국에 들어가는 것을 막는 조치를 취하기도 했다. 거대언어모델(LLM) 구축에 있어 현재 현대적 LLM을 구축하고 활용하기 위해서는 적어도 약 2억달러(약 2665억원) 가량이 직접 투자돼야 한다. 이를 바로 할 수 있는 기업은 그리 많지 않다. 실질적으로 미국, 중국의 기업들 외에는 이런 결정이 쉽지 않을 것이다”라고 설명했다.
이어 “동남아시아 지역에 많은 AI 클라우드 기업이 나타나고 있다. 이들의 주요 고객들은 중국 고객들이고, 중국으로부터 동남아시아 쪽으로 AI분야 투자가 많이 일어나고 있다”고 밝혔다. 또한 아시아 지역에 데이터센터 구축이 늘어나는 이유로는 “생성형 AI의 경우 데이터센터의 위치에 따른 지연시간이 생각만큼 중요하지는 않다. 생성형 AI에 질문을 넣었을 때 대답이 오는 것을 기다릴 수 있는 시간을 5초 정도로 보면, 네트워크를 통한 작업 전송은 1초 이내로 끝낼 수 있다. 또한 미국이나 유럽 모두 전력 문제 등으로 새로운 발전소와 데이터센터를 짓기 어려운 상황이다”라고 지적했다.
AI 시대 IT 인프라, 과거 ‘슈퍼컴퓨터’ 인프라서 배울 점 많아
오늘날의 AI 인프라는 지금까지의 클라우드와는 많은 부분에서 차이가 있다. 또한 HPE는 꾸준히 AI 인프라가 과거 고성능 컴퓨팅(HPC), 슈퍼컴퓨터 인프라와 많은 부분에서 유사한 부분이 있다고 제시한 바 있다. 조셉 양 총괄은 기존의 클라우드나 슈퍼컴퓨터와 AI를 위한 인프라에서의 차별점으로 작업의 특성과 인프라 아키텍처 측면에서 연결의 중요성, 그리고 대규모 인프라의 고밀도 집적을 위한 디자인을 꼽았다.
먼저, 기존의 클라우드 인프라와 AI를 위한 인프라의 차이점으로는 ‘작업 특성’ 차이를 꼽았다. 조셉 양 총괄은 “기존 클라우드 환경은 서버 하나에서 수십 개의 워크로드를 다루지만 AI에서는 수십 개의 서버가 하나의 워크로드를 다룬다. 최신 라마 3.1 405B(4050억) 파라미터 모델의 경우에는 910기가바이트(GB)의 GPU메모리가 필요하다. 현재 엔비디아의 H100 GPU는 80GB 메모리를 가지고 있고, 라마 3.1 405B 모델을 위해서는 최소한 GPU 8개를 갖춘 서버 두 대가 필요하다” 고 설명했다.
이어 “이렇게 여러 서버를 연결해 하나처럼 사용해야 하는 만큼 네트워크 연결의 중요성 또한 높다. 엔비디아 GPU 기반 서버에서는 서버당 8개의 400Gbps 연결을 사용해 다른 서버의 GPU들과 연결하기도 한다. 전력 소비 또한 GPU 하나당 전력 소비량이 700W에 이르고, GPU 8개와 CPU 2개가 쓰는 전력량은 계산상 6300W 이상이다. 이는 일반적인 서버의 10배에 이른다. 서버당 들어가는 전력의 요건도 높아진다”고 말했다.
서버의 성격이 달라진 만큼 데이터센터의 설계도 바뀌어야 한다. 조셉 양 총괄은 “현재 아시아태평양 지역 데이터센터의 평균적인 상황은 랙당 8~10kW 정도 전력 공급이 가능하다. 랙당 GPU서버 한 대로 이 전력 공급량이 모두 소진된다. 네트워크 연결 등을 생각했을 때 비용이나 성능 측면에서 서버들을 더 가까이 놓게 설치하는 게 유리한 만큼, 랙에 더 많은 서버를 넣을 수 있게 전력 공급 요건을 준비해야 할 상황이다. 여기에 냉각 부분도 재설계가 필요할 것이다”라고 강조했다.
사실 이런 ‘고밀도’ 환경은 기존의 슈퍼컴퓨터와도 공통점을 찾을 수 있는 부분이다. HPE는 지금까지의 슈퍼컴퓨터 구축 경험이 AI 인프라 구축에서도 중요한 경쟁력이 될 것으로 기대한다. 조셉 양 총괄은 HPC와 AI 인프라의 공통점에 대해 “먼저 빠른 속도와 낮은 지연시간을 가진 네트워크 연결 기술이 필요하다는 점이 있다. 이 부분에서 HPE는 ‘슬링샷(Slingshot)’ 연결 기술을 갖추고 있다. 또한 ‘밀도’ 극대화 측면도 이미 슈퍼컴퓨터 등에서 해 온 것이고, ‘DLC(Direct Liquid Cooling)’ 기술 등도 많이 활용되고 있다”고 언급했다.
물론 전통적인 HPC와 AI 인프라는 몇 가지 부분에서 차이가 있다. 조셉 양 총괄은 이에 대해 “정밀도 측면에서 HPC는 FP64를 일반적으로 사용하지만 AI의 경우는 요구 정밀도가 좀 더 낮다. 현재 최신 칩에서는 FP4까지 낮아졌다. 데이터셋 크기도 다르다. HPC는 데이터셋 크기가 작고 CPU-GPU간 연결을 아주 긴밀하게 가져갈 필요는 없다. 하지만 AI 작업에서는 데이터셋 크기가 훨씬 크기 때문에 아키텍처 수준에서 긴밀한 연결로 성능을 만들어낼 수 있어야 한다. 전반적으로는 AI는 HPC와 비슷하지만 더 어렵고 그 근간에는 HPC의 기술이 필요하다”고 설명했다.
한편 조셉 양 총괄은 “현재 표준적인 AI 인프라의 형태는 랙당 32개 GPU에 랙당 소비전력량은 40kW 정도고, 전력효율의 기준인 PUE(Power Usage Effectiveness)는 1.8~2에 이른다. 탄소배출량 측면에서 현재의 표준 AI 구성대로 계속 가게 되면 탄소배출량 부담이 크다는 점을 생각해야 할 것이다. 슈퍼컴퓨터에서 이미 배우고 구축한 사례들을 활용할 수 있어야 할 것이다”라고 강조했다.
슈퍼컴퓨터 만들던 크레이의 역량, AI 인프라에서 경쟁력 강화 기대
HPE는 지난 2019년 슈퍼컴퓨터 제조사 크레이(Cray)를 13억달러(약 1조7319억원)에 인수한 바 있다. 지금까지 선보인 전 세계의 주요 슈퍼컴퓨터 중 상당 수가 크레이의 기술을 기반으로 하며 현재 이 분야 톱500 순위에서 1위인 미국 오크릿지 국립연구소의 ‘프론티어’, 2위인 미국 아르곤 국립연구소의 ‘오로라’ 모두 크레이의 시스템 설계를 기반으로 하고 있을 정도다.
이러한 크레이의 역량은 HPE의 AI 인프라 포트폴리오에서 ‘고밀도 시스템’ 구성에 적극적으로 활용된다. 조셉 양 총괄은 “크레이는 이제 HPE에 완전히 통합됐고 크레이의 여러 강점들이 완전히 HPE에 적용됐다. 고성능 인터커넥트 ‘슬링샷’이나, 랙당 440개 GPU를 집적해 성능과 효율을 모두 극대화한 것도 크레이의 역량이다. 이 외에도 스토리지 기술에서 ‘클러스터스토어(ClusterStor)’도 크레이에서 왔다. AI 관련해 HPE의 역량을 강화하고 고객들에 다가설 수 있게 한 특징의 상당 부분이 크레이에서 기인한 셈이다”라고 밝혔다.
한편, HPE에 인수된 크레이는 이제 AI 인프라 등에서 고밀도 제품군 위주로 운영될 계획이다. 조셉 양 총괄은 “크레이 브랜드는 고밀도 제품 위주로 다루고 있다. 예를 들면 랙당 440개 GPU를 제공하는 구성이나 2U 인클로저에 4개 서버를 탑재하는 구성, 5U 서버에 8개 GPU를 탑재하는 제품 등이다. 반면 ‘프로라이언트(ProLiant)’ 제품군에서는 좀 더 표준화된 구성의 모델로 운영될 것이다”라고 소개했다.
AI 인프라를 도입하는 고객들이 중요하게 생각해야 할 부분으로는 ‘모델 구동의 효율성’을 제시했다. 조셉 양 총괄은 “지금까지는 프로그램을 사용하고 워크로드를 제대로 다루기 위해 전력이 얼마나 소비되는지는 크게 고민하지 않았다. 하지만 AI가 급성장하면서 효율이 중요해지고 있다. 하드웨어 효율성도 중요하며 과거와 달리 모델을 구축, 구동하는 데서의 효율성도 중요한 문제가 됐다. 특히 모델의 학습에 대한 투자보다 구동에 대한 효율이 더 중요해졌고 추론을 얼마나 잘 해서 전력 효율을 극대화하며 결과를 낼 수 있을지 고민하는 단계가 됐다”고 강조했다.
이와 함께 지속가능성과 탄소배출량 감소 측면에서도 최신 하드웨어로의 빠른 교체가 더 유리하다는 점을 지적했다. 조셉 양 총괄은 “예를 들면 엔비디아의 차세대 GPU 기반 시스템은 현재 세대 대비 소비 전력이 두 배 늘어나지만 성능은 30배까지 오른다. 실질적으로는 AI 시대 이전부터 이런 모습이 있었다. IT 인프라의 칩들을 적절한 시기에 교체하는 것이 가장 효과적인데 보통은 적절한 ‘5년’ 사이클보다 더 길게 유지하다가 교체하는 경우가 많았다. 이런 부분들이 아직 기업들이 주목하지 못하고 있는 부분이 아닌가 생각된다”고 언급했다.
권용만 기자 yongman.kwon@chosunbiz.com