"이제 모든 기업은 ‘인공지능(AI) 공장’이고 구성원 모두는 ‘인텔리전트 프로듀서’가 될 것이다."

젠슨 황 엔비디아 CEO는 29일 대만 타이베이 난강 전시장에서 열린 ‘컴퓨텍스 2023’의 기조 연설에서 인공지능 기술은 앞으로 더욱 다양한 형태로 사용될 것임을 강조하며 이와 같이 밝혔다.

‘생성형 AI’의 등장과 함께 인공지능 기술은 앞으로 더욱 다양한 방법으로 활용될 것으로 기대된다. 이에 엔비디아는 사회 모든 곳에 다양한 형태로 인공지능 기술을 활용할 수 있도록 지원하기 위한 다양한 기술들을 소개했다. 특히 다양한 규모의 데이터센터에서 인공지능 관련 워크로드를 효과적으로 다루기 위해 필요한 GPU, 서버, 네트워크 기술들을 대거 선보여 눈길을 끌었다.

젠슨 황 엔비디아 CEO / 타이베이=권용만 기자
젠슨 황 엔비디아 CEO / 타이베이=권용만 기자
인공지능 시대, GPU의 영역 인공지능으로 확장

젠슨 황 CEO는 이 자리에서, 이제 GPU는 게이밍을 위한 그래픽 처리 뿐 아니라 레이 트레이싱의 하드웨어 가속과 인공지능 연산을 위한 텐서 코어를 갖추고, 더 큰 가능성을 제공한다고 밝혔다. 최신 ‘에이다 러브레이스’ 아키텍처 기반 지포스 RTX 40 시리즈 GPU는 이전 세대 대비 두 배 향상된 성능의 레이 트레이싱 코어와 텐서 코어 등을 갖추고, 딥러닝 기술 기반 DLSS 3 기술을 활용해 효율적인 4K 게이밍 환경을 제공한다.

엔비디아는 게이밍에서도 GPU 기반 ‘생성형 AI’를 적용하는 ‘엔비디아 ACE(Avatar Cloud Engine)’를 소개했다. 이 기술은 게임 안에서 캐릭터의 말이나 대화, 상호 작용 등을 ‘생성형 AI’ 기술로 실시간 생성할 수 있는 기술이다. 이 모델은 DGX 클라우드와 PC로 이어지는 기술적 구성을 가지며, 엔비디아의 네모(NeMo) 서비스를 기반으로 커스터마이즈 가능하다. 또한 이 기술은 PC와 지포스 그래픽카드를 사용하는 PC와 클라우드 모두에서 활용할 수 있다.

앞으로의 ‘가속 컴퓨팅’ 시대에는 많은 것들이 바뀌어야 한다. / 권용만 기자
앞으로의 ‘가속 컴퓨팅’ 시대에는 많은 것들이 바뀌어야 한다. / 권용만 기자
젠슨 황 CEO는 향후 컴퓨터의 성능 향상에 대해 새로운 시대에 걸맞는 아키텍처와 알고리즘, 소프트웨어 측면 모두에 변화가 필요하다고 강조했다. 새로운 시대로의 전환기를 맞은 현재 중요한 트렌드로는 ‘가속 컴퓨팅(Accelerated Computing)’과 ‘생성형 AI’를 꼽았다.

특히 데이터센터에서 ‘가속 컴퓨팅’은 비용 산출에서 새로운 수준의 기준을 만든다. 젠슨 황 CEO는 초거대언어모델(LLM)을 위한 데이터센터 인프라를 만드는 데 ‘1000만 달러’를 쓴다고 했을 때, 960개의 CPU를 갖추고 전력소비량은 11기가와트시(GWh) 정도 되는 시스템의 성능을 기준점으로 잡았다. 이를 같은 비용에 GPU 서버로 전환하면 48개 GPU를 사용한 서버 구성이 되는데, GPU 서버의 대당 가격은 훨씬 높지만 들어간 비용 대비 성능은 44배 높고, 전력소비량도 3.2GWh로 크게 낮다고 제시했다.

같은 11GWh 전력 소비량을 기준으로 하면, 172개 GPU를 갖춘 GPU 서버의 구축 비용은 CPU 서버 대비 세 배 높아지는데, 성능 차이는 150배에 이른다고 강조했다. 또한 같은 ‘성능’을 기준으로 하면 두 개 GPU를 사용한 40만 달러 정도의 서버 한 대로 해결할 수 있다고 언급했다. 데이터센터의 ‘경제성’은 단순히 서버 유닛 가격만을 고려할 수 없는 복잡한 성격을 가지고 있으며, 대만의 하드웨어 생태계는 현재 업계에서 요구되는 구성의 ‘다양성’을 충분히 지원하고 있다고 덧붙였다.

GPU 성능은 급격히 발전해 왔지만, 앞으로는 그 이상의 ‘퀀텀 점프’가 필요하다. / 권용만 기자
GPU 성능은 급격히 발전해 왔지만, 앞으로는 그 이상의 ‘퀀텀 점프’가 필요하다. / 권용만 기자
엔비디아는 2년 단위로 선보이는 GPU 아키텍처 세대 전환의 시기마다 큰 폭의 성능 향상을 이뤄냈으며, GPU를 활용하는 분야도 점점 다양하지고 있다고 소개했다. 현재의 H100 또한 이전 세대 대비 큰 폭의 성능 향상을 이뤘으며, 다양한 파트너들을 통해 공급되고 있다. 하지만 앞으로는 GPU 뿐만 아니라 시스템, 데이터센터를 구성하는 아키텍처, 소프트웨어 수준까지 이르는 컴퓨팅 환경 전반에 걸친 혁신을 통해, 기존의 기대 수준 이상을 달성하는 ‘퀀텀 점프’가 필요할 것이라 언급했다.

또한 젠슨 황 CEO는 "이제 모든 기업은 인공지능을 활용하는 ‘AI 공장’이 될 것이며, 구성원 모두는 ‘인텔리전스 프로듀서’가 될 것"이라고 강조했다. 엔비디아는 이러한 기업의 역량이 계속 향상되고 확장될 수 있게 지원할 것이라고 밝혔다. 또한 지난 10년간 GPU의 스케일과 처리량은 10년간 100만배의 향상을 이뤘으며, 지난 5년간은 1000배의 성능 향상을 달성했다고 덧붙였다.

오늘날 주목받는 ‘생성형 AI’는 입력 형식과 출력 형식이 꼭 일치하지 않아도 되는 ‘트랜스포머’의 성격도 가지고 있다. 다양한 형태의 데이터를 언어 형태로 훈련하고, 이를 기반으로 다른 형태의 정보를 만들 수 있다는 것이다. 예를 들면, 텍스트 입력으로 영상 콘텐츠나 음악 콘텐츠 결과물을 얻을 수 있다. 엔비디아는 이러한 ‘생성형 AI’의 시대에, 엔비디아의 기술을 활용하는 관련 기업이 전 세계적으로 1600개 이상에 이른다고 밝혔다.

’그레이스 호퍼’ 256개를 연결한 ‘DGX GH200’이 선보였다. / 권용만 기자
’그레이스 호퍼’ 256개를 연결한 ‘DGX GH200’이 선보였다. / 권용만 기자
인공지능 시대로의 변화 가속화하는 다양한 GPU 관련 솔루션

젠슨 황 CEO는 본격적으로 ‘인공지능 시대’에 진입하면서 컴퓨팅 성능 수요 또한 가파르게 증가하고 있고, 이를 충족하기 위해서는 새로운 방향에서의 접근이 필요하다고 지적했다. 그리고 엔비디아의 GH200 ‘그레이스 호퍼(Grace Hopper)’는 이러한 새로운 접근법을 보여주는 좋은 예이며, 현재 본격적인 양산 단계에 들어갔다고 소개했다.

이 ‘그레이스 호퍼’의 가장 큰 특징은 하나의 모듈 시스템에 CPU와 GPU, 대용량의 메모리가 함께 구성되어 있다는 점이다. GH200은 72개의 Arm 네오버스 V2 아키텍처 기반 ‘그레이스’ CPU, 엔비디아의 ‘H100’ 텐서 코어 GPU, 96GB의 HBM3 메모리와 480GB LPDDR5X 메모리를 합쳐 총 576GB의 고속 대용량 메모리 구성을 갖추고 있다. 이 모듈 자체적으로도 트랜스포머 엔진의 성능은 4페타플롭스(PFLOPS)에 이른다. 엔비디아는 특히 CPU와 GPU가 공유하는 메모리 서브시스템으로 대용량 데이터를 편리하게 다룰 수 있다는 점을 장점으로 꼽았다.

젠슨 황 CEO는 "지난 10년간 폭발적으로 증가한 인공지능 워크로드 관련 성능 수요를 충족시키는 데 있어서는 이 정도로도 충분하지 않다"고 강조했다. 이어 그는 이를 위해 ‘그레이스 호퍼’ GH200 256개를 연결한 ‘DGX GH200’ 솔루션을 준비했다고 말했다.

이 시스템은 GH200 256개를 NVLINK 스위치로 연결해 구현했다. 최대 144테라바이트(TB)의 GPU 메모리를 활용할 수 있고, 트랜스포머 엔진의 성능은 1엑사플롭스(EFLOPS)에 달한다. 무엇보다 강조하는 부분은 이 정도의 대규모 구성을 ‘단일 GPU’ 처럼 사용할 수 있다는 점이다.

한편, 이 GPU는 커뮤니케이션 영역에서 더 작은 엣지 서버에 탑재되어 생성형 AI의 접목을 위한 기반 환경에도 활용될 수 있다. ‘그레이스 호퍼’ 등 강력한 GPU 시스템이 탑재된 엣지 서버는 생성형 AI 기술과 결합해 커뮤니케이션을 단순한 연결과 전송 이상의 ‘재구성’으로 만들 수 있다. 예를 들면, 디바이스의 영상 이미지를 GPU 연산 처리해 3D 시각화와 재생성 기술까지 구현할 수 있다.

AI 위한 고속 네트워크를 구현하는 ‘스펙트럼-4’ 이더넷 스위치의 주요 특징 / 권용만 기자
AI 위한 고속 네트워크를 구현하는 ‘스펙트럼-4’ 이더넷 스위치의 주요 특징 / 권용만 기자
‘생성형 AI’ 기술이 폭넓게 활용되면서, 다양한 환경에서 신뢰할 수 있는 AI 인프라를 구축하기 위한 하드웨어의 다양성 지원 측면도 중요해졌다. 엔비디아 MGX는 이러한 서버 구현의 다양성을 위한 ‘모듈형 레퍼런스 디자인’으로, 원격 시각화에서 엣지에서의 AI, 데이터센터의 고성능 컴퓨팅 구현에 이르기까지 다양한 수요에 대응하는 구성을 갖췄다.

이 MGX는 엔비디아의 GPU, DPU를 기반으로 하는 다양한 시스템 구현이 고려되어, 100개 이상의 구성이 준비됐다. 슈퍼마이크로나 애즈락 랙, 페가트론, 에이수스, 기가바이트, QCT 등 다양한 서버 업체들이 이를 도입해 솔루션 구현에 들어가는 시간과 비용을 크게 줄일 계획이다. 이들 중 QCT와 슈퍼마이크로의 제품은 8월중 가장 먼저 등장할 것으로 알려졌다.

모든 데이터센터가 ‘인공지능’ 워크로드를 다루게 되면서 생기는 문제로는 ‘네트워크’도 있다. 젠슨 황 CEO는 인공지능 워크로드의 경우 인피니밴드나 NVLINK 등 고속 연결 기술이 유리하지만, 비용이나 특성, 효율 등에서 범용 데이터센터에 적용하는 것은 적절치 않다고 지적했다. 이더넷 연결은 범용적이고 유연하며 신뢰성도 있지만, 절대 성능 측면에서의 아쉬움이 있다고 지적했다.

엔비디아의 ‘스펙트럼-X(Spectrum-X)’ 네트워킹 플랫폼은 이러한 네트워크에서의 딜레마에 대한 절충점을 제시한다. 엔비디아의 ‘스펙트럼-4’ 이더넷 스위치와 ‘블루필드-3’ DPU의 결합으로 구현된 이 플랫폼은 인공지능 워크로드의 가속을 위해 기존 전통적인 이더넷보다 1.7배 향상된 성능과 전력 효율성을 제공한다. ‘스펙트럼-4’이더넷 스위치는 AI 워크로드를 위한 51Tbps 처리량을 제공하며, 블루필드-3 DPU와 엔비디아의 LinkX 기술과 함께 엔드-투-엔드 400GbE 네트워크를 구현할 수 있게 한다.

옴니버스와 결합해 시너지 효과가 기대되는 ‘아이작 AMR’ / 권용만 기자
옴니버스와 결합해 시너지 효과가 기대되는 ‘아이작 AMR’ / 권용만 기자
엔비디아는 기업에서 인공지능 기술을 도입함에 있어 ‘DGX 클라우드를 통한 ‘AI 파운데이션’ 뿐만 아니라, 주요 클라우드 사업자나 온프레미스 인프라 환경에서 구축할 수 있는 ‘AI 엔터프라이즈’ 옵션을 제공한다고 소개했다.

이 중 ‘AI 엔터프라이즈’는 엔터프라이즈 IT 운영 환경의 규제 준수와 관리 환경에 대응할 수 있는 가속 컴퓨팅 환경을 제공한다. GPU 기반의 ‘AI 엔터프라이즈’ 환경은 SAM(Segment Anything Model) 워크로드에서 처리량은 CPU 대비 24배, 100만 이미지 처리당 비용은 CPU 대비 5% 수준에 그친다고 덧붙였다.

‘디지털 트윈’과 인공지능 기술의 결합은 다양한 산업군에 인공지능 기술을 사용함에 있어 큰 시너지를 가져올 것으로 기대된다. 모든 기반이 디지털로 이루어진 시대에 인공지능 모델의 훈련을 실제와 동일한 가상 환경에서 진행, 최적화함으로써 시간과 비용 모두를 줄이고 완성도는 더욱 높일 수 있을 것으로 기대된다. 엔비디아는 ‘옴니버스 클라우드’가 제조업 등에서 공장을 디지털 트윈으로 실시간 구현하고 시뮬레이션해, 공장의 시설들을 최적화하고 효율을 높이는 데 활용할 수 있다고 소개했다.

생성형 AI와 옴니버스가 결합된 사례도 있다. WPP는 옴니버스 클라우드 상에서 생성형 AI를 활용하는 콘텐츠 엔진을 구축, 활용하고 있다고 소개됐다. 3D로 만들어진 콘텐츠는 생성형 AI 툴 기반에서 훈련되고, 필요에 따라 광고에 적합한 이미지를 빠르게 생성할 수 있게 지원한다.

이 외에도, 디지털 트윈 기반 로봇의 인공지능 모델 최적화 사례로는 아이작(Isaac) AMR(autonomous mobile robot)이 소개됐다. 이는 완전 자동화된 로봇의 구현을 위한 기술들을 지원한다. 엔비디아는 옴니버스 기반의 디지털 트윈과 아이작 AMR이 결합되어 복잡한 환경에서 로봇의 움직임을 시뮬레이션 할 수 있고, 실제 배포시에도 정확한 결과를 얻을 수 있게 한다고 덧붙였다.

타이베이=권용만 기자 yongman.kwon@chosunbiz.com