엔비디아 “AI 팩토리 운영체제 ‘다이나모’ 적용, 딥시크 성능 30배↑” [GTC 2025]

에이전틱 AI 구현 최적화 등 다양한 솔루션 선보여

2025-03-19     권용만 기자

“앞으로의 추론 모델에서는 20배 많은 토큰과 150배 많은 컴퓨트 용량이 필요하다. ‘다이나모’는 컴퓨트 자원 효율을 최적화해 기존 인프라에서도 성능을 크게 높이는 AI 팩토리의 새로운 ‘운영 환경’이다.”

젠슨 황 엔비디아 CEO는 18일(현지시각) 미국 캘리포니아주 새너제이에서 열린 엔비디아의 연례 콘퍼런스 행사 GTC 2025의 기조연설을 통해 ‘다이나모’ 오픈소스 라이브러리 추론 모델을 발표하면서 이와 같이 소개했다. 

‘다이나모’는 추론형 AI 모델을 배포하는 AI 팩토리의 토큰 수익 창출을 극대화하도록 고안된 AI 추론 서빙 소프트웨어다. 엔비디아는 기존 GB200 NVL72 기반 대형 클러스터에 ‘다이나모’를 적용했을 때 ‘딥시크(DeekSeek)-R1’ 모델 성능을 30배 이상 높였다고 발표했다. 이 외에도 엔비디아는 고급 AI 에이전트 구축을 돕는 ‘라마 네모트론’ 모델과 ‘AI-Q 블루프린트’, 기업의 데이터 활용을 극대화하는 ‘엔비디아 AI 데이터 플랫폼’, 데이터센터의 디지털 트윈을 지원하는 ‘AI 팩토리 디지털 트윈을 위한 엔비디아 옴니버스 블루프린트’ 등을 선보였다.

GTC 2025서 ‘다이나모’를 소개하는 젠슨 황 엔비디아 CEO / 엔비디아 영상 갈무리

젠슨 황 엔비디아 CEO는 “앞으로의 추론(Reasoning) 모델을 사용할 때는 더 복잡한 문제를 해결할 수 있지만 20배 많은 토큰과 150배 많은 컴퓨트 용량이 필요하다”고 제시했다. 이어 “현재의 블랙웰 기반 환경은 NV링크(NVLink) 연결로 수많은 GPU들을 연결해 워크로드를 분산하고 분산된 GPU들에서 다양한 전문가 모델이 구동되는데 어떻게 작업을 연결하고 배치하느냐에 따라 성능이 크게 달라진다”고 설명했다. 

엔비디아 ‘다이나모(Dynamo)’는 이러한 추론 모델을 가장 효과적으로 운영할 수 있게 돕는 소프트웨어로, 기존 ‘트리톤 추론 서버(Triton Inference Server)’의 후속으로 등장했다. 이 ‘다이나모’는 수천 개의 GPU에서 추론 통신을 조정, 가속한 뒤 분리 서빙 방식을 통해 거대언어모델(LLM)의 처리와 생성 단계들을 서로 다른 GPU로 분리한다. 이를 통해 각 단계에서 특정 요구 사항에 맞춰 독립적 최적화가 가능하고 GPU 리소스 활용을 극대화할 수 있다.

‘다이나모’는 추론 성능 개선을 위해 처리량 증가와 비용 절감에 필요한 기능들을 통합했다. 변동성이 심한 요청 양과 유형에 따라 GPU를 동작으로 추가, 제거, 재할당할 수 있다.  대형 클러스터에서 특정 GPU를 정확히 찾아내 응답에 필요한 계산과 쿼리 라우팅을 최소화한다. 추론 데이터를 보다 저렴한 메모리나 저장장치로 오프로드하고 필요할 때 신속하게 검색해 비용을 최적화할 수 있다. 이를 위해 다이나모는 ‘GPU 플래너’, ‘스마트 라우터’, ‘저지연 커뮤니케이션 라이브러리’, ‘메모리 매니저’ 등의 핵심 기능을 포함하고 있다.

엔비디아는 이 ‘다이나모’를 활용해 ‘호퍼’ 기반 플랫폼에서 ‘라마(Llama)’ 모델 지원하는 AI 팩토리의 성능을 두 배까지 올렸다고 소개했다. 또한 GB200 NVL72 기반 대규모 클러스터에서 딥시크(DeekSeek)-R1 모델을 구동할 경우에는 성능 향상 효과가 ‘30배’에 이른다고 제시했다. 

젠슨 황 CEO가 제시했던 최신 GPU의 ‘토큰 경제성’ 측면에도 이 ‘다이나모’의 역할이 포함돼 있다. 젠슨 황 CEO는 “기존의 데이터센터에서 워크로드 운영을 최적화하는 데는 ‘VM웨어’ 등의 운영 환경이 중요했다. 앞으로의 ‘AI 팩토리’에서는 ‘다이나모’가 이와 같은 역할을 하게 될 것이다”라고 말했다. 

‘다이나모’는 오픈소스로 제공되며 파이토치(PyTorch), SG랭(SGLang), 텐서RT(TensorRT)-LLM, vLLM을 지원한다. 또한 엔비디아 NIM 마이크로서비스를 통해 제공되며 향후 ‘AI 엔터프라이즈’를 통해 프로덕션 급 보안, 지원, 안정성과 함께 지원될 예정이다. 

라마 네모트론 모델의 주요 특징 / 엔비디아 영상 갈무리
엔비디아 AI 데이터 플랫폼 주요 구성 / 엔비디아 영상 갈무리

이와 함께 엔비디아는 기업들이 복잡한 작업을 해결할 수 있는 고급 AI 에이전트를 구현할 수 있도록 지원하는 ‘라마 네모트론(Llama Nemotron)’ 모델 제품군을 선보였다. 이 모델은 ‘라마’ 모델을 기반으로 구축됐고, 기본 모델 대비 모델의 정확도는 최대 20%까지 높였으며 다른 주요 개방형 추론 모델 대비 5배 높은 추론 속도를 제공한다. 

‘라마 네모트론’ 모델은 엔비디아 NIM 마이크로서비스를 통해 나노(Nano), 슈퍼(Super), 울트라(Ultra)의 세 가지 크기로 제공된다. 울트라 모델은 추후 선보일 예정이다. 한편, 이 모델은 모델과 데이터셋 등이 모두 공개됐다.

엔비디아의 ‘AI-Q 블루프린트’는 기업이 고급 추론 기능을 갖춘 ‘에이전틱 AI’를 구현할 수 있게 지원하는 레퍼런스 구성을 제공한다. 엔비디아 NIM 마이크로서비스로 구축된 블루프린트는 멀티모달 정보 검색을 위해 엔비디아 네모 리트리버(NeMo Retriever)를 통합하고 오픈소스 엔비디아 에이전트IQ(AgentIQ) 툴킷을 사용해 에이전트와 데이터 연결, 최적화, 투명성을 구현한다. 이를 통해 기업이 자율적으로 인지, 추론, 행동할 수 있는 AI 에이전트에 지식을 연결하도록 지원한다. 

‘엔비디아 AI 데이터 플랫폼(AI Data Platform)’은 AI-Q 블루프린트로 구축된 AI 쿼리 에이전트가 포함된 새로운 유형의 기업 인프라를 위한 맞춤형 참조 설계다. 엔비디아 AI 데이터 플랫폼은 GPU 기반의 가속 컴퓨팅 기술과 고속 네트워크, AI 엔터프라이즈 소프트웨어를 기반으로 해 기업이 데이터를 실시간에 가깝게 분석하고 통찰력을 도출할 수 있게 지원한다. 델, HPE, 히타치 밴타라, IBM, 넷앱, 뉴타닉스, 퓨어스토리지 등 엔비디아 인증 스토리지 파트너들은 이번 달부터 엔비디아 AI 데이터 플랫폼을 기반으로 한 솔루션을 제공할 계획이다.

‘물리적’ 데이터센터의 디자인 구성을 최적화하기 위한 도구도 선보였다. ‘AI 팩토리 디지털 트윈을 위한 엔비디아 옴니버스 블루프린트’는 대규모 ‘AI 팩토리’를 효과적으로 구축, 운영하기 위한 ‘디지털 트윈’ 기반을 제공한다. 이를 통해 데이터센터 시설 내 장치들의 디자인에 따른 실제 운영 결과를 디지털 기반에서 정교하게 시뮬레이션하고 최적화할 수 있다. 

이 솔루션에는 슈나이더 일렉트릭(Schneider Electric), 버티브(Vertiv) 등 데이터센터 시설에 전문성을 가진 기업들과 케이던스(Cadence) 등이 함께 해 더 현실적인 데이터를 기반으로 정교한 시뮬레이션을 구현할 수 있게 한 점이 눈에 띈다. 슈나이더 일렉트릭이나 버티브의 데이터센터 관리 관련 솔루션들과도 연동해 활용할 수 있는 것으로 알려졌다.

권용만 기자

yongman.kwon@chosunbiz.com