"호퍼(Hopper) 기반 H100 GPU(그래픽처리장치)는 기존 A100 대비 최대 4배 더 높은 성능을 제공한다."

젠슨 황 엔비디아 CEO는 최신 MLPerf 결과를 통해 이와 같이 밝히고 "3년 전 A100 출시 당시 인공지능(AI) 세계의 주류는 ‘컴퓨터 비전’이었지만, 이제는 생성형 AI가 등장했다. ‘호퍼’는 트랜스포머 엔진을 통해 GPT에 최적화된 구조를 제공한다"고 밝혔다.

생성형 인공지능(AI) 기술의 본격 등장과 함께 다시금 인공지능을 위한 성능 향상이 주목받고 있다. 이에 엔비디아는 최신 MLPerf 벤치마크 결과를 통해 클라우드에서 엣지까지 다양한 인공지능 워크로드에서 하드웨어 개선과 소프트웨어 최적화 양 쪽에서 성능과 효율 수준을 끌어올리고 있다고 소개했다.

최신 MLPerf 테스트에서, H100은 A100 대비 최대 4배 성능을 선보였다. / 엔비디아
최신 MLPerf 테스트에서, H100은 A100 대비 최대 4배 성능을 선보였다. / 엔비디아
‘트랜스포머 엔진’을 갖춘 호퍼 아키텍처 기반의 H100 GPU는 특히 대규모 언어 모델인 BERT에서 높은 성능을 보인다. MLPerf 의 BERT 모델 테스트 결과에서, H100 GPU는 A100 GPU 대비 4배 향상된 성능을 기록했다. 호퍼 아키텍처의 트랜스포머 엔진은 FP16 뿐 아니라 FP8을 지원해 대규모 언어 모델의 활용에서 성능 부담을 줄이고 처리량을 높일 수 있다.

L4 텐서 코어 GPU도 이전 세대 대비 최대 3배 이상의 성능을 선보였다 /엔비디아
L4 텐서 코어 GPU도 이전 세대 대비 최대 3배 이상의 성능을 선보였다 /엔비디아
엔비디아 L4 텐서 코어 GPU도 MLPerf 테스트에서 이전 세대인 T4 GPU보다 최대 3배 이상 빠른 성능을 선보였다. 특히 주요 FP8 형식을 지원해 성능에 민감한 대규모 언어 모델인 BERT 모델에서 이전 세대 대비 3.1배 높은 추론 성능을 기록했다.

또한 L4 GPU는 이전 세대 대비 최대 10배 빠른 이미지 디코드, 최대 3.2배 빠른 영상 처리, 4배 이상 빠른 그래픽 및 실시간 렌더링 성능을 제공한다. 대부분의 서버에서 쉽게 장착해 높은 처리량과 짧은 지연 시간을 얻을 수 있는 것도 장점이다.

엔비디아는 젯슨 AGX 오린(Orin) 시스템 온 모듈도 1년 전 결과에 비해 에너지 효율성은 최대 63%, 성능은 81% 향상됐다고 밝혔다. 젯슨 AGX 오린은 배터리로 구동되는 시스템을 포함해 저전력 수준의 제한된 공간에서 AI 추론 환경을 제공한다. 또한 더 적은 전력을 소비하는 더 작은 모듈이 요구될 때 사용되는 젯슨 오린 NX 16G는 이전 세대인 젯슨 자비에(Jetson Xavier) NX 프로세서보다 최대 3.2배의 성능을 제공했다고 덧붙였다.

한편, 엔비디아는 풀스택 AI 플랫폼의 네트워크 성능이 로컬 성능에 근접하는 높은 효율을 보였다고 소개했다. 데이터를 원격 추론 서버로 스트리밍하는 ‘네트워크 분할 벤치마크’에서, 엔비디아 DGX A100 시스템은 BERT 모델에서 최대 로컬 성능의 96%를, ResNet-50 테스트에서는 100%를 기록했다고 밝혔다.

권용만 기자 yongman.kwon@chosunbiz.com