엔비디아가 기업들의 인공지능(AI) 기반 애플리케이션 및 서비스 개발을 가속하고 정확도를 더욱 높일 수 있는 8세대 AI 소프트웨어 ‘텐서RT 8(TensorRT 8)’을 출시했다.

텐서RT 8은 언어 쿼리에 대한 추론 시간을 이전 대비 절반으로 줄여 개발자들이 고성능의 검색 엔진, 광고 추천 플랫폼, 챗봇을 개발할 수 있도록 돕고, 이를 클라우드부터 엣지 환경에 제공할 수 있도록 지원한다.

엔비디아 텐서RT의 작동구조 인포그래픽 / 엔비디아
엔비디아 텐서RT의 작동구조 인포그래픽 / 엔비디아
특히 텐서RT 8의 최적화 기능은 트랜스포머 기반 모델 중 하나인 BERT-라지(BERT-Large) 모델의 추론을 1.2밀리초(㎳) 만에 완료한다. 기존에는 기업들이 추론에 걸리는 시간을 줄이기 위해 모델 크기를 줄이면 결과의 정확성도 크게 떨어졌다. 텐서RT 8은 모델 크기는 두 배에서 세 배로 늘리면서 정확도를 더욱 높일 수 있게 됐다.

텐서RT 8은 트랜스포머 최적화 외에도 두 가지 주요 기능을 통해 AI 추론 성능을 끌어올렸다. 먼저 엔비디아 암페어(Ampere) 아키텍처 GPU의 새로운 기술인 희소성(Sparsity)은 효율성을 높여 개발자가 컴퓨팅 작업을 줄여 신경망을 가속할 수 있도록 지원한다.

또 하나의 핵심 기능인 양자화 인식(quantization aware) 훈련 기능은 개발자가 훈련된 모델을 사용해 정확도를 유지하면서 INT8 정밀도로 추론을 실행할 수 있게 한다. 이는 텐서 코어 상의 효율적인 추론을 위해 컴퓨팅 및 스토리지 오버헤드를 크게 줄여준다.

텐서RT 8은 현재 바로 이용할 수 있으며, 엔비디아 개발자 프로그램 회원에게 무료로 제공된다. 최신 버전의 플러그인, 파서(parser), 샘플 등도 텐서RT 깃허브(GitHub) 레파지토리(repository)에서 오픈소스로 이용할 수 있다.

그레그 에스테스(Greg Estes) 엔비디아 개발자 프로그램 담당 부사장은 "AI 모델은 기하급수적으로 점점 더 복잡해지고 있으며, AI를 사용하는 실시간 애플리케이션에 대한 수요는 전 세계적으로 급증하고 있다"라며 "최신 버전의 텐서RT는 기업들이 그들 고객에게 이전에는 불가능했던 수준의 품질과 응답성을 갖춘 대화형 AI 애플리케이션을 제공하도록 돕는 새로운 기능을 지원한다"고 설명했다.

최용석 기자 redpriest@chosunbiz.com