엔비디아가 음성, 비디오, 이미지 및 추천 서비스를 위한 인공지능 추론 가속화 기능을 제공하는 ‘텐서RT(TensorRT) 하이퍼스케일 플랫폼’공개했다.

엔비디아 텐서RT 하이퍼스케일에 탑재된 ‘테슬라 T4’ GPU. / 엔비디아 제공
엔비디아 텐서RT 하이퍼스케일에 탑재된 ‘테슬라 T4’ GPU. / 엔비디아 제공
‘텐서RT 하이퍼스케일 플랫폼’은 ▲엔비디아 튜링(Turing) 아키텍처를 채택한 엔비디아 ‘테슬라(Tesla) T4’ GPU ▲추론 옵티마이저 및 런타임 엔진 ‘엔비디아 텐서RT 5’ ▲컨테이너형 마이크로 서비스 소프트웨어 ‘엔비디아 텐서RT 추론 서버’ 등으로 구성된다.

낮은 레이턴시(지연시간)와 빠른 성능을 제공하는 텐서RT 하이퍼스케일 추론 플랫폼은 데이터센터 내에서 향상된 자연어 상호작용은 물론, 검색 시 관련 결과를 나열하지 않고 직접 답변을 제공하는 등 새로운 서비스를 구현할 수 있다.

특히 320개의 튜링 텐서 코어와 2560개의 쿠다(CUDA) 코어를 갖춘 테슬라 T4 GPU는 FP32부터 FP16까지의 연산성능뿐 아니라 INT8 및 INT4의 다중 정밀도까지 지원하며, FP16에서 최대 65 테라플롭스(teraflops), INT8에서 최대 130 테라플롭스, INT4에서 최대 260 테라플롭스의 성능을 제공한다.

이를 통해 텐서RT 하이퍼스케일 플랫폼은 실시간 추론 소프트웨어와 더불어 데이터 처리량(throughput)과 서버 활용도를 극대화하고 업계 최고 수준의 추론 가속화 기능을 제공한다고 회사 측은 강조했다.

이안 벅(Ian Buck) 엔비디아 가속 컴퓨팅 담당 부사장 겸 총괄은 "고객들은 모든 제품과 서비스가 AI를 통해 향상되고 진화될 미래를 마주하고 있다"며 "엔비디아 텐서RT 하이퍼스케일 플랫폼은 이를 보다 효율적이고 빠른 속도로 구현하기 위해 탄생한 제품이다"라고 말했다.