엔비디아ㆍAMD “오픈AI GPT-OSS, PC에서도 바로 사용 가능”

2025-08-07 권용만 기자

오픈AI의 최신 공개형 모델 ‘gpt-oss’ 모델이 5일(현지시각) 등장한 뒤 AI 업계에서의 지원 움직임 또한 빠르게 진행되는 모습이다. 엔비디아와 AMD 모두 최신 gpt-oss 모델을 최신 그래픽처리장치(GPU)를 탑재한 PC에서 바로 쓸 수 있다고 지원을 공식화했다.

오픈AI의 gpt-oss 모델은 오픈AI가 GPT-2 이후 6년만에 공개하는 오픈소스형 모델이다. ‘아파치 2.0’ 라이선스를 기반으로 제공되는 이 모델은 210억 파라미터의 gpt-oss-20b와 1170억 파라미터 규모 의 gpt-oss-120b 등 두 가지 형태가 제공된다.

오픈AI는 gpt-oss 210억 파라미터 모델이 작은 규모에도 o3-미니와 비슷하거나 나은 결과를 보였으며, 1170억 파라미터 모델은 코딩이나 일반 문제 해결 등에서 o4-미니와 비슷하거나 우수한 성능을 보였다고 발표한 바 있다. 또한 120b 모델은 80GB 그래픽 메모리를 갖춘 GPU로, 20b는 16GB 그래픽 메모리를 갖춘 GPU로 구동 가능하다.

AMD ‘라이젠 AI 맥스’, PC 수준에서 120b 모델 지원 / AMD

AMD, ‘라이젠 AI 맥스’로 PC에서 120b 모델 지원

AMD는 오픈AI의 gpt-oss 모델 두 종류 모두를 PC에서 구동할 수 있는 방법을 제공한다. AMD의 GPU를 탑재한 시스템에서 gpt-oss 모델을 돌릴 수 있는 가장 편리한 방법은 ‘LM 스튜디오(LM Studio)’ 앱을 이용하는 것이다.

AMD의 ‘라이젠 AI 맥스+ 395’ 모델은 첫 ‘gpt-oss-120b 모델을 쓸 수 있는 일반 소비자용 프로세서’가 됐다. AMD의 ‘라이젠 AI 맥스+ 395’ 모델은 16코어 프로세서와 40 CU(Compute Unit) 구성의 GPU를 탑재했고, 최대 128GB의 공유 메모리 중 96GB까지 GPU에 할당할 수 있어 대규모 모델 구동에 유리한 면모를 갖추고 있다.

AMD는 ‘라이젠 AI 맥스+ 395’ 모델에서 MXFP4 양자화된 gpt-oss-120b 모델이 대략 61GB 정도의 그래픽 메모리를 사용하며 구동될 수 있으며, 초당 30토큰 정도의 성능을 보인다고 밝혔다. AMD는 블로그를 통해 “데이터센터급 최신 모델을 쓸 수 있을 뿐만 아니라, 나름 실용적인 성능까지 제공한다”고 언급했다.

‘gpt-oss-20b’ 모델은 라데온 RX 9070 XT 16GB 등 16GB 이상 그래픽 메모리를 갖춘 그래픽카드들에서 사용할 수 있다. 현재 AMD의 최신 세대 라데온 RX 9000 시리즈 중 메모리 16GB 이상을 갖춘 모델은 라데온 RX 9070 XT, RX 9070, RX 9060 XT 등 세 종류 정도가 있다. 또한 라데온 RX 7000 시리즈 중에서도 라데온 RX 7900 XTX, 7900 XT, 7900 GRE, 7800 XT, 7600 XT 등이 gpt-oss-20b 모델 구동이 공식 지원된다.

엔비디아 지포스 RTX 그래픽카드들에서의 ‘gpt-oss-20b’ 성능 / 엔비디아

엔비디아, 16GB 이상 메모리 갖춘 그래픽카드서 ‘20b’ 모델 지원

엔비디아 또한 RTX 그래픽카드들에서 최신 gpt-oss 시리즈 모델을 지원한다. 최소 16GB 이상 메모리를 갖춘 그래픽카드들에서 지원 가능하며, 다양한 경로로의 지원이 제공되고 있는 점이 특징이다. 하지만 일반 소비자용 제품 수준에서는 gpt-oss-120b 수준을 구동할 수 있는 환경이 없다.

엔비디아가 제시하는 ‘gpt-oss-20b’ 모델을 가장 쉽게 돌릴 수 있는 환경은 ‘올라마(Ollama)’ 앱을 사용하는 것이다. 엔비디아는 블로그를 통해 올라마 앱에서 gpt-oss-20b 모델을 사용하는 경우 24GB 이상의 그래픽 메모리가 필요하다고 언급했다. 현재 엔비디아의 일반 소비자용 그래픽카드 중 24GB 이상 그래픽 메모리를 갖춘 카드는 5090/4090 등 최상위급 제품군 뿐이다.

올라마 이외의 다른 애플리케이션이나 프레임워크를 사용할 수도 있으며, 이 경우에는 16GB 메모리로도 지원 가능하다. 엔비디아는 Llama.cpp 프레임워크와 GGML 텐서 라이브러리를 활용해 gpt-oss-20b 모델을 돌렸을 때, 지포스 RTX 5060 Ti 모델이 초당 약 100토큰, 지포스 RTX 5080 모델이 약 170토큰, 지포스 RTX 5090 모델은 약 200토큰 정도 성능을 보인다고 공개했다.

한편, 현재 퍼블릭 프리뷰 단계인 마이크로소프트의 ‘AI 파운드리 로컬(AI Foundry Local)’에서도 이 ‘gpt-oss’ 시리즈를 활용할 수 있다. 현재 AI 파운드리 로컬에서는 ONNX 런타임 기반을 제공하며, 엔비디아의 ‘텐서RT’ 지원은 추후 등장할 예정이다.

권용만 기자

yongman.kwon@chosunbiz.com