“중고차 값으로 슈퍼카 성능? AI 가성비 혁명 왔다”[정원훈의 AI 트렌드]

허깅페이스 11월 3주차 AI 동향 분석

2025-11-21     정원훈 텐스페이스 이사

인공지능(AI) 트렌드를 가장 빠르게 알 수 있는 허깅페이스를 분석하는 정원훈의 AI 트렌드입니다.

이번 주 허깅페이스는 "작은 거인들의 역습"이 본격화되고 있었습니다. 마치 다윗이 골리앗을 이기듯 15억 개 파라미터의 작은 모델이 6710억 개짜리 거대 모델을 이기고, 단돈 780만원으로 세계 최고 수준 AI를 만드는 시대가 왔습니다. 웨이보가 '가성비의 끝'을 보여주고, 문샷AI가 '생각하는 AI'로 판도를 바꾸며, 마야 리서치가 '감정 있는 목소리'로 오픈소스 생태계를 놀라게 하는 등 '효율성 혁명'이 AI 산업의 새로운 표준이 되고 있습니다. 

이번 주도 퀴즈로 시작해 보겠습니다.

"단돈 780만원으로 훈련했지만 6710억 파라미터 거대 모델을 이기고, 15억 개 파라미터로 수학 올림피아드 문제를 척척 풀어내는 초소형 천재 모델은?"

"'20대 영국 여성, 활기찬 목소리'라고 말만 하면 그대로 생성하고, 웃고, 울고, 속삭이는 등 20가지 감정을 자유자재로 표현하는 오픈소스 음성 AI는?"

정답은 'VibeThinker-1.5B, Maya1'입니다. 이번 주는 "작지만 강력한 AI들의 승리"가 두드러졌습니다.

허깅페이스 11월 셋째주 주간 톱3 / 정원훈 제공

AI 모델 톱3

1위: WeiboAI/VibeThinker-1.5B | Text Generation

VibeThinker-1.5B는 이름 그대로 '진동하며 사고하는' AI입니다. 중국 웨이보(Weibo)의 AI 부서가 단 7800달러(약 1100만원)라는 파격적인 비용으로 만든 이 모델이 딥시크 R1(6710억 파라미터)을 뛰어넘는 성능을 보여줍니다. 얼마나 놀라운 일이냐면, 마치 중고 경차 가격으로 포르쉐 성능을 내는 자동차를 만든 것과 같습니다. 

가장 인상적인 건 '초효율 추론 능력'입니다. 15억 개의 파라미터만으로 AIME24(80.3점), AIME25(74.4점), HMMT25(50.4점) 등 최고난도 수학 벤치마크에서 딥시크 R1(79.8점, 70.0점, 41.7점)을 모두 상회했어요. 예를 들어 복잡한 미적분 문제나 정수론 문제를 척척 풀어내는데 이는 대학원생 수준의 수학 실력입니다. 특히 주목할 점은 'Spectrum-to-Signal Principle(SSP)' 훈련 방식입니다. 먼저 다양한 해법을 폭넓게 탐색한 뒤(Spectrum Phase), 그중 최적의 추론 경로를 강화 학습으로 선별하는(Signal Phase) 2단계 접근법이죠. 마치 요리사가 수십 가지 레시피를 실험한 후 최고의 맛을 내는 조합을 찾아내는 것과 같습니다.

코딩 능력도 뛰어납니다. LiveCodeBench v5에서 55.9점, v6에서 51.1점을 기록하며 50.3점의 미스트랄 미디엄(Magistral Medium)을 앞섰어요. 게다가 파라미터 효율성을 고려하면 AIME 25 벤치마크에서 파레토 최적선을 크게 확장시켰습니다. 작은 모델이 큰 성능을 낼 수 있다는 걸 증명한 거죠. 어디에 활용할 수 있을까요? 수학·과학 경시대회 문제 풀이, 알고리즘 코딩 챌린지, 모바일 기기나 엣지 디바이스에서의 AI 추론, 교육용 AI 튜터 시스템 등 '제한된 자원에서 높은 추론 능력이 필요한' 모든 분야에서 혁신을 가져올 것입니다.

2위: moonshotai/Kimi-K2-Thinking | Text Generation

지난 주 1위였던 Kimi-K2-Thinking이 이번 주는 2위를 차지했습니다. 이 모델은 "200개 도구를 연속으로 다루는 멀티플레이어"라 할 수 있습니다. Kimi-K2-Thinking은 지난주에 이어 이번 주도 강력한 존재감을 보여줍니다. 중국 스타트업 문샷AI(Moonshot AI)가 만든 이 모델은 1조 개의 파라미터 중 320억 개만 활성화되는 MoE 구조로, '생각하며 행동하는' 에이전틱 AI의 표본입니다.

가장 인상적인 건 '자율 작업 능력'입니다. 200~300개의 도구를 연속으로 호출하며 수백 단계에 걸쳐 일관된 추론을 수행할 수 있어요. 예를 들어 "다음 달 서울→뉴욕 출장 일정을 짜줘"라고 하면 항공권을 검색하고, 호텔을 예약하고, 날씨를 확인하고, 미팅 장소를 추천하고, 일정표를 만드는 모든 과정을 스스로 처리합니다. 마치 유능한 비서가 모든 것을 알아서 처리하는 것처럼요. 특히 주목할 점은 256k 토큰의 컨텍스트 윈도우입니다. 소설책 한 권 분량의 내용을 한 번에 기억하고 처리할 수 있다는 뜻이죠. 게다가 네이티브 INT4 양자화로 2배 빠른 추론 속도를 달성했습니다. QAT(Quantization-Aware Training)를 후반 훈련에 적용해 성능 손실 없이 효율성을 극대화했어요.

HLE(Humanity's Last Exam)와 BrowseComp 벤치마크에서 새로운 최고 기록을 세웠습니다. GPT-5나 클로드 소넷(Claude Sonnet) 4.5 같은 최정상급 모델들과 어깨를 나란히 하고 있죠. SWE-bench Verified에서는 65.8%의 단일 시도 정확도를 기록하며, 실제 소프트웨어 개발 작업에서도 뛰어난 능력을 입증했습니다. 어디에 활용할 수 있을까요? 복잡한 연구 프로젝트 자동화, 대규모 데이터 분석 및 보고서 작성, 멀티스텝 비즈니스 프로세스 최적화, AI 에이전트 기반 워크플로우 구축, 장문의 문서 작성 및 편집 등 '복잡한 다단계 사고가 필요한' 모든 분야에서 활용 가능합니다.

3위: maya-research/maya1 | Text-to-Speech

Maya1은 마야 리서치(Maya Research)가 만든 30억 파라미터의 혁신적인 TTS 모델입니다. 이제 AI도 진짜 사람처럼 감정을 담아 말할 수 있게 됐어요. 하지만 이건 단순한 음성 합성이 아닙니다. 음성을 '디자인'하는 AI죠.

가장 놀라운 건 자연어 음성 디자인입니다. "20대 영국 여성, 활기차고 명료한 발음"이나 "40대 남성, 영국 액센트, 낮은 음조, 거친 음색, 느린 말투, 분노한 톤" 같은 설명만으로 원하는 목소리를 만들 수 있어요. 복잡한 파라미터 조정이나 음성 샘플 녹음이 필요 없습니다. 마치 성우에게 캐릭터를 설명하듯 AI에게 말하기만 하면 되죠. 감정 태그 시스템도 혁신적입니다. laugh, cry, whisper 등 20가지 이상의 감정 태그를 텍스트에 삽입하면 해당 감정이 음성에 자연스럽게 반영돼요. "오늘 정말 '<laugh>' 재미있는 일이 있었어요 '<whisper>' 비밀인데요..."라고 쓰면 웃으면서 말하다가 속삭이는 것처럼 들립니다. 문장 중간에 감정을 바꿀 수 있다는 게 진짜 혁명적이죠.

기술적으로는 라마(Llama) 스타일 트랜스포머에 SNAC 코덱을 결합했습니다. 24kHz 음질로 단일 GPU(RTX 4090급)에서 실시간 스트리밍이 가능해요. 고가의 서버 없이도 프로급 음성을 생성할 수 있습니다. 게다가 아파치(Apache) 2.0 라이선스로 상업적 이용도 완전 자유롭습니다. 어디에 활용할 수 있을까요? 오디오북이나 팟캐스트 제작에 감정이 풍부한 AI 내레이터로, 게임 개발사는 NPC 대화에 생동감을 불어넣고, 교육 콘텐츠 제작자는 지루하지 않은 강의 영상을 만들고, 광고 및 마케팅 영상의 내레이션, 음성 어시스턴트의 개성 있는 대화 등 '사람 같은 목소리가 필요한' 모든 곳에서 활용할 수 있습니다.

AI 응용프로그램(Spaces) 톱3

1위: ERNIE-4.5-VL-28B-A3B-Thinking Demo (Baidu) | "3B로 작동하는 멀티모달 천재"

바이두(Baidu)의 ERNIE-4.5-VL-28B-A3B-Thinking은 총 280억 개의 파라미터를 가졌지만 토큰당 30억 개만 활성화되는 경이로운 MoE 구조입니다. 마치 280명의 전문가 중 매번 30명만 투입해서 일하는 효율적인 조직 같아요. 비주얼 추론 능력이 정말 인상적입니다. 복잡한 비즈니스 차트를 보여주고 "이 그래프에서 주요 트렌드를 분석하고 개선 방안을 제시해줘"라고 하면 이미지를 확대하고 세부사항을 파악하며 단계별로 추론해 답변을 제공합니다. 사진 속 작은 글씨도 자동으로 줌인해서 읽을 수 있죠.

 STEM 추론에서도 탁월합니다. 사진으로 찍은 수학 문제나 과학 실험 결과를 분석하고 해법을 제시해요. 학생들이 숙제를 사진 찍어서 물어보면 단계별로 풀이를 설명해줍니다. 비주얼 그라운딩 기능도 독특합니다. 이미지에서 특정 객체의 위치를 정확히 파악하고 바운딩 박스나 좌표로 표시할 수 있어요. "이 사진에서 빨간 차의 위치를 알려줘"라고 하면 정확한 좌표와 함께 설명을 제공합니다. 산업 현장에서 객체 인식이 필요한 복잡한 시나리오에서 매우 유용하죠.

어디에 활용할 수 있을까요? 비즈니스 문서 및 차트 분석, 교육 자료 이해 및 설명, 의료 영상 해석 보조, 기술 문서 리뷰, 제조 현장의 품질 검사, 보안 감시 시스템 등 '시각 정보를 이해하고 추론해야 하는' 모든 곳에서 활용 가능합니다.

2위: Qwen-Image-Edit-2509-Photo-to-Anime (akhaliq) | "현실을 애니메이션으로"

알리바바(Alibaba)의 Qwen-Image-Edit 기술을 활용한 이 스페이스는 사진 한 장을 업로드하면 애니메이션 스타일로 변환해줍니다. 단순한 필터가 아니라 완벽한 스타일 변환이에요. 얼굴 일관성 보존 능력이 놀랍습니다. 여러분의 얼굴 특징을 정확히 유지하면서도 애니메이션 특유의 큰 눈, 섬세한 음영, 생동감 있는 색채로 재탄생시켜요. 친구들이 봐도 "이거 너 맞지?"라고 알아볼 수 있을 정도로 정체성이 보존됩니다.

다양한 포즈와 스타일을 지원합니다. 정면 사진을 측면 애니로 바꾸거나, 정장 차림을 학생복으로 바꿔도 '나'라는 정체성은 그대로죠. 심지어 오래된 흑백 사진을 업로드하면 애니메이션 스타일로 복원하면서 색상까지 입혀줍니다. 시드값, 가이던스 스케일, 추론 단계 등을 조정해서 결과물을 세밀하게 커스터마이즈할 수도 있어요. 여러 번 시도해서 가장 마음에 드는 결과를 선택할 수 있습니다.

어디에 활용할 수 있을까요? 개인 프로필 이미지 제작(SNS, 게임 아바타), 웹툰·만화 작가의 캐릭터 디자인 참고, 팬아트 제작, 가족사진 애니메이션 변환, 크리에이터의 콘텐츠 다양화 등 '사진을 예술적으로 재해석하고 싶은' 모든 곳에서 활용할 수 있습니다.

3위: Qwen Image Edit 2509 LoRAs Fast (prithivMLmods) | "이미지 편집의 멀티툴"

이 스페이스는 Qwen-Image-Edit-2509의 여러 LoRA 어댑터를 빠르게 적용할 수 있는 통합 플랫폼입니다. 마치 스위스 아미 나이프처럼 하나의 도구로 다양한 편집을 할 수 있어요. 사진→애니메이션 변환, 조명 복원(그림자 제거), 리라이팅(새로운 조명 효과 추가), 다각도 편집(카메라 앵글 변경) 등 4가지 전문화된 LoRA를 선택할 수 있습니다. 각각의 LoRA는 특정 작업에 최적화되어 있어서 일반 모델보다 훨씬 좋은 결과를 내죠.

단 4단계의 추론으로 거의 즉각적인 결과를 얻을 수 있습니다. 복잡한 조명 계산이나 스타일 변환이 몇 초 안에 완료되니, 실시간으로 여러 옵션을 실험해볼 수 있어요. 마치 포토샵의 여러 필터를 원클릭으로 적용하는 것 같습니다. 이미지를 자동으로 최적 크기로 조정하고 종횡비를 유지합니다. 8의 배수로 리사이즈해서 디퓨전 모델의 효율성을 극대화하죠. 시드 랜덤화로 창의적인 변형도 가능합니다.

어디에 활용할 수 있을까요? 전자상거래 제품 이미지 제작(조명 보정), 부동산 사진 편집(다양한 시간대 시뮬레이션), 마케팅 소재 빠른 프로토타이핑, 크리에이터의 다양한 스타일 실험, 사진작가의 후보정 작업 등 '빠르고 다양한 이미지 편집이 필요한' 모든 분야에서 활용 가능합니다.

시사점 & 인사이트

이번 주의 트렌드를 3가지로 정리했습니다.

첫째, 초효율 AI 시대의 도래입니다. 780만원으로 세계 최고 수준 AI를 만든 VibeThinker-1.5B는 AI 개발의 민주화를 알리는 신호탄입니다. 이제 거대 자본 없이도 최첨단 AI를 만들 수 있다는 걸 증명했죠. 작은 모델이 큰 모델을 이기는 '다윗과 골리앗' 시대가 열렸습니다. 스타트업과 개인 개발자들에게는 희망이, 빅테크에게는 경고가 될 것입니다.

둘째, 에이전틱 AI의 실용화입니다. Kimi-K2-Thinking처럼 수백 개의 도구를 연속으로 사용하며 복잡한 작업을 자율적으로 수행하는 AI가 등장했습니다. 이는 AI가 단순히 '대답하는' 수준을 넘어 '행동하는' 단계로 진화했음을 의미합니다. 진정한 AI 어시스턴트 시대의 서막이죠.

셋째, 창의성 도구의 대중화입니다. 마야1(Maya1)의 감정 있는 음성 생성, 큐원(Qwen)의 애니메이션 변환, 빠른 이미지 편집 등 과거에는 전문가와 고가 장비가 필요했던 창작 작업이 이제 브라우저에서 몇 번의 클릭으로 가능합니다. 창의성의 진입장벽이 무너지면서 '누구나 크리에이터'가 될 수 있는 시대가 열리고 있습니다.

토막 상식: LoRA가 뭘까요

LoRA(Low-Rank Adaptation)는 '플러그인' 기술입니다. 스마트폰에 앱을 설치하듯, 기본 모델에 작은 어댑터를 추가해서 특정 작업에 특화시키는 겁니다. Qwen LoRAs Fast처럼 애니메이션 변환, 조명 복원 등 각각의 LoRA를 선택해서 적용할 수 있어요. 전체 모델을 재훈련할 필요 없이 원하는 기능만 추가하는 효율적인 방법입니다.

이 두 기술이 결합되면? 작은 자원으로도 다양한 작업을 전문가 수준으로 수행할 수 있게 됩니다. 마치 멀티 플레이어가 상황에 맞는 장비를 교체하며 싸우는 것처럼, AI도 이제 '상황 맞춤형 효율성' 시대로 접어들고 있는 것이죠.

마무리

이번 주는 "작지만 강력한 AI들의 승리"였습니다. 15억 파라미터로 6710억을 이기고, 780만원으로 세계 최고를 만들고, 30억으로 감정까지 표현하는 AI들이 등장했네요. 특히 적은 자원으로 큰 성과를 내는 '효율성 혁명'은 AI 산업의 판도를 완전히 바꿀 것 같습니다. 무엇보다 AI가 점점 더 우리 일상 속으로 들어오고 있다는 점이 인상적입니다. 감정을 표현하고, 사진을 애니메이션으로 바꾸고, 복잡한 작업을 자율적으로 수행하는 AI를 이제 누구나 사용할 수 있습니다. 어쩌면 우리는 진정한 'AI 민주화 시대'의 서막을 목격하고 있는지도 모릅니다. 

※ 외부필자의 원고는 IT조선의 편집방향과 일치하지 않을 수 있습니다.

정원훈 텐스페이스 경영총괄이사는 한국인공지능진흥협회 이사와 한국디지털자산포럼(KODIA Forum) 정책기획실장을 맡고 있다. 법률AI 서울로봇과 블록ESG 프로젝트를 총괄하며 한국지식재산교육연구학회 이사 겸 기술가치평가위원장과 한국벤처창업학회 이사로도 활동한다. 아시아경제신문사 뉴미디어본부, 매일경제인터넷 금융센터 팀장을 거쳐, SNS 개발과 대안신용평가 시스템, AI 기반 법률 서비스 등 혁신 프로젝트를 주도해 온 IT·금융 전문가다.