258MB로 문서 완벽 이해, 몇 초 음성으로 완벽 복제 [정원훈의 AI 트렌드]

허깅페이스 9월 4주차 AI 동향 분석

2025-09-26 정원훈 텐스페이스 이사

인공지능 트렌드를 가장 빠르게 알 수 있는 허깅페이스를 분석하는 정원훈의 AI 트렌드입니다. 이번 주 허깅페이스도 지난 주와 같이 ‘효율성’이 주요 이슈로 다뤄지는 것을 보면서 효율성이 메인 스트림인 것 같다는 생각이 들었습니다. 마치 허깅페이스가 'AI계의 효율성 경연장'처럼 느껴진거죠.

"더 크고 더 강하게"에서 "더 똑똑하고 더 효율적으로"로 패러다임이 바뀌고 있습니다. 특히 IBM, OpenBMB, Wan-AI 같은 글로벌 AI 연구진들이 앞다퉈 작지만 강한 모델들을 선보이며 AI 경쟁의 새로운 룰을 만들고 있네요. 이제 ‘얼마나 효율적으로 만들어내는가’가 인공지능의 새로운 경쟁 지표가 되었습니다.

이번 주도 퀴즈로 시작해 보겠습니다.

“258M 파라미터로 복잡한 문서를 완벽하게 이해하는 IBM의 초소형 문서 AI는?”

“단 몇 초 음성 샘플로 완벽한 목소리 복제가 가능한 OpenBMB의 0.5B TTS 모델은?”

정답은 ‘Granite-Docling-258M, VoxCPM-0.5B’입니다. 이번 주는 “소형 고효율 AI 혁명”의 한 주였습니다.

허깅페이스 주간 톱3 / 정원훈 제공

AI 모델 톱3

1위: ibm-granite/granite-docling-258M | Image-Text-to-Text

IBM이 드디어 해냈습니다. 258메가바이트라는, 요즘 스마트폰 사진 한 장 용량으로 문서 전체를 이해하는 AI를 만들어낸 거죠. IBM Granite-Docling-258M은 이름처럼 258M 파라미터를 가진 초소형 비전-언어 모델입니다. "어? 요즘 AI 모델이 수백억 파라미터인데 258M이라고?" 맞습니다. 하지만 이 작은 거인은 PDF, 이미지, 문서를 마치 숙련된 비서처럼 척척 마크다운이나 LaTeX로 변환해줍니다.

특별한 점은 단순한 OCR(광학문자인식)이 아닙니다. 표, 수식, 코드 블록, 심지어 문서의 레이아웃까지 완벽하게 이해해서 구조화된 데이터로 변환해줘요. 마치 인턴 사원에게 "이 자료 좀 정리해줘"라고 했는데, 놀랍도록 깔끔하게 해내는 그런 느낌입니다. 어디에 활용할 수 있을까요? 법무팀의 계약서 분석, 연구소의 논문 정리, 회계팀의 재무제표 디지털화 등 '문서 지옥'에서 벗어나고 싶은 모든 곳에서 활용 가능합니다.

2위: openbmb/VoxCPM-0.5B | Text-to-Speech

"네 목소리로 내가 말할게"라는 SF 영화 대사가 이제 현실이 되었습니다. OpenBMB에서 발표한 VoxCPM-0.5B는 토크나이저 없는 TTS(Text-to-Speech) 모델로, 단 몇 초의 음성 샘플만으로 그 사람의 목소리를 완벽하게 복제할 수 있습니다. 5억 개 파라미터로 180만 시간의 중국어와 영어 이중언어 데이터로 훈련되었죠. 마법 같은 기능이라 할 수 있는데요. 단순히 목소리만 따라하는 게 아닙니다. 그 사람의 억양, 감정, 말하는 리듬, 심지어 개인만의 독특한 발음 습관까지 학습해서 재현합니다. 실시간 처리 성능(RTF 0.17)도 뛰어나 실시간 통화에서도 사용 가능해요.

강력한 기능만큼 책임감도 필요합니다. 딥페이크 음성으로 악용될 가능성이 있어, 개발팀은 "AI 생성 음성"이라는 워터마킹을 강력히 권고하고 있습니다. 어디에 활용할 수 있을까요? 오디오북 내레이션, 다국어 더빙, 개인 맞춤형 음성 비서 등 '목소리가 중요한' 모든 영역에서 혁신을 일으킬 것으로 예상됩니다.

3위: Wan-AI/Wan2.2-Animate-14B

캐릭터 하나만 있으면 모든 움직임을 만들어낼 수 있다면? Wan-AI의 Wan2.2-Animate-14B가 바로 그런 꿈을 현실로 만들어줍니다. 이 모델은 MoE(Mixture-of-Experts) 구조를 채택한 140억 파라미터의 비디오 생성 모델입니다. 재미있는 건, 실제로는 총 270억 파라미터지만 매 단계마다 140억 개만 활성화되어 연산 효율성을 극대화했다는 점이죠. 가장 핵심적 기능은 생생한 영상기능입니다. 즉 정지된 캐릭터 이미지 하나와 움직임 템플릿만 있으면, 그 캐릭터가 춤추고, 걷고, 표정을 짓는 영상을 만들어냅니다. 게임 개발자들이 "이제 애니메이터 없이도 게임 만들 수 있나?"라고 반농담으로 말할 정도예요. 이 모델은 고노이즈(High Noise)와 저노이즈(Low Noise) 전문가 모델을 나누어, 초기 단계에서는 전체적인 레이아웃을, 후기 단계에서는 세밀한 디테일을 담당하도록 설계됐기에 연산 효율성이 극대화되어 상대적으로 빠릅니다.

AI 응용프로그램(Spaces) 톱3

1위: Qwen Image Edit 2509 “포토샵? 이제 말로만 하세요”

"고양이를 개로 바꿔줘" 라고 말하면 정말로 바뀝니다. 큐원(Qwen)에서 만든 이미지 편집 스페이스는 마치 포토샵에게 개인 비서가 생긴 것 같은 느낌을 줍니다. 복잡한 툴 사용법을 익힐 필요 없이, 자연어로 편집 지시사항을 입력하면 AI가 알아서 이미지를 수정해줍니다. "배경을 바다로 바꿔줘", "머리카락 색을 금발로 해줘", "선글라스를 씌워줘" 같은 요청을 자연스럽게 처리합니다.

2위: Wan2.2 Animate “내 사진이 움직인다”

위에서 소개한 Wan2.2-Animate-14B 모델을 직접 체험할 수 있는 공간입니다. 본인 사진을 업로드하고 움직임 템플릿을 선택하면, 마치 자신이 춤추는 영상을 만들어볼 수 있어요. 주의할 점은 너무 재미있어 시간 가는 줄 모를 수 있습니다. 업무 중에는 자제해주세요.

3위: Photo Mate i2i “이미지 요술쟁이”

Kontext 어댑터를 활용한 이미지 조작 도구로, 기존 이미지의 특정 부분만 선택적으로 수정할 수 있는 정교한 편집 기능을 제공합니다. 전문가급 이미지 편집을 누구나 쉽게 할 수 있도록 도와주는 똑똑한 어시스턴트죠.

시사점 & 인사이트

이번 주 트렌드에서도 세 가지 패턴을 뽑아보겠습니다.

첫째, "작은 것이 아름답다" 즉 효율성의 시대가 이제 자리를 잡는 거 같습니다. 이번 주 가장 눈에 띄는 트렌드는 '소형 고효율 모델'의 부상인데요. IBM의 258M 파라미터 모델이나 VoxCPM의 0.5B 모델이 좋은 예시죠. 이는 단순히 기술적 진보가 아닌, 산업적 필요의 반영입니다. 모든 기업이 오픈AI처럼 거대한 컴퓨팅 리소스를 가질 수는 없으니까요. 작지만 강력한, 그리고 특정 업무에 특화된 모델들이 실제 비즈니스 현장에서 더 환영받고 있는 현실을 보여줍니다.

둘째, 멀티모달의 일상화입니다. 텍스트, 이미지, 음성, 비디오를 자유자재로 넘나드는 AI가 이제 '특별한' 기술이 아닌 '기본' 기술이 되어가고 있습니다. 이번 주 베스트 모델들만 봐도 모두 멀티모달 기능을 가지고 있어요. 이는 사용자 경험의 혁명을 의미합니다. "AI야, 이 문서 정리하고, 이 목소리로 읽어줘, 그리고 영상으로도 만들어줘"라는 요청이 곧 일상이 될 거라는 뜻이죠.

셋째, 창작 도구의 대중화입니다. 전문 지식이나 값비싼 소프트웨어 없이도 고품질 콘텐츠를 만들 수 있는 환경이 조성되고 있습니다. Wan2.2-Animate로 애니메이션을, VoxCPM으로 음성을, Qwen으로 이미지 편집을 누구나 할 수 있게 된 거죠. 하지만 기술의 진보만큼 윤리적 고려사항도 커지고 있습니다. 특히 음성 복제나 딥페이크 기술은 '기술적 가능성'과 '사회적 책임' 사이의 균형점을 찾는 것이 중요해졌어요.

토막 상식: MoE가 뭐예요?

이번 주 Wan2.2-Animate에서 등장한 MoE(Mixture of Experts)라는 용어, 들어보셨나요?

간단히 말하면 "전문가 팀"을 만드는 기술입니다. 하나의 거대한 AI 대신, 각각 다른 업무에 특화된 여러 개의 작은 전문가 AI를 만들고, 상황에 따라 적절한 전문가를 불러내는 방식이죠. 비유로 설명해보면, 종합병원에서 환자의 증상에 따라 내과, 외과, 피부과 등 적절한 전문의에게 보내는 것과 같습니다. 모든 의사가 모든 분야를 다 잘할 필요가 없듯이, AI도 필요한 순간에만 적절한 '전문가'를 활용하는 거예요.

장점은 전체 모델 크기는 크지만, 실제 연산량은 적은 특징을 가지고 있어서, 각 전문가가 특정 영역에 특화되어 더 좋은 성능을 발휘합니다. 확장성도 뛰어난데요. 상황에 따라 유연하게 새로운 전문가를 추가할 수 있답니다.

이제 "MoE 구조를 사용한다"는 말이 나오면, "아, 전문가 팀을 운영하는구나"라고 이해하시면 됩니다!

마무리

다음 주에는 'AI 에이전트' 관련 모델들이 대거 업데이트될 예정입니다. 특히 자율적으로 업무를 처리하는 AI 비서들의 진화가 기대되는데요, 과연 어떤 놀라운 기능들이 등장할지 함께 지켜보시죠.

AI 기술은 빠르게 발전하지만, 그 기술을 현명하게 활용하는 것은 결국 우리 인간의 몫입니다. 기술을 두려워하기보다는, 이해하고 활용할 수 있는 준비된 전문가가 되어보시는 건 어떨까요? 다음 주 금요일, 또 다른 AI 혁신의 현장에서 만나뵙겠습니다.

※ 외부필자의 원고는 IT조선의 편집방향과 일치하지 않을 수 있습니다.

정원훈 텐스페이스 경영총괄이사는 한국인공지능진흥협회 이사와 한국디지털자산포럼(KODIA Forum) 정책기획실장을 맡고 있다. 법률AI 서울로봇과 블록ESG 프로젝트를 총괄하며 한국지식재산교육연구학회 이사 겸 기술가치평가위원장과 한국벤처창업학회 이사로도 활동한다. 아시아경제신문사 뉴미디어본부, 매일경제인터넷 금융센터 팀장을 거쳐, SNS 개발과 대안신용평가 시스템, AI 기반 법률 서비스 등 혁신 프로젝트를 주도해 온 IT·금융 전문가다.