한 줄로 완벽한 그림, 한 장으로 3D 모델 생성 [정원훈의 AI 트렌드]

허깅페이스 10월 1주차 AI 동향 분석

2025-10-03     정원훈 텐스페이스 이사

인공지능 트렌드를 가장 빠르게 알 수 있는 허깅페이스를 분석하는 정원훈의 AI 트렌드입니다.

이번 주 허깅페이스를 살펴보면서 인공지능이 이제 '텍스트의 시대'를 끝내고 '창조의 시대'를 열고 있다는 생각이 들었습니다. 마치 허깅페이스가 'AI계의 르네상스 공방'처럼 느껴졌습니다. 단순히 글을 잘 쓰는 AI를 넘어, 이미지를 그리고, 3D 모델을 조각하고, 사진을 마음대로 편집하는 '멀티플레이어' AI가 주목받기 시작했기 때문입니다.

특히 중국 빅테크들이 앞다퉈 멀티모달 모델을 오픈소스로 공개하며 글로벌 AI 생태계의 새로운 룰을 만들고 있네요. 이제 '얼마나 다양한 형태로 창조하는가'가 인공지능의 새로운 경쟁 지표가 되었습니다.

이번 주도 퀴즈로 시작해 보겠습니다.

“짧은 프롬프트만으로도 세계 지식을 동원해 완벽한 그림을 그려내는 텐센트의 차세대 이미지 생성 AI는?”

“긴 문맥 처리 비용을 50% 절감하면서도 코딩 성능은 오히려 향상시킨 딥시크(DeepSeek)의 희소 주의 모델은?”

정답은 'HunyuanImage-3.0, DeepSeek-V3.2-Exp'입니다. 이번 주는 “멀티모달 크리에이터 AI의 전성시대”였습니다.

허깅페이스 10월 첫째주 주간 톱3 / 정원훈 제공

 

AI 모델 톱3

1위: tencent/HunyuanImage-3.0 | Text-to-Image

텐센트(tencent)가 드디어 해냈습니다. "갈색과 흰색 강아지"라고 짧게 말하면 풀밭을 달리는 생동감 넘치는 장면까지 알아서 완성해 주는 AI를 만들어낸 거죠. HunyuanImage-3.0은 9월 28일 공개된 텍스트-투-이미지 모델입니다. “어? 요즘 이미지 생성 AI 많은데 뭐가 특별하지?” 맞는 말입니다. 하지만 이 녀석은 보통과 좀 다릅니다. 기존의 DiT(Diffusion Transformer) 방식이 아닌 자기회귀 프레임워크를 사용해요. 쉽게 말하면 텍스트와 이미지를 따로따로가 아니라 하나의 대화처럼 주고받으며 이해한다는 뜻이죠.

가장 신기한 건 '똑똑한 세계 지식 추론' 기능입니다. 프롬프트가 짧아도 걱정 없어요. "강아지"라고만 해도 모델이 알아서 "아, 강아지면 풀밭에서 뛰어노는 게 자연스럽겠네"라고 판단해서 완성된 장면을 만들어냅니다. 마치 경험 많은 일러스트레이터가 클라이언트의 짧은 브리핑만 듣고도 완벽한 작품을 만들어내는 것과 같아요. 또 하나 특별한 점은 한글과 중국어 텍스트를 이미지 안에 정확하게 렌더링 할 수 있다는 겁니다. 밈 이미지 만들거나 포스터 디자인할 때 정말 유용하죠.

어디에 활용할 수 있을까요? 광고 크리에이티브, 소셜미디어 콘텐츠, 디지털 아트, IP 콘텐츠 확장 등 '빠르게 비주얼이 필요한' 모든 곳에서 혁신을 일으킬 것으로 예상됩니다.

2위: tencent/Hunyuan3D-2 | Image/Text-to-3D

“내 사진을 3D로 만들어줄 수 있을까?” 이제 가능합니다. Hunyuan3D-2는 이미지 하나나 텍스트 설명만으로 고해상도 3D 모델을 생성하는 시스템입니다. 2.0 버전은 두 단계로 작동해요.

첫 번째 단계는 Hunyuan3D-DiT가 담당합니다. 이 녀석은 형상(Geometry)을 만들어내죠. 마치 조각가가 돌덩이를 깎아 기본 형태를 만드는 것과 같아요. Flow-based Diffusion Transformer 방식으로 정교한 메쉬를 생성합니다. 두 번째 단계는 Hunyuan3D-Paint가 맡습니다. 생성된 메쉬에 고해상도 텍스처 맵을 입혀요. 색칠하는 단계죠. 재미있는 건 손으로 만든 메쉬에도 적용할 수 있다는 겁니다. "내가 대충 만든 3D 모델인데 텍스처만 예쁘게 입혀줄래?"도 가능하다는 뜻이에요.

왜 2단계로 나눴을까요? 형상 만들기와 질감 입히기는 완전히 다른 기술이 필요하거든요. 따로 나눠서 각각 전문가처럼 만든 겁니다. 이렇게 하니까 품질도 좋고 속도도 빨라졌어요.

어디에 활용할 수 있을까요? 게임 에셋 제작, 메타버스 콘텐츠, 건축 시각화, 제품 디자인 등 '3D가 필요한데 시간과 돈이 부족한' 모든 곳에서 활용 가능합니다.

3위: deepseek-ai/DeepSeek-V3.2-Exp | Text Generation 

"AI 쓰고 싶은데 비용이 부담돼요"라는 고민, 이제 반으로 줄일 수 있습니다. 중국 스타트업 딥시크가 9월 29일 공개한 실험 모델 V3.2-Exp는 API 비용을 50% 절감하면서도 성능은 그대로 유지하는 마법 같은 모델입니다. 비밀은 ‘DeepSeek Sparse Attention(DSA)’이라는 새로운 메커니즘에 있어요. 기존 AI는 책을 읽을 때 모든 단어를 하나하나 정독했다면, 이 녀석은 중요한 부분만 골라서 읽습니다. 속독하는 거죠. 하지만 중요한 정보는 하나도 놓치지 않아요. 

“성능이 떨어지는 거 아니야?” 아닙니다. 벤치마크 결과를 보면 이전 버전 V3.1-Terminus와 거의 동일한 성능을 보여요. 오히려 코딩 능력(Codeforces 2121점)과 에이전트 작업(BrowseComp 40.1점)에서는 더 좋아졌습니다.

딥시크는 이번 발표와 동시에 API 가격을 즉시 50% 이상 인하했어요. 경쟁사들한테 "너희도 가격 내려봐"라고 정면으로 도전장을 던진 셈이죠. 

어디에 활용할 수 있을까요? RAG 시스템, 긴 문서 분석, 고객 상담 챗봇 등 비용 때문에 AI 도입을 망설였던 모든 중소기업과 스타트업에게 희소식입니다.

AI 응용프로그램(Spaces) 톱3

1위: Qwen Image Edit 2509 Fast (by linoyts) "이미지? 이제 8스텝만으로 빠르게 " 

"고양이를 강아지로 바꿔줘"라고 말하면 정말로 바뀝니다. 알리바바의 Qwen-Image-Edit-2509를 단 8 스텝만에 빠르게 실행하는 최적화 버전입니다. 

복잡한 툴 사용법을 익힐 필요 없이, 자연어로 편집 지시사항을 입력하면 AI가 알아서 이미지를 수정해 줘요. "배경을 해변으로 바꿔줘", "머리카락 색을 빨강으로 해줘", "선글라스를 씌워줘" 같은 요청을 자연스럽게 처리합니다. 특히 사람 얼굴 일관성 유지가 뛰어나요. 사진 속 사람이 누군지 알아볼 수 있도록 정체성을 유지하면서 편집하죠. 제품 사진 배경만 바꾸거나, 텍스트 스타일만 수정하는 것도 가능합니다.

어디에 쓸 수 있을까요? 전자상거래에서 제품 배경을 계절별로 빠르게 변경하거나, 소셜미디어용 밈 이미지 제작, 유튜브 썸네일 만들기 등 '빠르게 이미지 편집이 필요한' 모든 곳에서 활용 가능합니다.

2위: MiniCPM-V-4.5-Demo (by openbmb) "주머니 속 GPT-4o"

오픈BMB(OpenBMB)의 멀티모달 대형 언어 모델을 웹에서 바로 체험할 수 있는 데모입니다. 8B 파라미터로 GPT-4o급 성능을 낸다는 게 믿기지 않죠? 

여러 이미지를 업로드하고 질문하면 상세한 답변을 생성해 줍니다. "이 두 사진의 차이점은 뭐야?"라고 물어보면 꼼꼼하게 비교 분석해 줘요. 비디오 이해도 가능한데, 96배 압축률로 효율적으로 처리합니다. 6개의 연속된 비디오 프레임을 단 64개 토큰으로 압축하는 3D-Resampler 기술 덕분이죠. OCR 능력도 뛰어나요. 이미지 속 텍스트를 정확하게 읽고 해석합니다. 교과서나 문제집 사진을 찍어서 "이거 설명해 줘"라고 하면 선생님처럼 친절하게 설명해 줘요.

어디에 쓸 수 있을까요? 교육 현장에서 학습 도우미로, 의료 이미지 분석, 법률 문서 검토 등 '이미지와 텍스트를 함께 이해해야 하는' 모든 업무에서 활용 가능합니다.

3위 HunyuanImage-3.0 (by akhaliq) "말만 하면 그려주는 디지털 화가"

위에서 소개한 HunyuanImage-3.0 모델을 직접 체험할 수 있는 커뮤니티 데모입니다. 텍스트 프롬프트 입력만으로 고품질 이미지를 생성할 수 있어요. 다양한 해상도와 종횡비를 지원해서 인스타그램용 정사각형, 유튜브용 와이드 화면 등 원하는 포맷으로 바로 만들 수 있습니다. 실시간으로 생성 과정을 확인할 수 있어서 "오, 이렇게 만들어지는구나"하고 구경하는 재미도 있어요. 주의할 점은 너무 재미있어서 시간 가는 줄 모를 수 있습니다. 업무 중에는 자제해 주세요!

시사점 & 인사이트

이번 주 트렌드에서는 네 가지 패턴을 뽑아보겠습니다.

첫째, 멀티모달이 대세다

이번 주 톱3가 모두 멀티모달(텍스트+이미지+3D) 모델이라는 점이 눈에 띕니다. "AI가 하나만 잘하는 시대는 끝났다"는 시그널이죠. 텍스트만 잘 쓰는 AI는 이제 경쟁력이 없어요. 이미지, 영상, 3D까지 넘나드는 통합 능력이 새로운 기준이 되고 있습니다. 기업 관점에서 보면, 자사 AI 서비스가 멀티모달을 지원하지 않는다면, 지금이 전환을 고민할 타이밍입니다. 내년이면 늦을 수도 있어요.

둘째, 효율성이 혁신의 중심

DeepSeek-V3.2-Exp의 등장은 "더 큰 모델이 항상 좋은가?"라는 질문을 던집니다. 희소 주의 메커니즘으로 비용을 절반으로 줄이면서도 성능을 유지한다는 것은, 앞으로 AI 경쟁의 축이 '크기'에서 '효율'로 이동할 수 있음을 보여줍니다. 시장에는 어떤 의미를 던질 수 있을까요? 클라우드 비용 부담 때문에 AI 도입을 망설이던 중소기업과 스타트업에게는 희소식입니다. 고성능 AI를 더 저렴하게 활용할 기회가 열리고 있어요.

셋째, 중국 기업들의 약진

텐센트, 딥시크, 알리바바(큐원, Qwen), 오픈BMB 등 중국 기업들이 허깅페이스를 장악하고 있습니다. 오픈소스 전략으로 글로벌 개발자 커뮤니티의 지지를 얻으면서, 기술 경쟁력을 빠르게 증명하는 모습이에요. 국내 AI 업계도 오픈소스 생태계 참여를 더욱 강화할 필요가 있습니다. 폐쇄적인 개발보다 커뮤니티와의 협업이 더 큰 영향력을 만들어내는 시대니까요.

넷째, 창작 도구의 대중화

전문 지식이나 값비싼 소프트웨어 없이도 고품질 콘텐츠를 만들 수 있는 환경이 조성되고 있습니다. 이미지 편집, 3D 모델링, 이미지 생성을 누구나 할 수 있게 된 거죠. 하지만 기술의 진보만큼 윤리적 고려사항도 커지고 있습니다. '기술적 가능성'과 '사회적 책임' 사이의 균형점을 찾는 것이 중요해졌어요.

토막 상식: 자기회귀 모델이 뭐예요?

이번 주 HunyuanImage-3.0에서 등장한 자기회귀(Autoregressive) 모델이라는 용어, 들어보셨나요? 간단히 말하면 "이전에 만든 것을 보고 다음 것을 만드는" 방식입니다.

비유로 설명해보면, 문장을 쓸 때를 생각해 보세요.

- "오늘" → (오늘 다음엔 뭘 쓸까?) → "오늘 날씨가" → (그 다음엔?) → "오늘 날씨가 좋다"

이미지 생성도 마찬가지예요.

- 첫 번째 픽셀 → (이 픽셀 옆엔 뭘 그릴까?) → 두 번째 픽셀 → 세 번째 픽셀…

이렇게 순차적으로 만들어가는 방식이 자기회귀입니다. 장점은 이해하기 쉽고, 긴 시퀀스를 안정적으로 생성할 수 있어요. 또한 문맥을 자연스럽게 이해하면서 만들어내죠.

기존 이미지 생성 모델들은 대부분 Diffusion 방식(노이즈를 점점 제거하는 방식)을 사용했는데, HunyuanImage-3.0은 자기회귀 방식을 채택해서 더 자연스럽고 문맥에 맞는 이미지를 생성한다는 게 특징입니다.

 이제 "자기회귀 모델을 사용한다"는 말이 나오면, "아, 이전 것을 보고 다음 것을 만들어가는구나"라고 이해하시면 됩니다!

마무리

이번 주는 "창조하는 AI"가 주인공이었습니다. 그림 그리고, 3D 모델 만들고, 이미지 편집하기 등 AI가 더 이상 단순한 도구가 아니라 "크리에이터"로 진화하고 있다는 걸 확인할 수 있었죠. 다음 주에는 어떤 모델들이 등장할까요? 거대언어모델(LLM)의 새로운 돌파구가 나올지, 아니면 또 다른 멀티모달 혁신이 이어질지 기대됩니다.

AI 기술은 빠르게 발전하지만, 그 기술을 현명하게 활용하는 것은 결국 우리 인간의 몫입니다. 기술을 두려워하기보다는, 이해하고 활용할 수 있는 준비된 전문가가 되어보시는 건 어떨까요? 

※ 외부필자의 원고는 IT조선의 편집방향과 일치하지 않을 수 있습니다.

정원훈 텐스페이스 경영총괄이사는 한국인공지능진흥협회 이사와 한국디지털자산포럼(KODIA Forum) 정책기획실장을 맡고 있다. 법률AI 서울로봇과 블록ESG 프로젝트를 총괄하며 한국지식재산교육연구학회 이사 겸 기술가치평가위원장과 한국벤처창업학회 이사로도 활동한다. 아시아경제신문사 뉴미디어본부, 매일경제인터넷 금융센터 팀장을 거쳐, SNS 개발과 대안신용평가 시스템, AI 기반 법률 서비스 등 혁신 프로젝트를 주도해 온 IT·금융 전문가다.