빅테크들의 AI 백투더퓨처 [정원훈의 AI 트렌드]
8월 5주차 AI 동향 분석
이번 주 허깅페이스는 마치 "인공지능(AI)계의 어벤져스" 같았습니다. 일론 머스크의 그록(Grok)-2, 마이크로소프트의 감정 연기하는 음성 AI, 그리고 중국의 오픈소스 거인까지, 과연 어떤 영웅들이 세상을 구할지, 세상을 바꿀지 살펴보겠습니다.
퀴즈부터 시작해볼까요? "트위터 인수로 화제가 된 일론 머스크가 만든 AI의 이름은?" 그리고 "15억 파라미터로 사람처럼 감정을 담아 말하는 마이크로소프트 AI는?"
정답은 Grok-2와 바이브보이스(VibeVoice)-1.5B입니다. 이번 주는 그야말로 "빅테크들의 AI 백투더퓨처" 주간이었습니다.
이번 주 허깅페이스에서 주목받은 AI 모델과 스페이스 즉 애플리케이션(응용 프로그램)들을 살펴보며, AI 업계가 어떤 방향으로 흘러가는지 분석해보겠습니다.
AI 모델 톱3
1위: xai-org/grok-2
xAI의 Grok-2가 당당히 1위를 차지했습니다. xAI는 머스크가 2023년 "오픈AI가 너무 클로즈드가 됐다"며 설립한 회사로, 마치 "전 애인에 대한 복수극" 같은 느낌이죠.
Grok-2의 가장 매혹적인 능력은 X(구 트위터) 실시간 데이터 접근입니다. 다른 AI들이 "2023년까지의 지식"으로 답변하는 동안, Grok-2는 "방금 전 일어난 일"도 척척 알려줍니다. 마치 "24시간 뉴스 중독자와 백과사전이 합체한" 느낌입니다.
더 흥미로운 건 "정치적 올바름에 얽매이지 않는" 직설적인 답변입니다. 다른 AI들이 "죄송하지만 답변드리기 어렵습니다"라고 할 때, Grok-2는 "네, 그거 진짜 복잡한 문제네요. 이런 관점들이 있어요"라며 솔직하게 털어놓죠. 머스크답게 "규칙을 부수는 반항아 AI"인 셈입니다.
사실 그록이라는 단어의 어원은 로버트 A. 하인라인의 1961년 공상과학 소설 '낯선 땅의 이방인'에서 따온 용어인데요. 이 책에서 그록은 지구인이 직접 번역할 수 없는 화성 용어 중 하나로 등장합니다.
소설 속에서 그록(grok)은 '깊고 직관적으로 이해하는 것'으로 서로 다른 존재가 같은 생각이나 현실을 공유하고 있고, 서로를 완벽히 이해한 상태를 의미한다고 합니다. 이 소설과 단어가 그 당시 히피문화에 많은 영향을 끼쳤다고 하고요. 이 소설을 시작으로 그록이 현대 영어의 일부가 되었다고 합니다. 정말 머스크의 개인적 성향을 그대로 보여주는 작명입니다.
2위: 마이크로소프트/VibeVoice-1.5B (Text-to-Speech)
마이크로소프트의 VibeVoice-1.5B가 2위에 올랐습니다. 15억 파라미터 규모의 텍스트-음성 변환 전문 모델로, 단순히 글을 읽어주는 수준을 넘어 "성우가 감정 연기하듯" 말합니다.
이 AI의 매력은 "목소리의 바이브(Vibe)"까지 재현한다는 점입니다. 같은 "안녕하세요"라도 첫 데이트할 때의 설렘, 월요일 아침의 피로, 금요일 저녁의 신남을 모두 다르게 표현하죠. 마치 "AI 성우 아카데미상을 노리는" 수준입니다.
특히 기업 고객센터에서 혁신을 일으키겠네요. 이제 "고객님~ 잠시만 기다려주세요~"도 진짜 미안해하는 톤으로 들을 수 있게 됐으니까요.
3위: 딥시크-ai/DeepSeek-V3.1-Base (Text Generation)
지난 주 2위를 차지했는데, 이번 주는 3위네요. 6850억 파라미터의 거대언어모델로, "공짜로 먹을 수 있는 가장 큰 피자" 타이틀을 여전히 보유하고 있죠. 3만8000개가 넘는 하트(♥)는 개발자들의 "고마워요, 무료로 이런 걸 주시다니!"라는 마음의 표현입니다. 특히 수학 문제와 코딩에서 GPT-4 수준의 성능을 보여주면서도 완전 무료라는 점에서 "AI계의 로빈 후드" 역할을 톡톡히 하고 있습니다.
AI 응용프로그램(Spaces) 톱3
1위: Qwen Image Edit Fast! : 알리바바의 3초 포토샵
알리바바의 큐웬 이미지 에딧(Qwen Image Edit)이 이번엔 "패스트(Fast)!" 버전으로 돌아왔습니다. 단 8스텝 추론으로 거의 실시간 이미지 편집이 가능해졌죠.
"이 강아지를 우주복 입힌 우주인으로 바꿔줘"라고 입력하면 3초 만에 결과가 나옵니다. 마치 "포토샵에 번개 모드를 추가한 것" 같죠. 이제 전문 디자이너가 아니어도 "상상을 현실로 바꾸는" 마법사가 될 수 있습니다.
2위: DINOv3 Video Tracking: 브라우저 속 명탐정
실시간 비디오 추적 기술인 DINOv3가 2위를 차지했습니다. 브라우저에서 바로 작동하는 이 기술은 영상 속 객체를 샤록 홈즈처럼 끈질기게 추적합니다.
수중 생물 추적 데모가 주목받고 있는데요. 마치 "바다 속 파파라치" 같은 정확도를 보여줍니다. 해양 연구자들부터 유튜버들까지 "움직이는 모든 것을 놓치지 않는" AI의 매력에 빠져들고 있죠.
3위: NextStep 1 Large Edit: 중국발 이미지 편집의 신
중국의 스텝펀(StepFun) AI에서 개발한 이미지 편집 도구입니다. "번개보다 빠른 편집 속도"가 특징이며, 텍스트 명령만으로 정밀한 수술 수준의 이미지 수정이 가능합니다.
시사점 & 인사이트
이번 주 트렌드를 종합해보면, AI 생태계에서 세 가지 중요한 변화가 감지됩니다.
첫째, 빅테크들의 화려한 복귀입니다. 일론 머스크(xAI), 마이크로소프트가 상위권에 복귀하며 "돈과 인프라의 위력"을 다시 한 번 증명했습니다. 스타트업들이 혁신의 씨앗을 뿌렸다면, 이제 거대 기업들이 "산업화의 추수"를 시작한 셈이죠.
둘째, 실시간의 황금시대 도래입니다. Grok-2의 실시간 정보, VibeVoice의 즉석 음성 생성, 비디오 추적의 실시간 분석 등 "기다림 없는 AI"가 새로운 표준이 되고 있습니다. 마치 "AI계에도 배달의 민족 시대가 온 것" 같죠.
셋째, 특화의 시대 본격화입니다. 만능 AI보다는 "한 분야의 장인 AI"들이 더 큰 사랑을 받고 있습니다. 음성은 VibeVoice, 이미지 편집은 Qwen, 비디오 추적은 DINOv3처럼 각자의 영역에서 최고를 추구하는 트렌드가 뚜렷합니다.
토막 상식: 모델 이름으로 파악하는 AI 구조 ‘숫자의 비밀’
지난 주에 모델이름에 대해 전반적으로 살펴보았다면, 오늘은 조금 더 들어가 모델 이름 속 숫자의 비밀로 함께 하겠습니다. 오늘 톱3에 올라온 모델 이름을 보면, “M”이나 “B” 라는 단위가 붙어있는데요.
M(Million)은 백만 단위를 말한답니다.
예를 들어 microsoft/VibeVoice-1.5B는 15억(=1.5 Billion) 파라미터를 가지고 있답니다.
B(Billion)는 십억 단위를 말한답니다.
예를 들어 deepseek-ai/DeepSeek-V3.1(685B)는 무려 6850억 파라미터를 가진 초거대 모델인거죠. 즉, 모델 이름만 봐도 “얼마나 큰 두뇌(파라미터)를 갖췄는지” 알 수 있습니다. 작은 모델은 빠르고 가볍지만 단순한 작업에, 큰 모델은 똑똑하지만 무겁고 비용이 많이 드는 작업에 맞습니다.
마무리
이번 주는 “규모의 미학”과 “속도의 미학”이 동시에 빛나는 한 주였습니다. 한쪽에서는 685B라는 초대형 모델이 깊이를 자랑하고, 다른 한쪽에서는 스페이스들이 ‘가볍고 빠른 한 방’을 뽐내고 있습니다. 다음 주에는 또 어떤 다크호스가 무대를 흔들지, 함께 지켜보시죠.
※ 외부필자의 원고는 IT조선의 편집방향과 일치하지 않을 수 있습니다.
정원훈 텐스페이스 경영총괄이사는 한국인공지능진흥협회 이사와 한국디지털자산포럼(KODIA Forum) 정책기획실장을 맡고 있다. 법률AI 서울로봇과 블록ESG 프로젝트를 총괄하며 한국지식재산교육연구학회 이사 겸 기술가치평가위원장과 한국벤처창업학회 이사로도 활동한다. 아시아경제신문사 뉴미디어본부, 매일경제인터넷 금융센터 팀장을 거쳐, SNS 개발과 대안신용평가 시스템, AI 기반 법률 서비스 등 혁신 프로젝트를 주도해 온 IT·금융 전문가다.