인공지능(AI) 산업이 시시각각 변하고 있습니다. GPT가 나오고 생성형 AI가 무엇인지 궁금해하던 때가 불과 한 해 전입니다. 지금은 텍스트, 이미지, 영상을 한꺼번에 이해하고 생성하는 AI가 나왔고, 보다 정확한 생성을 위한 기술들이 주목받고 있습니다. 누구나 AI 챗봇을 만들 수 있는 스토어가 생기기도 했습니다. 어떤 기술이, 또는 키워드가 주목받을지 살펴보겠습니다. [편집자주]

오픈AI의 영상 생성 AI '소라'로 만든 영상 / 오픈AI
오픈AI의 영상 생성 AI '소라'로 만든 영상 / 오픈AI

최근 인공지능(AI) 분야에서 ‘영상 AI’가 각광받고 있습니다. 이제까지 영상 AI는 사람처럼 언어를 생성하는 AI 모델에 비해 결과물이 다소 조악했는데, 최근 오픈AI에서 영상 생성 AI 모델 ‘소라(Sora)’를 내놓자 사람들의 관심이 갑자기 커졌습니다. 이제까지와는 다른 품질을 보여줬기 때문입니다. 

영상 AI는 생성과 이해 및 분석으로 나눠집니다. 우선 생성 AI는 챗GPT와 같은 트랜스포머 기반으로 작동됩니다. 소라의 경우를 예로 들어보겠습니다. 언어를 생성하는 AI의 경우 텍스트를 컴퓨터가 인식할 수 있는 토큰 개념으로 전환합니다. 소라 또한 영상에 담긴 시각 데이터를 패치 개념으로 전환하는 방식을 사용하고 있습니다.

소라에서 중요한 부분은 프레임의 연결성입니다. 텍스트 생성에서 이미지 생성까지는 어느정도 구현이 됐지만 영상은 프레임(보통 1초당 30프레임)의 연결로 이뤄진 데이터이기 때문에 이전까지의 생성 AI와는 많이 달랐을 것입니다. 핵심은 앞 뒤 또는 여러 프레임을 예측할 수 있는 기술에 있다고 오픈AI는 말합니다.

이는 결국 프레임을 이해해야 한다는 의미이기도 합니다. 영상 이해 분야는 생성 분야와는 다소 결이 다릅니다. 이 분야 역시 완전히 새로운 분야는 아닙니다. 기존에는 ‘비디오 요약’이 있었습니다. 영상의 특정 구간에서 프레임을 추출하거나 각 구간에서 대표적인 프레임 집합들을 추출해 비디오 요약을 만드는 형태였습니다.

하지만 긴 영상에서 원하는 특정 프레임을 찾는 것도 쉽지 않았고 특히 할루시네이션 문제가 컸습니다. 이미지 형태의 프레임만으로 이어지는 영상을 이해하기도 어렵고 프레임 속 시각 데이터가 오히려 이해의 오류를 발생시켰던 것입니다.

국내 AI 스타트업 ‘트웰브랩스’에서 개발한 멀티모달 영상 이해 모델 ‘마렝고(Marengo)’는 영상 데이터를 벡터화 시키는 방법으로 앞서의 문제를 해결했습니다. AI 엔진이 받아들일 수 있는 값으로 변경한 것입니다. 이를 통해 효율성, 정확성 등을 모두 향상시켰다고 합니다. 영상 이해와 영상 생성은 연결돼 있습니다. 이해하는 기술이 향상되면 그 만큼 정확하고 디테일한 영상을 생성할 수 있습니다. 

앞으로는 영상 AI 분야가 더 뜨거워질 것입니다. 이유는 인간의 학습 구조에서 찾을 수 있습니다. 우리는 세상에 태어나 가장 처음 눈으로 빛을 보고, 사물을 보고, 엄마와 아빠를 보며 세상을 배웁니다. AI가 인간의 신경망을 모방하고자 한다면 인간의 학습법이 꼭 필요할 것이기 때문입니다.

조상록 기자 jsrok@chosunbiz.com

관련기사