인공지능(AI) 경쟁이 치열한 가운데 구글이 동영상 제작 인공지능(AI) 시스템 ‘이매젠 비디오(Imagen Video)’를 개발했다. 다만 구글은 영상 제작 시스템 악용을 막기 위해 소스코드 등은 공개하지 않기로 했다.

이매젠 비디오 예시. / 구글 이매젠 비디오 논문 갈무리
이매젠 비디오 예시. / 구글 이매젠 비디오 논문 갈무리
6일 아르스테니카, 테크크런치 등 외신에 따르면 구글은 텍스트를 초당 24프레임(1280x768 해상도)의 영상으로 제작하는 텍스트 투 비디오 AI 시스템 ‘이매젠 비디오’를 개발했다.

이매젠 비디오는 이용자가 텍스트를 입력하면 저해상도(24x48px/3fps, 16프레임) 영상을 만든 후 높은 해상도로 업스케일링 하는 방식이다. 또 1400만개의 영상-텍스트 조합(pair), 6000만개의 이미지-텍스트 조합, RAION-400M의 이미지-텍스트 세트 등을 학습했다. 구글은 이를 통해 이매젠 비디오가 반 고흐 그림 같은 수채화 스타일로 영상을 만들 수 있다고 설명했다.

구글은 아울러 이매젠 비디오팀과 페나키팀 간 협력을 추진한다. 페나키는 이매젠 비디오 이전에 구글이 제작한 텍스트 투 비디오 시스템이다. 긴 문장을 2분 이상의 영상으로 만들 수 있다. 이매젠 비디오가 고품질 영상, 5초 분량의 짧은 영상 생성에 중점을 뒀다면 페나키는 일관성과 길이를 우선한다.

구글은 이매젠 비디오의 모델이나 소스코드는 공개하지 않기로 했다. 이매젠 비디오가 폭력적이거나 성적인 영상을 제작할 수 있기 때문이다.

한편 텍스트를 영상으로 제작하는 기술은 이매젠 비디오 전에도 있었다. 메타의 ‘메이크 어 비디오(Make-A-Video)’는 발표한 지 채 일주일이 되지 않았다. 몇 개의 단어를 조합하거나 문장을 입력하면 AI가 내용을 분석해 영상 클립을 만들어준다.

변인호 기자 jubar@chosunbiz.com