인공지능(AI) 산업이 시시각각 변하고 있습니다. GPT가 나오고 생성형 AI가 무엇인지 궁금해하던 때가 불과 한 해 전입니다. 지금은 텍스트, 이미지, 영상을 한꺼번에 이해하고 생성하는 AI가 나왔고, 보다 정확한 생성을 위한 기술이 주목받고 있습니다. 누구나 AI 챗봇을 만들 수 있는 스토어가 생기기도 했습니다. 그럼 올해는 어떤 기술이, 또는 키워드가 주목받을지 살펴보겠습니다. [편집자주] 

요즘 AI를 보면 점차 인간을 닮아가는 것을 느낍니다. 단순히 글(자연어)을 이해하는 것에서부터 이제는 보고 듣는 능력까지 갖춰가고 있습니다. 이러한 능력을 AI 분야에서는 ‘멀티모달 AI(Multi Modal AI)’라고 합니다. 텍스트뿐만 아니라 음성, 이미지, 비디오 등의 양식을 입력하고 출력할 수 있는 능력을 말합니다.

가령 대표적인 생성형 AI인 챗GPT나 구글 제미나이에 텍스트가 아닌 음성, 이미지, 영상을 포함한 질문을 던져도 이를 이해하고 사용자가 원하는 형태(텍스트, 이미지, 음성 등)로 결과값을 제공해주는 것이죠.

제니퍼 마스맨(Jennifer Marsman) 마이크로소프트 CTO는 “멀티 모달은 인간이 사용하는 시각, 음성 및 청각과 같은 다양한 감각을 활용해 인간과 유사한 경험을 만들어낼 수 있는 능력을 가지고 있다”고 말하기도 했습니다.

(왼쪽부터) 삼성 갤럭시 S24 울트라, 애플의 공간 컴퓨터 '비전 프로' / 삼성전자, 언스플래시
(왼쪽부터) 삼성 갤럭시 S24 울트라, 애플의 공간 컴퓨터 '비전 프로' / 삼성전자, 언스플래시

멀티모달은 단순히 좀더 다양한 형태로 질문할 수 있고, 다양한 형태로 답변 받을 수 있다는 정도에 그치지 않습니다. 올해 1월 삼성전자는 프리미엄 스마트폰 갤럭시S24 시리즈를 출시했는데요. 이번 모델의 핵심은 AI였습니다. 좀더 정확히 말하면 ‘온디바이스 AI’인데요. AI 기능이 인터넷 네트워크를 따라 저 멀리 클라우드 환경까지 가지 않고 스마트폰 안에서 구현될 수 있다는 것입니다.

이 온디바이스 AI가 구현되기 위해서는 멀티모달이 필수입니다. 우리는 영화 허(Her, 2013)에서처럼 음성으로 AI와 자연스러운 대화를 나누고 때로는 이미지와 영상을 공유하면서 ‘나만의 AI’를 만들어가는 모습을 기대하고 있으니까요.

여기서 조금 더 진화된 모습을 상상해볼 수도 있습니다. 지난 2월 2일 애플은 ‘공간 컴퓨터’라고 불러주기를 바라는 증강현실 헤드셋 ‘비전 프로’를 출시했습니다. 사실 비전 프로는 단순히 컴퓨터를 옮겨놓은 수준이 아니었습니다. 실제 공간과 컴퓨팅 공간의 결합을 통해 새로운 디지털 환경을 구현합니다. 이러한 디지털 환경을 제대로 경험하기 위해서는 반드시 멀티모달이 필요합니다. 음성으로 지시하고 이미지로 답변 받는 등의 활동을 주로 하게 될테니까요.

앞서 언급한 갤럭시S24와 비전 프로에는 공통된 귀결점이 있습니다. 바로 개인화입니다. 생성형 AI가 이제까지는 모두가 쓸 수 있는 범용적인 AI에 가까웠다면, 멀티모달 능력이 더해지면서 점차 ‘나만의 AI’로 변화될 것입니다.

개인화 된 AI는 스마트폰이나 VR 헤드셋과 같은 개인 디바이스에만 존재하면서 오직 나를 위해 일하게 되는 것입니다. 조금 더 발전하면 가정용 로봇에도 멀티모달이 적용돼 비서처럼 물도 떠 주고, 약도 챙겨주고, 업무도 대신해주는 역할을 하게 될 것입니다. 따지고 보면 멀티모달은 AI를 인간화 하는 데 매우 중요한 요소라는 생각이 듭니다.

조상록 기자 jsrok@chosunbiz.com

관련기사