기업들이 인공지능(AI) 기술을 활용한 서비스를 쏟아내고 있다. 그런 만큼 AI는 이미 우리 삶 속 깊게 침투해 있다. 일상에서 손쉽게 접할 수 있는 AI 서비스는 어떤 것이 있는지, 이의 활용법을 살펴봤다. [편집자주]

우리에게 잘 알려진 해리포터의 주인공들이 해외 유명 브랜드 ‘발렌시아가’ 모델 분위기를 내며 차례차례 지나간다. 해리포터 영화에 나왔던 유명 대사들이 발렌시아가 키워드와 조합돼 재치있게 등장하기도 한다. 지난달 유튜버 데몬플라잉폭스(demonflyingfox)가 유튜브에 게시한 뒤 조회수 800만을 기록하며 화제를 모았던 해리포터 바이 발렌시아가(Harry Potter by Balenciaga) 영상의 내용이다.

해리포터 바이 발렌시아가 영상 / 데몬플라잉폭스 유튜브 갈무리
해리포터 바이 발렌시아가 영상 / 데몬플라잉폭스 유튜브 갈무리
다소 기이하면서도 웃음을 자아내는 이 영상에는 비밀이 있다. 영상 속 주인공들이 실제 사람이 아닌 생성형AI로 만들어졌다는 것이다. 생성형AI는 사용자의 요구에 따라 콘텐츠를 생성하는 인공지능 기술을 통칭하는 말로, 이미지, 텍스트, 사운드, 비디오 등을 생성하는 AI가 이에 해당된다.

해리포터 바이 발렌시아가 영상은 이 4가지 AI 기술을 모두 합친 생성형AI의 집합체라고 볼 수 있다. 유튜버 프롬프트정글(PromptJungle)이 공개한 제작법에 따르면 이 유튜브 영상은 챗GPT(텍스트 생성), 미드저니(이미지 생성), 일레븐랩스(보이스 생성), 디아이디(비디오 생성)를 사용해 제작 가능하다. 일반 사용자들도 해당 소프트웨어를 통해 이와 비슷한 영상을 손쉽게 제작할 수 있다. 해리포터 바이 발렌시아가의 제작 과정을 통해 이 4가지 생성형AI의 활용법을 살펴봤다.

챗GPT

이제 그 이름을 모르는 사람을 찾는 것이 더 어려울 정도로 유명해진 ‘챗GPT’다. 챗GPT는 사용자가 대화를 하듯 챗봇에게 질문을 입력하면 그에 대한 답이 제공되는 대화형 인공지능 서비스다. 챗GPT의 대화문은 이 같이 프롬프트(prompt)와 응답(response) 형태로 이뤄져 사용자들에게 문답 형식으로 정보를 제공한다.

사용자는 챗GPT와의 대화를 통해 소설, 광고 카피, 이력서, 코딩 등 다양한 결과물을 얻을 수 있다. 프롬프트를 잘만 활용한다면 챗GPT의 가능성은 무궁무진하다.

해리포터 바이 발렌시아가 영상 제작 과정에서 유튜버 프롬프트정글은 챗GPT에게 "20년 경력 발렌시아가 디자이너의 입장에서 해리포터 시리즈의 유명 캐릭터 10명을 스타일링해달라"는 프롬프트를 입력한다. 챗GPT는 프롬프트를 입력한지 몇 초 지나지 않아 이에 대한 응답을 써내려 갔다.

프롬프트정글이 공개한 프롬프트를 챗GPT에 입력해봤다. / 챗GPT 갈무리
프롬프트정글이 공개한 프롬프트를 챗GPT에 입력해봤다. / 챗GPT 갈무리
"해리포터- 은색 쇠붙이가 달린 검은 가죽 라이더 자켓을 찢어진 청바지, 하얀색 하이탑 운동화와 매치했다."

이 같이 창의력이 필요한 작업에도 챗GPT는 막힘 없이 답변을 생성해낸다. 일반적인 대화 형식으로 프롬프트를 작성하기 때문에 컴퓨터 프로그래밍 문외한이더라도 결과를 쉽게 받아볼 수 있다.

챗GPT의 가장 큰 장점 중 하나는 이같이 AI가 학습한 데이터를 토대로 새로운 텍스트를 생성할 수 있다는 것이다. 하지만 높은 자유도를 가진만큼 잘못된 정보나 유해한 정보를 제공할 수 있다는 단점도 있다.

미드저니(Midjourney)

유튜버 프롬프트정글은 챗GPT가 제시한 응답을 미드저니라는 소프트웨어에 입력해 이미지화 시킨다. 미드저니는 인스턴트 메신저 서비스 ‘디스코드’에서 운영되고 있는 이미지 생성 인공지능 소프트웨어로 텍스트나 이미지 입력을 통해 그림을 생성할 수 있다. 해당 소프트웨어로 만든 이미지로 한 남성이 미술대회 디지털 아트 부문에서 1등을 차지해 논란을 빚기도 했다.

이처럼 사용자는 미드저니를 통해 높은 퀄리티의 이미지를 받아볼 수 있다. /imagine 명령을 입력한 후 해리포터 관련 프롬프트를 입력하면 미드저니 봇은 이를 그려낸 다수의 이미지를 생성한다. 사용자는 이 중 마음에 드는 이미지를 선택해 다운로드할 수 있다. 미드저니엔 /describe 명령을 통해 이미지를 입력받아 새로운 이미지를 생성하는 기능도 있다.

미드저니를 통해 얻는 이미지 창작물은 공개방에 생성되기 때문에 사용시 주의가 필요하다. 타인이 나의 작업을 마음대로 볼 수 있기 때문이다. 미드저니가 제공하는 프로 플랜에 가입했다면 작업을 비공개로 진행할 수 있다. 미드저니는 현재 베이직, 스탠다드, 프로 총 3개의 유료 플랜을 제공하며 각각 10달러(1만3000원), 30달러(4만원), 60달러(8만원)의 월 이용료를 받는다.

일레븐랩스(Elevenlabs)

일레븐랩스는 텍스트를 통해 보이스를 생성할 수 있는 음성 합성 및 텍스트 음성 변환(TTS) 소프트웨어 전문 회사다. 텍스트를 보이스로 전환하는 기능 외에도 보이스 샘플을 클로닝(cloning)해 목소리를 생성하는 보이스랩(Voice Lab) 기능도 제공하고 있다.

프롬프트정글은 영상 제작 과정에서 이 기능을 활용해 해리포터 배우들의 목소리를 재연했다. 배우들의 인터뷰 영상에서 목소리를 추출해 보이스랩에 입력하면 일레븐랩스의 클로닝 모델이 이를 학습한다. 그 후 일레븐랩스의 TTS 기능을 사용하면 사용자가 작성한 스크립트를 음성화시킬 수 있다. 프롬프트정글은 이 같은 방법으로 영상 속 패러디 대사를 생성한다.

일레븐랩스는 현재 5가지 유료 요금제를 제공하지만, 무료로 이를 이용할 수도 있다. 무료 사용자에게는 매월 1만 자의 텍스트 이용 권한이 제공된다. 무료 사용자는 총 3개의 목소리를 생성할 수 있다. 다만 만들어진 음성에 대한 상업적 권한은 제공받지 못 한다.

디아이디(D-ID)

끝으로 프롬프트정글은 디아이디의 소프트웨어로 위 작업물들을 통합해 비디오를 생성한다. 디아이디는 텍스트를 통해 사람 모델을 만들고, 사람 이미지를 움직이는 영상으로 변환하는 등의 기능을 가진 AI 생성 비디오 플랫폼이다. 챗GPT에 AI 얼굴을 더해 실제 사람과 대화하는 듯한 경험을 제공하는 챗D-ID(chat.D-ID) 서비스도 제공하고 있다.


D-ID의 AI 영상 생성 화면 / D-ID 갈무리
D-ID의 AI 영상 생성 화면 / D-ID 갈무리
프롬프트정글은 미드저니로 생성했던 해리포터 배우들의 이미지를 디아이디에 입력해 영상을 생성한다. 이와 일레븐랩스를 통해 생성한 음성을 디아이디 소프트웨어로 합성하면 마치 배우가 실제로 이 대사를 말하며 움직이는 듯한 영상이 만들어진다.

디아이디는 현재 4가지 유료 요금제를 제공하고 있다. 월 이용 요금은 6달러(8000원)부터 300달러(40만원)까지 다양하다. 가장 저렴한 요금제인 라이트는 AI 아바타 영상 시간 15분을 제공하고, 가장 비싼 요금제인 어드밴스드는 1200분을 제공한다. 디아이디는 14일 동안 무료로 디아이디 소프트웨어를 사용해 볼 수 있는 체험 기간도 제공하고 있다.

이러한 생성형AI 소프트웨어들을 통해 ‘해리포터 바이 발렌시아가’뿐만 아니라 다양한 종류의 영상 및 이미지가 매일 양산되고 있다. 이러한 창작물들은 마치 실제로 촬영된 것이라는 착각이 들 정도로 현실적이기 때문에 범죄에 악용될 우려도 제기된다. 실제로 AI 기술을 통해 만들어진 유명인의 딥페이크 영상이 퍼지는 등의 범죄 사례도 있다.

D-ID는 자사 웹사이트 윤리란에 "우리는 합성 미디어가 제공하는 방대한 기회를 잘 알고 있다. 하지만 다른 현대 기술들이 그렇듯 (합성 미디어는) 악의적인 용도로 쓰일 수 있다. 우리의 기술이 좋은 방향으로 성장할 수 있도록 노력하고 있다"고 전했다.

이상훈 기자 leesh@chosunbiz.com