AI가 그림 속 모나리자 깨웠다…구글, 동영상 생성 LLM '비디오포에트' 선봬

텍스트를 영상으로, 정적 이미지를 동적으로 뮤직 비디오 등 다양한 유형 영상 제작 가능

2023-12-21     윤영주 기자
(사진=구글 리서치)
(사진=구글 리서치)

최근 구글이 동영상을 생성할 수 있는 새로운 대형언어모델(LLM) 인공지능(AI) 도구를 선보였다. 20일(현지시간) IT 전문매체 벤처비트(VentureBeat) 등 외신은 구글 리서치(Google Research)가 텍스트 입력을 기반으로 동영상을 만들어내는 '비디오포에트(VideoPoet)'를 공개했다고 전했다. 

텍스트 설명에 따라 동영상을 만드는 것은 물론, 정적 이미지를 동적 이미지로 변환하거나 영상을 원하는 스타일로 바꿀 수 있다. 단편영화부터 뮤직 비디오, 설명 동영상에 이르기까지 다양한 유형의 영상이 생성 가능하다는 설명이다. 비디오포에트는 방대한 텍스트·동영상 데이터 세트를 기반으로 훈련된 대규모 언어 모델이다. 

따라서 텍스트와 동영상 간의 관계를 이해할 수 있을 뿐만 아니라 일관성 있고 시각적으로도 매력적인 비디오를 만들어낼 수 있다는 것. 특히 긴 분량의 동영상에서 일관된 동작을 생성할 수 있다는 점도 강점이다. 이 모델은 짧은 비디오 클립들을 연결해 몇 분 길이의 동영상을 만들어낸다. 이로써 좀 더 복잡하고 미묘한 차이가 있는 영상 제작이 가능해진다는 이야기다.

(사진=구글 리서치)

 

또 비디오포에트는 기존의 동영상을 편집하는 데 사용될 수도 있다. 예를 들어 정적인 정지 이미지에 애니메이션을 더해 움직이는 이미지로 만들거나 동영상을 원하는 스타일로 바꿀 수 있다. 아울러 영상에서 누락·훼손된 부분을 채워주는 인페인팅(Inpainting) 기능과 원본 영상을 확장하는 아웃페인팅(Outpainting) 기능 역시 눈에 띈다. 이 밖에 비디오 클립에서 오디오를 생성하는 기능도 있다.    

구글 연구팀은 확산 모델(Diffusion model) 대신 LLM을 사용했다. 비디오포에트는 여러 동영상 생성 기능을 하나의 LLM 프레임워크 내에 통합한다는 점에서 다른 모델들과 차별화된다. 동영상을 생성하는 기존 AI 모델에 비해 텍스트에 충실할 뿐만 아니라 상대적으로 정확하고 흥미로운 모션을 뽑아낸다는 의견도 나온다.

물론 일각에서는 회의적인 시각도 있지만 상당히 괄목할 만한 결과물을 만들어내고 있다는 평가다. 현재 비디오포에트는 출시 전으로 아직 사용할 수 없다. 시중의 다른 AI 도구들과 비교해 실제 성능을 비교해보려면 조금 더 기다려야 할 듯하다.    

(사진=구글 리서치)
(사진=구글 리서치)
(사진=구글 리서치)
(사진=구글 리서치)
(사진=구글 리서치)
(사진=구글 리서치)