텍스트로 영화 같은 장면 구현…텐센트, 오픈소스 AI 비디오 모델 공개

2024-12-04     유형동 수석기자
(사진=텐센트)

중국 IT 기업인 텐센트가 영화 수준의 고품질 영상을 생성할 수 있는 인공지능(AI) 모델을 오픈소스로 공개했다. 자체 평가에서 런웨이의 '젠-3' 등 경쟁 모델의 성능을 능가했다는 게 텐센트의 설명이다. 

텐센트는 3일(현지시간) 허깅페이스, 깃허브를 통해 새로운 AI 모델인 훈위안비디오(HunyuanVideo)를 공개했다. 영화 수준의 고품질 영상을 생성할 수 있는 비디오 생성 모델이다. 

130억 개의 매개변수를 보유하고 있는 훈위안비디오이 자체 평가에서 상업용 모델의 성능을 능가했다고 텐센트는 주장했다. 텐센트 관계자는 "오픈소스 이미지 모델은 급속도로 발전했지만, 비디오 생성 AI는 대체로 폐쇄형 모델이 주를 이루고 있다. 훈위안비디오가 상업용 모델을 능가하는 기능을 제공한다"라고 밝혔다. 

이 시스템은 혁신적인 비디오 투 오디오 모듈을 포함하고 있다. 최신 기술들이 도입돼 사운드 효과와 배경 음악을 자동으로 생성할 수 있다. 관계자는 "V2A 모듈은 비디오 콘텐츠를 자동으로 분석해 적절한 오디오를 생성한다"라고 설명했다.

새로운 AI 모델로 제작한 영상. (그래픽=텐센트)
새로운 AI 모델로 제작한 영상. (그래픽=텐센트)

또 해당 모델은 애니메이션 전환 기능도 제공한다. 이용자의 음성, 얼굴 표정, 신체적 움직임을 유지하면서 디지털 캐릭터로 만드는 기능이다. 60명의 전문가가 평가한 자체 테스트에서 젠-3 모델보다 높은 성능 점수를 얻었다고 텐센트를 밝혔다. 

훈위안비디오는 깃허브와 허깅페이스를 통해 사용할 수 있다. 텐센트 측은 성능 향상을 위한 연구를 지속할 예정이다.