텍스트 투 비디오 모델 중국서 공개돼
최대 16초, 1080p 해상도 영상 생성

셍슈 테크놀로지가 개발한 AI 모델로 생성한 사진. (그래프=셍슈 테크놀로지)
셍슈 테크놀로지가 개발한 AI 모델로 생성한 사진. (사진=셍슈 테크놀로지)

미국 샌프란시스코에 본사를 둔 오픈AI의 텍스트-투-비디오(Text-To-Video) 모델인 '소라(Sora)'와 유사한 영상 생성 모델이 중국에서도 개발됐다. 이 모델은 한 번만 클릭하면 최대 16초 길이와 최대 1080p 해상도의 영상을 생성할 수 있다. 

29일(현지시간) 홍콩 사우스차이나모닝포스트(SCMP) 등 외신보도에 따르면 중국 기업 '셍슈 테크놀로지(ShengShu Technology)'가 칭화대와 영상 생성 AI 모델인 '비두(Vidu)'를 공동 개발했다. 이 모델은 간단한 텍스트 프롬프트를 기반으로 1080p 해상도의 비디오를 제작할 수 있다. 

중국 언론들은 이 모델이 '소라급' 영상 모델이라고 평가하고 있다. 모델은 중관춘 포럼에서 처음으로 공개됐다. 주 준(Zhu Jun) 칭화대 AI 연구소 부원장이자 셍슈 테크놀로지의 수석 과학자는 "비두는 자립적인 혁신의 성과이며, 많은 분야에서 획기적인 발전을 이뤘다"라며 "비두는 상상력이 풍부하고, 일관된 캐릭터로 16초짜리 비디오를 제작할 수 있다"라고 밝혔다. 

셍슈 테크놀로지가 개발한 AI 모델로 생성한 사진. (그래픽=셍슈 테크놀로지)
셍슈 테크놀로지가 개발한 AI 모델로 생성한 사진. (그래픽=셍슈 테크놀로지)
셍슈 테크놀로지가 개발한 AI 모델로 생성한 영상. (그래픽=셍슈 테크놀로지)
셍슈 테크놀로지가 개발한 AI 모델로 생성한 영상. (그래픽=셍슈 테크놀로지)

비두는 '유빗(U-ViT)' 아키텍처를 사용했다고 알려졌다. U-ViT은 소라처럼, 디퓨전과 트랜스포머 방식을 결합한 아키텍처다. 모델 시연 영상에서는 중국풍의 요소들이 AI 학습에 접목돼 있는 것을 확인할 수 있다. 풀밭에 앉아 기타를 연주하는 팬더, 수영장에서 수영을 하는 강아지 등 다양한 데모 클립이 공개됐다. 

1분까지 제작하는 소라와 비교해 짧은 분량밖에 만들지 못하지만, 영상 퀄리티는 나쁘지 않은 수준이라는 평가다. 기술 고도화를 위해 더 많은 컴퓨팅 자원이 필요하다는 목소리가 나온다. 한편 2023년 3월 설립된 셍슈 테크놀로지는 칭화대 AI 연구소 연구진들과 알리바바, 텐센트, 바이트댄스 등 구성원들로 구성됐다. 

AI포스트(AIPOST) 유진 기자 aipostkorea@naver.com