"AI는 메시도 춤추게 한다"…中 알리바바 연구진 AI 기반 동영상 생성 기술 '눈길'
이미지를 영상으로…'애니메이트 애니원' 선봬 기존 모델보다 결함 적고 움직임 자연스러워
정지된 스틸 이미지 속 인물들이 인공지능(AI) 기술로 깨어났다. 귀여운 2D 애니메이션 캐릭터부터 세계적인 축구 스타 리오넬 메시에 이르기까지 사진 속에 잠들어 있던 다양한 인물이 영상에서 눈에 거슬리는 뭉개짐·뒤틀림·변형 없이 자연스럽게 움직이고 춤을 춘다. 이처럼 날로 AI 기술이 진화함에 따라 딥페이크를 둘러싼 논쟁도 더욱 가속화될 전망이다.
4일(현지시간) IT기술 전문매체 테크크런치 등 외신은 중국 알리바바 그룹의 지능형 컴퓨팅 연구소가 최근 AI 기반 동영상 생성 기술 '애니메이트 애니원(Animate Anyone)'을 선보이면서 본격적인 딥페이크 시대를 예고하고 있다고 보도했다. 디스코(DisCo)나 드림포즈(DreamPose) 등 이미지를 영상으로 변환하는 이전 시스템과 비교해 한발 더 나아갔다는 평가다.
애니메이트 애니원은 우선 인물의 참조 이미지에서 얼굴 특징과 패턴·포즈 등 세부 정보를 뽑아낸다. 그 다음 모션 캡처되거나 다른 동영상에서 추출될 수 있는 움직임 등을 기반으로 세부적인 특징을 살려낸 일련의 이미지들을 생성·연결함으로써 연속적인 영상을 만든다. 세부 정보는 일관되게 유지하면서 영상 프레임 간 매끄러운 전환이 가능하다는 것.
기존 모델들의 경우 환각(Hallucination) 문제가 큰 애로사항이었다. 사람이 돌아설 때 소매나 머리카락이 어떻게 움직이는지 등 그럴듯한 세부 정보를 만들어내야 하는데, 환각으로 인해 이상한 이미지들이 많이 생성되면서 영상의 설득력을 떨어뜨렸다. 물론 애니메이트 애니원도 아직 완벽하지는 않지만 훨씬 개선된 것으로 평가된다.
원본 이미지에 가까운 포즈는 잘 표현되지만 특히 눈과 손 부분은 여전히 어색하다. 그럼에도 불구하고 움직이는 동안 머리카락이나 의상 등이 뭉개지지 않고 자연스럽게 표현된다는 점에서 여러 결함을 드러낸 이전 모델들보다는 큰 진전을 이룬 셈이다. 연구진은 향후 오픈소스 저장소인 깃허브(GitHub)에 소스 코드를 공개할 것으로 보인다. 하지만 아직 구체적인 일정은 밝히지 않았다.
생성형 AI 기술의 발전으로 인해 이제 고품질의 이미지 한 장만 있으면 얼마든지 가짜 영상을 만들어낼 수 있는 세상을 목전에 두고 있다. 여기에 음성 캡처 기술까지 더해지면 진짜 같은 가짜가 진짜를 대신할 수도 있다. 현재로서 이 기술은 일반적으로 사용되기에는 여전히 복잡하고 결함도 많다. 하지만 기술 발전 속도로 봤을 때 그리 머지않은 미래의 일임에는 틀림없다.