알리바바 기술보다 더 사실적, 더 정확하다…MS, 말하고 노래하는 AI 모델 '바사-1' 공개

사진·음성 주면 말하고 노래하는 영상 제작 '딥페이크' 악용 우려에 MS "출시 계획 없다"

2024-04-21 진광성 기자

(사진=MS)

마이크로소프트가 사진 한 장으로 그 사람이 말하는 영상을 실감나게 만들어내는 새로운 인공지능(AI) 모델을 공개했다. 음성 파일을 더하면 노래하는 영상까지 제작할 수 있다. 몇 달 전 공개된 알리바바 지능형 컴퓨팅 연구소가 개발한 기술 'EMO'보다 더욱 사실적이고 정확하다는 평가다.

19일(현지시간) 뉴아틀라스, 더레지스터 등 외신보도에 따르면 마이크로소프트는 사진 속 인물을 말하거나, 노래하게 만드는 AI 모델 '바사-1(VASA-1)'을 공식 블로그를 통해 공개했다. 바사-1는 실제 사람의 얼굴의 미세한 변화와 자연스러운 머리 움직임을 생성하는 AI 모델이다.

MS 연구진은 자연스러운 표정과 얼굴, 머리카락 움직임을 구현하기 위해 방대한 데이터를 AI 모델에 학습시켰다. 약 6000명의 사람이 말하는 얼굴을 훈련시켰다. 이에 다양한 표정, 입 모양, 눈동자 움직임을 정교하게 구현할 수 있게 됐다.

(그래픽=MS)

몇 달 전 중국 알리바바(Alibaba)의 지능형 컴퓨팅 연구소 연구진이 공개한 새로운 AI 시스템 'EMO(Emote Portrait Alive)'와 유사한 기술이다. 하지만 알리바바의 기술보다 훨씬 더 자연스럽고 사실적이라는 평가가 나온다. MS는 512x512 해상도의 비디오를 초당 45 프레임 속도로 생성하고, 온라인 스트리밍 모드에서는 최대 초당 40 프레임을 지원한다고 설명했다.

이를 활용한다면 가상 교육, 원격 회의 등 분야에서 실시간으로 가상 캐릭터를 활용할 수 있을 전망이다. 최근 문제가 되고 있는 '딥페이크 악용' 문제에 대한 우려로 MS 측은 단지 연구 데모일 뿐이며 해당 기술을 시장에 출시할 계획이 없다고 강조했다.

마이크로소프트 연구원들은 "교육적 형평성을 강화하고 의사소통에 어려움을 겪는 개인의 접근성을 향상시키며 도움이 필요한 사람들에게 치료 지원을 제공하는 데 도움이 될 수 있을 것"이라고 밝혔다.