AI가 딱 맞는 '배경음·효과음' 만들어드립니다…구글 딥마인드, 영상 분석해 소리 만드는 AI 모델 공개
구글의 인공지능(AI) 연구소 딥마인드가 동영상을 분석해 최적의 소리를 생성해주는 AI 모델을 공개했다. 사람의 숨 소리나 악기 연주소리, 배경음악 등 다양한 종류와 장르의 소리를 생성할 수 있어, 영화 산업 등 전문 영역에서의 활용도가 높을 것으로 전망된다.
구글 딥마인드는 17일(현지시간) 공식 블로그를 통해 동영상과 텍스트 프롬프트를 주면 영상에 어울리는 소리를 생성하는 'V2A(비디오-오디오)' 기술을 개발 중이라고 소개했다. 비디오 생성 모델은 놀라운 속도로 발전하고 있지만, 현재 많은 모델들이 소리를 포함하지 않은 영상을 내놓고 있다.
이런 측면에서 V2A 기술이 AI가 만든 영상을 더욱 풍부하게 만들어줄 수 있다는 것이 구글 딥마인드 측의 설명이다. V2A 모델은 인간의 대화 소리, 공룡이 알을 깨고 나오는 소리, 드럼을 치는 소리 등 다양한 종류의 소리를 생성할 수 있다. 구글 딥마인드는 V2A 기술과 함께 샘플 영상도 공개했다.
기타 연주소리, 자전거를 타고 경사진 길을 내려가는 사람의 숨 소리, 캐릭터들이 대화하는 소리 등 다양한 배경·효과음이 추가된 것을 확인할 수 있었다. 이날 공개한 샘플 영상은 구글이 공개한 동영상 생성 AI '비오'의 클립에다 AI가 만든 소리를 입혀 제작됐다.
구글 딥마인드의 V2A 기술은 비디오 픽셀을 이해할 수 있기 때문에 상황에 맞는 소리를 생성할 수 있는 것이다. 구글 딥마인드는 V2A 모델이 아직 완전한 기술은 아니라고 말했다. 오디오 출력의 품질은 비디오 품질에 따라 달라지기 때문에 고품질 음향을 생성하지 못할 수도 있다고 했다.
또한 화자의 입모양과 음성을 동기화시키는 데 있어 기술이 완전하지 않아, 개선 중이라고 딥마인드 측은 밝혔다. 딥마인드는 “V2A 기술이 창작 커뮤니티에 긍정적인 영향을 미칠 수 있도록 하기 위해 영화 제작자로부터 얻는 피드백을 통해 기술을 고도화할 것"이라고 밝혔다.
구글 딥마인드는 오용 방지를 위해 V2A 기술을 대중에게는 당장 공개하지 않을 것이라고 발표했다. 한편 속속 등장하는 오디오 생성 AI 기술들이 영화 산업을 비약적으로 발전시키고, 불필요한 시간과 비용을 줄이는 수단으로 부상할 것이라는 평가가 나온다.