오픈AI 소라(Sora) 영상에다 AI가 만든 효과음을 넣었더니…"생동감 확 사네"

일레븐랩스, 텍스트 기반 소리 생성 AI 모델 공개 소리 없는 오픈AI 소라 영상에 'TTS 신기술' 적용

2024-02-23     조형주 기자
(사진=일레븐랩스)

챗GPT 개발사 오픈AI가 며칠 전 텍스트를 동영상으로 만들어주는 인공지능(AI) '소라(Sora)'를 출시했다. 마치 실제 촬영한 것과 같은 수준의 영상으로 AI 업계를 발칵 뒤집었다. 이 가운데 미국 스타트업 일레븐랩스가 아무런 소리도 나오지 않는 '소라' 영상에 AI 기술로 효과음을 입힌 새로운 콘텐츠를 공개했다. 

22일(현지시간) 벤처비트 등 외신 보도에 따르면 음성 인공지능 스타트업 일레븐랩스는 '텍스트 투 소리(Text To Sound)' 모델로 포트폴리오를 확장한다는 방침이다. 제작자가 자신의 상상을 말로 간단히 설명함으로써 음향 효과를 생성할 수 있게 된다. AI가 주도하는 디지털 경험 시대에 새로운 방식으로 콘텐츠를 만드는 데 일조할 것으로 기대된다. 

모델에 대해 구체적인 정보가 발표되진 않았지만, 일레븐랩스는 자사의 AI 기술력을 가늠해볼 수 있는 새로운 콘텐츠를 공개했다. 일레븐랩스는 X(트위터)와 공식 유튜브 채널에 오픈AI의 '소라'가 만들어낸 영상에다 효과음을 입힌 1분 분량의 비디오를 업로드했다. 

강아지 짖는 소리를 비롯 설원에서 부는 바람소리, 로봇의 움직임 소리, SUV가 흙길을 달리는 소리, 거리를 걷는 여자의 구둣발 소리 등 효과음이 추가 됐다. 누리꾼들은 "영화는 시각적 요소 50%, 소리가 50%로 완성된다", "이제야 완전한 패키지가 됐다" 라는 등의 뜨거운 반응을 보였다. 

앞서 언급한 바와 같이 이용자가 영상에 어울리는 소리를 상상하고, 이를 텍스트로 AI에게 제안해 얻어낸 결과물이다. AI 영상 제작 플랫폼과 더불어 AI 소리 생성 플랫폼에 대한 관심도 꾸준히 늘 것이라는 분석이 나오고 있다. 일레븐랩스는 2022년에 설립된 음성 생성 AI 기업이다. 최근에는 1000억원 규모의 투자 유치에 성공하기도 했다.