"트럼펫으로 짖는 소리를, 색소폰으로 고양이 울음소리를 만들어 줘"
엔비디아가 새로운 생성형 인공지능(AI) 모델인 '푸가토(Fugatto)'를 공개했다. 텍스트 프롬프트와 오디오 파일을 조합해 어떠한 소리도 만들 수 있다는 게 특징이다.
엔비디아는 25일(현지시간) 공식 뉴스룸을 통해 세계에서 가장 유연한 사운드 머신인 '푸가토'를 개발했다고 발표했다. AI 모델 푸카토가 텍스트 프롬프트를 기반으로 사람들이 전에 들어본 적이 없는 소리를 만든다고 엔비디아는 소개했다.
엔비디아의 응용 오디오 연구 관리자이자 오케스트라 지휘자 겸 작곡가인 라파엘 발레(Rafael Valle)는 "우리는 인간처럼 소리를 이해하고 생성하는 모델을 만들고 싶었다"라고 말했다.
음악 프로듀서가 푸가토를 사용하면 자신의 아이디어를 빠르게 노래로 만들 수 있고, 효과를 추가하거나 오디오 품질을 향상시킬 수 있다고 한다. 사용자가 텍스트로 설명할 수 있는 것은 무엇이든 소리로 구현할 수 있다는 게 가장 큰 특징이다.
심지어 누군가의 목소리의 소리를 변형해 악센트를 바꾸거나 다른 톤으로 수정할 수도 있다. 푸가토를 개발하기 위해 엔비디아 연구진은 수백만 개의 오디오 샘플이 포함된 데이터셋을 구성했다. 한편 엔비디아는 해당 도구의 출시 시점에 대해서는 밝히지 않았다.
AI포스트(AIPOST) 조형주 기자 aipostkorea@naver.com

