스마트폰으로도 오디오 만든다…스태빌리티 AI, 오디오 생성 AI 모델 경량 버전 출시
스태빌리티 AI(Stability AI)가 오디오 생성 인공지능(AI) 모델 '스테이블 오디오 오픈(Stable Audio Open)의 경량 버전을 출시했다. 스마트폰에서도 실행할 수 있다는 게 특징이다.
스태빌리티 AI는 14일(현지시간) 영국 반도체 기업 Arm과 협력해 오디오 생성 AI 모델 '스테이블 오디오 오픈 스몰(Stable Audio Open Small)'을 발표했다. 지난해 출시한 스테이블 오디오 오픈 모델의 경량 버전이다.
Arm은 전 세계 스마트폰의 약 99%를 설계한 기업이다. 약 57억명이 Arm 기반 제품을 쓰고 있는 것으로 알려졌다. Arm과 함께 제작한 Ai 모델 스테이블 오디오 오픈 스몰은 기존 모델의 출력 품질과 빠른 사용성을 유지한다는 설명이다.
Arm CPU에서 실행되도록 설계돼, 모바일 환경에서도 오디오를 생성할 수 있게 됐다. 스마트폰으로 8초 이내에 오디오를 생성할 수 있고, 생성 속도와 미세 조정 속도도 기존 모델보다 빠르다. 이에 사용자는 컴퓨팅 비용을 절감하는 동시에 더 빠른 결과를 얻을 수 있게 됐다.
경량 버전도 스테이블 오디오 오픈과 마찬가지로 텍스트 프롬프트를 사용해 짧은 오디오 샘플이나 음향 효과 등 오디오 클립을 생성한다. 노래나 보컬을 생성할 수 없다. 스태빌리티 AI는 해당 모델을 훈련하는 과정에서 로열티가 없는 오디오 데이터만 활용했다고 밝혔다.
스테이블 오디오 오픈 스몰은 스태빌리티 AI 커뮤니티 라이선스에 따라 상업적, 비상업적 용도로 무료로 사용 가능하다. 연 매출 100만 달러 이상의 개발자와 조직은 엔터프라이즈 라이선스를 구매해야 한다.
다만 영어로 작성된 프롬프트만 지원한다. 한편 스태빌리티 AI는 최근 AI 영상 분야에 집중하고 있다. 영화 아바타, 타이타닉, 라이온 킹(2019), 정글북 등과 같은 유명한 영화의 시각효과(VFX)를 담당했던 로버트 르가토 감독을 최고 파이프라인 설계자로 영입했다.
앞서 제임스 카메론 감독도 스태빌리티 AI에 합류했다. 프렘 아카라주 CEO는 "커뮤니티를 위해 최첨단 오픈 모델을 지속적으로 출시하는 동시에 대기업들의 AI 솔루션에 대한 엄청난 수요를 충족해 나갈 것"이라고 밝힌 바 있다.