"인간 대화 뉘앙스 이해"…아마존, 새로운 음성 AI 모델 '노바 소닉' 공개
아마존이 새로운 음성 인공지능(AI) 모델인 '노바 소닉(Nova Sonic)'을 공개했다. 인간 대화를 더 깊이 이해할 수 있어 AI 에이전트 구현에 도움이 될 것이라는 설명이다.
아마존은 8일(현지시간) 공식 뉴스룸을 통해 자연스러운 음성을 생성할 수 있는 새로운 AI 모델 '노바 소닉'을 선보였다. 아마존은 노바 소닉의 성능이 속도와 음성 인식 및 대화 품질을 측정하는 벤치마크 평가에서 오픈AI와 구글의 모델과 경쟁할 수 있는 수준을 기록했다고 밝혔다.
노바 소닉이 AI 음성 모델 시장에서 '가장 비용 효율적'이라는 게 아마존의 주장이다. 노바 소닉은 실시간 양방향 대화 처리 능력을 갖췄다. 또한 개발자가 다양한 애플리케이션에 사용할 수 있는 사용자 음성에 대한 텍스트 대본도 생성한다. 특히 음성의 억양과 말투, 뉘앙스 등을 파악할 수 있어 상호작용을 보다 자연스럽게 할 수 있다.
생성된 음성 응답을 맥락(톤, 스타일) 및 음성 입력에 맞게 조정해 인간적인 대화가 가능하도록 지원한다. 또 노바 소닉은 다른 AI 음성 모델보다 음성 인식 오류가 적다고 한다. 사용자가 중얼거리거나, 잘못 말하거나, 시끄러운 환경에 있더라도 사용자의 의도를 이해하는 데 뛰어나다는 것이다.
또 영어, 프랑스어, 독일어, 이탈리아어, 스페인어를 대상으로한 다국어 음성 인식 벤치마크에서 단어 오류율이 4.2%에 불과했다고 아마존은 전했다. 아마존은 노바 소닉이 비용 측면에서 강점을 보인다고 했다. 오픈AI의 GPT-4o보다 약 80% 저렴한 비용으로 활용할 수 있다는 설명이다.
로힛 프라사드 아마존 AGI 부문 수석 부사장은 노바 소닉이 인공일반지능(AGI)을 구축하려는 광범위한 전략의 일부라고 말했다. 프라사드 부사장은 아마존이 앞으로 이미지, 비디오, 음성을 포함한 다양한 멀티모달 AI 모델을 출시할 계획이라고 밝혔다.
노바 소닉은 아마존웹서비스(AWS)의 베드록 플랫폼을 통해 이용할 수 있다. 개발자, 기업 고객들을 대상으로 이용 신청을 받고 있다.