인공지능(AI) 음성 인식 분야 스타트업 딥그램(Deepgram)은 새로운 실시간 텍스트 음성 변환 API인 아우라(Aura)를 출시했다.
13일(현지시간) IT 매체 테크크런치 등 외신 보도에 따르면 딥그램이 출시한 아우라는 매우 사실적인 음성 모델, 짧은 지연 시간 등 기능이 탑재된 플랫폼이다. 이로써 기업은 개발자가 실시간 대화형 AI 에이전트를 구축할 수 있도록 돕는다는 구상이다.
LLM(거대언어모델)의 지원을 받는 AI 상담원은 콜센터, 기타 고객 대면 상황에서 활약할 수 있다. 경쟁 모델들보다 더욱 자연스러운 음성을 구현하기 위해 개발 단계에서 공을 많이 들였다는 설명이다. 스캇 스티븐슨(Scott Stephenson) CEO는 "말하는 내용을 인식하고, 응답을 생성할 수 있는 실시간 음성 AI봇이 대중화되고 있다"라고 말했다.
이어 그는 "AI 음성 기술은 가격 경쟁력도 갖춰야 하고, 놀라운 정확성도 갖춰야 하기 때문에 성공하기 어렵다"라며 "그러나 딥그램은 4년 동안 기술을 구축하기 위해 노력헀다"라고 밝혔다.
딥그램의 아우라는 약 12개의 음성 모델을 제공하며, 이 모델들 모두 딥그램 데이터셋으로 훈련됐다. 다른 모델과 비교해 응답 생성을 완료하는 데 걸리는 시간이 매우 신속하다는 설명이다.
AI포스트(AIPOST) 유진 기자 aipostkorea@naver.com

