(사진=딥그램)
(사진=딥그램)

인공지능(AI) 음성 인식 분야 스타트업 딥그램(Deepgram)은 새로운 실시간 텍스트 음성 변환 API인 아우라(Aura)를 출시했다. 

13일(현지시간) IT 매체 테크크런치 등 외신 보도에 따르면 딥그램이 출시한 아우라는 매우 사실적인 음성 모델, 짧은 지연 시간 등 기능이 탑재된 플랫폼이다. 이로써 기업은 개발자가 실시간 대화형 AI 에이전트를 구축할 수 있도록 돕는다는 구상이다. 

LLM(거대언어모델)의 지원을 받는 AI 상담원은 콜센터, 기타 고객 대면 상황에서 활약할 수 있다. 경쟁 모델들보다 더욱 자연스러운 음성을 구현하기 위해 개발 단계에서 공을 많이 들였다는 설명이다. 스캇 스티븐슨(Scott Stephenson) CEO는 "말하는 내용을 인식하고, 응답을 생성할 수 있는 실시간 음성 AI봇이 대중화되고 있다"라고 말했다. 

(그래픽=딥그램)
(그래픽=딥그램)

이어 그는 "AI 음성 기술은 가격 경쟁력도 갖춰야 하고, 놀라운 정확성도 갖춰야 하기 때문에 성공하기 어렵다"라며 "그러나 딥그램은 4년 동안 기술을 구축하기 위해 노력헀다"라고 밝혔다. 

딥그램의 아우라는 약 12개의 음성 모델을 제공하며, 이 모델들 모두 딥그램 데이터셋으로 훈련됐다. 다른 모델과 비교해 응답 생성을 완료하는 데 걸리는 시간이 매우 신속하다는 설명이다. 

AI포스트(AIPOST) 유진 기자 aipostkorea@naver.com