(사진=트윈마인드)
(사진=트윈마인드)

구글 내 최고의 두뇌집단으로 불렸던 비밀 연구조직 '구글X(엑스)' 출신들이 설립한 인공지능(AI) 스타트업 '트윈마인드(TwinMind)'가 새로운 AI 모델인 이어-3(Ear-3)를 출시했다. 

트윈마인드는 구글 비밀 연구조직 구글X 출신인 다니엘 조지 최고경영자(CEO), 서니 탕 최고기술책임자(CTO), 마히 카림 수석과학자가 지난 2024년 설립한 기업이다. 이들은 개인정보를 침해하지 않으면서 실시간으로 지능을 향상시키는 '개인화된 AI'를 개발하는 것을 목표로 하고 있다. 

트윈마인드는 AI 음성 기능을 통해 사용자에 대한 정보를 학습하고 유지하면서, 맥락을 이해할 수 있다. 특히 사용자 주변에서 무슨 일이 일어나고 있는지 AI가 듣고 이해하고, 기억한다는 것이 특징이다. 이후 해당 내용을 기반으로 사용자 질문에 답하고, 나아가 질문하지 않아도 정보가 필요한 적절한 순간에 자동으로 도움을 준다고 한다. 

트윈마인드 공동 설립자들. (사진=트윈마인드)
트윈마인드 공동 설립자들. (사진=트윈마인드)

회의, 인터뷰 및 기타 대화 중에 실시간 답변, 아이디어 및 제안을 받을 수 있어 유용하다는 설명이다. 예를 들어 학생들은 강의를 들으면서 필기를 굳이 하지 않아도 된다. 트윈마인드의 AI 도구가 교수들의 음성을 듣고 강의 노트를 작성하고, 학습 가이드를 만들어줄 수 있기 때문이다. 

이러한 AI 도구를 개발해 온 트윈마인드는 AI 조수 기능을 향상시킨 차세대 모델 '이어-3'를 최근 공개했다. 다니엘 조지 CEO는 "우리는 소비자 제품인 AI '자비스(Jarvis)'를 통해 하루 종일 도움을 주기 위해 열심히 노력했다. 그렇게 우연히 세계에서 가장 정확한 음성 인식 서비스를 발명하게 됐다"라고 설명했다. 

자사의 AI 도구를 영화 아이언맨에서 주인공을 돕는 AI 비서 '자비스'를 빗대 소개한 것이다. 트윈마인드는 이번에 출시한 '이어-3'가 다른 모델보다 음성 인식 오류율이 현저히 낮다고 강조했다. 회의 중에 AI 도구를 사용하더라도 어떤 화자가 무엇을 말했는지를 정확하게 식별할 수 있다는 이야기다.  

(사진=트윈마인드)
(사진=트윈마인드)

서니 탕 CTO는 "세계 대부분의 사람들은 자신만의 억양을 가지고 있다. 이어-3는 모든 지역 억양과 방언을 아우르는 최초의 사용 가능한 모델이다"라며 "심지어 저희 어머니가 한 문장 안에서 힌디어, 벵골어, 영어를 번갈아 사용하는 것조차 이해할 수 있었다"라고 했다. 

직접 비교 평가에서 일레븐랩스, 딥그램, 어셈블리 AI 등 기존의 주요 서비스보다 훨씬 우수한 성능을 보였다고 한다. 전 세계 140개 이상의 언어를 지원하며, 다국어 및 혼합 문자 음성을 수월하게 처리할 수 있다. 

AI 모델들의 단어 필사 오류율(WER). (사진=트윈마인드)
AI 모델들의 단어 필사 오류율(WER). (사진=트윈마인드)

이어-3 사용자는 앱을 열고 주요 순간으로 구분된 하루의 판독 결과를 볼 수 있다. 더불어 사용자는 자신의 하루를 함께 보낸 AI와 일상에 대해 이야기할 수 있다. 오디오 데이터는 텍스트로 변환된 이후 즉시 삭제된다. 사용자의 검색 기록도 특정 버튼을 클릭할 때만 수집하기 때문에 개인정보 유출 우려도 없다고 트윈마인드는 설명했다. 

모든 채팅 기록은 기기에 로컬로 저장되고, 안전하게 암호화된다고 한다. 다니엘 조지 CEO는 "우리는 몇 년 안에 모든 사람이 자신의 삶을 전부 알고 인터넷에서 전 세계의 지식에 접근할 수 있는 개인화된 AI 동반자를 갖게 될 것이라고 확신한다"라며 "사람들이 정보에 접근하는 방식이 될 것이다"라고 했다.

AI포스트(AIPOST) 유형동 수석기자 aipostkorea@naver.com