글을 넘어 '말재주'까지…오픈AI, 새로운 모델 'GPT-4o' 공개

챗GPT와 자연스러운 대화 가능해졌다 오디오·비전·텍스트 기능 조합 대화 가능

2024-05-14 조형주 기자

(사진=오픈AI)

오픈AI가 13일(현지시간) 오디오, 비전, 텍스트를 통합한 멀티모달 모델 ‘GPT-4o’를 온라인을 통해 발표했다. 음성 기능이 강화되면서 챗GPT와 자연스러운 대화가 가능해졌다.

새롭게 공개된 플래그십 생성형 인공지능(AI) 모델인 'GPT-4o'는 기존 GPT-4 모델을 기반으로 하며, 전 세계 50개 언어를 지원한다. ‘o’는 하나의 통합된 AI 모델을 의미하는 ‘옴니모델(omnimodel)’을 의미한다.

이번 모델은 텍스트, 오디오, 이미지 등을 주고 받으며 대화를 할 수 있다는 것이 특징이다. 또 GPT-4o의 API는 이전 모델인 GPT-4보다 2배 더 빨라졌다는 설명이다. 그러면서 가격은 50% 저렴한 수준이다.

가장 큰 강점은 음성 기능이다. 사용자가 챗GPT에 말을 걸면 지연없이 실시간으로 응답을 받을 수 있다. 기존 챗GPT의 경우 음성으로 명령을 내리면 문장을 입력하는 정도였다면, 이번 모델에서는 사용자가 음성으로 말을 걸면 음성으로 AI가 답변을 할 수 있다.

오픈AI는 시연에서 사람과 대화를 하는 듯한 모습을 연출했다. 미라 무라티(Mira Murati) 오픈AI 최고기술책임자는 “상호 작용 경험이 실제로 더 자연스럽고 쉬워지고, 사용자가 챗GPT와의 협업에만 집중할 수 있기를 바란다"라며 "앞으로 기능은 더욱 발전할 것"이라고 밝혔다.

향후 챗GPT가 라이브 스포츠 경기를 보며 규칙을 설명하거나 해설을 할 수 있을 정도까지 발전할 것으로 보인다. GPT-4o의 텍스트 및 이미지 기능은 공개일인 13일부터 즉시 제공된다. GPT-4o는 일반 사용자에게도 개방된다.

유료 구독 서비스인 챗GPT 플러스 사용자에게는 음성 처리가 가능한 GPT-4o 버전이 제공될 예정이다.