'메시·페이커 경기' AI가 중계한다…오픈AI GPT-4 터보 활용 콘텐츠 쏟아져
오픈AI, 6일(현지시간) GPT-4 터보 공개 이미지 인식 비전 기능·TTS 기능 탑재돼 영상과 명령어 줬더니 AI가 해설까지 한다
메시가 경기장의 마술사가 된 것처럼 드리블을 합니다. 관중들이 포효하고 있습니다. 믿을 수 있습니까. 슛을 날립니다. 메시, 메시, 메시, 메시, 믿을 수 없는 정말 멋진 골입니다. 최고의 축구 마법입니다. 오직 메시입니다.
인공지능(AI)이 메시의 경기 영상을 분석한 뒤 내놓은 실시간 해설 내용이다. 심지어 이를 스포츠 캐스터와 같이 실감나는 음성으로까지 구현했다. 상상 속에서만 존재했던 미래 모습이 이제 현실이 됐다. 오픈AI가 최근 공개한 새로운 모델 'GPT-4 터보' 덕분이다.
오픈AI는 챗GPT를 공개한 지 약 1년 만에 업그레이드 버전을 내놓았다. 6일(현지시간) 열린 '오픈AI 데브데이(DevDay)'에서 샘 알트만 오픈AI 최고영영자(CEO)는 새로운 기술을 선보였다. 코딩을 모르는 사람들도 자신만의 GPT를 구축할 수 있는 '맞춤형 챗GPT' 기술을 시연했다.
앞으로 개발자들은 응용 프로그래밍 인터페이스(API)를 활용해 맞춤형 GPT에 외부 플러그인을 연결할 수도 있게 됐다. 기업들은 이를 학습시켜 기업 내부에서만 사용하는 GPT로 만들 수 있다. 이와 동시에 같은 날 공개된 새로운 모델 'GPT-4 터보'가 업계 화두가 되고 있다.
'GPT-4 터보'는 최대 300페이지까지 입력이 가능하고, 이미지를 인식하는 비전 능력을 탑재하고 있다. 또 이미지를 그리는 달리(DALLE)-3 능력, 텍스트를 음성으로 바꾸는 TTS 기능을 기본으로 탑재했다고 한다. TTS에서는 총 6개 목소리를 제공한다.
이런 기능이 공개되자, GPT-4 터보를 활용, 새로운 콘텐츠를 만드는 시도가 이어지고 있다. 기술이 공개된 지 불과 이틀 만에 엄청난 결과물들이 만들어지고 있는 것. 특히 메시의 축구 경기를 해설하는 영상이 화제를 모으고 있다. 관중들의 모습과 메시가 드리블하는 장면을 AI가 분석해 중계를 해주는 영상이다.
소스코드 저장소 '깃허브' 게시물에 따르면 메시가 공을 차는 영상의 프레임을 비전 프리뷰로 쪼갠 뒤 TTS 기능을 활용해 나레이션으로 제작하는 방식이다. 간단한 몇 가지 프롬프트들로 이런 일들이 가능해진 것이다. 해외 이용자들이 주를 이루는 엑스(X, 옛 트위터)에도 놀라운 콘텐츠들이 속속 공유되고 있다.
리그오브레전드(LoL) 해설 영상도 화제다. 'pwang_szn'라는 아이디를 사용하는 유저는 '정말 멋지다'라며 오픈AI 비전 API와 TTS 기능을 활용한 영상을 게시했다. 해당 영상에서는 리그오브레전드 게임 영상을 AI가 해설하는 장면이 담겼다. 이 게시물은 오픈AI의 공동창업자인 그렉 브록만(Greg Brockman) 공식 트위터에 공유되기도 했다.
이처럼 혁신적인 기술을 탑재한 'GPT-4 터보'는 최신 모델로, 개발자가 이용할 수 있는 비용이 이전 버전의 평균 2.75분의 1(36%) 수준으로 낮아졌다고 오픈AI 측은 설명했다. 알트먼 CEO는 "오픈AI는 현재 주간 활성 이용자 수 1억명을 보유하고 있다"며 "포춘지가 선정한 500대 기업 중 92% 이상이 챗GPT를 사용하고 있다"고 말했다.