구글 딥마인드의 '지니 3'가 생성한 3D 환경. (사진=구글 딥마인드)
구글 딥마인드의 '지니 3'가 생성한 3D 환경. (사진=구글 딥마인드)

구글 딥마인드가 범용 인공지능(AI) 에이전트를 훈련하는 데 활용할 수 있는 월드 생성 모델인 '지니 3(Genie 3)'를 공개했다. 

구글 딥마인드는 5일(현지시간) 다양한 상호작용 환경을 만들어낼 수 있는 범용 월드 생성 모델인 지니 3를 발표했다. 구글 딥마인드는 "10년 넘게 시뮬레이션 환경 연구를 선도해 왔다. 실시간 전략 게임을 마스터하기 위한 에이전트 훈련부터 개방형 학습 및 로봇 공학을 위한 환경 개발까지 다양한 연구를 수행했다"라고 했다. 

지니 3는 프롬프트와 이미지를 조합해 3D 세계를 생성할 수 있는 모델이다. 대규모 비디오 데이터셋을 학습한 모델이다. 텍스트로 원하는 세계를 설명하기만 하면 3D 월드가 만들어지는 셈이다. 간단한 프롬프트만으로도 초당 24프레임, 720p의 해상도로 몇 분 분량의 3D 환경을 생성한다. 생성형 AI 기능을 기반으로 작동하기 때문에 즉석에서 새로운 콘텐츠를 생성한다. 

"런던 거리, 용"이라는 프롬프트에 '지니 3'가 만들어 낸 3D 월드. (사진=구글 딥마인드)
"런던 거리, 용"이라는 프롬프트에 '지니 3'가 만들어 낸 3D 월드. (사진=구글 딥마인드)

지니 2 모델이 10초에서 20초 분량의 3D 월드를 제작할 수 있었던 것에 비해 상당한 진전이다. '지니 3'는 지난해 이전 모델인 '지니 2'와 딥마인드의 최신 비디오 생성 모델 '비오 3'를 기반으로 구축됐다. 시간이 지나도 물리적으로 일관성을 유지할 수 있다는 게 가장 큰 장점이다. 

개방성 팀의 연구 과학자인 잭 파커-홀더는 "실제 세계 시나리오를 시뮬레이션하는 것이 특히 어려운 에이전트의 경우 인공일반지능(AGI)로 가는 길에서 세계 모델이 핵심이라고 생각한다"라고 말했다. 

지니 3는 자신이 생성한 데이터를 기억하고 장기간에 걸쳐 추론함으로써 세상의 작동 방식을 스스로 학습할 수 있다. 쉽게 말해 사람이 현실 세계에서 학습하는 방식과 유사하게 AI 에이전트가 학습할 수 있도록 지원한다는 것이다. 

"정원, 호스에 접근하기"라는 프롬프트에 '지니 3'가 만들어 낸 3D 월드. (사진=구글 딥마인드)
"정원, 호스에 접근하기"라는 프롬프트에 '지니 3'가 만들어 낸 3D 월드. (사진=구글 딥마인드)

구글 딥마인드 연구진은 게임 전용 AI 에이전트 '시마(SIMA)에 '지니 3'를 연동해 성능을 테스트했다. 연구진은 "호스에 접근하기", "항아리를 찾아가라" 등의 작업을 수행하도록 요청했다. 주변 환경을 살피던 AI 에이전트가 복잡한 작업 등도 모두 정확히 수행할 수 있었다고 연구진은 전했다. 

지난해 '지니 2'가 공개됐을 때만 하더라도 사용자가 직접 3D 환경을 탐색할 수 있다는 점에서 페이페이 리 교수의 월드랩스가 공개한 AI 모델과 유사하다는 평가가 나오기도 했다. 8개월 만에 새로운 모델을 출시한 구글 딥마인드가 보다 앞선 기술력을 바탕으로 '월드랩스'의 기술과 차별화를 꾀하고 있다는 분석이 나온다. 

구글 딥마인드 측은 "지니 3는 일관성을 유지할 수 있기 때문에 더 긴 일련의 동작을 실행해 더욱 복잡한 목표를 달성할 수 있다"라며 "AGI를 향해 나아가고 에이전트가 세상에서 더 큰 역할을 수행함에 따라 이 기술이 중요한 역할을 할 것으로 기대한다"라고 밝혔다.

AI포스트(AIPOST) 윤영주 기자 aipostkorea@naver.com