인공지능(AI) 모델들의 성능이 날로 발전하고 있다. 대학생, 대학원생을 넘어 박사급 능력을 갖췄다는 AI 모델까지 등장했다. AI 시장을 견인하는 오픈AI는 '박사급 인공지능' GPT-5를 최근 출시했다.
샘 알트만 최고경영자(CEO)는 "GPT-5를 사용한 뒤 GPT-4로 돌아가는 것은 정말 힘들었다"라며 "GPT-3는 고등학생, GPT-4는 대학생과 대화하는 느낌이었다면 GPT-5는 박사급 전문가와 대화하는 느낌이다"라고 밝혔다.
수학, 과학, 코딩 등 주요 벤치마크 테스트에서 최고의 성능을 보였다고 한다. 그러면서도 알트만 CEO는 "사람처럼 다양한 문제를 해결하는 범용 AI는 아니다"라며 "인공일반지능(AGI) 구현을 위해서는 학습이 지속돼야 한다"라고 덧붙였다.
박사급 전문가 수준이라면서도 아직까지 AGI에 도달하지 못했다는 이야기다. AGI는 인간의 개입 없이 모든 일을 스스로 수행하는 AI로 이해되고 있다. 아직까지 명확한 정의가 없지만, 업계에선 AI가 스스로 추론하고 성장할 수 있는 단계를 AGI로 보고 있다.
구글 딥마인드는 최근 다양한 상호작용 환경을 만들어낼 수 있는 범용 월드 생성 모델인 지니 3를 발표하며 관심을 받고 있다. 해당 모델은 프롬프트와 이미지를 조합해 3D 세계를 생성할 수 있다. 이를 통해 사람이 현실 세계에서 학습하는 방식과 유사하게 AI 에이전트가 학습할 수 있도록 지원한다는 게 핵심이다.
구글 딥마인드 개방성 팀의 연구 과학자인 잭 파커-홀더는 "실제 세계 시나리오를 시뮬레이션하는 것이 특히 어려운 에이전트의 경우 인공일반지능(AGI)로 가는 길에서 세계 모델이 핵심이라고 생각한다"라고 말했다. 몇 년 전까지만 하더라도 상상하지도 못했던 '지니 3'와 같은 기술도 AGI로 향하는 디딤돌 정도 수준이라는 것이다.
그렇다면 최첨단 AI 모델들이 AGI로 평가받지 못하는 이유는 뭘까. 이같은 질문에 대해 구글 딥마인드 CEO인 데미스 허사비스(Demis Hassabis)는 '일관성이 핵심'이라고 답했다. 허사비스 CEO는 최근 한 팟캐스트에서 제미나이와 같은 고급 모델이 대부분의 학생들이 해결하는 문제에도 여전히 어려움을 겪고 있다고 주장했다.
허사비스 CEO는 '제미나이 딥 싱크(Gemini Deep Think)'를 예로 들며 "고등학교 수학에서 여전히 간단한 실수를 할 수 있다"라며 "균일하지 않은 지능, 들쭉날쭉한 지능 때문"이라고 했다. 제미나이 딥 싱크는 국제수학올림피아드(IMO)에서 금메달에 해당하는 점수를 공식으로 인정받은 모델이다.
그는 "어떤 차원에서는 정말 훌륭하지만, 다른 차원에서 약점이 아주 쉽게 드러나기도 한다"라고 덧붙였다. 순다르 피차이 구글 CEO도 허사비스와 비슷한 견해를 밝힌 바 있다. 피차이 CEO는 현재 AI 개발 단계를 ‘AJI(Artificial Jagged Intelligence)’라고 표현했다.
AJI는 특정 분야에서 탁월하지만, 다른 분야에서 터무니없는 실수를 하는 시스템을 설명하기 위해 사용되는 개념이다. 허사비스 CEO는 이러한 문제를 해결하기 위해서는 데이터와 컴퓨팅을 확장하는 것 이상이 필요하다고 말했다.
그는 '추론 및 계획 능력의 일부 부족한 기억력' 문제를 개선해야 한다고 강조했다. 더불어 깊은 사고를 통해 여러 계획을 병렬로 진행해 최적의 선택을 할 수 있는 과정도 중요하며, 모델의 우수성과 부적합성을 정확히 판단하기 위한 더 나은 테스트와 엄격한 벤치마크도 필요하다고 덧붙였다.
한편 허사비스 CEO는 "앞으로 5년에서 10년 안에, 혹은 그보다 더 짧은 기간 안에 AGI라고 부를 만한 무언가가 등장할 지도 모른다"라고 밝힌 바 있다. 젠슨 황(Jensen Huang) 엔비디아 창업자도 5년 내로 인간과 같은 수준의 인공일반지능이 등장할 것이라고 내다봤다.
AI포스트(AIPOST) 진광성 기자 aipostkorea@naver.com

