오픈AIvs딥시크, 구글vs앤트로픽…AI 체스 대결서 '최강 모델' 가린다
구글이 인공지능(AI) 모델들의 전략적 추론, 장기 계획 등 성능을 검증하기 위해 AI 체스 토너먼트를 개최한다고 밝혔다. 이 대회에는 오픈AI의 추론 모델, 앤트로픽의 최신 AI 모델 등이 참가하기로 해 화제를 모으고 있다.
구글의 데이터 과학 커뮤니티 플랫폼 캐글(Kaggle)이 개최하는 첫 AI 체스 토너먼트는 8월 5일(현지시간)부터 7일까지 3일간 열린다. 구글에서는 제미나이 2.5 프로(Gemini 2.5 Pro), 제미나이 2.5 플래시(Gemini 2.5 Flash) 등이 참가한다.
경쟁사에선 오픈AI의 o3와 o4-미니, 앤트로픽의 클로드 오퍼스4(Claude Opus4), xAI의 그록4(Grok4), 딥시크 R1, 키미 K2(Kimi K2) 등 총 8개 모델이 참가한다. 4전 3선승제의 싱글 엘리미네이션 토너먼트방식으로 진행되며, 모든 경기는 캐글 사이트에서 실시간 중계된다.
8월 5일 첫날에는 '딥시크 R1-오픈AI o4-미니', '구글 제미나이 2.5 프로-앤트로픽 클로드 오퍼스4', 'xAI 그록4-구글 제미나이 2.5 플래시', '문샷 AI 키미 K2-오픈AI o3' 등 경기가 스트리밍된다. 8월 6일에는 4개의 모델의 경기가, 마지막 날에는 토너먼트 우승자를 결정하는 챔피언십 라운드가 진행된다.
AI 모델들은 텍스트 기반 입력을 통해 경기를 진행한다. 어떠한 외부 도구에 접근할 수 없다. 각 모델은 가능한 숫자를 직접 계산해야 하며, 잘못된 숫자를 입력하면 최대 3번의 재시도 기회가 주어진다. 모두 실패할 경우 게임에서 패배한다.
각 수를 두는 데 60분의 제한 시간이 적용된다. 캐글은 경기 중 AI 모델이 다음 수를 두기 위해 어떻게 사고하는지를 실시간으로 보여줄 계획이다. 이번 대회는 캐글의 새로운 벤치마킹 플랫폼인 '캐글 게임 아레나(Kaggle Game Arena)'를 기반으로 진행된다. 캐글 게임 아레나는 AI 모델들이 전략 게임에서 정면으로 경쟁하는 새로운 공개 AI 벤치마킹 플랫폼이다.
구글 측은 "현재 AI 벤치마크는 특정 작업에 대한 모델 성능 측정에는 유용하지만, 인터넷 데이터로 학습된 모델이 실제로 문제를 해결하는지, 아니면 이미 본 답을 기억하는 것인지 파악하기는 어려울 수 있다. 새롭고 더욱 어려운 벤치마크에 계속해서 투자하고 있지만, 일반 지능으로 나아가는 과정에서 새로운 평가 방법을 끊임없이 모색해야 한다"라고 했다.
이어 구글 측은 "최근 역동적이고 인간이 판단하는 테스트로의 전환은 이러한 기억 및 포화 문제를 해결하지만, 인간의 선호도에 내재된 주관성으로 인해 새로운 어려움을 야기한다"라며 "지속적으로 발전하고 최신 AI 벤치마크를 추구하는 동시에, 모델 평가에 대한 새로운 접근법을 끊임없이 시험하고 있다. 캐글 게임 아레나를 출시한 이유이다"라고 설명했다.
게임 플랫폼을 출시함으로써 다양한 AI 모델의 진화와 발전을 새로운 방식으로 관찰할 수 있게 됐다. 캐글은 "AI 생태계 내 다른 주요 AI 연구실, 기업, 개인 개발자, 그리고 연구자들과 협력할 수 있게 돼 매우 기쁘다"라며 "학계 연구실부터 개인까지, 연구자와 개발자들이 자신만의 게임과 시뮬레이션 환경을 개발할 수 있도록 인프라를 제공하기 위해 노력할 것"이라고 했다.
메그 리즈달(Meg Risdal) 카글 제품 매니저는 "AI 모델들의 최종 리더보드는 장기적인 벤치마크 역할을 할 것이다"라고 밝혔다. 한편 이번 체스 경기는 매일 오전 10시 30분 캐글 게임 아레나 페이지를 통해 스트리밍된다.