오스트리아 연구진, 역사 벤치마크 공개

기사의 이해를 돕기 위해 AI 도구로 제작한 이미지. (사진=미드저니)
기사의 이해를 돕기 위해 AI 도구로 제작한 이미지. (사진=미드저니)

그야말로 인공지능(AI) 전성시대다. 최근 추론에 특화된 AI까지 등장하며 코딩, 수학, 과학 등 분야에서도 괄목할 만한 성과를 내고 있다. 이 가운데 AI가 역사 분야에서 약하다는 논문이 발표돼 눈길을 끈다. 

오스트리아 민간 연구기관 '복잡성 과학 허브(CSH·Complexity Science Hub)' 연구진은 최근 생성형 AI 모델들의 역사적 식견을 평가할 수 있는 새로운 벤치마크를 발표했다. 벤치마크 'Hist-LLM'은 방대한 역사적 지식 데이터베이스인 '세샤트'를 기반으로 제작됐다. 

연구진은 오픈AI의 GPT-4, 메타의 라마(Llama), 구글의 제미나이 등을 대상으로 실험을 진행했다. 실험은 역사적 질문에 AI가 내놓는 답변을 평가하는 방식으로 진행됐다. 그 결과 가장 성능이 좋은 LLM은 'GPT-4 터보'로 밝혀졌다. 

GPT-4 터보는 가장 좋은 평가를 받았지만, 정확도는 약 46%에 불과하다. 대부분의 LLM들은 더 낮은 점수를 기록했다. 연구진은 "이 연구의 요점은 LLM이 고급 역사에 필요한 심층적 이해가 부족하다는 것"이라고 밝혔다. 

기사의 이해를 돕기 위해 AI 도구로 제작한 이미지. (사진=미드저니)
기사의 이해를 돕기 위해 AI 도구로 제작한 이미지. (사진=미드저니)

역사적 사실을 묻는 질문에는 제대로 된 답변을 내놓지만, 박사급 수준의 역사적 해석이 필요한 질문에는 만족할 만한 답변을 제공하지 못했다는 이야기다. 코딩과 같은 복잡한 작업에 능숙하지만, AI가 역사적 질문을 답하는 데 서툰 이유가 뭘까. 

이와 관련 연구진은 IT 매체 테크크런치에 "LLM이 매우 눈에 띄는 역사적 데이터를 기반으로 예측하는 경향이 있기 때문에 더 모호한 역사적 지식을 검색하는 데 어려움을 겪기 때문일 가능성이 있다"라고 설명했다. 

예컨대 연구자들이 GPT-4에 '고대 이집트에 특정 기간 동안 전문 상비군이 있었는가'를 물었을 때 LLM은 '그렇다'라고 오답을 내놓았다. 이처럼 오답을 내놓는 이유는 페르시아와 같은 다른 고대 제국에 상비군이 있었다는 공개 정보가 많기 때문일 가능성이 크다는 것이다. 

연구진은 "A와 B를 100번 들었고, C를 한 번 들었다가 C에 대한 질문을 받으면 A와 B만 기억하고 거기서 추론을 시도할 수도 있다"라고 설명했다. 연구진은 "이번 연구 결과에 따르면 LLM은 여전히 특정 분야에서 인간을 대체할 수는 없는 것으로 나타났다"라고 밝혔다.

AI포스트(AIPOST) 조형주 기자 aipostkorea@naver.com