코딩·수학·과학 문제 척척 해결하는 AI, '이 과목'엔 약하다는데?
오스트리아 연구진, 역사 벤치마크 공개
그야말로 인공지능(AI) 전성시대다. 최근 추론에 특화된 AI까지 등장하며 코딩, 수학, 과학 등 분야에서도 괄목할 만한 성과를 내고 있다. 이 가운데 AI가 역사 분야에서 약하다는 논문이 발표돼 눈길을 끈다.
오스트리아 민간 연구기관 '복잡성 과학 허브(CSH·Complexity Science Hub)' 연구진은 최근 생성형 AI 모델들의 역사적 식견을 평가할 수 있는 새로운 벤치마크를 발표했다. 벤치마크 'Hist-LLM'은 방대한 역사적 지식 데이터베이스인 '세샤트'를 기반으로 제작됐다.
연구진은 오픈AI의 GPT-4, 메타의 라마(Llama), 구글의 제미나이 등을 대상으로 실험을 진행했다. 실험은 역사적 질문에 AI가 내놓는 답변을 평가하는 방식으로 진행됐다. 그 결과 가장 성능이 좋은 LLM은 'GPT-4 터보'로 밝혀졌다.
GPT-4 터보는 가장 좋은 평가를 받았지만, 정확도는 약 46%에 불과하다. 대부분의 LLM들은 더 낮은 점수를 기록했다. 연구진은 "이 연구의 요점은 LLM이 고급 역사에 필요한 심층적 이해가 부족하다는 것"이라고 밝혔다.
역사적 사실을 묻는 질문에는 제대로 된 답변을 내놓지만, 박사급 수준의 역사적 해석이 필요한 질문에는 만족할 만한 답변을 제공하지 못했다는 이야기다. 코딩과 같은 복잡한 작업에 능숙하지만, AI가 역사적 질문을 답하는 데 서툰 이유가 뭘까.
이와 관련 연구진은 IT 매체 테크크런치에 "LLM이 매우 눈에 띄는 역사적 데이터를 기반으로 예측하는 경향이 있기 때문에 더 모호한 역사적 지식을 검색하는 데 어려움을 겪기 때문일 가능성이 있다"라고 설명했다.
예컨대 연구자들이 GPT-4에 '고대 이집트에 특정 기간 동안 전문 상비군이 있었는가'를 물었을 때 LLM은 '그렇다'라고 오답을 내놓았다. 이처럼 오답을 내놓는 이유는 페르시아와 같은 다른 고대 제국에 상비군이 있었다는 공개 정보가 많기 때문일 가능성이 크다는 것이다.
연구진은 "A와 B를 100번 들었고, C를 한 번 들었다가 C에 대한 질문을 받으면 A와 B만 기억하고 거기서 추론을 시도할 수도 있다"라고 설명했다. 연구진은 "이번 연구 결과에 따르면 LLM은 여전히 특정 분야에서 인간을 대체할 수는 없는 것으로 나타났다"라고 밝혔다.