GPT-4, 다른 언어모델보다 높은 점수 획득

(사진=이디오그램)
(사진=이디오그램)

챗GPT 개발기업 오픈AI가 개발한 거대언어모델 GPT-4가 의료 분야 가운데 하나인 안과학 테스트에서 전공의보다 높은 점수를 기록했다고 전해졌다. 

18일(현지시간) IT 매체 엔가젯 등 외신보도에 따르면 영국 케임브리지 대학교 임상의학과의 연구 결과 오픈AI의 GPT-4가 안과 평가에서 전공의 수준의 성능을 보였다고 18일(현지시간) IT매체 엔가젯이 전했다.

연구진은 GPT-4와 GPT-3.5, 구글 팜2(PaLM 2), 메타 라마(LLaMa)를 대상으로 87개의 객관식 질문으로 구성된 안과 테스트를 실시했다. 동시에 전문의 5명, 전공의 2명, 수련의 3명을 대상으로도 같은 문제를 냈다. 해당 문제는 빛에 대한 민감성에서 병변에 이르기까지 의대 교과서를 기반으로 출제됐다.

출제된 문제는 이전까지 공개된 적이 없어, 인공지능(AI)이 학습할 수 없었을 것이라는 게 연구진의 설명이다. 테스트 결과 GPT-4는 87개 문항 중 60개를 맞혀 수습의와 전공의보다 높은 점수를 받았다. 수련의의 평균 정답 개수는 37개, 전공의는 59.7개였다. 

평균 66.4개로 기록한 전문의만 GPT-4를 능가했다. GPT-4는 의사들뿐만 아니라 다른 기업이 개발한 언어모델들도 넘어섰다. GPT-3.5는 42점, 팜2는 49점, 라마는 28점을 받았다. 

연구원들은 이번 테스트가 특정 범주에서 제한된 수의 질문을 제공했다는 점에 주목했다. 연구진은 모의 테스트와는 달리 실제 결과의 경우 다양할 수 있다고 경고했다. 한편 고려대 컴퓨터학과 강재우 교수 연구팀과 임페리얼 칼리지 런던 대학이 공동으로 개발한 AI 모델 ‘미어캣-7B(Meerkat-7B)’가 최근 미국 의사면허시험(USMLE)을 통과하는 데 성공한 바 있다.

AI포스트(AIPOST) 유진 기자 aipostkorea@naver.com