인공지능(AI)의 성능을 평가하는 새로운 벤치마크 테스트에서 최신 AI 모델들이 절반의 정답률도 넘기지 못한 것으로 나타났다.

과학 전문 매체 IFL사이언스는 3일(현지시간) 대학원 수준의 지식을 요구하는 '인류의 마지막 시험(HLE)' 평가 결과를 보도했다. 연구진은 기존 대규모언어모델(LLM) 평가 지표의 한계를 극복하기 위해 이 평가를 고안했다.

연구진에 따르면 최근 AI 모델들은 기존 주요 벤치마크에서 90% 이상의 정답률을 기록하고 있다. 이에 따라 최첨단 AI의 실제 능력을 정확히 측정하기 어렵다는 지적이 나왔다.

새롭게 도입된 HLE는 전 세계 전문가들이 개발한 2500개 문항으로 이뤄졌다. 과학과 인문학 등 다양한 분야를 포함하며 인터넷 검색으로 쉽게 답을 찾을 수 없도록 설계했다. 깊은 추론 능력을 평가하기 위해 수학 문제가 전체의 41%를 차지한다.

평가 결과 최신 AI 모델들은 전반적으로 낮은 정답률을 보였다. 초기 테스트에서 오픈AI의 GPT-4o는 2.7%의 정답률을 기록했다. 구글의 제미나이 2.5 프로는 22%, GPT-5는 25%의 정답률에 머물렀다.

이후 HLE 웹사이트에 업데이트된 최신 결과에서는 제미나이 3.1 프로가 45.9%의 정답률로 1위를 기록했다. 챗GPT-5.2는 36.6%의 정답률을 보였다.

연구진은 AI 모델들이 낮은 정답률에도 자신의 답변이 맞다고 확신하는 지나친 자신감을 보였다고 지적했다. 제미나이 3.1 프로와 챗GPT-5.2의 교정 오차율(Calibration error)은 각각 50.3%와 55.1%로 나타났다.

퉁 응우옌 텍사스 A&M 대학교 교수는 "정확한 평가 도구가 없다면 정책 입안자와 개발자가 AI 시스템의 실제 능력을 오해할 위험이 있다"며 "벤치마크는 발전을 측정하고 위험을 식별하는 기반을 제공한다"고 설명했다.

현재 HLE 시험 문제는 대중에게 공개됐다. 다만 AI가 정답을 검색하는 것을 막기 위해 해답은 공개하지 않았다.