최신 생성형 인공지능(AI)은 대학생 과제를 채점하기에 아직 역부족이며, 학문적 내용보다 문체에 더 후한 점수를 준다는 연구 결과가 나왔다.

영국 케임브리지대학교가 이끄는 연구팀은 21일(현지시간) 이 같은 내용의 보고서를 발표했다. 연구팀은 클로드와 GPT 등 최신 AI 모델을 이용해 영국 3개 대학 심리학과 학부생의 과제 및 시험 답안 761개를 채점하게 한 뒤 인간 채점관의 결과와 비교했다.

분석 결과, AI의 채점 결과가 인간 채점관이 부여한 학점 등급과 일치하는 비율은 35~65%에 그쳤다. 특히 AI는 인간이 최고점을 준 에세이는 과소평가하고, 최하위 등급을 준 에세이는 과대평가하는 '중심 집중 경향'을 보였다.

또한 AI는 과제의 학문적 질과 상관없이 에세이 길이, 어휘 범위, 문장 복잡성 등 언어적 특징에 과민하게 반응했다. 내용의 깊이보다 유려한 문체를 선호하는 경향이 뚜렷하게 나타난 것이다.

연구를 이끈 데버라 탈미 케임브리지대 박사는 "최신 AI 모델에 의존하면 학생 평가는 동질화되고, 뛰어난 결과물은 저평가되며, 학문적 판단의 본질보다 언어적 스타일을 선호하게 될 것"이라고 지적했다.

공동 저자인 알렉산드루 마르코치 박사도 "AI는 최고 등급과 불합격의 경계처럼 평가 결정이 가장 중요한 부분에서 가장 부정확하다"고 덧붙였다.

연구에 참여한 학생과 교직원들은 AI가 자신의 과제를 채점할 경우 "속은 기분"이 들 것이라고 답했다. 또한 AI에 의존하는 것은 교육의 핵심인 신뢰, 동기 부여, 인간적 교감을 약화시킬 위험이 있다고 경고했다.

다만 연구팀은 AI가 오류 감지나 일관성 확인 등 '두 번째 검토자' 역할을 하거나, 학생 피드백을 분류하는 등 보조적인 역할은 수행할 수 있을 것으로 봤다. 그러나 최종 점수는 반드시 인간이 결정해야 한다고 강조했다.