AI의 가혹한 평가, 사람 실수보다 더 신뢰했다

인공지능(AI)이 내린 가혹한 평가는 사람이 한 실수보다 수정될 가능성이 더 작다는 연구 결과가 나왔다.

리지사 메갈로코노무 연구팀은 그리스 현직 교사 1300여명을 대상으로 AI 결정에 대한 인간의 감독 패턴을 분석해 이 같은 결과를 9일(현지시간) 발표했다.

연구팀은 교사들에게 AI 또는 동료 교사가 채점했다고 표시된 학생의 서술형 답안지를 검토하도록 요청했다. 제시된 점수 중 일부는 지나치게 후했고, 다른 일부는 지나치게 박했다.

실험 결과, 교사들은 점수 출처와 상관없이 제시된 점수에 크게 영향을 받는 경향을 보였다. 후한 점수의 경우 AI와 사람의 실수를 비슷한 수준으로 바로잡았다.

하지만 점수가 지나치게 박할 때는 다른 양상을 보였다. 교사들은 AI가 매긴 점수일 경우, 동료 교사가 매겼을 때보다 실수를 덜 수정하는 경향이 나타났다.

이로 인해 교사들이 최종적으로 매긴 점수와 공정한 점수 사이의 격차는 AI가 채점했다고 표시됐을 때가 22% 더 컸다.

연구팀의 설문조사 결과, 교사들은 AI 시스템을 유능하고 책임감 있다고 볼수록 AI의 엄격한 점수를 더 수용하는 경향이 있었다.

연구팀은 "이번 결과는 AI 의사결정자의 작업을 효과적으로 확인하는 인간의 능력에 한계가 있을 수 있음을 시사한다"고 설명했다.