최신 인공지능(AI) 모델이 인간의 주의력을 측정하는 고전 심리 검사에서 근본적인 한계를 드러냈다.

2일(현지시간) 수케투 파텔 연구팀이 공개한 연구 결과에 따르면, 대규모언어모델(LLM)은 단어의 의미와 글자 색상이 다른 상황에서 과제를 지속하는 데 어려움을 겪었다.

연구팀은 '스트룹 검사'를 통해 AI의 주의력 메커니즘을 분석했다. 스트룹 검사는 '빨강'이라는 단어를 파란색 잉크로 인쇄하고, 단어의 의미가 아닌 잉크 색상('파랑')을 말하도록 요구하는 방식이다. 이는 자동적인 반응(단어 읽기)을 억제하는 통제 능력을 평가하는 데 사용된다.

실험 결과, 오픈AI의 최신 모델인 'GPT-4o'는 단어 5개 목록에서는 91%의 높은 정확도를 보였다. 하지만 목록이 10개로 늘어나자 정확도는 57%로 떨어졌고, 40개에서는 15%까지 급락했다.

앤트로픽의 '클로드 3.5 소네트' 역시 단어 20개까지는 안정적인 성능을 유지했으나 40개 목록에서는 정확도가 24%로 크게 하락했다. GPT-5, 클로드 오푸스 4.1, 제미나이 2.5 등 다른 모델에서도 비슷한 결과가 나타났다.

이는 AI가 '단어 읽기'라는 기본 설정된 작업을 억제하고 '색상 말하기'라는 주어진 과제에 집중하지 못했기 때문이다. 인간 역시 이런 상황에서 반응 시간이 길어지지만, 긴 목록에서도 높은 정확도를 유지하며 과제에 집중할 수 있다.

연구팀은 "LLM의 성능 붕괴는 생물학적 주의력과 비교했을 때 근본적인 한계가 있음을 시사한다"고 지적했다.