인공지능(AI)의 온라인 혐오 표현 탐지 정확도를 높이고 비용을 절감하기 위해 경제학 이론을 접목한 연구 결과가 나왔다.
미국 뉴저지공과대학의 위안 자오 연구원은 12일(현지시간) 필라델피아에서 열린 제190차 미국음향학회(ASA) 회의에서 대규모 언어 모델(LLM)의 혐오 발언 분류 성능을 평가하는 저비용의 해석 가능한 방법론을 발표했다.
소셜미디어 등 온라인 공간에서는 막대한 콘텐츠 규모로 인해 효과적인 혐오 표현 관리가 어려운 실정이다. LLM이 대안으로 떠올랐지만, 방대한 데이터를 처리하는 데 드는 막대한 비용과 신뢰성 문제가 한계로 지적돼왔다.
자오 연구원의 연구는 인간의 행동을 설명하기 위해 개발된 경제학 이론인 '합리적 부주의(Rational Inattention·RI)' 모델에 기반한다. 이 모델은 인간이 주의력이 제한적일 때, 가장 큰 효과를 얻을 수 있는 중요한 결정에 주의를 집중하는 경향이 있다는 개념이다.
연구팀은 LLM을 인간과 다르지만 '성능과 계산 비용 사이의 절충에 직면한 의사결정자'로 간주하고 이 모델을 적용했다. 자오 연구원은 "우리의 접근 방식은 RI 모델을 LLM의 의사결정 방식을 이해하기 위한 간단하면서도 해석 가능한 도구로 사용한다"고 설명했다.
연구팀은 다양한 조건에서 LLM을 테스트한 결과, LLM이 합리적인 의사결정자처럼 행동한다는 사실을 확인했다. 또한 RI 모델을 통해 LLM의 행동을 모방한 결과, 여러 조건에서 LLM의 성능 변화를 정확하게 예측할 수 있었다.
이 분석은 온라인 플랫폼이 콘텐츠 관리 시스템을 개선하는 데 활용될 수 있다. 자오 연구원은 "RI 같은 모델은 텍스트가 모호해지거나 의도적으로 위장됐을 때 LLM의 성능 변화를 보여줌으로써 신뢰도를 높일 수 있다"며 "이는 플랫폼이 언제 인간의 검토가 필요한지, 시스템 개선이 필요한 부분을 식별하는 데 도움이 된다"고 밝혔다.

