AI도 인성 검사…'지나친 이타심'도 교정 가능

인공지능(AI) 챗봇의 사회성을 측정하고 이기적이거나 지나치게 이타적인 행동을 교정할 수 있는 평가 체계가 개발됐다.

미국 텍사스대 오스틴 캠퍼스 연구팀은 28일(현지시간) 국제학술지 '인포메이션 시스템즈 리서치'에 이 같은 내용의 '수바(SUVA)' 프레임워크를 공개했다.

최근 AI 챗봇이 위험한 행동을 추천하거나, 반대로 지나치게 순종적인 모습을 보이는 등 사회적 판단력에 대한 문제가 제기돼왔다. 연구팀은 기업이 AI를 고객 응대 등에 활용하기 전, 모델의 성향을 파악하고 미세 조정할 필요가 있다고 설명했다.

수바는 '상태-이해-가치-행동'의 약자로, 특정 상황을 제시하고 AI가 이를 어떻게 이해하며 어떤 가치를 기반으로 행동을 결정하는지 단계별로 분석한다. 이는 행동경제학의 고전 실험인 '독재자 게임'과 유사한 방식이다.

연구팀은 AI에게 자신과 다른 대상에게 점수를 분배하도록 하는 시나리오를 제시했다. 다른 대상에게 점수를 많이 줄수록 사회성이 높다고 판단했다.

챗GPT 개발사 오픈AI의 GPT, 메타의 라마 등 8개 대규모언어모델(LLM)을 대상으로 수천 번의 테스트를 진행한 결과, 대부분 모델은 완전히 이기적이지 않았으며 사회적 복지를 고려하는 경향을 보였다.

특히 상대방과 고향이 같다는 등 공통점이 있다고 알려주자 사회 복지를 고려하는 성향이 최대 40%포인트까지 증가했다. 또한 동료와 보너스를 나누는 등 업무 환경을 설정하자 점수를 균등하게 나누려는 경향이 강해졌다.

연구팀은 이 프레임워크를 통해 기업이 특정 목적에 맞는 AI 모델을 선택하거나, 필요에 따라 더 관대하거나 덜 관대하도록 미세 조정할 수 있다고 밝혔다. 예를 들어 고객 서비스용 AI 에이전트의 성향을 조절하는 것이 가능하다.

연구를 이끈 얀 렝 교수는 "모델이 조금이라도 바뀔 때마다 체계적인 감사가 필요하다"고 강조했다. 연구팀은 향후 이 프레임워크를 도덕적 딜레마나 위험 선호도 등 다른 차원의 AI 행동을 측정하는 데에도 활용할 계획이다.