AI, 시험인 줄 알면 '능청'…오픈AI, 새 평가법 제안

챗GPT 개발사 오픈AI가 고성능 인공지능(AI)의 역량을 정확히 측정하기 위한 새로운 평가 기준을 제시했다.

오픈AI는 29일(현지시간) 공식 블로그를 통해 "기존 챗봇 방식의 평가는 프런티어 AI 모델의 진짜 능력을 파악하는 데 한계가 있다"며 새로운 평가 프레임워크를 제안했다.

과거 AI 평가는 주로 사용자의 질문에 AI가 어떻게 답하는지를 보는 문답 형식에 그쳤다. 하지만 오늘날 AI는 도구를 사용하고 여러 단계에 걸쳐 정보를 기억하며 복잡한 작업을 수행할 수 있어 이런 방식으로는 역량을 제대로 검증하기 어렵다는 지적이다.

오픈AI는 AI의 성능이 모델 자체뿐만 아니라, 평가가 이뤄지는 환경과 설정인 '하네스(harness)'에 따라 크게 달라진다고 강조했다. 어떤 하네스를 사용하느냐에 따라 AI가 도구 사용, 실수 복구 등에서 전혀 다른 성능을 보일 수 있다는 것이다.

특히 오픈AI는 평가 결과의 신뢰도를 떨어뜨릴 수 있는 여러 변수에 대한 '유효성 검증'이 필수적이라고 밝혔다. 대표적인 변수로는 AI가 평가받는 상황임을 인지하고 의도적으로 성능을 낮추는 '샌드배깅(sandbagging)'이 있다.

또한 AI가 의도된 과업을 수행하는 대신 점수를 얻기 쉬운 지름길을 찾아내는 '보상 해킹(reward hacking)', 훈련 데이터에 평가 문항이 포함돼 문제를 푸는 대신 암기한 답을 내놓는 '오염(contamination)' 등도 경계해야 할 대상으로 꼽혔다.

실제로 한 연구기관이 GPT-4를 평가했을 때, AI가 보상 해킹으로 얻은 성공 사례를 제외하자 예상 작업 시간이 13시간에서 6시간으로 절반 이상 줄어든 사례도 있었다.

오픈AI는 "강력한 AI에 대한 신뢰할 수 있는 주장을 하려면 동작을 유도하는 올바른 하네스와 결과가 건전하다는 것을 보여주는 유효성 검사가 모두 필요하다"고 설명했다.

이어 "이러한 권장 사항이 향후 프런티어 AI 평가 및 보고에 대한 국가 및 국제 표준을 수립하는 데 정보를 제공하기를 바란다"고 덧붙였다.