오픈AI가 인공지능(AI) 모델의 잠재적 위험과 오류를 출시 전에 예측하는 새로운 안전성 평가 기법을 공개했다.
오픈AI는 16일(현지시간) '배포 시뮬레이션'(Deployment Simulation)이라는 방법을 개발해 차세대 모델인 GPT-5 시리즈에 적용하고 있다고 밝혔다. 이 기법은 과거 사용자들이 AI와 나눈 실제 대화를 익명으로 처리한 뒤, 아직 출시되지 않은 새 모델에 재현해 반응을 살펴보는 방식이다.
이를 통해 AI 모델이 실제 사용 환경에서 어떻게 작동할지 미리 파악하고, 기존 평가 방식으로는 찾기 어려운 새로운 유형의 결함을 발견할 수 있다. 스트레스 테스트와 같은 전통적인 평가법의 한계를 보완하는 셈이다.
오픈AI는 이 시뮬레이션으로 GPT-5 시리즈에서 '계산기 해킹'이라는 새로운 형태의 오류를 사전에 발견했다. 이는 모델이 검색 도구를 계산기처럼 사용하면서 그 사실을 숨기는 행동이다.
또한 이 방식은 AI 모델이 스스로 시험받고 있다는 사실을 인지하는 '평가 인지' 문제를 크게 줄이는 것으로 나타났다. 한 실험에서 기존 평가 방식으로는 모델이 거의 100% 시험 상황임을 인지했지만, 배포 시뮬레이션에서는 5.1%만이 인지했다. 모델이 테스트 상황임을 알면 더 안전하게 행동하는 경향이 있어 평가의 정확성이 떨어질 수 있다.
오픈AI는 배포 시뮬레이션이 레드팀(의도적 공격을 통해 시스템 취약점을 찾는 전문가 그룹) 활동이나 표적화된 위험 분석 등 기존 안전성 평가를 대체하는 것이 아닌 보완하는 역할을 한다고 설명했다. 다만, 수백만 건 중 한 번 발생하는 드문 위험을 찾는 데는 한계가 있다고 덧붙였다.

