구글이 고도화되는 인공지능(AI)을 잠재적인 '내부 위협'으로 간주하고 통제하는 새로운 보안 시스템을 공개했다.

구글 딥마인드는 18일(현지시간) AI를 사내에 배포하고 관리하기 위한 프레임워크인 'AI 컨트롤 로드맵'을 발표했다. 이 로드맵은 AI가 의도와 다르게 작동할 가능성에 대비해 시스템 수준의 보안을 강화하는 '심층 방어' 접근법을 채택했다.

구글은 이 시스템을 교관이 비상시 개입할 수 있는 '이중 통제 장치'가 달린 운전 교습용 차량에 비유했다. AI에 대한 신뢰를 바탕으로 하되, 실수가 발생하면 즉시 제어권을 가져오는 방식이다.

로드맵은 AI가 악의를 가진 내부 직원처럼 예상치 못한 방식으로 행동할 수 있다는 가정에서 출발한다. 이에 따라 ▲AI를 내부 위협으로 간주하는 새로운 위협 모델링 프레임워크 개발 ▲AI 통제 완화 계획 배포 ▲시스템 성능 측정 등 세 가지 핵심 영역에 집중한다.

특히 신뢰할 수 있는 다른 AI 시스템을 '슈퍼바이저'(감독관)로 지정해 작동 중인 AI 에이전트의 추론, 행동, 계획을 지속적으로 검토한다. 슈퍼바이저 AI는 문제가 될 행동을 감지하면 손상이 발생하기 전에 해당 작업을 차단하는 역할을 맡는다.

구글은 이 시스템이 AI 모델의 성능이 발전하는 것과 발맞춰 보안 프로토콜도 함께 강화될 수 있도록 설계됐다고 설명했다. 또한 이 프레임워크가 업계 전반의 모델이 될 수 있다고 덧붙였다.