구글, AI를 '내부 위협' 간주…'이중 통제' 시스템 공개

구글이 고도화되는 인공지능(AI)을 잠재적인 '내부 위협'으로 간주하고 통제하는 새로운 보안 시스템을 공개했다.

구글 딥마인드는 18일(현지시간) AI를 사내에 배포하고 관리하기 위한 프레임워크인 'AI 컨트롤 로드맵'을 발표했다. 이 로드맵은 AI가 의도와 다르게 작동할 가능성에 대비해 시스템 수준의 보안을 강화하는 '심층 방어' 접근법을 채택했다.

구글은 이 시스템을 교관이 비상시 개입할 수 있는 '이중 통제 장치'가 달린 운전 교습용 차량에 비유했다. AI에 대한 신뢰를 바탕으로 하되, 실수가 발생하면 즉시 제어권을 가져오는 방식이다.

로드맵은 AI가 악의를 가진 내부 직원처럼 예상치 못한 방식으로 행동할 수 있다는 가정에서 출발한다. 이에 따라 ▲AI를 내부 위협으로 간주하는 새로운 위협 모델링 프레임워크 개발 ▲AI 통제 완화 계획 배포 ▲시스템 성능 측정 등 세 가지 핵심 영역에 집중한다.

특히 신뢰할 수 있는 다른 AI 시스템을 '슈퍼바이저'(감독관)로 지정해 작동 중인 AI 에이전트의 추론, 행동, 계획을 지속적으로 검토한다. 슈퍼바이저 AI는 문제가 될 행동을 감지하면 손상이 발생하기 전에 해당 작업을 차단하는 역할을 맡는다.

구글은 이 시스템이 AI 모델의 성능이 발전하는 것과 발맞춰 보안 프로토콜도 함께 강화될 수 있도록 설계됐다고 설명했다. 또한 이 프레임워크가 업계 전반의 모델이 될 수 있다고 덧붙였다.