인공지능(AI)을 활용한 단백질 설계 기술이 주목받는 가운데, 현재 모델이 '블랙박스'처럼 작동해 신뢰성과 안전성을 담보하기 어렵다며 '설명가능한 AI' 개발이 시급하다는 과학계의 주장이 제기됐다.

스페인 유전체조절센터(CRG) 연구진은 11일(현지시간) 국제 학술지 '네이처 머신 인텔리전스'에 발표한 전망 논문을 통해 이같이 밝히고, 단백질 설계 AI 시스템을 더 투명하고 신뢰할 수 있도록 만들기 위한 행동에 나설 것을 촉구했다.

단백질 언어 모델(pLM)은 자연에 존재하지 않는 새로운 구조를 포함해 유용한 특성을 가진 단백질을 설계하는 데 사용되는 AI 기술이다. 대기 중 이산화탄소를 흡수하는 효소를 합성하거나 산업 공정의 에너지 사용을 줄이는 촉매를 만드는 등 잠재력이 크다.

하지만 연구진은 현재 pLM 대부분이 '블랙박스'처럼 작동해 AI의 결정 과정을 이해하기 어렵다고 지적했다. 이로 인해 예측이 신뢰할 수 있는지, 편향되지는 않았는지, 실제 적용에 안전한지 판단하기 어렵다는 것이다.

논문의 교신 저자인 노엘리아 페루즈 CRG 그룹리더는 "우리는 완전히 신뢰할 수 없는 강력한 도구를 만들 위험에 처해 있다"며 "모델이 무엇을 배우고 어떻게 결정을 내리는지 설명할 더 나은 방법 없이는 안 된다"고 강조했다.

연구진은 AI 모델의 결정 과정을 설명하기 위해 확인해야 할 네 가지 핵심 요소를 제시했다. 구체적으로는 ▲학습에 사용된 훈련 데이터 ▲모델에 입력된 특정 단백질 서열 ▲모델 자체의 아키텍처 및 내부 구성 요소 ▲입력값을 미세하게 바꿨을 때 결과가 어떻게 변하는지를 보는 입출력 동작 등이다.

연구진은 현재 설명가능한 인공지능(XAI) 기술이 주로 모델이 기존 생물학적 패턴을 학습했는지 확인하는 '평가자' 역할에 머물러 있다고 분석했다. 발견의 동력보다는 검증 및 지원 도구로 사용되고 있다는 설명이다.

궁극적으로는 AI가 인간이 몰랐던 새로운 생물학적 원리를 밝혀내는 '교사' 역할을 해야 한다고 연구진은 제언했다. 이는 AI '알파고'가 기존에 없던 새로운 바둑 전략을 선보인 것과 유사하다.

페루즈 박사는 "진정한 목표는 '제어 가능한 단백질 설계'"라며 "모델에 특정 모양과 기능을 가진 단백질 설계를 명령했을 때 후보 서열뿐 아니라 왜 그 설계가 작동하는지에 대한 명확한 설명을 함께 제공받는 수준에 도달해야 한다"고 말했다.