오픈AI가 신약 개발 등 복잡한 생명과학 연구에 인공지능(AI)의 실제 활용 능력을 측정하는 새로운 벤치마크를 공개했다.

오픈AI는 17일(현지시간) 박사급 생명과학 전문가들이 실제 연구 환경을 반영해 설계한 '라이프사이벤치(LifeSciBench)'를 발표했다. 이는 단순 정보 검색이나 예측 문제를 넘어, AI가 과학자들의 '지식을 갖춘 협력자' 역할을 할 수 있는지 평가하기 위해 개발됐다.

라이프사이벤치는 생명공학 및 제약 업계 경험이 있는 박사급 전문가 173명이 제작한 750개의 과제로 구성된다. 과제들은 증거 처리, 분석, 설계 및 최적화, 과학적 추론 등 7개 실제 연구 작업 흐름을 아우른다.

특히 전체 과제의 79%는 여러 단계의 추론과 의사결정을 요구하며, 평균 4단계의 과정을 거치도록 설계됐다. 또한 절반 이상(53%)의 과제는 논문, 도표, 염기서열 파일 등 외부 자료를 해석하고 종합하는 능력을 평가한다.

오픈AI는 이 벤치마크를 이용해 자사의 AI 모델 성능을 시험한 결과도 공개했다. 생명과학에 특화된 'GPT-로잘린드(GPT-Rosalind)' 모델은 전체 과제 통과율 36.1%를 기록해, 이전 모델인 'GPT-5.5'의 25.7%보다 향상된 성능을 보였다.

특히 GPT-로잘린드는 과학적 증거를 정리하고 전문가용 설명 자료를 만드는 '과학 커뮤니케이션' 분야에서 71.1%의 높은 통과율을 보였다. 전임상 증거와 임상적 의미를 연결하는 '번역 연구' 분야 통과율도 57.7%로 이전 모델(36.8%) 대비 크게 상승했다.

다만, AI 모델은 여전히 복잡한 데이터 파일을 다루거나 정밀한 결과물을 요구하는 작업에는 취약점을 드러냈다. 외부 자료가 포함된 과제의 통과율은 28.1%로, 텍스트로만 구성된 과제(45.1%)보다 현저히 낮았다. 정확한 수치나 염기서열, 구조 등을 결과물로 내야 하는 과제에서도 낮은 통과율을 기록했다.

오픈AI는 "라이프사이벤치를 통한 평가는 AI가 실제 연구 현장에서 얼마나 유용한지 보여주는 초기 단계의 증거"라며 "궁극적으로 AI가 과학적 발견을 가속하는지 측정하기 위해서는 실제 연구 환경에서의 장기적인 적용과 평가가 필요하다"고 설명했다.