생명체의 방대한 유전체 데이터를 학습해 복잡한 유전자 구조를 파악하는 인공지능(AI) 모델이 오픈소스로 공개됐다.
4일(현지시간) IT 전문매체 아스테크니카는 국제학술지 네이처를 인용해 모든 생물역의 유전체 데이터를 학습한 AI 모델 '에보 2(Evo 2)'가 개발됐다고 보도했다.
에보 2는 박테리아와 고세균 및 진핵생물을 아우르는 8조8000억개 염기쌍으로 구성된 '오픈게놈2(OpenGenome2)' 데이터셋을 학습했다. 연구진은 인간에게 가해질 위협을 방지하기 위해 진핵생물을 감염시키는 바이러스 데이터는 학습에서 제외했다.
연구진은 이 모델을 합성곱 신경망(CNN)의 일종인 '스트라이프트하이에나 2(StripedHyena 2)'를 기반으로 구축했다. 학습은 8000개 염기 단위로 특징을 파악한 뒤 100만개 염기 단위로 대규모 구조를 인식하는 2단계로 진행했다. 모델은 2조4000억개 염기를 학습한 70억개 매개변수 버전과 전체 데이터를 학습한 400억개 매개변수 버전 두 가지로 나뉜다.
에보 2는 복잡한 진핵생물 유전체에서 조절 DNA와 스플라이스 부위(유전 정보가 단백질로 번역될 때 필요한 부분과 불필요한 부분의 경계) 등 인간이 찾기 어려운 주요 특징을 식별한다. 특정 작업에 맞춘 미세조정 없이도 진화 과정에서 보존된 서열 패턴을 인식해 제로샷 예측(별도 학습 없이 새로운 문제를 푸는 능력)을 수행한다.
연구진은 단일 염기 돌연변이를 입력해 에보 2의 성능을 평가했다. 그 결과 모델은 전사(DNA 정보를 RNA로 복사하는 과정) 및 번역(RNA 정보로 단백질을 만드는 과정) 시작 부위의 문제를 감지했다. 또한 단백질 번역을 중단시키는 치명적인 돌연변이를 정확히 식별했다. 암과 연관된 BRCA2 유전자 돌연변이 평가에서도 기존 전문 소프트웨어보다 우수한 성능을 보였다.
에보 2는 박테리아와 고세균의 특징 인식 능력을 유지하면서 진핵생물의 특징을 파악했다. 연구진은 입력된 서열의 종을 식별해 올바른 유전 암호를 적용하는 능력도 확인했다. 특정 세포에서만 활성화되는 조절 DNA를 생성하는 실험에서는 생성된 서열의 17%가 두 배 이상의 활성 차이를 보였다.
연구진은 "에보 2의 모델 매개변수와 학습 및 추론 코드 등 모든 데이터를 대중에 완전 개방했다"고 밝혔다. 이어 에보 2가 향후 유전체 주석 달기 등 예비 분석을 위한 자동화 도구로 활용될 수 있다고 제안했다.
