구글 딥마인드가 최대 염기쌍 100만개가 연결된 긴 DNA 서열이 생물학적 과정에 어떤 영향을 미치는지 예측할 수 있는 심층학습(deep learning) 인공지능 모델 알파게놈(AlphaGenome)을 공개했다.
구글 딥마인드의 지가 아브세츠·나타샤 라티셰바·푸시밋 콜리 박사팀은 29일 과학 저널 네이처(Nature)에서 인간 DNA 염기서열에서 단일 변이나 돌연변이가 광범위한 생물학적 과정에 어떤 영향을 미치는지를 포괄적이고 정확하게 예측할 수 있는 AI 모델 '알파게놈'을 개발했다고 밝혔다.
연구팀은 알파게놈은 최대 100만 염기쌍에 이르는 긴 DNA 서열의 기능을 예측할 수 있는 딥러닝 모델로, 유전 질환에 대한 이해를 높이고, 유전자 검사를 개선하며, 새로운 치료법을 개발하는 데 정보를 제공할 수 있다고 말했다.
그러나 게놈의 지침이 분자 수준에서 어떻게 읽히는지, 그리고 작은 DNA 변이가 발생했을 때 어떤 일이 일어나는지는 여전히 생물학의 큰 미스터리로 남아 있다.
연구팀은 유전적 변이는 생물학적 과정과 질병에 영향을 줄 수 있지만 DNA 서열 변화가 기능에 어떤 영향을 주는지 이해하는 것은 쉽지 않다며 특히 염기서열 변화의 약 98%는 비암호화 부분에서 일어나 그 효과를 예측하기는 어렵다고 지적했다.
이들은 알파게놈을 인간과 생쥐 유전체를 사용해 DNA 염기서열이 다양한 생물학적 과정에 미치는 영향을 학습시켜 서열이 길면 예측 성능이 약해지는 기존 방법들과 달리 긴 DNA 서열 전반에 걸쳐 고해상도 예측을 할 수 있게 성능을 높였다.
알파게놈은 최대 100만개의 염기쌍으로 이루어진 긴 DNA 서열에서도 조절 활성을 특징짓는 수천 가지 분자적 특성을 예측하고, 변이가 있는 서열과 변이가 없는 서열의 예측 결과를 비교, 유전 변이 또는 돌연변이의 영향을 평가할 수 있다.
성능 검증에서 알파게놈은 유전자 발현과 스플라이싱(유전체 절단·재배열 과정), 단백질 변형 등 특정 기능과 관련된 인간 유전 신호 5천930개, 또는 생쥐 유전 신호 1천128개를 동시에 예측할 수 있는 것으로 나타났다.
연구팀은 알파게놈이 변이 효과 예측 평가 26개 중 25개에서 기존 최고 수준 모델들과 동등하거나 더 나은 성능을 보였다며 알파게놈의 강점은 다양한 유전 신호와 생물학적 결과에 대해 여러 예측을 동시에 할 수 있는 능력이라고 설명했다.
이어 과학연구 발전을 위해 알파게놈을 비상업적 연구 목적에 한해 알파게놈 API(https://github.com/google-deepmind/alphagenome)를 통해 프리뷰 형태로 공개하고 있다며 향후 이 모델을 정식으로 공개할 계획이라고 밝혔다.
또 "알파게놈이 과학 공동체에 유용한 자원이 돼 연구자들이 유전체 기능과 질병 생물학을 더 잘 이해하고, 궁극적으로 새로운 생물학적 발견과 치료법 개발을 이끄는 데 기여할 수 있을 것으로 믿는다"고 덧붙였다.
◆ 출처 : Nature, Danielle Breen et al., 'Advancing regulatory variant effect prediction with AlphaGenome', https://www.nature.com/articles/s41586-025-10014-0




