您当前的位置: 首页 > 资源详情

上海交大洪亮课题组发表基于微环境感知图神经网络构建指导蛋白质定向进化的通用人工智能的最新研究成果

来源机构: 上海交通大学    发布时间:2024-4-18点击量:1

近日,上海交通大学自然科学研究院/物理与天文学院/张江高等研究院洪亮课题组设计了一种微环境感知图神经网络(ProtLGN),能够从蛋白质三维结构中学习有益的氨基酸突变位点,建立自然选择下的氨基酸序列分布,用于指导蛋白质氨基酸位点设计,最终实现蛋白质指定功能的提升(定向进化)。课题组通过生物化学室实验证明,这是一个通用人工智能技术,依据目标蛋白极少实验数据甚至没有实验数据的情况下成功实现了多款蛋白指定性质的定向进化(包括抗体的亲和力/稳定性,多个荧光蛋白的荧光强度、核酸内切酶的DNA切割活性)。此外,ProtLGN能够根据单位点突变体活性准确预测多位点组合突变体活性,并在单轮湿实验中即可筛选出活性显著优于低位点突变体的高位点突变体,表明ProtLGN能够有效挖掘蛋白质定向进化中的正上位效应。因此,相较于传统的蛋白质设计方法,ProtLGN能够极大地提升蛋白质设计效率并降低实验成本。该研究成果以“Protein Engineering with Lightweight Graph Denoising Neural Networks”发表于美国化学学会出版社下Journal of Chemical Information and Modeling。

人工智能的快速发展改变着生命科学领域的研究方法和思维范式。其中,蛋白质设计作为生物医药领域的关键技术之一,受到了学界和工业界的广泛关注。传统的蛋白质设计方法通常依赖于试错(蛋白质定向进化)和经验积累(蛋白质理性设计),这种方式虽然在一定程度上能够取得成功,但也存在着效率低下、成本高昂、时间耗费长等难以解决的问题。随着深度学习的快速发展和广泛应用,为蛋白质设计领域注入了新的活力和希望。深度学习模型可以通过大量的生物信息学数据进行训练,并从中学习蛋白质序列、结构与功能之间的关联,为蛋白质设计提供准确、高效的指导。

近几年,基于深度学习的预测与筛选方法被提出并在实际应用中得到了验证与应用。然而,当前的方法大多是基于多序列比对(MSA)和/或蛋白质语言模型(PLM)对蛋白质序列进行特征提取。前者提取出的蛋白质共进化信息的质量高度依赖同源信息的数量,但在实际应用中,并非所有蛋白质序列都能进行同源比对,也并非所有比对都足够深以训练足够大的模型以学习氨基酸之间的复杂相互作用。后者来源于自然语言处理,因此模型主体通常需要搭建Transformer,递归神经网络,或其他自回归模型,这类方法通常需要海量的训练数据和大型且复杂的模型设计,从而需要非常高的训练成本。即使是使用当前主流的语言预训练模型的思路,考虑到每个蛋白质都有独特的性质和进化方向,不涉及任何的重新训练路径而直接把一个预训练好的模型推广到任意的任务中,对于大模型的泛化性和表达能力也是一个巨大的挑战。

因此,本文设计了一款能够提取氨基酸周围微观环境信息的等变图神经网络的预训练框架ProtLGN,结合蛋白质的结构信息对一条蛋白质上的每个氨基酸进行同步编码,学习蛋白质三维结构中有益的氨基酸突变位点和突变类型,用于指导具有不同功能的蛋白质单位点突变和多位点突变设计。

提供服务:导出本资源

版权所有@2017中国科学院文献情报中心

制作维护:中国科学院文献情报中心信息系统部地址:北京中关村北四环西路33号邮政编号:100190