深层揭示蛋白质序列与结构之间耦合关系,开发对蛋白质序列和结构进行共建模的蛋白质基础模型,对于蛋白质结构设计、蛋白质设计、蛋白蛋白互作、结构生物学研究、和药物设计有非常重要的意义。
10月14日,第5期AIR学术工作坊第四位嘉宾:西湖大学人工智能讲席教授教授李子青,在线上为我们做了题为《AI for Protein Science》的报告。
李子青(Stan Z. Li, IEEE Fellow, IAPR Fellow),西湖大学人工智能讲席教授,曾任微软亚洲研究院Lead Researcher、中科院自动化所模式识别国家重点实验室资深研究员。发表论文500余篇,著作10部,Google Scholar引用64000余次,入选2021 全球Top 1000计算机科学家h指数榜单、2022全球前2%顶尖科学家榜单(信息与通信技术)。领导开发了世界上第一个实时人脸识别系统;设计研发了多个国家级人脸识别系统,并落地实施应用。曾任AI顶级期刊IEEE TPAMI等刊物副主编,担任100余个国际学术会议大会主席、程序主席,或程序委员。当前负责实施科技部“新一代人工智能”重大项目2项、国家自然科学基金区域重点项目(AI+生命科学)1项。
李子青教授本次报告主要介绍了他的研究团队利用人工智能技术在蛋白质领域开展的研究工作,报告主要涵盖了三方面的主题,包括蛋白质组质谱数据的模型学习、蛋白质序列-结构关系/蛋白质设计/蛋白-蛋白互作等模型学习、以及对AI+生命科学方向未来的展望。
李子青教授首先介绍了来到西湖大学后与生命科学学院合作的首个研究项目,基于蛋白质组质谱数据进行肿瘤诊断,基于蛋白的丰度数据,训练深度神经网络,预测肿瘤的良性、恶性两个类别。李教授介绍这是一个非常基本的模式识别分类问题,很直接地可以抽象为一个高元数据模式分类问题。李教授的团队注意到蛋白质丰度矩阵是通过传统的方法提取获得的,提取方法由于存在局限性无法避免地会产生错误,于是李教授团队提出直接基于原始数据进行建模完成分类,以避免传统工具在数据处理中带来的信息损失。目前李教授团队正在深化这个工作,研发蛋白质组学基础大模型。
李教授提到,通过前期对蛋白质组学问题的一些探索,他发现背后本质是高维数据的低维流形分析问题。流形中最关键的概念是流形的拓扑结构,或者说两个样本间的距离度量,他认为人工智能、大数据分析中的很多研究本质上都在做这样一件事。主要的挑战是如何将数据从所在的高维复杂流形空间变换到低维简单的嵌入线性空间,这样就可以用简单的欧式距离来度量两个样本间的距离,并进一步完成更多的下游任务。实际上李子青教授介绍了团队基于深度流形变换(DMT)方法,用于蛋白质组学、转录组、空间转录组、系统发生学等各种生物学数据分析问题,在保持流形结构、预测、聚类、可视化等指标上都超过了被广泛应用的t-SNE和UMAP等方法。
李子青教授接下来介绍了团队在结构生物学方向的主要工作,主要包括蛋白质设计和小分子设计等方向的研究。李教授先介绍了团队研发的PiFold蛋白质设计方法,打破了传统递归生成蛋白质序列的范式,采用固定的多层图神经网络完成蛋白质序列的生成。此外,团队近期研究的KW-Design,通过融合从ESM-IF、ESM等预训练模型中获取的信息进一步提升了蛋白质序列设计模型的性能。通过评估发现两种方法均优于Baker课题组之前提出的ProteinMPNN蛋白质设计方法。李教授的团队将类似方法应用在RNA设计上并提出了RFold,在测试集的评估上推理时间和准确性均优于传统方法。对于评估方法,李教授质疑在实际药物设计实践中,Recovery Rate这一经典评估指标并不能很好地反应设计蛋白的质量,所以未来研究中,如何设计更合理的评价指标来评估蛋白质设计的有效性是一个重要的研究问题,这样才能更好地指导蛋白质设计的有效性。
李子青教授随后介绍了团队研究的基于官能团的分子扩散生成模型,用于进行靶点蛋白的配体分子生成任务。随后给大家科普了药物设计中存在的一种名为Cliff Effect的现象,即小分子结构上的细微改变有时会导致功能上的巨大差异。针对这一问题,李教授的团队从流形的角度对这一问题进行了解释,并提出了一些解决方案。之后,李教授简要介绍了团队通过模拟数据训练图神经网络,来预测蛋白质构象在药物结合前后发生动态改变的研究工作。
接下来,李子青教授谈到了蛋白质数据的缺少给研究抗体设计等任务带来了巨大的挑战:蛋白质单序列数据丰富,但抗体序列数据、蛋白质复合物数据、抗原-抗体数据逐级十分稀缺。针对这一挑战性问题,李子青教授的团队提出了一种层级的模型训练方法,对应四种数据设计了四种层层递进的训练方法,即对于蛋白质序列数据,首先在大规模的蛋白质单序列数据上进行语言模型的预训练(Level-1),然后在抗体序列数据上微调得到的蛋白质语言模型(Level-2),以及对于三维几何结构,首先通过蛋白蛋白相互作用的结构数据训练一个CDR生成器(Level-3),然后结合Level-2微调的蛋白质语言模型和Level-3的CDR生成器来进行全新的抗体设计(Level-4)。对通过这种方式训练得到的模型进行评估发现,在目前有限的条件下能比较有效地提升模型性能。
李教授强调,深层揭示蛋白质序列与结构之间耦合关系,开发对蛋白质序列和结构进行共建模的蛋白质基础模型,对于蛋白质结构设计、蛋白质设计、蛋白蛋白互作、结构生物学研究、和药物设计有非常重要的意义。在这一思想指导下,李教授团队对蛋白质序列-结构共建模,蛋白质表征预训练、序列-结构空间之间的非线性映射、蛋白-蛋白相互作用大模型预训练、以及抗体相关应用等方向上取得了重要的研究突破。
最后,李子青教授介绍了团队目前在研的国家项目“蛋白质多构象动态结构解析与靶标药物设计的人工智能方法”的基本情况,并对AI for Life Science研究方向的未来发展提出了一些自己的看法。在AI for Science方面,李教授介绍2021年曾向国务院办公室提交的咨询文稿,其中包括了他对人工智能驱动的新物质从头设计与合成这一主题的一些思考,融合囊括了合成生物学、新能量、先进材料这三个重要方向,并归纳了其中AI和新物质设计与合成的共性基础问题域计算框架,形成一个统一的AI+新物质设计与合成计算理论框架与工程技术方法论。李教授介绍了西湖大学关注的AI for Science的开展情况,工学院、生命科学学院、理学院的PI合作,针对10余个科学问题开展的科学数据大模型和科学语言大模型研究,并举例介绍了目前对这些方向的研究设想和一些基本的方法框架,包括蛋白质组学通用基础大模型、蛋白质组学和结构生物学数据构建统一的蛋白质大模型,通过生物分词和向量化的方法训练生物数据表征模型、和练生物大语言模型等。