由清华大学智能产业研究院(AIR)兰艳艳教授团队研发的系统化蛋白质结构预测解决方案AIRFold,在蛋白质结构预测竞赛 CAMEO 上连续四周夺得全球第一。
AIRFold 在最近一个月(7.23-8.20)的评估中连续四周全球第一,并在系统响应时间上远远领先其他团队
蛋白质结构对于理解蛋白质功能以及诸多重要的生命活动有重要意义,它的结构也在一定程度上约束了蛋白质序列的突变。所幸蛋白质的同源序列中包含了丰富的结构信息,这为数据驱动的解决方案提供了可能性。目前半参数化的深度学习解决方案,如 AlphaFold2 等充分利用数据驱动的端到端深度学习模型,在结构预测上已取得与冷冻电子显微镜等实验技术相当的精度。但是,这些模型极度依赖输入的同源序列信息,在实际的很多场景中还有不小的局限性:比如在缺少同源序列的蛋白质上预测结果不理想,以及对同源输入的冗余噪声较为敏感等。
AIRFold 在 AlphaFold2 的基础上,致力于为蛋白质结构预测这一生命科学领域的关键性问题提供可拓展的系统化解决方案。AIRFold 独有的同源挖掘(Homology Miner)模块,聚焦于共进化信息的挖掘和提取,对蛋白质同源序列(MSA)中的协同进化信息进行智能化、自动化地提取、分析和处理。例如,Homology Miner 中引入了同源蛋白的语义检索和生成两个模块:检索模块利用结构和序列的共同表征学习,通过稠密检索从现有数据库中补充和完善同源蛋白信息;生成模块则基于深度生成模型,对蛋白质的接触矩阵(Contact Matrix)以及多序列比对数据进行生成式建模,从而通过生成同源蛋白序列对共进化信息进行补充。
此外,Homology Miner 的同源表征信息优化模块,还能从信息论的角度对同源序列数据中的共进化信息进行量化,多角度地利用共进化信息量作为优化的目标,如序列级的信息最大化,基于位置的信息约束等。结果显示,经过优化校正的同源蛋白表征信息在结构预测中表现更加稳定、有效。
Homology Miner 模块通过对共进化信息的有效建模,为复杂同源序列分布的蛋白质结构预测提供了全新的解决方案,并取得了不俗的表现:在最近一周(8.14-8.20) “hard”分类的序列上,AIRFold 是唯一 lDDT 均分高于80分的模型;在最近一个月(7.23-8.20)以及三个月(5.21-8.20)的“hard”序列上,AIRFold均表现优异,并遥遥领先于第二名。
团队的模型在“hard”分类上表现优异,从左到右分别是最近1周、1个月和3个月在“hard”分类序列上的表现
在诸多 CAMEO 比赛的蛋白质序列中,7TVI 是一个重要但较难预测结构的蛋白,该蛋白展示的是Cas13bt3-crRNA 复合物的结构。其中 Cas13 是一类重要的 RNA 引导的 RNA 编辑工具,有望成为下一代更安全更高效的基因治疗手段。与 AlphaFold2 相比,AIRFold 预测的结构在 Helical-1 和 Helical-2 两个主要识别crRNA(下图中粉色部分)的结构域上都显著优于 AlphaFold2 的结果;AIRFold 预测的结构形成了正确的 crRNA 结合位点,而 AlphaFold2 预测的结构产生了较大的偏离不能正确结合 crRNA 。AIRFold 实现了对这类高难度蛋白的高精度结构预测,使得我们能够高效便捷地研究大量来自不同物种或宏基因组测序结果的 Cas13 同源蛋白。高精度的结构可以启发研究人员设计出更小、更准、更高效的RNA编辑工具。因此,AIRFold 未来将极大地加速 CRISPR/Cas 相关分子工具的挖掘与设计,助力下一代基因编辑疗法的研发。
CAMEO: 2022-08-20_00000216_1 | PDB: 7TVI_A ;Predicted, GroundTruth, crRNA
目前,AIRFold 的相关技术还在蛋白单点突变,多构象评估等关键问题上取得初步进展;清华大学智能产业研究院(AIR)AI+生命科学研究团队将与海内外领先的科研及产业机构合作,持续推进结构预测以及蛋白设计等大分子药物开发的核心问题的研究,为 AI 赋能生命科学做出努力和贡献!
清华大学智能产业研究院(AIR)AI+生命科学团队招聘博士后/科研工程师/实习生,主要从事AI for Science的交叉学科研究,利用深度学习、自然语言处理、信息检索等领域的前沿方法解决交叉学科的各类挑战性问题。技术创新将落地在AI制药,健康计算等前沿领域,赋能产业,完成高水平科研成果输出。AIR将提供一流的科研平台与创新氛围,在开展前沿研究的同时为大家提供有竞争力的薪酬。其中本科和硕士实习生,还有机会成为拟2023年入学的博士生候选人(团队多位老师有计算机系直博名额)。
指导教师:马维英教授/兰艳艳教授/周浩副教授
简历请发送至 airhr@air.tsinghua.edu.cn
CAMEO(Continous Automated Model Evaluation)是瑞士生物信息研究所和巴塞尔大学联合举办的全球持续蛋白质结构预测竞赛,是蛋白质结构预测领域最重要的比赛之一。CAMEO 竞赛会持续收集最新即将公开的蛋白质序列,并每周从中挑选部分序列作为赛题。在赛题公开到评测的四天窗口期中,参赛团队需要对每一个蛋白序列进行三维结构预测,最终不同团队的提交结果通过标准评价指标 lDDT(local Distance Different Test)进行排名。