清华大学智能产业研究院(AIR)执行院长刘洋教授课题组在人工智能辅助抗体设计领域取得新进展,相关研究成果“基于三维等变图翻译的条件式抗体设计”(英文名称Conditional Antibody Design as 3D Equivariant Graph Translation,并于2023年3月21日获得人工智能领域重要国际会议ICLR 2023杰出论文提名(Outstanding Paper Honorable Mention)。该成果与清华大学计算机系、中国人民大学合作完成。ICLR全称是International Conference on Learning Representations,由图灵奖获得者Yoshua Bengio和Yann LeCun于2013年创办,Google Scholar h5-index为286,是当前最具影响力的机器学习国际会议。ICLR 2023共收到约5000篇投稿,评选出4篇杰出论文和5篇杰出论文提名。
抗体是免疫系统用来鉴别和中和外来细菌、病毒等病原体的大型Y形蛋白质,抗体类药物在自身免疫疾病和癌症的治疗中发挥了不可估量的重要作用。抗体的设计和优化极具挑战性,主要体现在三个方面:首先,氨基酸序列的搜索空间巨大,每个CDR的氨基酸组合共有约1万亿种可能性,而抗体设计需要考虑多个CDR;其次,抗体结构存在复杂的内外部物理作用,抗体在自身氨基酸相互作用下形成的三维结构需要与抗原特别是其表位的三维结构紧密结合;最后,抗体设计需要遵循物理定律的对称性,不应受三维坐标系的平移和旋转影响。
论文提出一种基于深度学习的抗体设计方法——
多通道等变注意力网络(Multichannel Equivariant Attentive Network, 简称MEAN)
。该方法借鉴了端到端神经机器翻译技术的核心思想,将抗体生成视为三维等变图翻译问题:给定抗体-抗原三维复合体,输出抗体CDR区域一维氨基酸序列和对接后的三维结构。MEAN利用等变图神经网络直接在三维空间处理蛋白质结构,有效克服了传统方法仅能在预处理阶段纳入三维结构信息的局限性,通过充分利用目标抗原的完整信息和抗体的完整可变区域对抗体的复杂内外部物理作用进行建模,高效同步生成满足物理定律对称性的抗体CDR区域一维序列和三维结构,具有很强的抗原靶向特性、表达能力和泛化能力。
在靶向抗原的抗体设计任务上,MEAN的CDR氨基酸重构精度比国际主流方法RefineGNN提高了23%。
在亲和力优化任务上,MEAN优化后抗体的吉布斯自由能差变化ddG比RefineGNN提高了34%。论文工作为抗体设计湿实验提供了新的计算工具。
智慧医疗是AIR的三大重点研究方向之一。
伴随着生命科学与生物医药领域的数字化、自动化进程,以人工智能技术、基于数据驱动的第四研究范式将极大助力人类探索并解决生命健康问题。
人工智能在蛋白质结构预测、新药物靶点发现、CRISPR基因编辑技术、抗体/TCR/个性化的疫苗研发等方面的创新性研究已成为国际前沿战略性研究热点。
与此同时,人工智能与生命科学、生物医药领域存在较大的知识鸿沟,缺乏面向生物计算的数据集、AI平台、核心算法、计算引擎,同时跨界人才也非常稀缺。
针对以上挑战,AIR拟打造“AI+生命科学破壁计划:
人工智能赋能生命科学与生物医药创新”的研究方向,旨在构建面向生命科学领域的人工智能基础设施、数据平台、核心算法引擎,支撑生命科学前沿研究任务,打破生命科学与人工智能的领域鸿沟,加速科学发现。
“基于三维等变图翻译的条件式抗体设计”是该方向的一个阶段性成果,AIR未来将继续致力于AI+生命科学方向开展深入探索。
孔祥哲,论文第一作者,清华大学计算机科学与技术系2022级博士生,导师是刘洋教授。研究兴趣为人工智能赋能药物研发,目前在NeurIPS 2022发表一篇论文并做口头报告,在ICLR 2023发表一篇论文并获得杰出论文提名。个人主页:https://kxz18.github.io/。
刘洋,论文共同通讯作者,清华大学万国数据教授、智能产业研究院(AIR)执行院长、计算机科学与技术系副系主任、人工智能研究院副院长,国家杰出青年基金获得者。研究方向为人工智能、自然语言处理、智慧医疗。个人主页:http://nlp.csai.tsinghua.edu.cn/~ly/。
关注AIR公众号并回复 “ ICLR 2023 ”下载完整版论文