新闻中心

当前位置: 首页 > 新闻中心 > 学院新闻 > 正文

Cell重磅!清华AIR发布原子级生成式AI制药模型

来源:       发布时间:2026-02-26

Summary


当前人工智能模型虽在分子结构预测和设计领域取得一定进展,但大多依赖针对特定任务定制的专用算法,缺乏统一的分子表示形式,且自然语言提示在定义分子任务时精度不足,这些问题导致不同任务间和分子类型间的可迁移性受限,统一多样化的分子生成相关任务仍面临巨大挑战。


2026 年 2 月 18 日,清华大学智能产业研究院(AIR)副教授马剑竹(Lead contact)、王新泉、宣武医院/福建医科大学王子华以及北京大学基础医学院韩传辉联合团队,研究人员在《Cell》上发表题为 “Unified modeling of 3D molecular generation via atomic interactions with PocketXMol”(《基于原子相互作用的 3D 分子生成统一模型(PocketXMol)》)的研究论文。研究团队开发了原子级生成式 AI 模型 PocketXMol,该模型以原子提示作为任务说明,可统一小分子和肽类的结构预测、从头设计等多种与蛋白质口袋相互作用相关的生成任务,无需任务特异性微调。其在 13 项计算任务中的 11 项达到最先进性能,设计的半胱天冬酶 9 抑制剂效果与商业药物相当,生成的 PD-L1 结合肽段具有高亲和力和体内肿瘤靶向性,为 AI 辅助药物发现提供了通用平台。


论文核心信息

  • 论文题目:Unified modeling of 3D molecular generation via atomic interactions with PocketXMol(《利用原子相互作用对3D分子生成进行统一建模的PocketXMol模型》)

  • 作者:彭鑫港,郭睿涵,Guo Fenglin,王子谊,Sun Jiayu,关嘉麒,贾寅君,Xu Yan,黄彦雯,张牧涵,彭健,王新泉,韩传辉,王子华,马剑竹(清华大学AIR团队)
  • 发表期刊:Cell
  • 发表时间:2026年4月(2026年2月已在线发表)
  • 核心数据
    • 训练规模:整合了超过 1198 万个小分子结构、3.9 万个蛋白质-多肽复合物及 8.5万个蛋白质-小分子复合物的大规模数据集 ;
    • 算法性能:在 13 项生成式任务中,有 11 项达到领域最优(SOTA)水平,对比了 55 个基线模型 ;
    • 实验验证(小分子):设计和优化的 Caspase-9 抑制剂在生物实验中表现出与商业抑制剂相当的药效;
    • 实验验证(多肽):设计的 PD-L1 结合肽具有很好的亲和力,并具有特异性和体内靶向性;
  • 核心发现
    • 原子级统一建模:通过学习基本的原子交互原理,单个模型即可跨越小分子和多肽两种截然不同的分子类型,无需针对特定任务进行微调;
    • 任务的统一表示:提出并证明了“原子级任务提示”(Task Prompt)能精确地表示和统一多样的分子生成任务;
  • 核心创新点
    • 原子级任务表示:绕过传统的残基或功能团建模,直接在原子层面进行控制,实现了极高的跨分子类型迁移能力;
    • 通用去噪器:设计了一套能够将不同任务的分布映射到统一噪声空间的架构,支持联合多任务学习;
    • 多任务统一的任务提示:提出的任务提示机制,将生成任务定义在最小尺度的原子上,可统一表示结构预测、分子设计等各种任务,并具有高度灵活性,实现了极高的跨任务迁移能力。
  • 核心受众AIDD研发人员、结构生物学家、AI 算法工程师(特别是几何深度学习方向)、生物医药领域的投资者与从业者。

01

|INTRODUCTION

人工智能已彻底改变分子结构预测和设计领域,但当前模型通常依赖针对特定任务定制的专用算法。一个关键发现是,所有分子任务均受原子相互作用的通用物理原理支配。由此引出一个自然的问题:能否借鉴自然语言、视觉等领域的基础模型,利用大规模数据开发出统一的原子级模型,以捕捉分子相互作用的基本规律?然而,统一多样化任务面临诸多关键挑战。尽管文本提示在大型语言模型中已被证实有效,但自然语言在定义分子任务时不够精确,尤其是涉及复杂空间关系或多个分子片段时。当前生成式模型的另一关键局限在于,尽管在单个任务中表现出色,但它们对任务特异性先验分布和采样过程的依赖,阻碍了多任务同时学习的整合。此外,现有模型缺乏统一的分子表示形式,不同模型采用截然不同的类型特异性格式,这本质上限制了任务间和分子类型间的可迁移性。为应对这些挑战,研究团队推出 PocketXMol,这一统一的原子级生成式模型基于三个关键组件构建:(1)任务提示机制,直接在原子层面定义输入和输出,比基于文本的描述提供更精确的控制;(2)“通用去噪器” 架构,将不同的任务分布映射到统一的噪声空间,无需任务特异性微调即可实现联合多任务训练;(3)原子级任务表示,无需显式建模氨基酸,便于跨分子类型迁移。


为训练 PocketXMol,研究团队收集了包含 3D 分子结构的数据集,涵盖 11,985,300 个小分子、39,911 个蛋白质 - 肽复合物和 85,434 个蛋白质 - 小分子复合物,这些数据来源于多个数据库。研究团队在 13 项生成任务中对 PocketXMol 进行了评估,包括小分子对接、线性 / 环肽对接、3D 构象预测、基于结构的药物设计、3D 分子生成、片段连接、蛋白水解靶向嵌合体设计、片段生长、分子优化、线性 / 环肽设计及肽逆折叠,并通过 51 项指标与 55 种基线方法进行对比。PocketXMol 在 13 项任务中的 11 项表现出色,其余两项也保持高度竞争力。研究团队还展示了该模型在多种应用中的实际效用,包括结合先验知识的约束对接、酶 - 底物筛选、虚拟筛选和非标准氨基酸设计。利用 PocketXMol,研究团队设计了 16 种半胱天冬酶 9 抑制剂,并发现其中一种分子能有效抑制半胱天冬酶 9,且在 ABT-737 处理下可抑制下游半胱天冬酶 3 / 聚腺苷二磷酸核糖聚合酶 1 的切割。最后,研究团队设计出高命中率的程序性死亡配体 1 靶向肽段,在 382 种合成肽段中,有 15 种候选肽段的结合亲和力达到 10⁻⁸M。代表性肽段在 PD-L1 阳性细胞中表现出特异性结合,后续通过配体抑制试验和体内肺肿瘤成像验证,证实了其治疗和诊断潜力。

02

|RESULTS

研究人员通过构建包含生成流程、训练过程、典型任务提示和带不同任务特异性噪声的分子 t-SNE 可视化的框架,展示了 PocketXMol 的工作原理。该模型将输入分子抽象为原子和化学键集合,通过任务提示定义生成目标,利用通用去噪器迭代添加和去除噪声,将不同噪声类型转化为统一的分子表示空间,实现多任务联合训练,无需微调即可直接应用于不同任务。

Figure 1:PocketXMol 框架


研究人员在基于结构的药物设计、3D 分子生成、片段连接、PROTAC 设计、片段生长和分子优化等任务中评估 PocketXMol 性能。结果显示,其在 SBDD 任务的 14 项指标中 11 项排名第一,生成的高质量 3D 分子比例远超基线模型;在 3D 分子生成任务中,生成分子有效性高且原子间距分布与类药物分子匹配;在片段连接、PROTAC 设计和片段生长任务中,在分子有效性、结构恢复度和结合亲和力等方面均优于基线;分子优化任务中,可快速将分子 LogP 值优化至目标范围。

Figure 2:小分子设计性能

研究人员将 PocketXMol 应用于半胱天冬酶 9 靶向化合物设计,合成了 16 种设计分子,其中编号 84663 的分子能有效抑制 ABT-737 诱导的半胱天冬酶 9 和半胱天冬酶 3 激活,且与已知半胱天冬酶抑制剂相似度低。通过对该分子优化得到的 D12、D13、D18 和 D19 等分子,抑制效果与商业抑制剂 QVD-OPh 和 Z-LEHD-FMK TFA 相当,且不直接抑制半胱天冬酶 3,SPR 实验证实其通过结合半胱天冬酶 9 发挥作用。

Figure 3:半胱天冬酶 9 抑制剂设计

研究人员在 linear 肽设计、肽逆折叠、环肽设计和非标准氨基酸肽设计任务中测试 PocketXMol 性能。该模型将肽生成视为特殊的片段生长任务,直接生成全原子位置,无需后续处理。与 RFdiffusion pipeline 相比,其生成的肽段在氨基酸分布、序列恢复率、结构质量和二级结构比例等方面更优;在肽逆折叠任务中,序列恢复率和多样性高于 ProteinMPNN;在环肽设计中,Rosetta 结合能表现出色;还能自然支持非标准氨基酸肽设计,生成的非标准氨基酸肽具有良好的结合能。

Figure 4:肽设计性能

研究人员利用 PocketXMol 设计 10 残基 PD-L1 靶向肽段,在 382 种合成肽段中,15 种解离常数达到 10⁻⁸M,76 种达到 10⁻⁷M,即使不进行生成后排序或针对未见过的靶点,也能生成高亲和力结合物。选取的 P65、P73、P282 等代表性肽段,在 PD-L1 阳性细胞中表现出特异性结合,体内成像显示其能在肿瘤部位聚集,具有良好的肿瘤靶向性和选择性,且 P282 能抑制 PD-1/PD-L1 相互作用,有望应用于癌症免疫治疗。

Figure 5:PD-L1 结合肽设计

研究人员在小分子对接、酶 - 底物识别、虚拟筛选和分子构象生成任务中评估 PocketXMol。在小分子对接任务中,其生成的构象 RMSD<2Å 的比例仅次于 AlphaFold 3,且结合先验知识可进一步提升性能;在酶 - 底物识别中,模型的对接置信度得分能有效区分活性和非活性底物,基于其提取的特征训练的分类器预测效果更优;在虚拟筛选任务中,性能与最佳基线模型相当;在分子构象生成任务中,可生成与低能量真实构象高度匹配的有效构象。

Figure 6:小分子结构生成性能

研究人员在 linear 肽对接、环肽对接和新设计分子对接准确性任务中测试 PocketXMol。该模型将肽对接与小分子对接同等处理,在 linear 肽对接任务中 DockQ 得分高于其他基线方法,对含非标准残基的肽段对接准确性高,结合约束条件可进一步提升性能;在环肽对接任务中,性能与专用方法相当;对新设计的小分子和肽段,其对接准确性与化学 / 序列相似度相关,能准确预测新设计配体的结合结构。


Figure 7:肽对接性能

03

|DISCUSSION

综上所述,PocketXMol 作为一款原子级生成式 AI 模型,通过统一的任务提示机制、通用去噪器架构和原子级任务表示,成功实现了多种与蛋白质口袋相互作用相关的分子生成任务的统一建模,在小分子和肽类的设计、对接、构象预测等 13 项任务中表现优异,所设计的抑制剂和肽段经实验验证具有良好的生物活性和靶向性,为人工智能辅助药物发现提供了高效、通用的新平台。尽管存在一定局限性,但该模型的创新框架和显著性能有望推动药物研发领域的效率提升,且其多任务学习思路为其他领域的生成式模型发展提供了借鉴。


References


[1] Peng X, Guo R, Guo F, et al. Unified modeling of 3D molecular generation via atomic interactions with PocketXMol[J]. Cell, 2026, 189: 1-19.

[2] Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold[J]. Nature, 2021, 596: 583-589.

[3] Abramson J, Adler J, Dunger J, et al. Accurate structure prediction of biomolecular interactions with alphafold 3[J]. Nature, 2024, 630: 493-500.

[4] Dauparas J, Anishchenko I, Bennett N, et al. Robust deep learning–based protein sequence design using ProteinMPNN[J]. Science, 2022, 378: 49-56.

[5] Watson J L, Juergens D, Bennett N R, et al. De novo design of protein structure and function with RFdiffusion[J]. Nature, 2023, 620: 1089-1100.

[6] Ingraham J B, Baranov M, Costello Z, et al. Illuminating protein space with a programmable generative model[J]. Nature, 2023, 623: 1070-1078.

[7] Krishna R, Wang J, Ahern W, et al. Generalized biomolecular modeling and design with RoseTTAFold All-Atom[J]. Science, 2024, 384: eadl2528.

[8] Guo D, Yang D, Zhang H, et al. DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning[J]. Nature, 2025, 645: 633-638.

[9] Hayes T, Rao R, Akin H, et al. Simulating 500 million years of evolution with a language model[J]. Science, 2025, 387: 850-858.

[10] Varadi M, Bertoni D, Magana P, et al. AlphaFold Protein Structure Database in 2024: providing structure coverage for over 214 million protein sequences[J]. Nucleic Acids Research, 2024, 52: D368-D375.

[11] Han C, Liu Z, Zhang Y, et al. Tumor cells suppress radiation-induced immunity by hijacking caspase 9 signaling[J]. Nature Immunology, 2020, 21: 546-554.

*文章来源于投医问药,作者投医问药


上一条:AIR科研|突破大语言模型 CUDA 代码生成瓶颈:基于智能体强化学习的 CUDA Agent 系统 下一条:AIR快讯|携手防城港,“紫荆AI医院”赋能国际医学开放试验区

关闭

相关新闻

业务合作:airoffice@air.tsinghua.edu.cn
招生招聘:airhr@air.tsinghua.edu.cn
联系电话:(010)82151160  

办公地点:北京市海淀区清华科技园启迪科技大厦C座12层

官方微信

京ICP备15006448号  |   版权所有©清华大学智能产业研究院