近日,清华大学惠妍讲席教授、智能产业研究院(AIR)首席科学家马维英发表演讲《AI for Science》。
本次讲座围绕AI for Science整体介绍、科学场景中的生成式AI与大模型、AI for Science的应用、挑战与机遇三部分展开,从宏观的角度系统地定义了新科学,深入浅出地科普了生成式AI、大模型的最新进展,最后从实际应用出发介绍近年来清华大学智能产业研究院在多个AI for science领域中的科研成果,包括生物制药、化学化工、新材料、新能源等,为听众打开了探索未来科学的窗口。
马维英教授从自己的亲身经历谈起,回顾了2001年加入微软亚洲研究院的情景。当时,许多研究者认为AI的使命是通过赋予计算机看、听、说、读、写的能力,实现个人智能助理的概念。如今,经过二三十年的发展,AI取得了巨大的进步,但对智能本质的理解仍在不断深化。马教授强调,要研究AI,首先必须探讨“什么是智能”这一核心问题。
过去几年中,AI展现了强大的AIGC(生成式内容生成)能力,涉及图像、视频、语音、音乐、代码生成和对话等多个领域。展望未来,AI的发展不仅限于这些应用,它将在科学前沿产生重大影响。AI和科学将成为推动社会发展的主要生产力来源,两者的结合将引领AI进入一个新的阶段: 自然智能(Nature Intelligence)。自然界充满了智能,涵盖生物学、化学、材料科学、医学、生命科学、能源和农业等领域。随着这些物质世界的符号逐步实现数字化和智能化,许多复杂的科学问题有望得到解决。AI可能逐渐学会如何组合这些元素,以创造新的物质,如蛋白质、药物、化合物、材料等。
AI在理解人类语言符号系统方面已经取得了显著成功,例如,ChatGPT能够将语言符号组合为具有语义的连贯文本。类似的概念可以扩展到物质世界。所有材料都是由元素周期表中的一百多种元素构成,而蛋白质由21种氨基酸组成的序列构成,并进一步折叠成三维结构。 如果将原子和氨基酸视为“token”,我们可以构建一个“原子级别的ChatGPT”,从而掌握“原子的语言”,实现从原子层面与大自然的“对话”。 这种方法将为理解和设计新物质开辟新的途径,使AI能够探索物质的基本构成,推动科学与技术的跨越式进步。
“我们可以把蛋白类比于一种语言,一种外来的语言。起初,我们并不了解如何解读这种语言,也不懂得如何‘书写’蛋白质。”马教授说道,“然而,当我们将其视作人类语言并进行语法结构分析时,这就相当于在进行蛋白质结构预测。而如果我们能够实现文本生成,这就意味着我们可以进行蛋白质设计。”
马教授提到ESM3模型,这是首次使用AI成功生成全新的荧光蛋白。 荧光蛋白广泛应用于医学成像,例如用于标记癌细胞,以便进行可视化观察。 通过联合序列与结构建模,该研究生成了与现有蛋白质截然不同的新型蛋白质,打破了传统进化过程可能需要数亿年的时间限制。 此成果展示了AI在蛋白质设计方面的巨大潜力,标志着AI驱动生物分子创新的一个重要里程碑。
马教授指出,AI与科学的关系可以从两个方面来理解。今年AI领域在两个诺贝尔奖中的体现正好对应这两个方面。第一个方面是“ AI for Science”,即利用AI来解决科学问题。例如,AlphaFold成功解决了长期困扰结构生物学的蛋白质折叠预测问题。第二个方面是“ AI as a Science”,即将AI本身作为一门科学进行研究,这在今年的诺贝尔物理学奖中有所体现。这两个方面共同展示了AI在推动科学进步和作为科学研究对象中的重要地位。
展望未来,AI for Science拥有广阔的发展空间。马教授指出,AI可以用于构建生成式的蛋白质和分子模型,打造“原子级别”的ChatGPT,推动符号智能的发展,实现主动学习与实验科学的干湿结合。最终,这将促使构建可扩展、涵盖各种科学知识的科学基础大模型成为可能。从“AI as a Science”的角度来看,将AI的应用从人类智能拓展到自然智能后,我们可以尝试“ model of everything”,将AI视为一门真正的科学进行推进。
AI for Science的第一阶段将率先改变 生物、化学、材料、能源和农业等多个学科。接下来,这一领域将推动为AI for Science量身打造的基础计算设施的建立,并 催生新的产业和经济形态。此外,教育和学校的未来可能会与现今大不相同。高校必须开始思考如何在新时代背景下调整教育模式,以适应和引领新AI时代的发展需求。这一变革不仅涉及课程和教学方法的创新,还包括如何培养学生的跨学科思维和与AI协作的能力。
随后,马教授提出了 AI for Science的定义及其发展路径,并从AI研究者的视角进行了阐述。他认为,这一过程可以分为几个关键步骤。首先,需要实现“ 万物的token化”(tokenize everything)。在过去,我们已将虚拟世界中的token化应用于文字、图像等,现在则将这一概念扩展至物质世界,将其进行token化并加以融合。第二步是,一旦实现了这种token化的统一,就能够接近“ 万物模型”(model of everything)的构建。这样的趋势类似于物理学家试图实现的统一场论,今天AI的发展也在走一条通往统一和综合的道路。最终,这种方法有可能推动AGI(通用人工智能)的发展,并使其特别适用于科学领域,即“ AGI for Science”。
马教授对“旧科学”和“新科学”提出了清晰的定义。他指出,“旧科学”是指系统化地构建和组织人类能够理解和验证的知识体系,并运用这些知识和理论来预测和解释宇宙的运行。而“新科学”是在此基础上引入人工智能(AI in the loop),使AI成为科学研究的一部分。随着科学的发展,知识和数据模型的复杂性已远超人类的理解能力,而 分析海量数据并构建复杂模型正是AI最擅长的事情 。因此,“新科学”强调AI将在科学探索中发挥关键作用,与人类共同构建新的科学知识体系。
马教授分享了他对“ 什么是好的AI for Science项目”的见解。经过与多位同行的深入探讨,他认为,一个项目要被视为优秀的AI for Science项目,需要满足以下两个条件之一。首先,从科学角度来看,项目应聚焦于一个 重大科学问题——一旦解决,将带来显著的科学突破。这类问题通常无法通过传统方法解决,但引入AI后可能实现新的突破。其次,从技术角度来看,项目应 采用最先进的AI技术,这样的挑战才具备实际意义和价值。理想情况下,一个优秀的AI for Science项目不仅解决科学问题,还推动AI技术的发展,带来新的挑战和创新机遇。
在过去二十年中,语言模型经历了从基础的n-gram模型到复杂模型和压缩算法的演变。马维英教授回顾了这一发展过程,并指出早期模型如n-gram因计算能力和数据存储的限制,难以实现完整的语言建模,从纯自然语言处理(NLP)的角度来看面临极大挑战。后来,物理学家引入了“训练即压缩”的思路,这为NLP领域带来了突破。这一思路旨在将之前所有时刻的信息进行压缩,并根据这些压缩的信息来预测下一个时刻的状态。马教授解释道:“当你早上走进办公室时,如果环境发生了变化,你会立刻感到惊讶,因为你的大脑在预测办公室的可能状态。”最新的研究表明,这种信息压缩与所谓的“智能”之间存在
线性关系
,进一步加深了人们对智能本质的理解。
马教授引用了Sam Altman的发言:“ Scaling Law is decided by God”,而课题组的技术和工程能力则决定了接近这一规律的速度。马教授进一步指出, scaling law本身在自然界中普遍存在,并且在自然语言和蛋白质等领域中都观察到了类似的现象。
在大模型中,我们观察到了“ 智能涌现”现象。虽然这种现象在AI for Science领域尚未出现,但一旦在生物、化学、材料等领域中实现智能涌现,将可能带来令人瞩目的突破和意想不到的惊喜。这将推动科学研究的边界,开启前所未有的探索与创新之路。
离散扩散模型是当前的前沿研究方向之一,马维英教授认为这一方向具有极大的潜力。目前,尽管离散扩散模型的规模尚属中等,但在文本生成方面已经能够超越GPT-2的表现。马教授指出,虽然扩散模型起初更适用于连续数据,但如果能够开发出高性能的离散扩散模型,将能够获得一些自回归模型不具有的优势,例如在分子生成和符号数据处理中的高效并行生成。离散扩散模型在生成字符或符号时进行并行去噪,从而显著提升分子的生成效率。
从AI for Science的角度来看,科学领域中的生成式AI可以被抽象为几何图生成问题。
无论是蛋白质设计、基于靶点的药物开发,还是催化剂的研发,这些任务都可以归纳为在不同条件下的几何图生成任务。
在几何图生成中,存在以下几个 难点:首先, 图中的点没有固定顺序,例如小分子中的原子不具备内在顺序,因此GPT等自回归模型在处理时效率不高。其次, 图结构受到物理限制,这使得diffusion等方法在此场景下可能失效。第三, 多模态问题,例如在生成分子时,既需要生成连续的坐标,又需要生成离散的原子类型,这就需要同时结合连续生成与离散生成方法。最后, 几何对称性的问题,由于分子的平移和旋转理论上不会影响其性质,因此需要设计特殊的网络来满足这一条件。
周浩副教授课题组针对以上的分子数据的结构化约束和多模态特征,系统的讨论了扩散模型与几何图数据的不适配性,并且提出了新的分子生成范式 GeoBFN。基于贝叶斯流网络可以多模态并行建模,并且参数空间方差更低的特点,GeoBFN在分子生成的任务上展示了影响深刻的潜力。
GeoBFN在分子生成的标准测试集上取得了非常优异表现。在 生成高质量样本的同时同时可以稳定生成的过程,并且相比之前的方法可以取得接近 20倍的采样效率提升,更快地收敛到一个稳定的结构。
课题组 开源了专为科学领域设计的 生成式AI框架AlgoMole,目前已集成了包括GeoBFN在内的多种模型。未来,该框架将进一步整合各类科学数据和模型,提供更全面的生成式AI解决方案,为科学研究提供强大工具,加速创新和发现的步伐。
AIR在抗体设计领域取得了重要进展。
AIR执行院长刘洋教授及其课题组采用图学习方法,将抗体的CDR区视为翻译问题进行设计,取得了显著成果。
该方法通过创新的视角和技术手段,大幅提升了抗体设计的效率和准确性,推动了该领域的研究向前迈进了一大步。
针对给定靶点的药物设计任务,周浩副教授课题组开发了 MolCRAFT 以建模小分子在靶点蛋白口袋上的条件概率分布,能够直接捕捉蛋白质-小分子的原子级相互作用,精准生成有亲和力的药物分子。
具体而言,为了应对小分子数据的结构建模挑战,MolCRAFT 采用了 贝叶斯流网络(Bayesian Flow Network, BFN),在贝叶斯推断得出的连续参数空间以及包含连续原子坐标、离散原子类型等多个模态的样本空间之间充分交互,训练时优化样本空间上的似然。
得益于课题组开发的参数空间内的全新采样方法,MolCRAFT 能以数十倍的速度生成结构更稳定、亲和力更强的分子,相较之前基于扩散模型等方法取得显著提升。目前,MolCRAFT 正在被基因泰克(GenenTech)等公司积极使用与探索,有望在未来进一步助推药物设计管线,加速新药发现。
兰艳艳教授 课题组在药物虚拟筛选领域提出了一种新方法——DrugCLIP。虚拟筛选的目标是从化合物库中搜索出能够与特定靶点结合的小分子,这一过程类似于“锁和钥匙”的匹配机制。该课题组采用对比学习方法,将靶点和小分子通过编码器映射到同一向量空间,从而通过稠密检索大幅提升筛选速度。目前,DrugCLIP已实现了每天筛选310T化合物库的速度,为药物开发的高效推进提供了新的技术支持。
借助DrugClip方法,研究课题组能够对 人类蛋白质组中的所有结合口袋进行虚拟筛选,因为该方法具有足够快的筛选速度。目前,课题组已完成了对10000种人类蛋白的筛选,并将筛选结果公开,供研究人员查看和使用。 用户可以通过扫描下方二维码访问这些数据。
与生物学家和实验室合作,研究课题组对DrugCLIP的筛选结果进行了生物湿实验,并在多个靶点上取得了显著成果。在5HT2AR靶点的测试中,从筛选出的78个小分子中有8个被证实具有活性。未来,DrugCLIP有望显著加速药物发现的进程,为新药研发提供强有力的技术支持。
我们在蛋白质预训练领域也开展了研究工作,将预训练模型从氨基酸层级扩展至全原子层级,并提出了ESM-AA模型。
我们认为,在蛋白质语言模型中实现跨尺度分析、融合蛋白质与小分子信息,以及整合结构与序列至关重要。
同时,该模型进一步融合了蛋白质、DNA、RNA等不同生物分子。
ESM-AA模型已在学术界获得了广泛认可。
马剑竹副教授课题组
提出了生成式分子基础模型PocketXMol,实现了各种类型生物分子和相关任务的统一。对于结构生物学和药物开发中的大多数任务,如小分子构象预测、多肽对接、基于结构的药物设计和多肽设计等,其本质上都是由原子之间的作用决定的。基于这一原理,课题组提出了一种新的生成式训练框架,对所有分子相互作用任务进行统一学习,并完全使用原子来表征所有类型的分子。
他们的方法可以直接用于基于靶点的小分子或多肽的结构预测和设计,在11个典型任务中经过了计算验证,表现出了卓越的性能。湿实验验证表明,该方法成功开发出了全新的caspase-9靶点抑制剂和PD-L1多肽药物。PocketXMol为理解不同任务提供了新的视角,在结构预测和分子设计之间架起了桥梁,并成功证明了不同分子在原子级的可迁移性,开创了新的多肽药物设计策略。
在材料领域,我们希望利用AI来设计全新的材料。
具体地,我们为每一类材料设计特定的官能团编辑操作,并从一个初始结构出发,进行MCMC采样优化出功能结构;
这一优化过程还依赖预训练材料性质预测器的指导,我们还为多元异构的材料知识设计了材料知识融合和共享框架,以促进材料性质的准确预测;
此优化框架已在OLED发光分子,药物递送脂质化合物分子,钙钛矿材料等多个领域得到了初步验证和应用。
在过去的天文学研究中,开普勒等天文学家通过观察和记录天体运行数据,并进行大量分析,揭示了天体运行的规律。
这一例子说明了符号归纳和推理在科学发现中的重要性。
如今,马剑竹副教授课题组正在进行端到端的符号回归研究,旨在借助现代AI技术进行数据分析,以期实现新的科学发现和突破。
当自动化实验室与AI模型结合时,就能够实现干湿闭环流程。
具体而言,干实验室负责发起实验请求,并交由AI模型进行处理。
模型处理后的结果会被反馈给自动化实验室,执行相应的湿实验。
在实验过程中,自动化实验室会持续将实验数据回传给AI模型,以帮助模型进行迭代和优化。
通过这种干湿闭环的方式,AI模型能够更加高效地推进科学研究,同时实现更精准的实验预测与优化。
马教授在演讲的尾声介绍,清华大学智能产业研究院(AIR)在AI for Science领域的使命是推动生物学、化学、材料科学和农业等领域的AI驱动科学发现与技术创新,并希望能持续提高人类生活水平。AIR致力于与产业、政府和学术界的合作伙伴紧密合作,通过以下五大支柱来实现我们的愿景:
•开放的AI for Science平台和基础设施,用于开发和部署AI解决方案;
•AI与科学研究的深度整合;
•全球学术关系和社区的建设;
•世界领先的产业合作伙伴系统;
•推动工业发展与经济增长的孵化器和风险投资平台。
清华AIR致力于通过这些努力,推动科学研究的前沿,创造积极的社会和经济影响。 马教授热情邀请各个领域的AI科研人员和学生加入这一充满前景的AI for Science研究浪潮,共同探索,共同引领未来科学发展。