AIR学术｜清华兰艳艳：探索智能新药研发新潜能

来源：发布时间：2023-10-20

分子表示学习是智能药物研发的重要路径，但其成功依赖大规模数据、与物理原理相一致的目标函数和反映分子数据特性的可扩展模型结构，三者缺一不可。

——兰艳艳

10月14日，第5期AIR学术工作坊第五位嘉宾：清华大学智能产业研究院（AIR）教授兰艳艳，为我们做了题为《探索智能新药研发新潜能》（Exploring the Potential of AI for Drug Discovery）的报告。

讲者介绍

兰艳艳，清华大学教授，研究方向为机器学习、自然语言处理和AI for Science。在人工智能和机器学习领域重要国际期刊和会议上发表论文80余篇。获得SIGIR最佳学生论文奖和CIKM最佳论文Runner-Up奖。入选国家高层次青年人才计划，中国科学院青年创新促进会优秀会员，北京智源人工智能研究院青年科学家，获得中文信息学会钱伟长中文信息处理科学技术奖一等奖，青年创新奖。兰艳艳博士长期担任相关领域国际重要会议和期刊的（Senior）PC member和审稿人。担任SIGIR2020暑期学校主席，CIKM2020短文程序委员会主席，EMNLP审稿指导委员会主席，YSSNLP2020大会主席，人工智能领域顶级国际期刊AI Journal编委。她还担任是中国计算机学会高级会员，中文信息学会信息检索专委会秘书长，应用数学学会通信与数学专委会副主任。

报告内容

兰艳艳教授带来的报告的主题是探索AI在药物发现中的潜在可能性；她首先介绍了统一表示学习在AIDD领域中的重要性，然后依次介绍了利用表示学习解决AIDD领域问题的两个工作，分别是应用于药物虚拟筛选的DrugClip和分子预训练方法Frad。

26B8D

AI方法现在已经被认同为促进新的技术发展的重要手段，药物研发中的许多流程都可以定义为AI可以解决的问题。首先兰教授介绍了一下AI从基于统计学习到深度学习的发展历程，深度学习不仅学习一个映射函数，另外重要目标是学习一个表示，最近随着Bert等自监督学习方法的发展，学习一个统一的数据表示(URL)，并且可以像人类一样举一反三迁移到各类下游任务中去，逐渐成为一个主流的研究方向。

5DBBF

URL在AIDD领域中显得尤为重要，有两个原因，第一个是因为AIDD中的领域有标签的数据非常稀缺，第二个是因为在AIDD领域中out of domain的场景非常常见，AI模型需要在与训练集中domain不同的数据集上进行评测。在zero-shot的场景下，我们也可以利用clip等一些技术手段获得数据的一个具有良好聚类性质的初始表示，直接在该场景下进行评测。URL发挥作用有3个重要的因素，第一是需要依赖大规模的数据，第二是需要设计一个能够学习到数据本身语义的目标函数，第三是我们需要一个可扩展性强，表达能力强大的网络作为学习工具。

61FDC

最近在小分子表示领域，已经涌现了许多表示学习的工作，发展趋势是，从1d到3d，从单模态到多模态，目标函数也愈发的多样化。但是在这三个因素中也存在许多挑战，数据方面，可靠性强的data还是依赖昂贵的生物实验获得。目标函数方面，简单的迁移其他领域的方法不一定能够捕获生物数据的本质。网络结构方面，如何设计pysical informed的架构也是一个重要的问题。接下来兰老师介绍了一下最近AIR在这些方面探索性的一些工作。

257A1

首先是在NeurIPS23发表的一篇在应用在虚拟筛选的一篇蛋白和小分子matching的方法DrugClip. 当前的工作大体上首先用不同的encoder来编码蛋白质和小分子。然后在训练一个similarty function模块来学习它们之间的结合信息。但是问题在于这方面的数据太稀少了，比如说pdbbind只有2w多条数据。这么少的数据无法支撑能够学习到一个好的表示，我们发现小分子和与之配对的蛋白的表示还是分离的状态，而且相似分子和口袋的表示都会产生一个聚团效应，说明在虚拟筛选场景下很难做到区分。

45AF4

所以依据结合的锁和钥匙模型，分子和口袋的表示必须学习到binding aware的信息。我们需要转化这个问题，类比成为一个推荐系统的问题，我们可以根据用户的喜好去推荐相似的物品。所以我们可以用将学习label prediction的问题转化为对比学习的方式。首先，对于一个ligand-pocket pair我们可以扩充很多的负样本，同时可以利用许多数据增强的手段；其次对于蛋白口袋或者小分子的形状有了一个很好的学习。我们可以利用rdkit来生成不同的分子构象，也可以利用同源蛋白的数据来扩充口袋方面的数据。

44D3E

这样在虚拟筛选场景，我们可以离线的抽取大量的候选分子的特征，这些特征不针对于任何蛋白靶点，加速虚拟筛选的流程。这个框架不局限于虚拟筛选，同样可以适用于抗原抗体，蛋白蛋白的结合任务中。DrugClip在一些公开的虚拟筛选数据集中都取得了SOTA的结果，同是也可以单独依赖学习到的特征在zero-shot虚筛中发挥作用。同时我们还和药学院的老师合作来做human evaluation。让专家在我们用模型预测的结果和glide软件预测的结果进行选择，专家会比较偏向于选择我们模型预测的结果。为了进一步将此方法应用到湿实验方向，看我们是构造了一个数据集来评测是否能把已有的药物来筛选出来，也取得了一个不错的测试结果。同时我们选取了一个与神经科学相关的靶点5HT2A进行湿实验，我们用模型筛选的分子和阳性对照分子对比发现，这些分子表现出了更强的一些和靶点的相互作用。

3C092

兰教授还介绍了一种可以从蛋白测构建虚拟数据的一种方法，我们发现蛋白内部相互作用和蛋白与小分子相互作用也有一些互通之处。我们可以用单个蛋白部分的一些fragment当做分子，周围氨基酸作为一些口袋。我们就可以获得几百万量级的一些data。我们在实验中发现用这种伪造数据来应用到DrugClip中，也可以获得比较大的性能的提升。

44F89

随后兰教授介绍了一个分子预训练工作Frad。我们发现目前数据驱动方式和分子符合的物理基本的原则存在一定的GAP。坐标去噪是3D分子预训练中比较有效的预训练方法，在各种药物发现相关的下游任务中表现出了显著的效果。在理论上证明，坐标去噪等价于学习分子力场。然而，通过坐标去噪来学习一个有效的力场目前面临两个问题，即采样覆盖率低和各向同性力场。根本原因是现有去噪方法假设的分子分布无法捕捉分子的各向异性的特性。为应对这些挑战，我们提出了一种新的混合噪声策略，在分子稳态构象上加入二面角和坐标的混合噪声，以解决采样覆盖率低的问题。然而，通过理论分析，我们发现因为输入构象的协方差特异性，传统方式去除混合噪声不再等同于学习力场。为此，我们提出将两种类型的噪声解耦，并设计了一种新的分数阶去噪方法（Frad），仅去噪后者坐标噪声部分。通过这种方式，Frad既能够采样更多低能量构象，又具备学习各项异性力场等效性的优点。实验表明，Frad在学习3D分子表示方面非常有效，在QM9和MD17任务中取得了新的最佳表现。

55029

我们在实验中对本文的motivation进行了验证。首先我们想验证，Frad近似力场的精度是否比坐标去噪近似力场的精度高？我们在不同的噪声采样下比较了混合噪声力场与ground truth力场的相关系数，C error是力场估计的误差，一方面，在所有采样设置下，混合噪声比坐标噪声具有更好的估计精度。另一方面，当包含较多远离平衡态的样本时，混合噪声与坐标噪声之间的精度差距更明显。这两个结果都显示了Frad比坐标去噪更优越。

41526

最后，我们还有一个后续的工作SliDe, 我们基于传统的force filed的理论假设，将denoise建立在更精细的bond, angle, dihedral angle噪声之上，可以拟合更加精确的分子力场。

5D8BA

最后总结，兰教授介绍基于统一的表示在学习统一表示在AIDD领域中具有非常重要的作用，目前的挑战依然存在于数据，训练目标和网络设计三个方面中。我们可以通过问题转化的方式，构建或者生成出大量的数据。在目标方面，我们要结合数据驱动和先验知识，可以设计更加phycial informed监督策略。网络方面我们设计需要符合physical约束，而且扩展性强的网络。这个领域同时也是一个高度交叉的领域，我们不仅需要需要具备AI方向的知识，同时也要在应用层面带来实际的需求和问题，两方结合的情况下才能产生更好的工作。

1B36F

主讲人		时间
地点		精彩回顾

关于AIR

新闻中心

AIR团队

科学研究

产业交流

人才招聘

院级合作单位

新闻中心

学院新闻

大师对话

学术简报

媒体报道

AIR学术｜清华兰艳艳：探索智能新药研发新潜能

相关新闻

AIR学术｜字节跳动李航：推进人工智能新前沿

AIR学术｜西湖大学于开丞：浅谈自主智能——Autolab 的视角

AIR学术｜南京大学姚遥：Creating a Realistic 3D World

最新动态

官方微信