新闻中心

当前位置: 首页 > 新闻中心 > 学术简报 > 正文

AIR学术|人工智能赋能医药研发

来源:       发布时间:2021-09-02
主讲人 时间
地点 精彩回顾

结合湿试验的数据和领域知识实现干湿闭环,是打通AI在生命科学领域的壁垒的关键。

——宋乐




活动概况


9月1日上午,第八期AIR学术沙龙在清华大学智能产业研究院(AIR)图灵报告厅如期举行。本期活动荣幸地邀请到了百图生科首席AI科学家、著名图网络专家宋乐博士,为我们作题为《人工智能赋能医药研发》的报告。


本次讲座由清华大学智能产业研究院(AIR)惠妍讲席教授、首席科学家马维英教授主持,与会嘉宾包括清华大学智能产业研究院院长张亚勤、百图生科副总裁周达等。由于疫情原因,本次活动为全线上模式,分别在清华大学智能产业研究院微信视频号、哔哩哔哩进行双平台同步直播,全网直播观看人数约3500人次。


讲者介绍


image.png


宋乐博士是著名的机器学习和图深度学习专家,曾任美国佐治亚理工学院计算机学院终身教授、机器学习中心副主任,阿联酋 MBZUAI 机器学习系主任,蚂蚁金服深度学习团队负责人(P10)、阿里巴巴达摩院研究员,国际机器学习大会董事会成员,具有丰富的 AI 算法和工程经验。


自 2008 年起,宋乐博士在 CMU 从事生物计算相关的研究,利用机器学习技术对靶点挖掘、药物设计取得了一系列突破性成果,获得 NeurIPS、ICML、AISTATS 等主要机器学习会议的最佳论文奖。社区服务方面,他曾担任 NeurIPS、ICML、ICLR、AAAI、IJCAI 等AI顶会的领域主席,并将出任 ICML 2022 的大会主席,他还是同行评议期刊 JMLR、IEEE TPAMI 的副主编。


报告内容


药物研发通常服从一个双十的规律:十年的研发周期,十亿美元的投入。这描述了新药研发过程中的挑战——周期长,经费高。


通常来讲药物的研发周期分为三期,第一期是进行小分子的筛选,目的是要从image.png个分子中选出10000个有效的化合物,第二期是指临床前试验,其目的是从10000个候选化合物中再进行筛选得到250个化合物进行动物实验等,最终选出五个候选化合物进行临床试验,最终得到有效的药物。整个过程中有非常多的失败情况,因此研发周期和经费投入难以被缩减。


image.png


技术上来讲,很多疾病有非常复杂的机理,例如癌症需要寻找合适的靶点才能够设计有效的药物。同时医疗生物相关的数据非常的多样并且复杂,并且数据量在逐渐增大,纬度不断增加。单纯通过医生或者生物学家自身的先验知识和经验对于药物开发提供指导目前已经不太现实,毕竟人的精力有限,所以整合计算和智能的力量来帮助药物研发就有非常强的动机。


image.png


本次人工智能辅助药物研发的讲座主要涉及以下的几个方面:


蛋白质折叠预测(AlphaFold 2)、RNA折叠预测、分子性质预测、分子生成、反应路径合成、分子优化。


image.png


01 RNA 折叠预测


RNA 除了进行转录和翻译以外,本身可以直接与蛋白质结合发生作用。在这种情况下,RNA的相关功能与其在空间中的3D结构密切相关,因此与蛋白质类似,我们需要去研究RNA折叠预测。


image.png


传统的RNA 折叠主要关注于嵌套式结构(nested structure),可以通过动态规划(dynamic programming)进行求解。然而对于其他的结构如假结型结构(pseudoknot structure)则难以解决。对此种情况,基于transformer 结构,E2Efold 提出将能量函数(energy function)和 受限制优化问题连接起来,进行端到端(end2end)的参数更新。



image.png


02 基因表达机理相关工作


传统做法将基因表达机理发掘的工作形式化成l1正则化的log-determinant估计问题,而宋博士团队提出的GLAD(数据驱动的网络复原学习算法)在传统算法上增加了可学习的项,使之等价于新的网络结构。通过新的网络结构,GLAD实现了对于经典算法的展开并且保证了端到端的学习:


image.png


03 分子性质优化相关工作


指定分子性质搜索问题是从巨大的有效分子空间中,根据指定的性质对于分子分布进行筛选,得到满足某种期待性质的分布。


image.png


MolEvol提出通过EM的方式组合可解释的局部搜索以及基于条件的生成模型来实现对于分子的可解释性生成。由条件生成模型给出种子分子,再进行可解释性局部搜索来获得相关的基团,并依据外部奖励函数来进一步更新条件生成模型。


image.png


04 逆合成分析相关工作


逆合成分析任务的目标是依据目标物来规划有效的反应路线,从而根据市面上容易获取的分子来高效地实现对于目标物的合成。


image.png


Retro* 是基于meta learning的逆合成规划路径方法。Retro* 基于AND-OR tree 对于反应合成路线进行建模,同时对于每一个节点学习对应的价值函数。根据学习的价值函数模型我们可以更快的在AND-OR 树上面进行搜索。


image.png


报告结束后,宋乐博士和与会学者针对医药研发中的人工智能技术展开了近30分钟的热烈讨论。清华大学智能产业研究院(AIR)兰艳艳教授针对生物知识图谱中的不确定性,以及分子生成中计算角度合理指标的度量和指导提出疑问。宋乐博士回答道,前者可以通过图模型建模,Perturbation试验调整;后者评价的维度有很多,对于下游任务需要领域专家对于分子生成的指标进行更加精确的指导。


清华大学智能产业研究院(AIR)刘洋教授则针对时空数据以及AI 是否可以和分子动力学等传统方法深度结合发问。宋乐博士解释道:“这在个别维度是可以的。首先,分子动力学中的能量模型可以通过深度学习来参数化;其次,可以从机器学习角度对分子动力学模拟的结果深入分析。传统方法发展了很多年,AI和传统方法的结合会有很大的潜力。”


最后,马维英教授指出,让AI在生命科学的领域发挥更大的空间既是机会,也是挑战,干湿闭环很可能是一个突破点,希望能尽快破壁,实现AI领域科学家和生命科学领域科学家的知识融合。



撰文 / 宋宇轩 冼晓晴

编辑排版 / 冼晓晴

校对责编 / 黄妍


精彩视频回顾及完整版PPT下载,请点击:

AIR学术沙龙第8期|人工智能赋能医药研发

上一条:AIR学术|陶大程:深度学习的基础理论 下一条:AIR学术|知识指导的预训练语言模型

关闭

相关新闻

业务合作:airoffice@air.tsinghua.edu.cn
招生招聘:airhr@air.tsinghua.edu.cn
联系电话:(010)82151160  

办公地点:北京市海淀区清华科技园启迪科技大厦C座12层

官方微信

京ICP备15006448号  |   版权所有©清华大学智能产业研究院