六个视角，看AI赋能生命健康与生物医药！

来源：发布时间：2021-06-05

北京智源大会是人工智能领域盛会，已成功举办两届。2021北京智源大会于6月1日至6月3日在线上线下同步召开。本次会议共设29个专题论坛，从AI基础研究、跨界融合、到产业应用，为各界人士提供了一个交流和碰撞想法的平台。本次会议聚集了八千余位AI领域的科学家、企业家、投资者、学界人员、业界人员，累计参与观看直播和讨论人次达200万。

6月3日上午，北京智源大会线上开展了以“AI赋能生命健康与生物医药”为主题的分论坛，邀请了滑铁卢大学计算机科学系教授李明，北京大学教授马剑竹，卡耐基梅隆大学教授马坚，微软亚洲研究院副院长刘铁岩，医渡云首席科学家闫峻，清华大学助理教授、智源青年科学家袁洋六位嘉宾从不同角度发表对AI赋能生命健康的看法。论坛由清华大学智能产业研究院惠妍讲席教授、首席科学家马维英主持。

报告详情

人工智能赋能个体化癌症免疫治疗

报告人：李明

加拿大皇家学会（The Royal Society of Canada）院士，ACM / IEEE Fellow, Killiam Fellow，Canada Research Chair (Tier I)。曾获McGuffey Longevity Award。2010年获得加拿大顶级国家科学奖Killiam Prize（迄今唯一获此奖项华人）。李教授在美国康奈尔大学获得博士学位，现为加拿大滑铁卢大学的大学教授 (University Professor)，教育部长江讲座教授，清华大学客座教授，北京大学客座教授。他是研究Kolmogorov复杂性的世界权威专家，在研究机器学习，自然语言处理，算法平均复杂度、信息距离，和生物信息学方面解决了多个几十年未解难题，开创了新的研究领域，做出了重大贡献。在Nature, Nature Methods, Nature Machine Intelligence, PNAS, Scientific American, J.ACM, CACM, FOCS, STOC 等杂志会议发表过许多有影响的文章。他的著作“An introduction to Kolmogorov complexity and its applications”已经出了第4版，在世界上被誉为经典，广为引用。

报告开始，李明教授简要阐述了癌症对当今人类的生活、健康以及寿命所产生的影响，并介绍了当前人们对癌症治疗的三种传统模式，即手术，化疗和放疗。但是由于传统模式存在着风险大、副作用强、价格高昂以及个体差异带来的种种影响，使得人们开始寻求传统方法以外更为高效，副作用更小并且个体精准的治疗方法——个体化癌症免疫治疗。

在恶性肿瘤组织中，往往会表达出一种具有高特异性和强免疫原性的抗原，被称为新抗原（Neoantigen），这也是免疫治疗中最理想的生物靶标。

传统的个性化药物寻求适合该药物的患者亚组，而基于Neoantigen的免疫治疗，特别是癌症疫苗免疫疗法，是为每个患者量身定制的。它可以根据基因组学和蛋白质组学分析以及突变选择的结果，为个体患者按需生产个体癌症疫苗。因此，基于Neoantigen的免疫治疗可以被视为个性化医学的标志性疗法之一，以Neoantigen为靶点的新疗法将通过实现个性化、个体化治疗的想法，在未来十年内彻底改变癌症患者的治疗。

李明教授团队在基于Neoantigen的免疫治疗方法中进行了丰富的工作，并对Neoantigen的寻找做出了大量贡献。他们推出了DeepImmu平台，使用人工智能方法替代传统湿实验室过程，仅使用质谱仪即可进行更为准确、快捷且价格更为低廉的抗原表位鉴定。提出基于深度学习方法的从头肽测序模型——DeepNovo，以及扩展模型DeepNovo-DIA，提高了对Neoantigen的预测准确率和预测数量。

个体化癌症免疫治疗技术通过产生针对个体的特性Neoantigen而达到准确的治疗目的。使用AI技术替代传统的湿实验室也是个体化癌症免疫疗法的必经之路。人工智能赋能个体化免疫治疗方法为精准医疗拉开序幕，其研究与进步也必将为全人类的健康带来更多的福音。

以下为“人工智能赋能个体化癌症免疫治疗”完整视频

精彩内容点击回放

结构性和功能性基因组学的机器学习算法

报告人：马剑竹

北京大学人工智能研究院副教授，此前曾任美国普渡大学（Purdue University）生物化学系、计算机系助理教授。马博士是机器学习领域的计算机专家，主要研究科学、医学及卫生领域中数据带来的挑战。马博士曾发表多篇生物医学应用相关论文（收录于《Nature Methods》、《Nature Cancer》、《Cell》、《Nature Communications》、《PNAS》等），其论文、发言、海报及研究曾在RECOMB、ISMB等顶级会议中获奖。

RaptorX是Alphafold上一代的蛋白结构和功能预测软件，曾在CASP12中取得了领先成绩。本次介绍RaptorX软件中马教授与伊利诺伊大学厄巴纳-香槟分校计算机科学系副教授彭健共同开发的部分：基于模板预测蛋白结构。

虽然目前数据库中有约17万的蛋白结构，但实际只有约1000种蛋白结构类别，因此任意一种新的蛋白，几乎都可以在数据库中找到与之类似结构的蛋白，所以可以用数据比对的方式，从数据库中找到一个或多个模板，进而在模板的基础上预测未知蛋白的结构。然而，实际上序列比对是一件很难的事。比如左图中蓝色和绿色的蛋白质结构非常类似，但它们的序列是完全不一样的，所以简单地用字符串匹配的方式做比对是行不通的。这个现象背后蕴含着生物学原理：蛋白质的结构比序列更加保守，即序列变化时仍能维持基本的蛋白结构不变。如何将不同的蛋白序列联配（Protein Alignment），得到氨基酸序列的一一映射，这就是马教授和彭教授曾一同研究的问题。这一问题在今天仍有重要的意义，因为AlphaFold2中也使用的同源蛋白的信息，找同源蛋白的过程也使用了蛋白联配技术。

我们知道，做两个字符串的联配可以用动态规划算法，填写动态规划表格，再回溯找到表格中的通路，也就是联配方式。但难点在于不知道某一个字母应当对应哪个字母，因此需要用监督学习为联配结果赋分。于是可以将已知结构的蛋白做堆叠，得到真实的联配方式，然后以最大似然作为优化目标，即让真实联配方式的分值最大化为目标来训练神经网络。这是一种基于格子的条件随机场方法（grid conditional random feild），其中配分函数（Partition function）Z刚好能在多项式时间算出，因此可以对对数似然函数做梯度下降。那个时候深度学习的概念才刚刚被提出，这一算法的代码是用C 写的，使用的网络层数不深，因为深层难以训练。近几年许锦波教授使用更深的网络，使模型效果进一步提升。

时隔多年后，教授们再回头看这一问题时发现，原有方法是可以被改进的。原有方法并没有触及这一生物问题的固有性质，而是直接套用了机器学习算法。原有方法相当于是将现有的联配与真实的联配在每一节点作比较，相同则加分，不同则减分。但事实上，蛋白联配是两个几何体做堆叠，如果两个几何体错位得很少那仍然可以认为它们结构相似，比如假设真实对应是1对1，2对2，3对3等，现有对应是1对2，2对3，3对4等，它们的结构看上去相差并不远；如果相差较远则联配得不好。但原有方法不能捕捉这一信息，所以需要一种新的损失函数能够体现联配之间的几何差异。教授们想到一种精妙的方法，将现有的联配与真实的联配的距离用两种联配对应表格中路径围成的面积来度量，以面积最小为目标来训练神经网络。这一结果发表在2021UAI上。

马教授还抛出一个开放问题，如果要计算三个序列的联配，该怎么做呢？马教授提供了一种初步的思路，仿照两序列联配问题，三个序列的联配需要以长方体盒子中两条线围成的最小曲面的面积作为损失函数。

在蛋白功能预测上，两位教授合作了（激酶）蛋白-短肽结合（Kinase-peptide binding）的预测工作。其中这种蛋白有很多族，每一族内的蛋白比较相似。现有的方法有两类，一种对每一族蛋白分别进行建模，一种把所有组都合在一起建模。前一种方法的问题是部分族的有标签数据很少，后一种方法会丢失族群间的区别。这在机器学习中是一种标准的多任务（Multi-task）问题，这些任务既有关联性，又不太一样。两位教授在18年做了一个Meta learning/ Few-shot learning的工作，将每族的蛋白与短肽的结合作为一个任务，先对各任务做Meta learning模型，得到对不同族的蛋白非常敏感的表示，再将这一模型迁移到有标签数据很少的任务上，如图。当时，教授们使用了MAML方法，当然现在新兴的一些方法也可以使用。

这一方法在不同族的蛋白上基本上都有较好的效果提升。

更重要的结果是，这种方法可以用较少的样本对结果有较大的提升。

以下为“结构性和功能性基因组学的机器学习算法”

完整视频点击回放

以计算之矛攻新冠之盾

报告人：刘铁岩

微软亚洲研究院副院长，领导微软亚洲研究院在机器学习领域的研究工作。刘铁岩博士是人工智能领域的国际知名学者，国际电子电气工程师学会院士（IEEE Fellow），美国计算机学会杰出会员（ACM Distinguished Member）。刘博士还是卡内基梅隆大学（CMU）兼职教授，诺丁汉大学荣誉教授，清华大学、中国科学技术大学、南开大学兼职教授、博士生导师。他担任了包括WWW/WebConf、SIGIR、KDD、NIPS、ICML、AAAI在内的诸多顶级国际会议的大会主席、程序委员会主席、本地主席和领域主席，以及包括ACM TOIS、ACM TWEB在内的国际知名期刊的副主编。他还担任了中国计算机学会青工委副主任、中文信息学会信息检索专委会副主任、中国云体系创新战略联盟常务理事、上海徐汇区科协常委等社会职务。

微软亚洲研究院副院长刘铁岩博士，分享了微软亚研院围绕流行病学和病毒学两个方面，在抗击新冠肺炎疫情中的研究工作。

流行病学的主要问题是预测疫情发展趋势。美国疾控中心对超过40个研究单位提供的预测模型进行集成，其结果被用来指导各种政策的制定。这些方法大多基于SEIR模型，其主要缺陷是无法考虑数据中各种丰富的特征，如各地管控措施、医院医疗设备运用状况等，也无法考虑地区之间的关联关系。针对SEIR模型的痛点，微软亚研院设计了一个新模型，并提交到美国疾控中心的网站上。在过去半年的大部分时间里，该模型预测效果排名第一。

病毒学方面，微软亚研院通过分子动力学模拟，发现新冠病毒S蛋白中的NTD可以考虑作为一个有效的靶点，对新冠制药产生价值。新冠病毒的S蛋白包中RBD的构象的打开与否，直接影响病毒感染能力的强弱。微软亚研院发现NTD就像楔子一样，对RBD构象的改变有着控制作用。此外，研究人员验证了在中药清肺排毒汤中包含的18种化学成分，和NTD有很强的结合亲和力，这种中药在国内疫情期间广泛使用，这间接证明了NTD对于治疗新冠疫情的价值。

最后，刘铁岩博士向大家简要介绍了微软亚研院在计算生物学方向上的整体布局和开展的相关研究。

以下为“以计算之矛攻新冠之盾”完整视频

精彩内容点击回放

数据与知识驱动的AI赋能生命健康研究

报告人：闫峻

北京大学数学学院信息科学系博士，2004 年获得微软优秀学者称号（每年亚洲 15 人），2005 年 4 月至 2006 年初任哈佛大学医学院研究助理， 2006 年 7 月加入微软亚洲研究院工作，任微软亚洲研究院资深研究员，企业智能化和数据挖掘组的负责人。他的研究兴趣包括人工智能中的知识挖掘，基于知识的机器学习，文本处理技术，信息检索，互联网广告等并更加关注医疗健康领域的人工智能研究。至今为止，他的数十项研究成果被应用到微软的不同技术产品中，获取技术专利数十项，发表高质量学术论文 80 余篇，包括 SIGKDD, SIGIR, WWW, ICDM, TKDE 等。他还曾任CCKS工业论坛主席，中山大学博士生导师，人民大学工程硕士导师。闫博士现为中文信息学会语言与知识计算专业委员会委员，中文信息学会医疗健康与生物信息处理专业委员会委员。他于2017年加入医渡云任首席人工智能科学家、大数据与人工智能实验室主任。

闫峻博士团队所在的医渡云，主要从事医疗健康领域的数据基础设施建设，以支撑在此基础上的模型建设，应用场景和产业发展，继而产出新的数据与知识，形成闭环。当前医疗数据赋能的主要挑战包含数据应用、数据治理和数据集成三个方面。

针对上述多种挑战，医渡云构建了数据智能集成系统，通过跨系统的唯一患者标识，联通患者数据，应用于多种场景，满足用户的个性化需求。

针对数据治理中存在的数据质量杂乱不一问题，团队通过多种自然语言处理方法，结合专业的医疗知识，形成医疗文书结构化建模能力（将自然语言文本转化为结构化医疗数据）、医学术语标准化处理能力（将描述不一的同类术语进行标准化）。

针对数据集成过程中的数据多源、异质、以及存在错误数据等问题，团队也搭建了完整的工具化平台，对数据生产全过程进行质控。

依托于上述数据集成系统所搭建的搜索引擎可实现高效、可视化数据检索分析，并可以帮助临床医生发现并验证想法，推进科学研究。

另外，团队还结合海量医学数据和专业知识，构建了模型化知识图谱。图谱中实体为各种疾病、对应的并发症、病因等。基于该图谱，系统可以以患者疾病指征为中心，提供针对用户的“一人一策”个性化服务。

以下为“数据与知识驱动的AI赋能生命健康研究”完整视频

精彩内容点击回放

AI医疗的基础设施建设

报告人：袁洋

清华大学交叉信息学院助理教授，智源青年科学家。2012年毕业于北京大学计算机系，2018年获得美国康奈尔大学计算机博士学位，师从Robert Kleinberg教授。在博士期间，于2014年-2015年前往微软新英格兰研究院做访问学生，并于2016年秋季前往美国普林斯顿大学做访问学生。2018-2019年前往麻省理工学院大数据科学学院（MIFODS）做博士后，师从Piotr Indyk教授和Aleksander Madry教授。袁洋的主要研究方向是智能医疗、AI可解释性、AI大系统。

未来的医疗是什么样子？正如古人对自动化结合磨粉的想象很可能是机器代替人推磨盘，我们对未来医疗的想象也可能存在思维定势。