AIR学术｜李明：人工智能赋能个体化癌症免疫治疗

来源：发布时间：2021-04-23

清华大学智能产业研究院（AIR）致力于利用人工智能技术赋能产业升级、推动社会进步。为更好地增强学术交流，促进学科发展，保障行业最新信息的及时交换，AIR将举办各种不同类型的学术沙龙。

活动概况

4月22日下午，第二期AIR学术沙龙在智能产业院图灵报告厅顺利举行。本期活动，我们很荣幸地邀请到加拿大皇家学会院士李明教授作为主讲人，开展以“人工智能赋能个体化癌症免疫治疗”为主题的讲座。

发现新抗原是个体化癌症免疫治疗的关键步骤。每个病人都有独特的新抗原。要实现病癌个体化免疫治疗，我们必须用人工智能替代湿实验室流程。

讲座结束后，李明教授和与会者进行深入交流，并解答大家的疑问。李明教授用充满亲和力的言语、诙谐幽默的表达对“人工智能赋能个体化癌症免疫治疗”这一主题进行了深入浅出的讲解，获得了观众的一致好评。

本次活动由清华大学智能产业研究院副院长刘洋教授主持，院长张亚勤教授，首席科学家马维英教授等出席并认真听取了报告。活动采取线下和线上结合的方式，吸引了来自清华大学、北京航天航空大学、中国科学院、爱丁堡大学，以及百度、搜狗、华大基因等学校及企业单位，总计约700名观众听取了本次讲座。线上下结合的方式，打破地域限制，搭建学习和交流的多领域平台，营造了良好的学习氛围。

李明与张亚勤、马维英、刘洋等参会学者合影

讲者简介

李明教授是加拿大皇家学会（The Royal Society of Canada）院士，ACM 及 IEEE Fellow, Killiam Fellow，Canada Research Chair (Tier I)。曾获McGuffey Longevity Award。2010年获得加拿大顶级国家科学奖Killiam Prize（迄今唯一获此奖项华人）。李教授在美国康奈尔大学获得博士学位，现为加拿大滑铁卢大学的大学教授 (University Professor)，教育部长江讲座教授，清华大学客座教授，北京大学客座教授。他是研究Kolmogorov复杂性的世界权威专家，在研究机器学习，自然语言处理，算法平均复杂度、信息距离，和生物信息学方面解决了多个几十年未解难题，开创了新的研究领域，做出了重大贡献。在Nature, Nature Methods, Nature Machine Intelligence, PNAS, Scientific American, J.ACM, CACM, FOCS, STOC 等杂志会议发表过许多有影响的文章。他的著作“An introduction to Kolmogorov complexity and its applications”已经出了第4版，在世界上被誉为经典，广为引用。

报告内容

癌症是全球范围内的主要死亡原因之一，根据国际癌症研究机构（International Agency for Research on Cancer，IARC）发布的2020年世界癌症报告显示，2020年全世界有996万例患者死于癌症，同时有1929万例新发癌症病例。而我国在2020年的新发癌症病例有456.9万人，癌症死亡病例300.2万例，新发癌症数量占全球的23.68%，死于癌症的患者数量占全球的30.14%，我国已经成为全球癌症新发和死亡的第一大国，癌症也已经成为威胁居民健康的最主要公共卫生问题之一。抗击癌症，已然是中国以及世界范围内刻不容缓亟待解决的问题。

目前对于癌症治疗的传统方法主要有以下三种模式：1）手术；2）化疗；3）放疗，但是由于手术风险较大，重要器官的肿瘤无法根除，化疗和放疗带来的巨大副作用，价格高昂以及个体差异等种种因素，使得人们开始在传统的治疗方法以外寻求其他更为高效，对个体更为精准以及副作用更小的疗法，这也是本报告的主要内容：探索如何利用自身免疫系统特征，达到可以对癌症进行个性化的免疫治疗方法。

在人体的免疫系统中，组织相容性复合体（Major Histocompatibility Complex，MHC）在人类中又称人类白细胞抗原（Human Leucocyte Antigens, HLA），是位于人类第六号染色体断臂上的一组紧密连锁的基因群，其编码的抗原参与机体的免疫应答并起着不同的免疫调节作用。其中表达出的MHC-I类蛋白主要与恶性肿瘤有关，在恶性肿瘤组织中，往往会表达出一种具有高特异性和强免疫原性的抗原，被称为新抗原（Neoantigen），Neoantigen成为免疫治疗中最理想的生物靶标。

现阶段，国内外对于肿瘤特异性T细胞的免疫治疗方法主要有三种关键性技术：1）癌症疫苗；2）免疫检查点封锁；3）过继性细胞免疫治疗方法，如CAR-T疗法。

基于Neoantigen的免疫治疗，特别是使用癌症疫苗的免疫疗法，是个性化医学的标志性疗法，因为这需要在每位患者中确定靶抗原。个性化医学的这一阶段称为精密医学，通常适用于分子靶向药物的选择。基于新抗原的癌症疫苗还超越了个性化医学的当前概念，因为根据基因组学和蛋白质组学分析以及突变选择的结果，可以为个体患者按需生产个体癌症疫苗。

传统的个性化药物寻求适合该药物的患者亚组，而基于新抗原的癌症疫苗则是为患者量身定制的。在这种情况下，与开发化学和生物药物产品的要求相反，对每种疫苗进行广泛的安全性和功效测试是不可行的。因此，个性化免疫疗法的开发可能需要从旨在进行常规药物开发的当前可用监管框架中进行范式转变。

以Neoantigen为靶点的新疗法的出现将通过实现个性化、个体化治疗的想法，在未来十年内彻底改变癌症患者的治疗。个体化癌症疫苗的制造流程如下图所示：

但是现阶段的个体化癌症免疫治疗，过程漫长，造价高昂，且结果也是极其不准确的，对于Neoantigen的寻找是十分不准确且存在大量遗漏的。

那么如何利用人工智能方法，有效地寻找Neoantigen并对其进行准确的验证呢？2017年《Nature Biotechnology》杂志中提出观点，现有的算法可以预测肿瘤的处理过程，但是通过洗提和质谱法直接鉴定与肿瘤中MHC结合的多肽则是更好的预测方法。然而，质谱法充满了敏感性问题且极有可能遗漏重要表位。这在当时还没有一种单一的高通量方法可以对假定的新表位进行全面且确定的鉴定。

李明教授所在团队针对这个问题，推出了DeepImmu平台，使用人工智能方法替代传统湿实验室过程，仅使用质谱仪即可进行更为准确、快捷且价格更为低廉的抗原表位鉴定。

在癌细胞表面发现新抗原，存在两个问题需要解决：1）Neoantigen是非常少的；2）突变和蛋白质翻译后修饰问题。因此，可以使用两种解决方案解决这些问题：数据独立采集（Data Independent Acquisition，DIA）技术和从头测序技术。传统的PEAKS方法对于DIA数据并不适用，而且其准确率也不高，因此李明教授团队提出使用深度学习方法，使得从头测序技术适用于DIA数据并显著提高检测的准确率。

下图为PEAKS方法中，使用质谱仪动态地重建肽序列的原理，通过对肽链进行分割，以及对分割结果的测量得到肽链的构成。但是实际中存在许多问题，如肽链分割不准确、以及多条肽链混合的时候这种方法无法准确判断每一条肽序列的构成。

深度学习方法有效地解决了这一问题，下图为李明教授团队在2017年提出的基于深度学习方法的从头对肽进行测序的DeepNovo模型。DeepNovo架构结合了卷积神经网络和递归神经网络的最新进展，以学习串联质谱，片段离子和肽的序列模式的特征。这些网络还与本地动态编程集成在一起，以解决从头测序的复杂优化任务。其简要流程为：（a）频谱由CNN spectrum-CNN处理，然后用于LSTM网络的初始化；（b）DeepNovo通过在每次迭代中预测一个氨基酸来测序一个肽。从一个特殊的符号开始，模型通过调节前几步的输入光谱和输出来预测下一个氨基酸。如果在当前步骤中，模型输出特殊符号end，流程就会停止；（c）DeepNovo测序步骤的细节。两种分类模型ion-CNN和LSTM，将之前测序步骤的输出作为前缀来预测接下来的氨基酸。

实验对多种物种进行了评估，发现DeepNovo大大优于现有方法，在氨基酸水平上的准确度提高了7.7–22.9％，在肽水平上的准确度提高了38.1–64.0％。我们进一步使用DeepNovo来自动重建小鼠抗体轻链和重链的完整序列，无需辅助数据库即可实现97.5–100％的覆盖率和97.2–99.5％的准确性。

在随后的研究中，李明教授团队对DeepNovo模型进行拓展，提出DeepNovo-DIA用于对DIA质谱数据的从头测序中。从LC-MS图谱中检测出前驱离子特征及其质子数/电荷数的比值（m/z），电荷，保留时间和强度曲线。与每个前驱体相关的质谱(即在保留时间和m/z范围内)沿着保留时间和m/z维度对齐，然后输入神经网络。Ion-CNN和Spectrum-CNN学习碎片离子的三维形状以及前驱体与其碎片离子之间的相关性。使用长期记忆（LSTM）网络学习与光谱CNN相关的肽序列模式。DeepNovo-DIA以循环方式进行从头测序，通过调节先前步骤的输出来预测下一个氨基酸。

使用DeepNovo-DIA对三个数据集卵巢囊肿（OC），尿路感染（UTI）和血浆进行评估。（a）DeepNovo-DIA在标记特征上的准确性。（b）DeepNovo-DIA准确性和置信度得分的分布。（c）通过内部数据库搜索或DeepNovo-DIA进行肽段鉴定的前体特征。（d）图c中重叠特征的DeepNovo-DIA精度。（e）由DeepNovo-DIA，PECAN和Spectronaut从血浆数据集中鉴定出的独特肽的比较。（f-h）包含三个不同肽的DIA光谱实例，所有这些都是DeepNovo-DIA预测的。在每个面板中，支持相应肽的片段离子被突出显示（红色表示y离子；蓝色表示b离子）。

将DeepNovo-DIV的结果与他人方法对比，发现所提出方法获得了对于Neoantigen更准确以及更多数量的预测。

随后介绍了团队对于个性化Neoantigen的发现过程。下图描述了对于个性化从头肽测序工作流程的五个步骤，从MS数据预测单个患者的HLA肽：（1）构建患者的免疫肽群；（2）训练个性化的机器学习模型；（3）个性化从头肽测序；（4）新生肽的质量控制；（5）Neoantigen选择。

将个性化Neoantigen方法和传统方法对8名皮肤癌患者以及7名其他肿瘤样本进行测试比较，实验结果表明，个性化Neoantigen方法不仅能够发现所有的HLA-I和HLA-II的Neoantigen，包括那些在以前的研究中获得的有效的T细胞反应，也发现了在以前的研究中没有报道的Neoantigen。

发现Neoantigen之后要确认Neoantigen是否可以引起人体免疫反应，本质上的免疫原则是期望T细胞通过Neoantigen与癌细胞结合，从而达到杀死癌细胞的目的。李明教授团队使用DeepGenic来检查Neoantigen的有效性，实验表明检测得到的Neoantigen是有效的。

研究个体化癌症免疫治疗技术相当于对当今制药业的重新洗牌，个性化免疫不再需要花费数十年，耗资巨大研制一种药物，而是可以通过产生针对每个人个体的特性Neoantigen从而达到准确的治疗目的。使用AI技术替代传统的湿实验室也是个体化癌症免疫疗法的必经之路，AI方法使得药物的制造工艺更加便宜、快速且准确。在未来，个体化免疫治疗也将被用于其他疾病，如自身免疫系统疾病的治疗；降低器官移植的排异反应以及预防癌症疫苗的生产上。构建肽段组学数据库对于个体化免疫治疗十分有必要的。个体化免疫治疗方法必然会被进一步研究和探讨，个体化免疫方法为个体化医疗以及精准医疗拉开序幕，其研究与进步也必将为全人类的健康带来更多的福音。

参考文献：[1] Tran N H, Zhang X, Lei X, et al. Denovo peptide sequencing by deep learning[J]. Proceedings of the NationalAcademy of Sciences of the United States of America, 2017, 114(31):201705691.[2] Tran N H, Rui Q, Lei X, et al. Deeplearning enables de novo peptide sequencing from data-independent-acquisitionmass spectrometry[J]. Nature Methods, 2019, 16(1).[3] Tran N H, Qiao R, Xin L, et al.Personalized deep learning of individual immunopeptidomes to identifyneoantigens for cancer vaccines[J]. Nature Machine Intelligence.[4] R Qiao, Tran N H, Xin L, et al.Computationally instrument-resolution-independent de novo peptide sequencingfor high-resolution devices[J]. Nature Machine Intelligence.

撰文 / 张嘉欢冼晓晴

编辑排版 / 冼晓晴

责编 / 黄妍

精彩视频回顾及完整版PPT下载，请点击：

AIR学术沙龙第2期｜人工智能赋能个体化癌症免疫治疗

关于AIR

新闻中心

AIR团队

科学研究

产业交流

人才招聘

院级合作单位

新闻中心

学院新闻

大师对话

学术简报

媒体报道

AIR学术｜李明：人工智能赋能个体化癌症免疫治疗

相关新闻

AIR学术｜字节跳动李航：推进人工智能新前沿

AIR学术｜西湖大学于开丞：浅谈自主智能——Autolab 的视角

AIR学术｜南京大学姚遥：Creating a Realistic 3D World

最新动态

官方微信

主讲人		时间
地点		精彩回顾