新闻中心

当前位置: 首页 > 新闻中心 > 学术简报 > 正文

AIR学术 | 俄勒冈州立大学副教授黄亮:AI for COVID-19 Vaccine Design

来源:       发布时间:2022-09-09
主讲人 黄亮 时间 2022年9月7日上午10:30
地点 线上直播 精彩回顾

自然语言处理的经典方法,已经在计算生物学领域产生了重大影响和价值。

——黄亮



         

活动概况

9月7日上午,第26期AIR学术沙龙如期在线举行。本期活动荣幸地邀请到了前百度美国研究院杰出科学家、俄勒冈州立大学计算机科学副教授黄亮为我们作题为AI for COVID-19 Vaccine Design的报告

37A2D

   

   

本次活动由清华大学智能产业研究院(AIR)副院长刘洋教授主持,AIR官方视频号和b站同步直播,当日线上逾3000次观看。

讲者介绍

1144B2

向上滑动阅览


Liang Huang (PhD, Penn, 2008) is an Associate Professor of Computer Science at Oregon State University. Until very recently, he was also a Distinguished Scientist at Baidu Research USA. He is a leading theoretical computational linguist, and was recognized at ACL 2008 (Best Paper Award) and ACL 2019 (Keynote Speech), but in recent years he has been more interested in applying his expertise in parsing, translation, and grammar formalisms to biology problems such as RNA folding and RNA design, a direction his late advisor Aravind Joshi pioneered 20 years ago. Since the outbreak of COVID-19, he has shifted his attention to the fight against the virus, which resulted in efficient algorithms for stable mRNA vaccine design used by 30+ vaccine companies, and the first homologous folding algorithm to scale to SARS-CoV-2 variants (PNAS, 2021).        


报告内容

本次讲座黄亮教授主要探讨了人工智能如何助力新冠疫情防治,并重点聚焦于mRNA疫苗设计问题。黄教授先后介绍了计算语言学和生物计算的紧密联系,计算语言学的技术如何辅助mRNA疫苗的设计,以及如何对新冠病毒的变异基因组进行折叠对齐分析,发现病毒的关键序列点来针对性地研发新冠特效药和核酸检测试剂。


计算语言学和计算生物学

语言学和生物学其实是一枚硬币的两面,人类的语句,有它自己的句法结构(比如主谓宾等),而RNA的序列也可以理解为一个句子,虽然基础词汇只有4个(A, U, G, C),但其长度可以很长,比如新冠病毒的基因组就是一个较长的句子,包括大概 30,000个左右的碱基,这也是新冠病毒极难攻克的原因之一。不过RNA也有二级结构,类似英文或中文的句法结构,是可以用计算语言学的方法来对生物序列做句法结构分析的。mRNA疫苗可以理解为是源代码,会在细胞里被翻译成免疫需要的蛋白质,即抗原。对于新冠疫苗,我们需要一个长度大约为4000个碱基的源代码,才能得到突刺蛋白(病毒表面用于入侵人体细胞的结构),这么长的序列在人类语言里是不存在的,这即便对于AI来说也是一个不小的挑战,因此需要更快速有效的算法来提升计算的效率。    

37A2D


计算语言学辅助mRNA疫苗设计

RNA可以表示为包含ACGU四种基础词汇组成的序列,它所做的句法分析或者二级结构预测可以描述为需要输出一个由’.’,’(’,’)’组成的一个序列的任务,其中’.’表示是一个单链结构,匹配上的左括号和对应的右括号组成一个双链结构。RNA就是一个部分单链部分双链的结构,很像NLP中的句法结构,都是有层次的Hierarchical Tree Structure。RNA的二级结构可以理解为是一个句法结构,可以用NLP非常经典的算法来解析,如1960年代发明的CKY 句法分析算法。2010年黄亮教授团队提出了线性时间复杂度的句法分析算法,用类似人类一样从左到右而不是自底向上的理解分析句子,并将它应用到RNA分析领域,最终发明了LinearFold模型,使得分析时间大大缩短,并且实验表明精度比O(n3)的算法在比较长的序列上还要有提升。    

62375


疫情爆发之初,黄亮教授就和一位斯坦福大学医学院教授讨论如何解决mRNA疫苗稳定性的问题。他后来把这个问题归纳成为一个Lattice Parsing的问题:蛋白灭活疫苗相当于是一个可执行的exe文件,mRNA疫苗可以比作源代码,让细胞自己翻译成可执行文件,其好处就是更安全,无需接触危险的病毒本身,只需摘取病毒基因组的一个小片段(突刺蛋白部分)。突刺蛋白作为病毒外表最具代表性的区域,可以理解为是病毒的特色帽子,只要有认识这个帽子就可以识别病毒。但RNA最大的问题就是非常不稳定,因为RNA通常是一个以单链为主的结构,很容易被一些外部因素剪断,比如在体外、血液里、或者细胞里还没起作用的时候,就已经被降解掉了。最终导致无法翻译出想要的突刺蛋白,激发的抗体和保护能力就会下降,这也是mRNA疫苗面临的最大问题。

17930

黄教授使用计算语言学的方法,能从众多可以生成突刺蛋白的源代码序列中筛选出最稳定的那条序列。突刺蛋白是一个由氨基酸按照特定序列组成的蛋白质,序列里每个字母或者每个单词表示一个氨基酸,共计约20种左右。一个突刺蛋白包括大概1,200多个氨基酸。每一个氨基酸都是由一个三联密码子翻译得来。比如说一个天冬氨酸可以由GAU或者GAC来翻译得来,氨基酸和密码子的对应关系可以形成一个遗传密码表。同样地,一个氨基酸可以由多个密码子来表示,这就是进化带来的冗余度。冗余度虽然带来了设计疫苗的自由度,但同时它也产生了组合爆炸的问题,例如一个突刺蛋白,可能就有10^632种密码子序列组合,比宇宙的原子数量还要多。

针对这样的一个无法用人力来解决的海量选择问题,黄教授团队巧妙地运用了NLP的两个概念来解决。第一个是Word Lattice,  它是一个词组成的图,在语音识别中,一段音频因为噪音或者说话人口音等因素, 可解析出的众多文本句子,因此所有的可组项就组成了Word Lattice,可用语法分析等技术把最有可能句子选出来。同样地,疫苗序列也能表示为一个Word Lattice,可以看成是一个有限状态自动机,包含10^632条路径。第二个重要概念是Lattice Parsing,在得到这个Lattice之后加一些语法约束,并对每条路径打分,且它并不是逐个句子去看,而是可以并行处理所有语句。类似的思想可以用在mRNA的序列筛选上,唯一的区别是表达语言的语法替换为RNA folding 语法,这个语法通常用来表示mRNA序列物理上的自由能,自由能越低就越稳定。这个算法利用一个简单的动态规划的思想同时去折叠所有的序列。

3F591

下图左边是突刺蛋白在病毒里面的原始序列,因为使用了大量的单链结构而变得非常不稳定。用Lattice Parsing技术10分钟就可以得到一条更稳定的序列,结构上看基本都是以双链结构为主,从而不太容易被剪断。但是它们都能翻译成想要的突刺蛋白,所以从疫苗的角度上来说是“同义”的,但是右边则要稳定的多且在细胞内外半衰期会更长。国内领先的mRNA公司上海斯微生物就在小白鼠上验证了这套算法,28天之内注射了两针这套算法设计的疫苗之后,最后测血样发现比业界通用的“密码子优化”方法(辉瑞等公司都使用这个方法)设计的疫苗产生的抗体水平提高23倍。

3AF2D

除了需要考虑疫苗优化的稳定性,还需要考虑的一个因素是翻译的效率。人类基因组对于各种密码子有一些偏好性,采用偏好性较高的密码子组合翻译效率就比较高。下图y轴表示同一单位时间内能翻译出多少蛋白质,x轴指疫苗存活时间也就是稳定性,稳定性和效率是两个正交的维度,而且需要联合优化。现有mRNA疫苗企业都只考虑翻译效率,忽视了稳定性,这样的话只需要局部贪心选择人体偏好的密码子。但是曲线的左边其实有更多种可能性,黄教授团队在图左边采样的序列产生的mRNA疫苗在小白鼠体内可以产生高达23倍抗体的提升。

48D0E


新冠病毒变种的折叠结构对齐分析

最后黄亮教授介绍了他发表在三大通用科学顶刊美国科学院院刊(PNAS)上的关于新冠变种折叠对齐的工作。采用计算语言学中不同语种的Synchronous  Parsing技术,对病毒的折叠进行对齐分析。对齐分析可以帮助找到新冠病毒的弱点:经常变化的位点对于病毒无关紧要,而比较保守且不容易发生变化的位点对于病毒比较关键,关键位点发生变化之后可能导致病毒的死亡。

3425B

   

   
黄教授团队针对于病毒的不易发生突变的保守部位来设计核酸检测试剂,可以缓解变异发生的失效问题。更重要的是,由于不仅考虑了两年来新冠本身的变异,再加上历史上其他近支冠状病毒(特别是2003年的非典病毒和蝙蝠冠状病毒等)的变异信息,这样设计的核酸检测引物,不仅对已有的变异鲁棒,而且还大概率对将来可能发生的变异也鲁棒,因为历史上都不曾变化的区域大概率就是此类病毒特别关键、无法承受任何变异的区域。这个文章发表在奥密克戎变种出现以前,当2021年底奥密克戎变种出现以后,黄教授团队对论文里的结果进行了复核,发现他们设计的核酸检测引物确实没有在奥密克戎变种中发生突变,也证实了文章里对将来可能产生的变异的猜想。    

文稿撰写 / 冯世坤

排版编辑 / 蒲睿熙

校对责编 / 黄  

上一条:AIR学术|斯坦福助理教授马腾宇:自监督学习理论及其衍生算法 下一条:AIR学术|刘玲洁:3D真实场景中的神经表达与渲染

关闭

最新动态

业务合作:airoffice@air.tsinghua.edu.cn
招生招聘:airhr@air.tsinghua.edu.cn
联系电话:(010)82151160  

办公地点:北京市海淀区清华科技园启迪科技大厦C座12层

官方微信

京ICP备15006448号  |   版权所有©清华大学智能产业研究院