有效地压缩蛋白空间中的有效信息可以帮助我们更高效地搜索到功能蛋白,从而加速自然界进化的进程。
10月30日上午,第35期AIR学术沙龙如期举行。清华大学药学院副教授、博士生导师张数一,为我们作了题为《Extreme compressibility of protein fitness landscape》的报告。本次活动由清华大学智能产业研究院(AIR)副教授周浩主持。
*上下滑动查看更多
张数一,2009年本科毕业于清华大学生命科学与技术系,导师是陈国强教授;2015年博士毕业于宾夕法尼亚州立大学,导师是Donald Bryant教授;2015年至2019年在美国麻省理工学院进行博士后研究,合作导师是Christopher Voigt教授和哈佛大学David Liu教授;2019年加入清华大学药学院。目前任清华大学药学院副教授,博士生导师,清华大学合成与系统生物学研究中心PI,分子肿瘤学全国重点实验室PI。入选国家高层次人才青年项目。主持国家自然科学基金区域创新发展联合基金重点项目,国家自然科学基金面上项目,国家科技重大专项“重大新药创制”课题,国家重点研发计划课题等项目。担任Frontiers in Molecular Biosciences杂志客座编辑,中国生物工程学会合成生物学分会青年工作组委员,中国医药生物技术协会合成生物技术分会委员,中国生物信息学会(筹)计算合成生物学专业委员会委员。长期致力于合成生物学和关键生命过程的研究,聚焦在代谢通路、能量摄取、调控网络等领域,相关论文发表在Science,Nature Biotechnology,Nature Microbiology等国际学术期刊,有些研究成果已经改写世界经典教科书。目前课题组侧重在优良元件的计算机辅助从头理性设计、自动化平台赋能的高通量表征、连续定向进化系统辅助的快速精准优化等,以及将这些设计和改造后的元件有机耦合基因线路,从而实现对生命的重构理解和认知,并有效地应用于疾病诊断和治疗等领域。
张数一教授在讲座中概览了蛋白质功能设计的重要意义和常用方法,并介绍了机器学习辅助定向进化的机会与挑战。
设计具有特定功能的蛋白质分子是一个重要且具有广泛应用的问题。在合成生物学领域,蛋白质功能设计在代谢工程、基因工程设计、甚至未来的人造细胞等技术中都有着广泛的应用前景。在药物设计领域,从有机小分子药物的催化酶设计,到生物大分子和免疫细胞药物设计,乃至更宏观的生物网络设计等应用也都依赖蛋白质功能设计技术。
但张数一教授指出,目前蛋白质功能设计主要面临着两点挑战:
首先,蛋白功能元件的设计空间巨大:一个包含100个氨基酸的蛋白质序列的设计空间大小为10的130次方,远远超过宇宙中原子的总数。而在自然界上亿年的进化搜索中,得到的功能蛋白质的数目大约为10的15次方,要远小于蛋白质的设计空间。如何提高功能蛋白搜索的效率、高效地压缩蛋白功能空间的有效信息,便成为亟需解决的挑战。
其次,目前缺乏从序列到功能的标准化数据和预测算法。AlphaFold从序列到结构预测的成功让人们渴望在序列到功能的映射中重复这一过程。但在功能设计领域缺乏与Protein Data Bank对应的标准化的序列-功能映射数据库,因此这也为人工智能算法的开发和迭代带来了挑战。
张数一教授随后详细介绍了目前进行蛋白质功能设计的主要生物学手段——定向进化。定向进化的思想来源于对自然界进化的模仿。事实上,张教授认为自然界是一个很出色的合成生物学家。在四十亿年的演化历程中,自然界通过随机突变和优胜劣汰的筛选机制实现了特定功能的富集。自然界给我们的启发是:如果我们可以依照一定的标准(如进化压力)从功能上对蛋白质序列进行筛选,我们就可以跳过结构直接进行蛋白质功能的设计。
受到自然界的启发,科学家们开发了定向进化技术,该技术也获得了2018年的诺贝尔化学奖。传统的定向进化会首先对需要改良的基因进行随机突变,建立基因突变库,之后使用特定的筛选方法得到功能有所提升的蛋白,并通过多轮优胜劣汰式的迭代完成功能的优化。近些年来,基于细菌、酵母等体内表达系统的连续定向进化可以节省人工建库的时间,实现更快速的迭代和筛选。
进化领域的一个经典实验是Richard Lenski在1988年开始的The Long-Term Evolution Experiment。实验的原理就是对大肠杆菌不断地进行传代进化,该实验至今仍在持续进行,已完成超过75000次的传代。该实验展示了进化的强大之处:人们通常认为大肠杆菌只能利用类葡萄糖的碳源才能进行新陈代谢,但在进行了超过3万次传代后,大肠杆菌开始利用一个更短链的非葡萄糖碳源进行代谢。
张教授引用电影《肖申克救赎》中的台词来解释进化的原理:“这就是问题的关键之处:压力和时间”(That's all it takes, really: Pressure and time)。无论是自然界的进化还是人类发明的定向进化,在压力和时间的双重作用下,我们总可以对蛋白质的功能进行有效的改良。
自然界中的进化可以有效地进行功能改造,但所需的时间过于漫长。
一个自然的想法是用人类的智慧加速进化过程,机器学习指导的定向进化便是其中的一个手段。
张教授接下来分享了机器学习辅助定向进化的一些典型案例,并畅想了机器学习应用于定向进化的更多可能。
早在2019年,诺奖得主Frances Arnold便提出利用机器学习模型对蛋白功能空间进行建模,进而用模型指导进化的搜索过程。在2021年,又有两篇工作表明在使用预训练蛋白模型后,只需要几百甚至几十个数据点便可以做到对蛋白功能空间的高效建模,从而有效指导功能进化。张数一教授指出,以上工作的缺陷是依赖对蛋白空间的随机采样,而随机采样可能无法覆盖蛋白空间的全部模式。而即使我们依赖传统的生物技术获取更多的数据,也只能获得对单个突变位点的全局扫描数据,或对某个小区域的多位点突变数据,无法兼顾数据的深度和广度。
张数一教授进而指出AI技术与定向进化存在相互协同的关系。一方面,定向进化可以帮助AI更准确地建模蛋白空间。张教授团队最近也进行了相关的尝试:如果利用兼顾突变区域的广度和突变个数的深度的蛋白进化数据来训练AI系统中,则利用这些高度压缩的蛋白功能信息,我们可以更准确地建模蛋白空间的全貌。另一方面,AI系统在未来也可以更深度地指导定向进化过程,例如与湿实验形成闭环,介入到定向进化路径的规划中。在AI的指导下,定向进化系统将能够更快速有效地完成蛋白质功能的改良。
在讲座的最后,张数一教授对为未来更加自动化、智能化的定向进化系统进行了畅想,并期待机器学习技术可以与定向进化系统形成更加紧密的融合。
文稿撰写 / 王波添
排版编辑 / 王影飘