目前,人类对靶向药物的探索
约覆盖人体全部可成药靶点的10%
面对数以万计的潜在靶点
如何在广阔的化学空间中
快速筛选苗头化合物
已成为该领域里的瓶颈
清华大学智能产业研究院(AIR)兰艳艳教授
联合生命学院、化学系团队
(以下简称:联合团队)
创新研发
AI驱动的超高通量药物虚拟筛选平台DrugCLIP
DrugCLIP主页(https://www.drugclip.com)
DrugCLIP筛选速度
对比传统方法实现了百万倍提升
同时在预测准确率上也取得显著突破
依托该平台,团队首次完成了
覆盖人类基因组规模的药物虚拟筛选
为创新药物发现带来了新的可能性
北京时间1月9日
研究成果以《深度对比学习实现基因组级别药物虚拟筛选》
(Deep contrastive learning enables genome-wide virtual screening)为题
在线发表于《科学》(Science)
Science 网站论文截图
文末点击“阅读原文”,了解论文详情
受限于自动移液工作站、超级计算机等工具的
高昂成本
目前,绝大多数潜在靶点和化合物
仍未被充分探索——
人类基因组编码2万余个蛋白
然而现有蛋白靶点开发只覆盖其中小部分
为解决更多分子机制不同的疾病
科研工作者仍在积极探索
但若使用当前最先进的分子对接工具
筛选1万个蛋白靶点
假设每个靶点面对109个候选分子
则需完成约1013次蛋白-配体打分
一台计算机即使日夜不休
也需数百年才可完成计算
严重制约了新靶点与新分子之间
匹配的筛选效率
DrugCLIP将该计算量
缩短为一台计算节点(高性能计算或分布式计算系统中的一个基本单元)
一天的机时
荣获2024年诺贝尔化学奖的AlphaFold算法
解决了蛋白质结构预测问题
而DrugCLIP则首次打通了
从蛋白结构预测到药物发现的关键通道
实现覆盖人类基因组规模的虚拟筛选
硬件方面
基于128核中央处理器(CPU)
和8张图形处理器(GPU)的计算节点
DrugCLIP即可实现
万亿级蛋白口袋小分子对打分日吞吐能力
其核心突破在于将传统的分子对接
转化为蛋白口袋与小分子
在向量空间中的高效语义检索
较分子对接等传统方法的速度提升百万倍
一开始,联合团队对于筛选的准确性并没有把握
第一次在湿实验室实验就取得了成功
初步验证了平台的有效性
让联合团队成员信心大增
在生命学院副教授闫创业团队协作下
DrugCLIP模型从160万个候选分子中
为去甲肾上腺素转运体(NET)靶点
筛选出约100个高评分分子
同位素配体转运实验检测显示
其中15%为有效抑制剂
其中12个分子结合能力优于
现有抗抑郁药物安非他酮
尤其是在冷冻电镜技术的帮助下
解析了多个分子与NET蛋白的复合物结构
进一步验证了DrugCLIP
筛选结果的生物学可信度
化学系教授刘磊团队则通过DrugCLIP
针对E3泛素连接酶TRIP12
(thyroid hormone receptor interactor 12)
进行了虚拟筛选与实验验证
过往研究发现
TRIP12是多种肿瘤、帕金森综合征的潜在靶点
但是TRIP12缺少已知的
小分子配体和复合物结构
通过使用TRIP12的AlphaFold结构
DrugCLIP模型从160万个候选分子中
高通量筛选出约50个高评分分子
实验证实
其中10个分子与TRIP12有结合能力
两个亲和力较高的分子
也对TRIP12的泛素连接酶活性
有一定抑制活性
这验证了DrugCLIP支持
对AlphaFold预测的蛋白结构和
无配体状态下的蛋白口袋进行筛选
扩大了其在真实药物发现场景中的适用性
依托DrugCLIP
联合团队首次完成了
人类基因组规模的虚拟筛选项目
可覆盖约1万个蛋白靶点、2万个蛋白口袋
分析筛选超过5亿个类药小分子
总共富集出超过200万个潜在活性分子
构建了目前已知最大规模的
蛋白-配体筛选数据库
该数据库已免费面向全球科研社区开放
为基础研究与早期药物发现
提供了强大数据支持
同时,筛选服务平台也已同步上线
支持对用户上传的靶点和蛋白口袋
进行定制化筛选
截止到论文发表,半年来
该平台已经累计服务1400余名用户
完成了13500余次筛选
人类基因组规模筛选项目覆盖的蛋白数目与现有数据库对比(左:覆盖的靶蛋白空间,使用ESM1b编码并进行t-SNE降维可视化;右:覆盖的UniProt ID数量)
未来,DrugCLIP将与
科研与产业生态伙伴深度合作
在抗癌、传染病、罕见病等方向
加速新靶点与First-in-class药物(首创新药)的发现
联合团队将持续优化引擎性能
拓展支持模态
助力构建一个更智能、高效与普惠的
全球药物创新生态
该项目得到了国家科技部重点研发项目、国家自然科学基金委项目、新基石研究基金等项目的支持,同时还有清华大学无锡应用技术研究院智能产业创新中心、北京智源人工智能研究院与北京结构高精尖中心的支持。清华大学智能产业研究院(AIR)博士后贾寅君、计算机系博士生高博文、生命学院博士后谭佳鑫、化学系博士后郑济青以及智能产业研究院(AIR)博士后洪鑫为共同一作;通讯作者为智能产业研究院(AIR)兰艳艳教授,生命学院张伟副教授、闫创业副教授以及化学系刘磊教授。论文链接:https://doi.org/10.1126/science.ads9530