新闻中心

当前位置: 首页 > 新闻中心 > 学术简报 > 正文

AIR学术|NIH陆致用教授:用AI改革医学:从PubMed搜索到机器诊断

来源:       发布时间:2023-04-13
主讲人 时间
地点 精彩回顾

4月6日晚上,第30期AIR学术沙龙如期在线举行。本期活动荣幸地邀请到了美国国立卫生研究院陆致用教授,为我们作题为Transforming Medicine with AI: from PubMed Search to Machine Diagnosis(用AI改革医学:从PubMed搜索到机器诊断)的报告。


undefined

讲者介绍



Dr. Zhiyong Lu is a (tenured) Senior Investigator at the National Institutes of Health (NIH) Intramural Research Program, leading research in biomedical text and image processing, information retrieval, and AI/machine learning. In his role as Deputy Director for Literature Search at National Center of Biotechnology Information (NCBI), Dr. Lu oversees the overall R&D efforts to improve literature search and information access in resources like PubMed and LitCovid, which are used by millions worldwide each day. With over 300 peer-reviewed publications, Dr. Lu is a highly cited author (an h-index over 70 with 30,000 citations) and a Fellow of the American College of Medical Informatics (ACMI). Additionally, Dr. Lu serves as an Associate Editor of Bioinformatics, and Organizer of the BioCreative NLP challenge. Over the last 15 years, Dr. Lu has mentored over 60 trainees, many of whom have gone on to become independent faculty members/researchers at academic institutions in the US, Europe, and Asia.

报告内容

在本次讲座中,美国国立卫生研究院陆致用教授主要介绍了研究团队在医学自然语言处理方面的相关工作。
陆教授首先介绍了一个免费的生物医学文献检索系统—PubMed,该数据库收录了超过3,500万篇文章,并每天吸引着250万用户进行大约300万次的搜索以及900万次的浏览。在过去的十多年里,陆教授的团队一直在专注于利用机器学习技术来优化PubMed的搜索引擎,如相关性搜索功能。传统上,PubMed会按照文章的发布日期对搜索结果进行排序,新近发表的论文总是位于搜索结果的前列。为了提高用户的搜索体验,他们引入了基于相关性的排序功能,其目标是优化搜索结果,将与用户查询最匹配的论文优先呈现。
14AF12
接下来,陆教授详细介绍了他们如何运用学习排序算法(Learning to Rank)实现相关性搜索功能。为了训练这一算法,他们需要获取大量的训练数据,包括用户查询和对应的相关文献。他们通过分析搜索日志获取这些数据对,并对多个用户的相似查询和点击的文档进行整合。在采用学习排序算法的过程中,他们运用了诸多特征,包括文章类型、发布日期、访问量,以及传统的相关性评分方法(如BM25)。
2B248

他们将此系统成功地应用于实际的PubMed搜索,并通过一个实际案例进行了展示。举例来说,当用户搜索“最佳匹配PubMed”时,该系统能够将最相关的论文置于优先级较高的位置上。为了系统验证这一方法的有效性,他们采用了离线评估(运用查准率、查全率、F值和平均查准率等传统信息检索度量标准)和在线测试(将新算法应用于部分用户,观察他们在“最佳匹配”与传统日期排序之间的偏好)等一系列指标证明了方法改进的有效性。

5F10B

陆教授指出,尽管学习排序算法已经存在一段时间,但回顾过去,它实际上被证明是一种非常实用的解决方案。这主要是因为该算法不仅在实际生产环境中得到了广泛的研究和验证,还可以通过所使用的特征向用户解释算法。同时,他们也开始探索基于深度学习的方法,如卷积神经网络和预训练的大规模语言模型,以期在搜索过程中找到与查询同义的结果,而无需精确的关键字匹配。

D8A82

此外,陆教授还阐述了生物医学实体关系抽取的相关研究。他的团队发现,疾病、药物和基因等概念在生物医学研究中具有极高的重要性。为了从生物医学文献中高效且准确地提取这些生物医学实体之间的关联,他们采用了多种机器学习方法,如条件随机场、支持向量机和BERT模型,并开发了相关的开源工具。

1004AC

陆教授还介绍了一个名为PubTator的系统,它将这些实体识别工具应用于整个PubMed文献数据库,并提供了一个在线浏览器界面,以便用户查看识别结果。此外,他们还提供了API,使用户能够直接检索实体注释。
C2D6E
他们的工具已成功地与一些关键的生物数据库合作,协助研究人员更高效地从文献中抽取信息。在AI的辅助下,研究人员的生产力提升了约一倍,工作量减少了三分之一,同时数据质量和精度也有一定程度的提升。

38E46


陆教授还介绍了PubTator 2.0,这个版本不仅可以为摘要进行实体注释,同时也可以为文献全文进行实体注释。最后,他分享了即将发布的PubTator 3.0,其中一个新功能是添加实体之间的关系,将这些关系从文献文本中提取出来,转化为结构化数据库。

476EF

最后,陆教授介绍了在生物医学文献进行关系提取(Relation Extraction)的相关工作,即BioREx方法。他的团队花了一年左右的时间,使用自主开发的注释工具Team Tab为不同实体之间的关系进行注释,最终得到了一个名为BioRED Corpus的数据集。他们基于BioRED Corpus数据集训练了一个基于Transformer模型提取文献中的关系,并发现其性能仍有提升空间。通过对更多数据进行注释并整合已有的其他小型数据集,他们成功地将模型的F值从70%提升到了80 %。
4CE87
陆教授的团队在两个任务上验证了BioREx方法的可靠性和泛用性,一个是药物组合任务(Drug-drug N-ary combination),另一个是化学酶反应(Chemical enzymatic reactions)。测试结果显示,在整合后的数据集上进行训练的模型在这些任务上的性能得到了显著提高,甚至在一些情况下达到了与人类注释者和科研人员相当的水平。
20F4A
陆教授的报告深入阐述了如何运用人工智能和机器学习技术优化PubMed搜索,识别关键的生物实体及其关系,以及提升生物医学文献信息提取的效率。一方面,通过引入相关性排序和使用学习排序算法等技术,优化后的PubMed可以为科研人员提供更为精确和相关的搜索结果,从而节省科研人员在查找文献时的时间和精力。另一方面,通过实体识别和关系抽取等技术,将生物医学文献中的关键实体及其关系呈现出来,将有助于科研人员更好地理解和挖掘文献中的知识,推动新的科研发现。PubMed的改进将有助于加速生物医学研究的进展,提高研究质量和产出,从而推动整个生物医学领域的发展。


文稿撰写 / 胡晨曦

排版编辑 / 王影飘

校对责编 / 黄  



上一条:AIR学术|开源轻量版BioMedGPT!聂再清:最终目标是生物医药领域基础大模型 下一条:AIR学术|上海人工智能实验室李弘扬、陈立:端到端自动驾驶算法设计思考

关闭

业务合作:airoffice@air.tsinghua.edu.cn
招生招聘:airhr@air.tsinghua.edu.cn
联系电话:(010)82151160  

办公地点:北京市海淀区清华科技园启迪科技大厦C座12层

官方微信

京ICP备15006448号  |   版权所有©清华大学智能产业研究院