未来的机器化学家将继续按照人机共融、理实交融的方向不断进行优化迭代,助力加速材料科学、生命科学以及其他相关领域的发展,解决一系列未来的挑战和问题
5月26日下午,第34期AIR学术沙龙如期举行。中国科学技术大学讲席教授江俊,为我们做了题为《理实交融的机器化学家探索》的报告。本次活动由清华大学智能产业研究院(AIR)副教授周浩主持。
江俊,中国科学技术大学讲席教授,中科院上海技术物理所与瑞典皇家工学院联合培养博士。获批基金委杰出青年基金、中科院机器科学家青年团队负责人、科技部青年973项目负责人。开展人工智能与计算化学的交叉研究,研制“理实交融”的机器化学家平台,探索物理化学领域中的实际问题。获中国化学会唐敖庆青年理论化学家奖、日本化学会亚洲杰出讲座奖。
江俊教授在讲座中分别介绍了团队自研的“机器化学家”方案,并展示了“机器化学家”如何实现理实交融,并且在多个实际重要领域的巨大潜力。
江教授首先介绍了化学作为一门基础科学,其所经历的漫长而复杂的发展过程。从最初的试错实验开始,到随后的基于经验的体系和现代化学的第一性原理,这个过程充满了不断探索、发现和创新。虽然量子化学从基本原理上解决分子体系的性质问题,但在真实的应用场景中,分子体系往往具有极其复杂的结构,使得基本规则的方程很难被求解。这种理实脱节的状态常常给化学体系的研究带来不小的挑战。因此,化学研究者们需要不断地寻找新的方法和手段,以更好地理解和解决实际应用中遇到的问题,推动化学科学的不断进步。
随后,江教授详细介绍了团队自研的“机器化学家”方案。机器化学家主要由三个部分构成,包括归纳计算、推理思考和智能实践。即通过机器学习技术,化学家可以从前人的知识和数据中总结归纳出一些有价值的结论和专利;通过物理模型和智能预测等方式,机器化学家可以对问题和候选集进行筛选和优化;最后,通过机器智能化的实验流程,机器化学家可以进行高通量实验并快速验证结果。这样的机器化学家能够快速准确地进行实验合成和性质评估,为新材料、药物的研发提供有力支持。
以高熵非贵金属产氧催化剂的合成与开发为例,江教授阐述了机器化学家的理实交融的过程。首先,利用机器阅读和自然语言处理技术,对大量的原材料组合进行分析和推荐,最终筛选出五种主要的金属元素。随后,利用智能化的手段,确定这五种金属的配比,并通过高通量的模拟生成了553401种配比组合,以便进一步优化筛选。在挑选配比组合的过程中,机器化学家采用了多种方法相结合的策略,充分结合了基于理论大数据的预训练模型以及贝叶斯优化利用实验数据,从而在整个筛选流程中实现了理论和实践的有机结合。这也使得研究团队大幅度提高了筛选流程的速度,通过207次自动化的实验就发现了新的高质量催化剂。这样的理实交融的过程,既通过理论推导提高了筛选的效率,又通过实验验证保证了结果的可靠性。这一过程也体现了机器化学家在化学研究中的价值,为构建智能化、快速、高效的化学研究提供了新的思路和手段。
江教授认为未来的通用化学智能将会涵盖以下几个关键流程:首先,利用通用大模型的认知智能能力对于多模态的数据进行挖掘和理解,以实现更快速、高效的数据处理和决策。以化学机器人为例,在实验过程中,需要对图像、温度、味觉、压力等多种信息进行感知和理解。此外,还需要机器化学家拥有对物质的理解能力,这一能力可以通过对光谱数据的深入分析和处理来获得。
其次,通用化学智能应该具备自主学习的能力,通过对大量数据的学习和总结,不断更新自身的知识库和模型,保持其在化学研究中的领先优势。此外,机器化学家还需要具有自我优化和调节的能力,以便在不断变化和复杂化的环境下适应各种任务和需求。
最后,通用化学智能需要具备高度的协作能力,能够与人类或其他机器化学家进行合作和交互,以共同解决复杂的问题。这种协作不仅能够提供更好的工作效率,也能够促进知识的交流和共享,推动化学科学的快速发展。
在整个报告中特别值得一提的是江教授团队利用光谱作为分子表示的系列工作。在材料科学和化学领域,理解和研究化合物的结构、性质和性能是至关重要的。然而,许多化合物都是非常复杂的,其原子组成和空间结构均具有多种可能性,使得准确地描述它们变得非常困难。在这个背景下,光谱成为一种被广泛使用、被证明是有效的工具。光谱可以提供分子中不同原子或官能团之间的相互作用以及其空间排列的信息。利用光谱数据建立数学模型,可以将复杂的分子结构转化为易于处理和训练的数值表示形式,进而在模型中进行化合物特征量和性质的预测和分类。江教授团队探索了光谱在化合物研究中的应用。具体研究了CO2催化剂这一实际问题,利用光谱数据对不同催化剂进行分析,并对催化剂的转化能力进行预测。结果表明,光谱趋势类似的催化剂拥有相似的转化能力,因此光谱数据可以为催化剂的设计和优化提供重要的信息。此外,他们团队还探索了利用光谱数据来提高基于图神经网络(GNN)的逆合成预测的准确率。结果表明,引入化合物光谱数据可以显著提高逆合成预测的准确性。这些初步研究表明,光谱数据作为一种有效的化合物表示形式在实际问题中具有广泛的应用潜力。
江教授团队提出了一套基于光谱分析的机器智能预测模型,以及对其物理内涵可解释性进行分析的流程,其关注的是基于催化剂表面分子光谱描述符预测催化活性,并以吸附能、电荷转移和分子键能为锚点。通过机器学习方法对模型的预测结果进行分析,研究团队总结出了1000多个解析表达式,然后深入研究每个化学表达式,并与领域内专家进行讨论,在筛选过程中,最终得出了一组符合第一性原理不含经验参数的表达式。进一步验证表明,这些表达式相比基于经验参数的机器学习模型在拥有更好的可解释性的同时,也具有更好的泛化性和可迁移性。
江教授团队的研究表明不仅发现光谱在化合物研究中具有广泛的应用潜力,同时也发现光谱具有很多优秀的性质。例如,可以利用光谱振动模式的“构效关系”,对高频和低频光谱进行关联,并使用机器学习中的自注意力机制增强光谱的表征能力。这些光谱的性质为我们未来在相关领域上的探索指明了一个新的方向,可以探索如何从不同光谱层面对复杂化合物进行精细描述,以及如何将不同光谱数据进行融合,进一步提高化合物特征量和性质的预测和分类准确率。
江教授介绍说,未来的机器化学家将继续按照人机共融、理实交融的方向不断进行优化迭代。随着机器学习算法的更新以及机器人学和控制领域的最新进展,机器化学家将不断提高其在建模和实验上的能力。结合高通量大规模实验,机器化学家将成为科学发现的新范式之一。通过不断协作、探索和创新,我们有信心在未来实现更加准确、快速和高效的分子设计和合成,以及更深入地理解分子之间的相互作用。这将有助于加速材料科学、生命科学以及其他相关领域的发展,并促进解决一系列未来的挑战和问题。