ICLR 2024｜AIR亮点论文解读

来源：发布时间：2024-02-03

在最近的ICLR 2024会议上，清华大学智能产业研究院（AIR）共计14篇论文被录用，其中包括1篇Oral和3篇Spotlight。以下是这4篇论文的摘要解读，文末可获取完整论文打包下载方式。

O r a l

Unified Generative Modeling of 3D Molecules with Bayesian Flow Networks

作者：宋宇轩*，龚经经*，曲彦儒，周浩，郑明月，刘菁菁，马维英

单位：清华大学智能产业研究院（AIR），伊利诺伊大学香槟分校，中科院上海药物所

会议：ICLR 2024 (oral)

摘要：在本文中，课题组提出了几何贝叶斯流网络（GeoBFN）以一种和扩散模型从根本上不同的方式建模3D分子结构。贝叶斯流网络（BFN）通过采用独特的方法，结合贝叶斯推断来修改一组独立分布的参数，为几何生成建模带来了全新的角度。首先，GeoBFN对于分子几何结构中的不同模态采用了统一的概率建模方式；其次，关于3D原子坐标的建模，相比于扩散模型，贝叶斯流网络的输入方差显著较低，从而在对分子结构噪音敏感性上有更好的兼容性。此外，通过等变的依赖关系模块将几何对称性引入贝叶斯更新过程中。本文进一步证明了GeoBFN在概率建模上的SE-（3）不变性以及迭代更新的生成方式具有旋转平移等齐性；第三，利用BFN强大的概率建模能力，3D分子几何表示可以进一步优化为仅具有两个更加接近的模态表示：离散整数的电荷和连续的原子坐标。针对原本BFN对于连续整数变量生成存在的模式冗余问题，本工作在GeoBFN提出了早期模态搜寻的策略进行解决。借助于在方差较小的空间中操作，GeoBFN可以以任意步数进行采样，从而提供效率和质量之间的最佳权衡，如在保持和之前方法质量一致的前提下实现了20倍的加速。此外，GeoBFN是一个通用框架，可以轻易地扩展到其他分子任务。文中对GeoBFN在多个基准测试上进行了全面评估，包括无条件和有属性条件分子生成任务。结果显示GeoBFN在分子稳定性和其他指标上始终取得了目前最佳生成性能。实证研究也表明在可控生成方面有明显的改善，并表明GeoBFN具有显著更高的建模能力和推理效率。

Spotlight

Idempotence and Perceptual Image Compression

作者：许通达，朱自然，何岱岚，李阳昊，郭莉娜，王园园，王哲，秦红伟，王岩，刘菁菁，张亚勤

单位：清华大学智能产业研究院（AIR），清华大学计算机科学与技术系，中科院软件所，商汤研究院，香港中文大学，清华大学车辆学院

会议：ICLR 2024 (Spotlight)

摘要：幂等性是图像编解码器对多次压缩的稳定性。初见时，幂等性与主观质量图像压缩无关。事实上，幂等图像压缩与主观质量压缩属于两个社区，两者相互引用很少。然而，课题组发现，理论上：1）基于条件生成模型的主观图像编解码器满足幂等性；2）具有幂等约束的无条件生成模型等价于条件生成模型的主观图像编解码器。基于这种新发现的等价性，课题组通过反转具有幂等约束的无条件生成模型，提出了一种新的感知图像编解码器范式。特别地，课题组利用无条件扩散模型与幂等约束，实现主观图像解码。对于多个码点，多种基线编码器，课题组只需一个生成模型。课题组的编解码器理论上相当于条件生成编解码器，并且不需要训练新模型。相反，它只需要预先训练的均方误差编解码器和无条件生成模型。根据经验，课题组表明，就 Fréchet Inception Distance (FID) 而言，课题组提出的方法优于 Google 于NeurIPS 2020 提出的HiFiC和 Meta于ICML 2023 提出的ILLM等最先进的方法。本工作已将代码开源于:https://github.com/tongdaxu/Idempotence-and-Perceptual-Image-Compression。

Query-Policy Misalignment in Preference-Based Reinforcement Learning

作者：胡潇，李健雄，詹仙园，贾庆山，张亚勤

单位：清华大学智能产业研究院（AIR），清华大学自动化系，清华大学车辆学院

会议：ICLR 2024 (Spotlight)

摘要：基于人类偏好反馈的强化学习（PbRL）旨在从人类偏好反馈中学习到反映人类真实意图的奖励函数和策略，但该类方法的性能通常受到昂贵的人类标注反馈的制约。为了提高人类反馈利用效率，大多数现有的PbRL方法在挑选轨迹片段以进行人类偏好标注反馈的过程中，力求寻找最具“信息量”的轨迹片段偏好反馈，以最大程度地改善奖励模型的全局质量。但令人感到反直觉的是，课题组发现这并不一定会导致强化学习策略性能的提升。为了解释这一现象，课题组提出了现有PbRL方法的轨迹片段挑选方案中一个长期被忽视的问题：片段挑选与策略学习不匹配。本研究表明，选择表面上具有高信息的轨迹片段反馈以改善奖励模型的全局质量，实际上可能与强化学习智能体当前所关注的状态动作空间不匹配，因此在当前局部的策略学习上提供了较少的帮助，导致策略性能提升缓慢，同时也使得人类反馈效率低下。课题组提出了一种片段挑选与策略学习匹配的方法QPA（Query-Policy Alignment）来解决这个问题，QPA包括策略匹配片段挑选和混合经验回放这两个关键技术。课题组的方法简单而优雅，可以仅更改几行代码而轻松地纳入现有标准PbRL代码框架中。在强化学习标准测试环境上的广泛实验表明，QPA展示了更高的人类反馈利用效率和更高的RL策略性能，验证了解决PbRL中片段挑选与策略学习不匹配问题的重要性。

ODICE: Revealing the Mystery of Distribution Correction Estimation via Orthogonal-gradient Update

作者：毛力源，徐浩然，张伟楠，詹仙园

单位：上海交通大学，德克萨斯大学奥斯汀分校，清华大学智能产业研究院（AIR）

会议：ICLR 2024 (Spotlight)

摘要：离线强化学习算法通常需要对策略进行一定程度的约束，这种约束通常控制当前策略产生的数据分布和离线数据分布之间的差异。近年来，许多在动作级别进行策略约束的离线强化学习算法展现出强大的能力。分布校正估计算法（DIstribution Correction Estimation，简称为DICE）作为在状态-动作级别进行约束的一系列方法，具有扎实的理论基础，却在主流数据集上效果不佳，这与状态-动作级别的约束相比于动作级别的约束是一种更加高级的约束相矛盾。本文通过拆解DICE算法中非线性项的梯度并进行修正，从而在避免了反学习（Unlearning）问题的基础上进一步强化了状态级别的约束，使得修正梯度之后的DICE算法能够在多个数据集上也展现出强大的能力。文章中将这种修正之后的DICE算法命名为正交-分布校正估计算法（Orthogonal-DICE，简称为O-DICE）。具体地，本文将DICE算法中非线性项考虑为贝尔曼残差项（Bellman residual term），并首次将DICE算法中贝尔曼残差项的梯度拆解为前向贝尔曼梯度和反向贝尔曼梯度，同时从理论上解释了传统的DICE算法在深度学习框架下表现欠佳的很大一部分原因是反向贝尔曼梯度带来的反学习问题。为了在保留反向贝尔曼梯度信息的同时避免反学习的问题，本文创新性地将反向贝尔曼梯度投影到正向贝尔曼梯度的正交平面内，并将非线性项的梯度修正为正向贝尔曼梯度和投影之后的反向贝尔曼梯度之和（也称正交梯度）。本文从理论上证明了使用正交梯度对DICE的优化目标进行更新可以避免反学习的问题，同时投影之后的反向贝尔曼梯度对于强化状态级别的约束具有重要意义。本文还将正交梯度和状态表征的协同适应问题联系起来，一定程度上揭示了O-DICE能够强化状态级别的约束的原因。最后，本文在离线强化学习和离线模仿学习的场景下均进行了丰富的实验，O-DICE在不同数据集上均展现出十分强大的能力。 本工作已将代码开源于: https://github.com/maoliyuan/ODICE-Pytorch 。

论文下载

公众号回复“AIR论文05”

打包下载已正式发表论文

更多论文请访问AIR官网

关于AIR

新闻中心

AIR团队

科学研究

产业交流

人才招聘

院级合作单位

新闻中心

学院新闻

大师对话

学术简报

媒体报道

ICLR 2024｜AIR亮点论文解读

相关新闻

AIR快讯｜携手防城港，“紫荆AI医院”赋能国际医学开放试验区

祝贺！张亚勤携《智能涌现》获2025中信出版社年度作者

Science重磅！AI助力药物虚拟筛选提速百万倍

最新动态

官方微信