AIR学术｜郑宇鹏：首个联合暗光增强和深度估计的自监督方法STEPS

来源：发布时间：2023-06-29

AIR实习生郑宇鹏所在课题组在ICRA 2023上发表了题为首个联合暗光增强和深度估计的自监督方法STEPS的论文，在该项研究中，课题组提出了一种联合学习夜间图像增强和深度估计的方法，使用一种新提出的不确定像素掩蔽策略将两个自监督任务紧密联系在一起。接下来，郑宇鹏详细地介绍了该项工作。

undefined

近年来，基于图像的自监督深度估计方法不仅所需的硬件成本低，而且不需要真值的标注，因此受到了广泛的关注。该类方法本质上依赖于相邻帧光度一致性的假设，通过合成图和目标图的光度误差进行模型的训练。

然而在夜间环境下，图像中包含了大量的欠曝和过曝区域，它们在相邻帧之间有较明显的差异，同时掩盖了对应区域的有效信息，如图1(a)的第一行所示。课题组在nuScenes数据集的测试集上评测了基线方法RNW预测的深度值和真值的均方根误差值（RMSE），同时课题组人工挑选了其中100多个过曝和欠曝的场景，做了如图1(b)所示的统计结果。可以看出，在这两种特殊场景下，RNW的表现要低于平均水平，可视化效果如图1(a)的第二行所示

图1 夜间深度估计的挑战

(a)第一行，nuScenes数据集中过曝和欠曝的场景；第二行，RNW预测的深度；第三行，STEPS预测的深度图。(b)过曝（Overexposed），欠曝（Underexposed）和测试集平均（Avg）的RMSE

针对欠曝的区域，前人提出了先进行图像增强再做深度估计的方法。虽然他们提出了各种有监督的夜间图像增强方法，但在具有挑战性的驾驶场景中的泛化性能并不令人满意，而且需要一定量的人工标注。针对过曝区域对深度估计的影响的研究还较少。为此，课题组提出了STEPS，第一个自监督联合学习夜间图像增强和深度估计的方法，同时不使用任何ground truth。此外，课题组提出了不确定像素掩膜策略。它基于图像增强的中间产物来过滤影响深度估计的图像区域，从而将两个自监督任务紧密地结合在一起。对比图1(a)的第二行和第三行可以明显发现，受益于课题组的框架和策略，STEPS在欠曝和过曝区域的表现要优于基线方法。最后，课题组还提出了CARLA-EPE，一个基于CARLA仿真器的增强到现实风格的夜间数据集。它具有密集的深度图的标注，且更接近现实的图像风格，为深度估计任务带来更多的可能性。

论文：https://arxiv.org/abs/2302.01334

代码：https://github.com/ucaszyp/STEPS

方法

如前所述，夜间图像增强可以提高输入图像的质量，以帮助进行深度估计。但是有监督的夜间图像增强在本质上受到数据集自身分布的限制。因此，课题组提出了一个以自监督的方式联合训练深度估计和图像增强的框架，如图2所示。它包含自监督图像增强模块（SIE），夜间自监督深度估计模块，由目标帧经过SIE生成的光照图将两个模块联系在一起。输入的原始图像首先经过SIE得到增强图像，随后对增强图像做自监督深度估计。联合训练的损失函数是每一模块的加权求和。

281B1

如文章开头所描述，夜间图像通常包含欠曝和过曝的区域，这些区域会丢失重要的细节信息，导致估计的深度值不准确。而且，过曝区域往往与汽车的运动（如车灯）相关联，这也违反了自监督深度估计中的光照一致性假设。因此，课题组需要设计某种机制来滤除这些区域去训练的影响。经研究发现，SIE可以预测一个光照图，以确定每个像素的颜色的增强比。如图3所示，欠曝区域的比值较大，过曝区域的比值较小。如果课题组用这个来衡量每个像素在光度损失中的重要性，则可以最大可能减小这两个区域对训练的影响。在实现时，课题组给不确定区域每个像素点一个置信度，希望它们能参与到训练中，而非直接强硬地全部遮盖掉。

图3 不确定mask的原理

(a)光照图。(b) mask函数，该函数可以屏蔽过曝和弱曝区域。(C) 不确定mask的可视化

实验

课题组在nuScence数据集和RobotCar数据集上和其他方法做了比较。此外，针对真实数据集成本高、深度图稀疏以及仿真器数据域与现实数据域差异大的痛点，课题组提出了增强到现实风格的仿真数据集CARLA-EPE。

nuScenes-Night：nuScenes是一个大规模的自动驾驶数据集。它包含多种天气环境下复杂的道路场景，十分具有挑战性。

RobotCar-Night：RobotCar数据来源于RobotCar团队一年的时间内在各种天气下频繁地穿越牛津市中心的同一条路线时的驾驶记录，包括车辆上的6个摄像头数据以及激光雷达、GPS和INS数据。

CARLA-EPE：上述两个数据集的真实深度均来自激光雷达，然而，激光雷达数据的采集是昂贵的，并且只能提供稀疏的深度图。为此，课题组将目光放在了仿真数据上。RGB图像和相应的密集深度图可以很容易地在仿真器（例如CARLA)中收集，但仿真图像和真实图像之间的分布差异极大地影响了训练模型在真实场景中的应用。因此，课题组提出了一个基于CARLA和增强图片真实感的网络EPE的夜间深度估计数据集CARLA-EPE，它可以提供密集的深度真值和迁移到真实风格的图像，如图4所示。

图4 EPE增强后的图像（CRALA-EPE）与增强前（CRALA）的对比

如表1所示，课题组在nuScenes数据集和RobotCar数据集上均达到了SOTA，在准确率和误差上均有显著的提升。在更具挑战性的nuScenes数据集上，课题组的a1相较于baseline提升了16.2%，abs_rel相较于baseline降低了10.4%。

表1 nuScenes数据集和Oxford数据集的定量结果

如图5所示，蓝色方框展示了基线方法受到过曝的影响，预测了错误的深度。红色方框还表明基线方法在欠曝区域错误地估计物体深度。由于我们的方法提出了新的框架和自适应掩膜的策略，因此可以使模型在这两种区域中预测出更合理的深度

图5 可视化结果

PPT下载

关注AIR公众号并回复“AIR学术工作坊第4期”

打包下载完整PPT

相关新闻

AIR学术｜字节跳动李航：推进人工智能新前沿

3月5日下午，第42期AIR学术沙龙如期举行。本期活动荣幸邀请到了字节跳动李航博士，为我们作题为《推进人工智能新前沿》的报告。本次活动由中国工程院院士、清华大学智能产业研究院（AIR）院长张亚勤主持。讲者简介Hang Li is the Head of Research at ByteDance Technology. He is an ACM Fellow, ACL Fellow, and IEEE Fellow. He graduated from Kyoto University and received his Ph.D. from the University of Tokyo. Prio...

2025/03/19

AIR学术｜西湖大学于开丞：浅谈自主智能——Autolab 的视角

11月28日下午，由DISCOVER实验室主办的第三十八期AIR青年科学家论坛如期举行。本期活动荣幸第邀请到了西湖大学工学院助理教授于开丞，为AIR的老师和同学们做了题为Large Visual-Centric Models in Society Autolab Perspective的精彩报告，本次活动由清华大学智能产业研究院（AIR）助理教授龚江涛主持。讲者介绍于开丞博士，西湖大学工学院博士生导师、助理教授，人工智能企业KMina联合创始人兼首席科学家。于开丞先后于2016年...

2024/12/04

AIR学术｜南京大学姚遥：Creating a Realistic 3D World

11月28日晚，由DISCOVER实验室主办的第三十七期AIR青年科学家论坛如期举行。本次活动有幸邀请到南京大学智能科学与技术学院的姚遥副教授，为AIR的老师和同学们做了题为Creating a Realistic 3D World的精彩报告。嘉宾介绍姚遥副教授是2022年国家级人才计划青年项目（海外）入选者。曾任苹果公司高级研究员，Altizure创始团队核心成员（被苹果收购）。2015年于南京大学获学士学位，2019年于香港科技大学获博士学位。主要研究方向...

2024/12/04

主讲人		时间
地点		精彩回顾

关于AIR

新闻中心

AIR团队

科学研究

产业交流

人才招聘

院级合作单位

新闻中心

学院新闻

大师对话

学术简报

媒体报道

AIR学术｜郑宇鹏：首个联合暗光增强和深度估计的自监督方法STEPS

相关新闻

AIR学术｜字节跳动李航：推进人工智能新前沿

AIR学术｜西湖大学于开丞：浅谈自主智能——Autolab 的视角

AIR学术｜南京大学姚遥：Creating a Realistic 3D World

最新动态

官方微信