在CVPR 2022会议上,AIR助理研究员王岩博士与合作单位商汤科技团队一起荣获第五届深度学习图像压缩挑战赛(简称“CLIC”)图像编码赛道第一名,团队提交的图像编码方案在全部三个测试码点均取得了最佳的主观评分,同时具备所有深度学习方案中最快的解码速度,以绝对优势获胜。
冠军方案获奖证书
今年AIR与商汤科技联合提交的冠军方案基于两项关键技术。第一是ELIC图像压缩模型及其使用的SCCTX联合上下文编码技术,这个模型具备目前最好的率失真和速度性能,相关论文:ELIC:Efficient learned image compression with unevenly grouped space-channel contextual adaptive coding 被接收为CVPR2022口头报告。
另一个关键技术是比赛团队针对ELIC设计的主观质量优化方案,借助GAN、感知损失等技术在训练和后训练两个阶段为模型引入针对人眼感知的专门优化,目前这个方案相关论文:PO-ELIC: Perception-Oriented Efficient Learned Image Coding 也已被CVPR2022 workshop接收。该方案成功实现了深度图像编码压缩率与解码速度的双重突破。
ELIC:Efficient learned image compression with unevenly grouped space-channel contextual adaptive coding
作者
:
何岱岚,杨孜名,彭维崑,马瑞,秦红伟,王岩
会议:CVPR 2022
奖项:CVPR 2022 CLIC竞赛图像压缩冠军
摘要:近年来,基于深度学习的图像压缩技术已经拥有了显著的性能,甚至超过了最先进的手工设计有损图像编码器,并有望被大规模采用。出于实用性的考虑,从压缩性能和运行速度两方面对深度图像压缩模型设计进行深入的研究是必不可少的。王岩博士及研究团队观察到深度图像压缩模型中的能量集中特性,并受其启发首先提出了非均匀通道自适应编码,将所提出的非均匀分组模型与已有的上下文模型相结合,得到了一个空间-通道上下文自适应模型,在不影响运行速度的情况下提高了编码性能。这之后团队研究了变换网络的结构,并提出了一个高效的模型,ELIC,以达到最先进的速度-压缩率联合表现。该模型具有优越的性能,且支持极快的预览解码和渐进解码,使未来基于深度学习的图像压缩应用更具前景。
PO-ELIC: Perception-Oriented Efficient Learned Image Coding
作者
:
何岱岚,杨孜名,于泓久,许通达,骆继祥,陈源,高宸健,史鑫杰,秦红伟,王岩
会议:CVPR 2022
奖项:CVPR 2022 CLIC竞赛图像压缩冠军
摘要:在过去的几年中,深度学习图像压缩(LIC)已经取得了显著的成绩。最近的LIC方法在峰值信噪比和MS-SSIM方面都优于VVC。然而,低比特率的LIC重建存在模糊、颜色漂移和纹理缺失等画质问题。这些不同的画质问题使得图像质量评价的客观指标与人类主观感知的相关性变差。在本文中,王岩博士及研究团队提出了PO-ELIC,即面向人类主观感知的高效深度学习图像编码。具体来说,我们基于对抗训练技术改进了ELIC,它是最先进的LIC模型之一。我们采用了包括hinge对抗损失、Charbonnier损失和风格损失的混合损失函数,将模型向更好的主观感知质量微调。实验表明我们的方法可以在更低的比特率下取得和HiFiC相当的主观感知质量。
以比赛主办方提供的测试集解码速度为例,在BPP=0.3码点,相比于需要超过13000秒完成解码的第二名方案,该方案只需要460秒即可完成全部解码,已经超越VTM-intra等传统编码器基准了,在CLIC这个舞台上向“深度学习方案用于图像编解码太慢”这个认识第一次提出了挑战。在该码点,该方案也以2553的ELO分数超过了比赛方提供的所有传统编码器(分数最高的传统编码器AVIF只有不到2300 ELO)及深度学习方案。这个成绩暗示,深度图像编码技术不仅能在率失真性能的量化比较中取得优胜,并且在解码效率等方面也已具备投入实际应用的条件,基于深度学习的端到端数据压缩技术进入了新的发展阶段。