新闻中心

当前位置: 首页 > 新闻中心 > 学术简报 > 正文

AIR学术|爱丁堡大学Hakan Bilen:利用三维先验学习通用表征

来源:       发布时间:2024-03-24
主讲人 时间
地点 精彩回顾
2月29日晚,由DISCOVER实验室主办的第二十八期AIR青年科学家论坛如期举行。本期讲座有幸邀请到爱丁堡大学副教授Hakan Bilen,为AIR老师与同学们做了题为《Learning universal representations with 3D priors》的精彩讲座。

讲者介绍

Hakan Bilen,现为爱丁堡大学信息学院副教授,从2017年起建立视觉计算实验室。他于鲁汶大学 VISICS 实验室获得博士学位,并曾于牛津大学视觉几何(VGG)实验室担任博士后。他现在的主要研究方向为计算机视觉和机器学习,重点研究弱监督学习、多任务学习和数据高效学习方法。他的工作曾经获得CVPR 2022的最佳论文提名。

报告内容

利用三维视角弱监督提升语义匹配准确率

Hakan博士首先介绍了其实验室于CVPR 2024最新发表的工作《Improving Semantic Correspondence with Viewpoint-Guided Spherical Maps》,其解决的是计算机视觉中的经典语义匹配(Semantic Correspondence)问题。该问题可以用于多项重要的下游计算机视觉任务,但是难以进行大规模的人类标注,因此当今的学术趋势为利用自监督方式去学习语义匹配。

如上图所示,当今最成功的自监督语义匹配算法利用了预训练的DINOv2特征,该特征在大规模图片数据上进行无偏的自监督训练,并被验证过在线性分类的条件下可以有效处理语义分割,深度估计等复杂场景理解问题。DINOv2特征可以用于有效的语义匹配,但是无法有效处理两个问题:重复部件(如轮胎)和对称性。

为此,Hakan博士的团队提出了上述的算法架构,其首先将预训练的自监督特征映射到三维球上,作为该特征在一个假定的标准空间中的几何位置,由于该特征后续主要用于视角弱监督,该方法将其归一化到三维球上,并称之为球特征(spherical features),然后将球特征映射回预训练的自监督特征空间,并用自监督特征空间内的欧式距离去监督这两个映射,如上图所示。

该方法的独特优势是可以在球特征上利用弱视角监督去约束特征空间的分布,如上图所示,对于每一个图片对,该方法只需要利用视角差异的标注而不需要利用逐像素的语义匹配标注,在球特征空间对,其讲所有逐像素特征的平均值作为视角方向的近似,去约束该方向差异和视角标注差异的距离,进而解决前述难题。

如上述两张图片所示,在利用了弱视角监督之后,该方法提取的特征可以有效区分重复部件(如车轮)和对称部件,具体体现为重复部件和对称部件降维后体现为不同的颜色,而基线方法则无法有效区分重复部件和对称部件,具体体现为其降维后体现为类似的颜色。而在定量结果测试中,该方法提取出的自监督特征也在语义匹配中取得了显著的性能提升。

利用三维先验进行更有效的多任务自监督学习

在汇报的第二部分,Hakan博士介绍了其实验室在ICLR 2024上发表的最新的多任务学习方法。多任务学习是计算机视觉中的重要问题,被广泛认为是学习通用表征的技术路径之一。

如上图所示,以往的多任务学习方法主要致力于刻画多个任务的特征图之间的关系,并没有利用显式的三维几何约束。因此,Hakan博士的团队提出了一个新的方法,可以从单张图片中学习三维表征,自然对多个相关的任务进行约束。同时该方法在测试时没有任何额外的开销,并且可以泛化到各种类型的任务上,而不需要单独的设计。  

具体而言,该方法利用了一个基于单视角三维隐式场重建的额外分支,该分支从单目图象中提取特征并将其反投影到三维空间,该三维隐式空间的特征又被投影到可约束的视角下,进行多个任务的预测和约束。为了提升训练效率,该方法利用了三正交平面的高效表征,在三维空间内进行多任务的隐式约束。

通过大规模实验,该方法被验证在多个不同的基线上以即插即用的方法显著提升多任务学习的性能,并且取得了迄今最强的结果。

汇报结束后,Hakan博士和AIR的老师同学们就汇报内容和学术趋势进行了热烈的交流。

文稿撰写 / 张宗正

排版编辑 / 王影飘

校对责编 / 黄 妍


上一条:AIR学术|微软亚研邱锂力:创新智能环境—无线通讯和感知的新视角 下一条:AIR学术|北大王鹏帅:面向图形学的通用三维神经网络

关闭

业务合作:airoffice@air.tsinghua.edu.cn
招生招聘:airhr@air.tsinghua.edu.cn
联系电话:(010)82151160  

办公地点:北京市海淀区清华科技园启迪科技大厦C座12层

官方微信

京ICP备15006448号  |   版权所有©清华大学智能产业研究院