AIR学术｜爱丁堡大学Hakan Bilen：利用三维先验学习通用表征

来源：发布时间：2024-03-24

2月29日晚，由DISCOVER实验室主办的第二十八期AIR青年科学家论坛如期举行。本期讲座有幸邀请到爱丁堡大学副教授Hakan Bilen，为AIR老师与同学们做了题为《Learning universal representations with 3D priors》的精彩讲座。

讲者介绍

Hakan Bilen，现为爱丁堡大学信息学院副教授，从2017年起建立视觉计算实验室。他于鲁汶大学 VISICS 实验室获得博士学位，并曾于牛津大学视觉几何（VGG）实验室担任博士后。他现在的主要研究方向为计算机视觉和机器学习，重点研究弱监督学习、多任务学习和数据高效学习方法。他的工作曾经获得CVPR 2022的最佳论文提名。

报告内容

利用三维视角弱监督提升语义匹配准确率

Hakan博士首先介绍了其实验室于CVPR 2024最新发表的工作《Improving Semantic Correspondence with Viewpoint-Guided Spherical Maps》，其解决的是计算机视觉中的经典语义匹配（Semantic Correspondence）问题。该问题可以用于多项重要的下游计算机视觉任务，但是难以进行大规模的人类标注，因此当今的学术趋势为利用自监督方式去学习语义匹配。

如上图所示，当今最成功的自监督语义匹配算法利用了预训练的DINOv2特征，该特征在大规模图片数据上进行无偏的自监督训练，并被验证过在线性分类的条件下可以有效处理语义分割，深度估计等复杂场景理解问题。DINOv2特征可以用于有效的语义匹配，但是无法有效处理两个问题：重复部件（如轮胎）和对称性。

为此，Hakan博士的团队提出了上述的算法架构，其首先将预训练的自监督特征映射到三维球上，作为该特征在一个假定的标准空间中的几何位置，由于该特征后续主要用于视角弱监督，该方法将其归一化到三维球上，并称之为球特征（spherical features），然后将球特征映射回预训练的自监督特征空间，并用自监督特征空间内的欧式距离去监督这两个映射，如上图所示。

该方法的独特优势是可以在球特征上利用弱视角监督去约束特征空间的分布，如上图所示，对于每一个图片对，该方法只需要利用视角差异的标注而不需要利用逐像素的语义匹配标注，在球特征空间对，其讲所有逐像素特征的平均值作为视角方向的近似，去约束该方向差异和视角标注差异的距离，进而解决前述难题。

如上述两张图片所示，在利用了弱视角监督之后，该方法提取的特征可以有效区分重复部件（如车轮）和对称部件，具体体现为重复部件和对称部件降维后体现为不同的颜色，而基线方法则无法有效区分重复部件和对称部件，具体体现为其降维后体现为类似的颜色。而在定量结果测试中，该方法提取出的自监督特征也在语义匹配中取得了显著的性能提升。

利用三维先验进行更有效的多任务自监督学习

在汇报的第二部分，Hakan博士介绍了其实验室在ICLR 2024上发表的最新的多任务学习方法。多任务学习是计算机视觉中的重要问题，被广泛认为是学习通用表征的技术路径之一。

如上图所示，以往的多任务学习方法主要致力于刻画多个任务的特征图之间的关系，并没有利用显式的三维几何约束。因此，Hakan博士的团队提出了一个新的方法，可以从单张图片中学习三维表征，自然对多个相关的任务进行约束。同时该方法在测试时没有任何额外的开销，并且可以泛化到各种类型的任务上，而不需要单独的设计。

具体而言，该方法利用了一个基于单视角三维隐式场重建的额外分支，该分支从单目图象中提取特征并将其反投影到三维空间，该三维隐式空间的特征又被投影到可约束的视角下，进行多个任务的预测和约束。为了提升训练效率，该方法利用了三正交平面的高效表征，在三维空间内进行多任务的隐式约束。

通过大规模实验，该方法被验证在多个不同的基线上以即插即用的方法显著提升多任务学习的性能，并且取得了迄今最强的结果。

汇报结束后，Hakan博士和AIR的老师同学们就汇报内容和学术趋势进行了热烈的交流。

文稿撰写 / 张宗正

排版编辑 / 王影飘

校对责编 / 黄　妍

相关新闻

AIR学术｜字节跳动李航：推进人工智能新前沿

3月5日下午，第42期AIR学术沙龙如期举行。本期活动荣幸邀请到了字节跳动李航博士，为我们作题为《推进人工智能新前沿》的报告。本次活动由中国工程院院士、清华大学智能产业研究院（AIR）院长张亚勤主持。讲者简介Hang Li is the Head of Research at ByteDance Technology. He is an ACM Fellow, ACL Fellow, and IEEE Fellow. He graduated from Kyoto University and received his Ph.D. from the University of Tokyo. Prio...

2025/03/19

AIR学术｜西湖大学于开丞：浅谈自主智能——Autolab 的视角

11月28日下午，由DISCOVER实验室主办的第三十八期AIR青年科学家论坛如期举行。本期活动荣幸第邀请到了西湖大学工学院助理教授于开丞，为AIR的老师和同学们做了题为Large Visual-Centric Models in Society Autolab Perspective的精彩报告，本次活动由清华大学智能产业研究院（AIR）助理教授龚江涛主持。讲者介绍于开丞博士，西湖大学工学院博士生导师、助理教授，人工智能企业KMina联合创始人兼首席科学家。于开丞先后于2016年...

2024/12/04

AIR学术｜南京大学姚遥：Creating a Realistic 3D World

11月28日晚，由DISCOVER实验室主办的第三十七期AIR青年科学家论坛如期举行。本次活动有幸邀请到南京大学智能科学与技术学院的姚遥副教授，为AIR的老师和同学们做了题为Creating a Realistic 3D World的精彩报告。嘉宾介绍姚遥副教授是2022年国家级人才计划青年项目（海外）入选者。曾任苹果公司高级研究员，Altizure创始团队核心成员（被苹果收购）。2015年于南京大学获学士学位，2019年于香港科技大学获博士学位。主要研究方向...

2024/12/04

主讲人		时间
地点		精彩回顾

关于AIR

新闻中心

AIR团队

科学研究

产业交流

人才招聘

院级合作单位

新闻中心

学院新闻

大师对话

学术简报

媒体报道