新闻中心

当前位置: 首页 > 新闻中心 > 学术简报 > 正文

AIR学术|港中文深圳韩晓光:如何为三维生成模型准备数据

来源:       发布时间:2024-08-27
主讲人 时间
地点 精彩回顾

8月22日,由DISCOVER实验室主办的第三十三期AIR DISCOVER青年科学家论坛如期举行。本期讲座有幸邀请到香港中文大学(深圳)理工学院助理教授、博导韩晓光,为AIR的老师和同学们带来题为《How to Prepare Data for 3D Generative Foundation Models》的精彩报告。

undefined

讲者介绍

undefined

韩晓光博士,现任香港中文大学(深圳)理工学院和未来智联网络研究院助理教授,校长青年学者,目前担任未来智联网络研究院助理院长。他于2017年获得香港大学计算机科学专业博士学位。其研究方向包括计算机视觉和计算机图形学等,在该方向著名国际期刊和会议已发表论文60余篇,包括顶级会议和期刊SIGGRAPH(Asia), CVPR, ICCV, ECCV, NeurIPS, ACM TOG, IEEE TPAMI等。他曾获得吴文俊人工智能优秀青年奖,广东省杰出青年基金资助,香港中文大学(深圳)青年科研奖。目前也担任CVPR2023,NeurIPS 2023以及CVPR2024领域主席。他的工作还曾两次获得CCF图形开源数据集奖(DeepFashion3D和MVImgNet),2019年和2020年连续两年入选计算机视觉顶级会议CVPR最佳论文列表(入选率分别为0.8%和0.4%),他也曾获得IEEE TVCG最佳审稿人提名奖。

报告内容

三维数据是训练三维泛化性基础模型(3D Generative Foundation Model)最重要的资源,韩晓光博士的课题组在过去几年里,制作并发布,应用了大量不同方面的三维数据,并致力于提升三维基础模型的泛化性能。在本次报告中,韩晓光博士主要围绕三个科研问题讲述了三个案例:In door single view 3D reconstruction(室内单图三维重建),Single view 3D garment reconstruction(单图三维服装重建)和Single view 3D head reconstruction(单图三维人头重建),来介绍如何为三维基础模型准备并利用数据。

室内单图三维重建

韩晓光博士首先通过其课题组的两个早期工作Total3D和InstPiFu对单图三维重建这个任务做了简单的介绍,其目标是训练一个可泛化的基础三维模型,使得该模型可以从任意的单张室内图片中重建出房间的三维模型。
undefined
然而,此类模型只能在合成数据上具有较好的效果,很难泛化到真实数据上,于是,韩晓光博士课题组继续在此问题上深入挖掘,提出了基于领域自适应的方法来解决仿真与真实数据之间的domain gap,通过使用合成数据加上少量的真实数据,得到了非常显著的指标提升。但是,此方法仍然不能在真实数据集上取得令人满意的视觉效果。
undefined
韩晓光博士认为此问题的关键在于真实数据真的不够,于是,韩晓光博士团队通过建模师手工建模的方式制作了一个大规模一一对应的室内CAD标注数据集,并基于此数据集开发了基于扩散模型的新方法,取得了非常好的真实数据上的视觉效果。基于此,韩晓光博士认为在某些情况下,大量的数据是解决问题的关键,“花钱”制作数据集是解决问题最直接而根本的方法。

undefined

单图三维服装重建

在第二个案例 中,韩晓光博士同样首先介绍了其课题组早期的一篇三维服装重建的工作DeepFashion3D,该工作首次提出了针对三维服饰的单图三维重建,即输入单张人物图片即可重建出衣物的三维模型,并发布了第一个多视角三维衣物数据集。
undefined
然而与第一个案例中室内重建的初次尝试一样,该方法的泛化性能同样很差,无法真实应用于网络上众多的测试图像。于是在此基础上,韩晓光博士团队继续对算法进行改进,提出了基于Canonical Space思想的新方法论REEF,虽然这种方法确实带来了巨大的泛化性能提升,但韩晓光博士认为其仍然不够鲁邦,无法达到可实用的程度。
undefined
于是韩晓光博士团队继续对此问题进行深度挖掘,认为还是真实数据的数量不够,导致模型的泛化性能无法提升。韩晓光博士团队使用了扩散模型来生成更多更真实的数据,从而使得模型的鲁邦性大幅提升。在这个案例中,韩晓光博士重复了数据对于单图重建任务的重要性,并认为除此之外,坚持解决问题的决心也是至关重要的。
undefined
借此案例,韩晓光博士介绍了其课题组其他一系列工作包括MVImageNet,MVHumanNet,RichDreamer等,再一次阐述、证实了大量三维数据在三维生成中的重要性。
undefined
undefined

单图三维人头重建

在报告的结尾,韩晓光博士讲述了一个与前两个略为不同的案例。 首先,韩晓光博士给我们介绍了单图三维人头重建领域的一个问题,即以往的模型往往只能重建出人脸面部的几何结构,而忽视整个人头的几何。 基于上面两个案例的经验,韩晓光博士起初认为这是由于缺乏三维人头的数据导致的,于是制作了MvHeadNet数据集。 然而,实际上对于单图人头重建人物,多视角的三维数据是无必要的,方法上的改进即可解决此问题。
undefined
基于此,韩晓光博士认为除了数据之外,对算法的深入探究也是极为重要的。最后,韩晓光博士还给实验室老师和同学们提出了一些关于如何准备数据的建议,使同学们受益良多。
undefined


上一条:AIR学术|西湖大学修宇亮:利用个人相册进行低成本数字人重建 下一条:AIR学术|匹兹堡大学高伟:On-Device AI with Full Runtime Adaptability

关闭

相关新闻

业务合作:airoffice@air.tsinghua.edu.cn
招生招聘:airhr@air.tsinghua.edu.cn
联系电话:(010)82151160  

办公地点:北京市海淀区清华科技园启迪科技大厦C座12层

官方微信

京ICP备15006448号  |   版权所有©清华大学智能产业研究院