AIR学术｜港中文深圳韩晓光：如何为三维生成模型准备数据

来源：发布时间：2024-08-27

8月22日，由DISCOVER实验室主办的第三十三期AIR DISCOVER青年科学家论坛如期举行。本期讲座有幸邀请到香港中文大学（深圳）理工学院助理教授、博导韩晓光，为AIR的老师和同学们带来题为《How to Prepare Data for 3D Generative Foundation Models》的精彩报告。

undefined

讲者介绍

undefined

韩晓光博士，现任香港中文大学（深圳）理工学院和未来智联网络研究院助理教授，校长青年学者，目前担任未来智联网络研究院助理院长。他于2017年获得香港大学计算机科学专业博士学位。其研究方向包括计算机视觉和计算机图形学等，在该方向著名国际期刊和会议已发表论文60余篇，包括顶级会议和期刊SIGGRAPH(Asia), CVPR, ICCV, ECCV, NeurIPS, ACM TOG, IEEE TPAMI等。他曾获得吴文俊人工智能优秀青年奖，广东省杰出青年基金资助，香港中文大学（深圳）青年科研奖。目前也担任CVPR2023，NeurIPS 2023以及CVPR2024领域主席。他的工作还曾两次获得CCF图形开源数据集奖（DeepFashion3D和MVImgNet），2019年和2020年连续两年入选计算机视觉顶级会议CVPR最佳论文列表（入选率分别为0.8%和0.4%），他也曾获得IEEE TVCG最佳审稿人提名奖。

报告内容

三维数据是训练三维泛化性基础模型（3D Generative Foundation Model）最重要的资源，韩晓光博士的课题组在过去几年里，制作并发布，应用了大量不同方面的三维数据，并致力于提升三维基础模型的泛化性能。在本次报告中，韩晓光博士主要围绕三个科研问题讲述了三个案例：In door single view 3D reconstruction(室内单图三维重建)，Single view 3D garment reconstruction(单图三维服装重建)和Single view 3D head reconstruction(单图三维人头重建)，来介绍如何为三维基础模型准备并利用数据。

室内单图三维重建

韩晓光博士首先通过其课题组的两个早期工作Total3D和InstPiFu对单图三维重建这个任务做了简单的介绍，其目标是训练一个可泛化的基础三维模型，使得该模型可以从任意的单张室内图片中重建出房间的三维模型。

然而，此类模型只能在合成数据上具有较好的效果，很难泛化到真实数据上，于是，韩晓光博士课题组继续在此问题上深入挖掘，提出了基于领域自适应的方法来解决仿真与真实数据之间的domain gap，通过使用合成数据加上少量的真实数据，得到了非常显著的指标提升。但是，此方法仍然不能在真实数据集上取得令人满意的视觉效果。

韩晓光博士认为此问题的关键在于真实数据真的不够，于是，韩晓光博士团队通过建模师手工建模的方式制作了一个大规模一一对应的室内CAD标注数据集，并基于此数据集开发了基于扩散模型的新方法，取得了非常好的真实数据上的视觉效果。基于此，韩晓光博士认为在某些情况下，大量的数据是解决问题的关键，“花钱”制作数据集是解决问题最直接而根本的方法。

undefined

单图三维服装重建

在第二个案例中，韩晓光博士同样首先介绍了其课题组早期的一篇三维服装重建的工作DeepFashion3D，该工作首次提出了针对三维服饰的单图三维重建，即输入单张人物图片即可重建出衣物的三维模型，并发布了第一个多视角三维衣物数据集。

然而与第一个案例中室内重建的初次尝试一样，该方法的泛化性能同样很差，无法真实应用于网络上众多的测试图像。于是在此基础上，韩晓光博士团队继续对算法进行改进，提出了基于Canonical Space思想的新方法论REEF，虽然这种方法确实带来了巨大的泛化性能提升，但韩晓光博士认为其仍然不够鲁邦，无法达到可实用的程度。

于是韩晓光博士团队继续对此问题进行深度挖掘，认为还是真实数据的数量不够，导致模型的泛化性能无法提升。韩晓光博士团队使用了扩散模型来生成更多更真实的数据，从而使得模型的鲁邦性大幅提升。在这个案例中，韩晓光博士重复了数据对于单图重建任务的重要性，并认为除此之外，坚持解决问题的决心也是至关重要的。

借此案例，韩晓光博士介绍了其课题组其他一系列工作包括MVImageNet，MVHumanNet，RichDreamer等，再一次阐述、证实了大量三维数据在三维生成中的重要性。

单图三维人头重建

在报告的结尾，韩晓光博士讲述了一个与前两个略为不同的案例。首先，韩晓光博士给我们介绍了单图三维人头重建领域的一个问题，即以往的模型往往只能重建出人脸面部的几何结构，而忽视整个人头的几何。基于上面两个案例的经验，韩晓光博士起初认为这是由于缺乏三维人头的数据导致的，于是制作了MvHeadNet数据集。然而，实际上对于单图人头重建人物，多视角的三维数据是无必要的，方法上的改进即可解决此问题。

基于此，韩晓光博士认为除了数据之外，对算法的深入探究也是极为重要的。最后，韩晓光博士还给实验室老师和同学们提出了一些关于如何准备数据的建议，使同学们受益良多。

相关新闻

AIR学术｜字节跳动李航：推进人工智能新前沿

3月5日下午，第42期AIR学术沙龙如期举行。本期活动荣幸邀请到了字节跳动李航博士，为我们作题为《推进人工智能新前沿》的报告。本次活动由中国工程院院士、清华大学智能产业研究院（AIR）院长张亚勤主持。讲者简介Hang Li is the Head of Research at ByteDance Technology. He is an ACM Fellow, ACL Fellow, and IEEE Fellow. He graduated from Kyoto University and received his Ph.D. from the University of Tokyo. Prio...

2025/03/19

AIR学术｜西湖大学于开丞：浅谈自主智能——Autolab 的视角

11月28日下午，由DISCOVER实验室主办的第三十八期AIR青年科学家论坛如期举行。本期活动荣幸第邀请到了西湖大学工学院助理教授于开丞，为AIR的老师和同学们做了题为Large Visual-Centric Models in Society Autolab Perspective的精彩报告，本次活动由清华大学智能产业研究院（AIR）助理教授龚江涛主持。讲者介绍于开丞博士，西湖大学工学院博士生导师、助理教授，人工智能企业KMina联合创始人兼首席科学家。于开丞先后于2016年...

2024/12/04

AIR学术｜南京大学姚遥：Creating a Realistic 3D World

11月28日晚，由DISCOVER实验室主办的第三十七期AIR青年科学家论坛如期举行。本次活动有幸邀请到南京大学智能科学与技术学院的姚遥副教授，为AIR的老师和同学们做了题为Creating a Realistic 3D World的精彩报告。嘉宾介绍姚遥副教授是2022年国家级人才计划青年项目（海外）入选者。曾任苹果公司高级研究员，Altizure创始团队核心成员（被苹果收购）。2015年于南京大学获学士学位，2019年于香港科技大学获博士学位。主要研究方向...

2024/12/04

主讲人		时间
地点		精彩回顾

关于AIR

新闻中心

AIR团队

科学研究

产业交流

人才招聘

院级合作单位

新闻中心

学院新闻

大师对话

学术简报

媒体报道

AIR学术｜港中文深圳韩晓光：如何为三维生成模型准备数据

室内单图三维重建

单图三维服装重建

单图三维人头重建

相关新闻

AIR学术｜字节跳动李航：推进人工智能新前沿

AIR学术｜西湖大学于开丞：浅谈自主智能——Autolab 的视角

AIR学术｜南京大学姚遥：Creating a Realistic 3D World

最新动态

官方微信