9月12日早,由DISCOVER实验室主办的第三十五期AIR DISCOVER青年科学家论坛如期举行。本活动有幸邀请到西湖大学工学院助理教授修宇亮,为AIR的老师和同学们做了题为
《Democratizing Human Digitization From Causal Photos》的精彩报告。
修宇亮,将于2025年春季入职西湖大学工学院,担任助理教授、博士生导师,以及远兮实验室(Endless AI Lab, http://endless.do)负责人。个人主页链接:xiuyuliang.cn。拟于2024年底于马克斯·普朗克智能系统研究所获得博士学位。他主要的研究方向为基于人的数字化。共发表相关领域国际知名会议及期刊论文多篇,包括CVPR、ICCV、ICLR、ECCV、TPAMI等。
在本次报告中,修宇亮博士首先介绍了自己的研究方向为数字人的重建和数字人的生成。接下来介绍了两种3D表达。分别为显式表达和隐式表达。如下图所示。并且讨论了两种3D表达在人体重建中的优缺点。在本次讲座中,修宇亮博士介绍了他博士期间的研究成果。
修宇亮博士认为目前的单目人体重建中主要存在四个问题,如下图所示。针对重建速度慢的这个问题。修宇亮博士及其团队提出了第一种从单目视频以实时速度对人体进行渲染重建的方法MonoPort,消除了需要输入多视角图片的需求,也消除了对人体数据进行预采集的需求。大大减少了重建的时间。
针对当时主流的单目人体重建方法在复杂以及挑战的姿势重建效果差这一问题,修宇亮博士及其团队提出了方法ICON。该方法对于复杂和挑战性姿势有着更好的泛化性。同时,与主流方法相比,其需要的训练数据也更加的少。仅需要八分之一的训练数据即可达到SOTA性能。由于该方法对复杂姿势出色的泛化性。ICON也被用来制作2022世界杯期间的精彩进球。
虽然ICON在复杂姿势以及挑战性姿势上具有很好的表现。但是其在宽松衣物上的表现并不好。针对人体宽松衣物的问题。修宇亮博士及其团队提出了方法ECON。方法框架如下图所示。该方法首先从单张图片中获得人物正面以及方面的法线贴图。并通过这两张法线贴图获得2.5D的正面的表面和反面的表面。最终将两个表面间的缝隙进行填充获得完成的穿着衣物的人体模型。
在生成带有完整纹理的数字人中,现有的方法都存在两个问题,那就是人物背部的几何纹理十分的平滑以及背后的纹理十分的模糊。为了能够解决该问题,修宇亮博士及其团队提出了方法TeCH。该方法将基于图像的重建视为条件生成任务,从输入图像和根据图像生成的描述性文本中中获取条件,并根据该条件生成3D人体模型。
在报告的最后,修宇亮博士着重介绍了自己博士生涯中的封箱之作PuzzleAvatar。该工作提出了一个新任务Album2Human(通过个人相册中的多张图片进行人体重建)。在PuzzleAvatar中,不需要使用任何的估计器,仅需要输入一组“OOTD”(每日服装)作为输入重建出个性化并且带有纹理的3D人体模型,这组照片中的人物可以是任何的身体姿势、相机姿势、取景、光照条件和背景。同时PuzzleAvatar可以应用在非常多的场景,比如像虚拟试衣以及文本编辑人物等场景。