10
月
26
日晚,由
DISCOVER
实验室主办的
第二十五期AIR青年科学家论坛如期举行。本期讲座有幸邀请到上海人工智能实验室青年科学家戴勃,为
AIR
的老师与同学们做了题为《结构先验对高质量内容生成的重要性》的精彩报告。
戴勃,上海人工智能实验室青年科学家,内容生成与数字化研究团队负责人,曾任新加坡南洋理工大学研究助理教授。
研究领域为生成式人工智能(AIGC),目前在人工智能顶级会议和期刊发表相关论文共计40余篇,近期代表工作书生天际LandMark,AnimateDiff。
在本次分享中,戴博士为我们科普了评价AIGC质量的关键维度和关键点,以及他的三方面的工作:视频、宏观3D场景以及微观3D 场景的生成工作。
戴博士首先为我们科普了评价AIGC质量的关键维度。他指出,AIGC应用真正的发展,需要不断提升其四项关键性质,即:可扩展性——短时间生成多个高质量内容;保真度——生成内容的主观质量;可控性——对生成内容精准控制的能力;可得性——要低门槛地使用AIGC应用。对提升AIGC应用的四项关键性质,戴博士提出了要利用好AIGC内容和任务的组合性,分而治之,将任务进行合理的拆分和组合,提升每一项子任务,以达到提升四项关键性质的目的。
之后,戴博士带来是其三项重点工作的介绍。首先是在视频生成领域的工作,戴博士指出,开源的图像生成应用,特别是Stable Diffusion,不仅可以生成极高质量的图像内容,还拥有及其活跃的社区,已经形成了极其丰富的生态,开发出了很多种玩法。基于这一点,戴博士团队提出了利用图像加运动来生成视频的思想,将运动模块作为一个插件,插入到图像生成模型之后,让图像“动”起来。
并且由于社区在图像视频生成领域已经具有了很多种类的模型,该运动模块也可以接入ComfyUI,得到更多生成内容的可能性。
在宏观三维场景的生成工作方面,戴博士团队提出了基于渐进式模型结构和学习模式,通过逐渐增加模型的能力来处理新的信息和尺度,逐渐探索神经辐射场技术的边界。戴博士团队的工作从最开始的针对单个建筑体的重建工作,推广到整个区域,克服了同时兼顾整体和局部细节的质量的难点,到最后使用类似地图的平面信息和立体信息的方式来表达一个三维场景,并结合一个Vanilla NeRF的分支,真正实现了单个NeRF模型对百平方公里级的大型三维城市场景的高精度重建、实时渲染及光影变换。在完成这一系列的工作之后,戴博士团队进一步以学到的地图作为操作空间,实现了对生成内容跨场景的编辑。
此外,由于城市规模任务数据具有获取难度大,敏感度高,噪声大等特点,戴博士团队将目光转向虚拟空间当中,利用虚幻引擎内容的质量高、多样性好、可扩展性强的特点,打造出了基于虚幻引擎的合成数据集MatrixCity,可以在很大程度上解决城市规模的任务数据的问题。
在微观层面,戴博士指出,任何的三维的实体都可以用粒子组成的系统来表示。在粒子层次去学习整个系统的动态,也许可以更通用地预测场景的动态变化,不需要考虑太多的领域特性。粒子之间的动态主要由粒子的状态和粒子之间的作用所决定,当时在这一方面,前人的工作多基于图神经网络和Transformer模型来研究粒子的状态和互相之间的关系。戴博士团队在经过研究后发现,图神经网络和Transformer这两个模型在一定程度上等价,但两种模型在对粒子之间交互的建模方式上有区别。在经过论证之后,戴博士团队将两种方案结合到了一起,得到了较快的运算速度和较好的泛化能力。
在取得这项工作的成功之后,戴博士团队将其应用到了多层衣服的动态生成上,也取得了成功。在真实场景中,目标任务可能穿很多件衣服,具有不同的拓扑结构。戴博士团队将这些不同拓扑的衣物打散成粒子,并直接对这些粒子进行模拟,达到了对不同衣物、不同外部作用力同时进行模拟的效果,并且具有非常高的泛化性能。
演讲的最后,戴博士展示了使用前述视频生成技术制成的漫画人物来展示了其团队主页的二维码,并回答了同学们的问题。
文稿撰写 / 谢斯睿
排版编辑 / 王影飘