AIR学术 | 上海人工智能实验室戴勃: 结构先验对高质量内容生成的重要性

来源：发布时间：2023-10-30

10 月 26 日晚，由 DISCOVER 实验室主办的第二十五期AIR青年科学家论坛如期举行。本期讲座有幸邀请到上海人工智能实验室青年科学家戴勃，为 AIR 的老师与同学们做了题为《结构先验对高质量内容生成的重要性》的精彩报告。

讲者介绍

undefined

戴勃，上海人工智能实验室青年科学家，内容生成与数字化研究团队负责人，曾任新加坡南洋理工大学研究助理教授。研究领域为生成式人工智能(AIGC)，目前在人工智能顶级会议和期刊发表相关论文共计40余篇，近期代表工作书生天际LandMark，AnimateDiff。

报告内容

在本次分享中，戴博士为我们科普了评价AIGC质量的关键维度和关键点，以及他的三方面的工作：视频、宏观3D场景以及微观3D 场景的生成工作。

戴博士首先为我们科普了评价AIGC质量的关键维度。他指出，AIGC应用真正的发展，需要不断提升其四项关键性质，即：可扩展性——短时间生成多个高质量内容；保真度——生成内容的主观质量；可控性——对生成内容精准控制的能力；可得性——要低门槛地使用AIGC应用。对提升AIGC应用的四项关键性质，戴博士提出了要利用好AIGC内容和任务的组合性，分而治之，将任务进行合理的拆分和组合，提升每一项子任务，以达到提升四项关键性质的目的。

之后，戴博士带来是其三项重点工作的介绍。首先是在视频生成领域的工作，戴博士指出，开源的图像生成应用，特别是Stable Diffusion，不仅可以生成极高质量的图像内容，还拥有及其活跃的社区，已经形成了极其丰富的生态，开发出了很多种玩法。基于这一点，戴博士团队提出了利用图像加运动来生成视频的思想，将运动模块作为一个插件，插入到图像生成模型之后，让图像“动”起来。

并且由于社区在图像视频生成领域已经具有了很多种类的模型，该运动模块也可以接入ComfyUI，得到更多生成内容的可能性。

在宏观三维场景的生成工作方面，戴博士团队提出了基于渐进式模型结构和学习模式，通过逐渐增加模型的能力来处理新的信息和尺度，逐渐探索神经辐射场技术的边界。戴博士团队的工作从最开始的针对单个建筑体的重建工作，推广到整个区域，克服了同时兼顾整体和局部细节的质量的难点，到最后使用类似地图的平面信息和立体信息的方式来表达一个三维场景，并结合一个Vanilla NeRF的分支，真正实现了单个NeRF模型对百平方公里级的大型三维城市场景的高精度重建、实时渲染及光影变换。在完成这一系列的工作之后，戴博士团队进一步以学到的地图作为操作空间，实现了对生成内容跨场景的编辑。

此外，由于城市规模任务数据具有获取难度大，敏感度高，噪声大等特点，戴博士团队将目光转向虚拟空间当中，利用虚幻引擎内容的质量高、多样性好、可扩展性强的特点，打造出了基于虚幻引擎的合成数据集MatrixCity，可以在很大程度上解决城市规模的任务数据的问题。

在微观层面，戴博士指出，任何的三维的实体都可以用粒子组成的系统来表示。在粒子层次去学习整个系统的动态，也许可以更通用地预测场景的动态变化，不需要考虑太多的领域特性。粒子之间的动态主要由粒子的状态和粒子之间的作用所决定，当时在这一方面，前人的工作多基于图神经网络和Transformer模型来研究粒子的状态和互相之间的关系。戴博士团队在经过研究后发现，图神经网络和Transformer这两个模型在一定程度上等价，但两种模型在对粒子之间交互的建模方式上有区别。在经过论证之后，戴博士团队将两种方案结合到了一起，得到了较快的运算速度和较好的泛化能力。

在取得这项工作的成功之后，戴博士团队将其应用到了多层衣服的动态生成上，也取得了成功。在真实场景中，目标任务可能穿很多件衣服，具有不同的拓扑结构。戴博士团队将这些不同拓扑的衣物打散成粒子，并直接对这些粒子进行模拟，达到了对不同衣物、不同外部作用力同时进行模拟的效果，并且具有非常高的泛化性能。

演讲的最后，戴博士展示了使用前述视频生成技术制成的漫画人物来展示了其团队主页的二维码，并回答了同学们的问题。

文稿撰写 / 谢斯睿

排版编辑 / 王影飘

校对责编 / 黄妍

相关新闻

AIR学术｜字节跳动李航：推进人工智能新前沿

3月5日下午，第42期AIR学术沙龙如期举行。本期活动荣幸邀请到了字节跳动李航博士，为我们作题为《推进人工智能新前沿》的报告。本次活动由中国工程院院士、清华大学智能产业研究院（AIR）院长张亚勤主持。讲者简介Hang Li is the Head of Research at ByteDance Technology. He is an ACM Fellow, ACL Fellow, and IEEE Fellow. He graduated from Kyoto University and received his Ph.D. from the University of Tokyo. Prio...

2025/03/19

AIR学术｜西湖大学于开丞：浅谈自主智能——Autolab 的视角

11月28日下午，由DISCOVER实验室主办的第三十八期AIR青年科学家论坛如期举行。本期活动荣幸第邀请到了西湖大学工学院助理教授于开丞，为AIR的老师和同学们做了题为Large Visual-Centric Models in Society Autolab Perspective的精彩报告，本次活动由清华大学智能产业研究院（AIR）助理教授龚江涛主持。讲者介绍于开丞博士，西湖大学工学院博士生导师、助理教授，人工智能企业KMina联合创始人兼首席科学家。于开丞先后于2016年...

2024/12/04

AIR学术｜南京大学姚遥：Creating a Realistic 3D World

11月28日晚，由DISCOVER实验室主办的第三十七期AIR青年科学家论坛如期举行。本次活动有幸邀请到南京大学智能科学与技术学院的姚遥副教授，为AIR的老师和同学们做了题为Creating a Realistic 3D World的精彩报告。嘉宾介绍姚遥副教授是2022年国家级人才计划青年项目（海外）入选者。曾任苹果公司高级研究员，Altizure创始团队核心成员（被苹果收购）。2015年于南京大学获学士学位，2019年于香港科技大学获博士学位。主要研究方向...

2024/12/04

主讲人		时间
地点		精彩回顾

关于AIR

新闻中心

AIR团队

科学研究

产业交流

人才招聘

院级合作单位

新闻中心

学院新闻

大师对话

学术简报

媒体报道

AIR学术 | 上海人工智能实验室戴勃: 结构先验对高质量内容生成的重要性

相关新闻

AIR学术｜字节跳动李航：推进人工智能新前沿

AIR学术｜西湖大学于开丞：浅谈自主智能——Autolab 的视角

AIR学术｜南京大学姚遥：Creating a Realistic 3D World

最新动态

官方微信