新闻中心

当前位置: 首页 > 新闻中心 > 学术简报 > 正文

AIR学术|复旦大学朱思语:基于三维物理约束的交互式人像视频生成

来源:       发布时间:2025-03-19
主讲人 时间
地点 精彩回顾

3月13日晚上,复旦大学人工智能创新与产业研究院研究员、长聘正教授朱思语博士在AIR青年科学家论坛第42期上发表了主题为“基于三维物理约束的交互式人像视频生成”的讲座,分享了他近年来在视频生成和三维建模领域的前沿研究成果。

讲者介绍

朱思语,复旦大学人工智能创新与产业研究院研究员,长聘正教授,博士生导师。本科毕业于浙江大学,博士毕业于香港科技大学。在博士期间,他联合创立了3D视觉公司 Altizure,该公司后被苹果公司收购。2017年至2023年,他担任阿里云人工智能实验室总监。自2023年起,他加入复旦大学,专注于视频和三维生成模型的研究。他已在 CVPR、ICCV、ECCV、PAMI等国际会议和期刊上发表论文60余篇。

报告内容

在过去几年,基于扩散和自回归的视觉生成模型过去几年取得了显著的进展。 然而, 相关的视觉生成结果在外观、几何、运动等真实世界的物理属性表达上仍然存在明显的局限性。 此外,现有方法通常仅依赖预先给定的控制条件,缺乏有效的外部环境交互机制。 为此,本讲座将探讨以三维模型作为人像视频生成的物理表征基础,以更好地刻画真实物理属性并提供端到端的交互能力。 通过将三维重建与视觉生成模型相结合,期望在保留人像精细视觉品质的同时,增强对姿态、运动和环境交五互的灵活性与可控性,为人像视频生成探索新的研究和应用空间。
Diffusion模型:视频生成的核心力量
在谈及现有的生成模型时,朱博士首先分析了Diffusion模型在视觉生成中的应用。他指出Diffusion模型的一个关键优势在于其能够通过自监督学习从海量数据中提取深层特征,这使得它在生成高分辨率大尺度数据和细节保持方面表现尤为出色,尤其是在图像和视频的连续性生成上。

同时Diffusion模型的优势在于能够保持较高的视觉质量,尤其是在生成细节丰富的高分辨率图像和视频时。尽管Diffusion模型在图像生成方面表现出色,现有的挑战仍然存在。特别是对于三维信息的生成,Diffusion模型面临着如何有效捕捉和表达复杂几何形状、动态变化及环境交互的巨大挑战。
此外朱博士还讨论了Auto-regressive方法与Diffusion方法的互补性。他指出Auto-regressive方法在多模态信息结合与感知建模方面具有独特优势,可以更好地处理不同模态的信息融合。但是在视觉质量上Diffusion方法仍然是视频生成领域的主流选择。

Scaling Law:解锁生成模型的新潜力
探讨了Scaling Law对生成模型效果的突破性影响,特别是在大规模模型训练中,如何通过增大模型的规模和数据量来提升生成效果。朱博士提到随着生成模型规模的增大,效果的提升是显著的,以Sora为代表的模型通过巨大的训练数据集和更深层次的网络结构,在生成一致性和连贯性上取得了优异的成绩。然而朱博士也指出,尽管Scaling Law带来了性能上的提升,是否能够真正模拟世界层面的物理规律仍然存在争议。生成的视频或图像虽然在视觉上能够逼真还原,但其物理属性、动态性以及与外部环境的交互性仍然有待加强。

人像视频生成中的挑战
朱思语博士在讲座中深入探讨了人像视频生成领域面临的主要挑战。人像生成作为计算机视觉领域的一个重要分支,尽管近年来在技术上取得了巨大的进步,但仍然存在许多亟待解决的问题。朱博士特别强调了两个核心挑战:
挑战一:Diffusion中巨大的Latent Space(潜在空间)
第一个挑战在于视频生成中的Latent Space(潜在空间)过于庞大。视频生成与语言生成相比有着本质的不同:语言生成通常涉及到经过人类加工的结构化信息,语义空间较为简洁;而视频生成涉及的是高度复杂且包含丰富动态信息的视觉数据。在这种情况下,VAE通过像素级别的压缩将图像数据转化为低维表示,但这种方法往往忽略了高维语义特征的捕捉。
朱博士指出,尽管VAE在视频压缩方面取得了一定成效,但其主要集中在图像的低级语义层次,并未能够有效地表达视频中的高维语义信息。这使得在进行视频生成时,虽然内容已被压缩并提取出一定的语义特征,但整个Latent Space仍然非常庞大且复杂。要在这个空间中进行有效生成就面临着极大的挑战。通过简单的文字或条件来控制视频生成过程,在逐帧运动和精细化的动作控制上仍然受到很大的限制。

挑战二:跨模态的条件限制
第二个挑战在于跨模态的条件限制。语言生成模型目前虽然已取得显著进展,但在视频生成领域,如何将视觉信息(如几何网格、外观和光照等)与生成模型结合仍然存在很大的难度。朱博士指出,目前的模型在条件输入的处理上仍然较为简化,具体在对视频生成模型进行深度整合时,如何合理利用几何网格、外观和光照的先验信息,成为了制约生成质量的一个关键因素。

ECCV2024工作:结合3D网格信息和姿态进行运动控制
为了应对这些挑战,朱博士分享了他们在ECCV 2024上提出的工作Champ,这项工作通过将SMPL信息和Pose信息作为条件输入,结合UNet模型对生成结果进行对齐,从而改善了视频生成过程中的运动控制问题。尽管该模型仍然存在一些伪影,但相较于以前通过文本描述来控制视频生成的方式,效果已经有了显著的提升。朱博士特别指出,如果能够利用大量高质量的数据,这一方法将能够很好地解决运动控制问题,进一步提高生成结果的质量和稳定性。

语音控制与长时间视频生成
朱博士团队也在探索如何通过语音控制生成的人脸模型。团队采用基于UNet的去噪模型,并将输入的语音信息与人体先验进行结合,从而控制人脸生成模型的动作和表情。这一方法在提升生成效果的同时,也能更好地将语音与面部运动之间的关系建模,增强生成视频的自然感和连贯性。针对长时间视频生成的问题,团队还采取了一些优化策略,以解决Diffusion模型中误差累积的问题。通过这些创新的改进,视频生成模型成功地生成了较长时间的视频,并有效避免了生成过程中的质量退化。

未来展望
朱博士展望了未来视频生成的研究方向,特别是如何应对巨大Latent Space带来的挑战。他提出,未来的工作可能会集中在如何通过更高效的编码方法压缩Latent Space,并使得该空间更适合生成更具人类特征的视频内容。此外,跨模态信息融合的优化,如通过更深层的交叉注意力机制等方法,可能是提升视频生成质量和控制精度的关键。
朱博士总结道,尽管当前视频生成技术已取得许多显著进展,但仍面临诸多挑战。如何结合更复杂的先验信息、更高效的生成模型及更丰富的训练数据,将是未来技术发展的重要方向。



下一条:AIR学术|字节跳动李航:推进人工智能新前沿

关闭

相关新闻

业务合作:airoffice@air.tsinghua.edu.cn
招生招聘:airhr@air.tsinghua.edu.cn
联系电话:(010)82151160  

办公地点:北京市海淀区清华科技园启迪科技大厦C座12层

官方微信

京ICP备15006448号  |   版权所有©清华大学智能产业研究院