AIR学术 | 北大助理教授朱毅鑫：“暗”，不止于“深”——类人常识的计算机视觉

来源：发布时间：2022-05-25

我们认为，为解决新的任务，下一代人工智能必须接受类人的“暗”常识。

——朱毅鑫

活动概况

5月25日下午，AIR学术沙龙第21期如期举行。本期活动荣幸地邀请到了北京大学助理教授朱毅鑫博士为我们做题为《“暗”，不止于“深”——类人常识的计算机视觉》的讲座。

CC60

本次活动由清华大学智能产业研究院（AIR）助理研究员龚江涛博士主持，AIR官方视频号和b站同步直播，当日线上逾6000次观看。

讲者介绍

4A96

Dr. Yixin Zhu is an Assistant Professor at Peking University. He received a Ph.D. degree ('18) from UCLA advised by Prof. Song-Chun Zhu. His research builds interactive AI by integrating high-level common sense (functionality, affordance, physics, causality, intent) with raw sensory inputs (pixels and haptic signals) to enable richer representation and abstract reasoning on objects, scenes, shapes, numbers, and agents. He is a co-organizer of Vision Meets Cognition (FPIC) workshops, 3D Scene Understanding for Vision, Graphics, and Robotics workshops, and Virtual Reality Meets Physical Reality workshops. During his Ph.D. and postdoc studies, his work was supported by DARPA MSEE, DARPA SIMPLEX, DARPA XAI, ONR MURI, and ONR Cognitive Systems for Human-Machine Teaming.

报告内容

朱博士首先用一个机械臂制作麦片早餐的视频片段为我们揭示了“类人常识的AI”的重要性：机械臂即使可以识别并抓取物体，但在实际操作中依旧存在很多困难，导致人难以和机器交互，相较而言，人类却可以完成更复杂更丰富的任务。

8D3DB

另一个示例是一名儿童在拼积木塔。儿童的行为反应了他在完成这个任务时，会应用一些基本的物理常识，也会将大任务分解成子任务。当前的识别技术可以分辨出上述图片中的物体，包括儿童的姿势和注视，但机器人并不能像视频中的儿童一样完成拼搭积木塔的任务。

4BDF0

为了能让机器人模仿和学习人类的行为，我们可以从发展心理学的角度进一步了解儿童对世界的认知是怎样的。

发展心理学背景

朱博士为我们介绍了常用的发展心理学范式：Habituation/Dishabituation。基于这套范式，科学家得出了许多研究成果：例如在Observing the unexpected enhances infants’ learning and exploration 中，实验员让婴儿观察了符合和违反物理常识的小车和球的运动现象。在观察结束后，实验员将小车交给婴儿，婴儿会对在实验中有违反物理常识运动的小车反复重复实验，如将小车从高处扔下。本研究揭示了婴儿不仅对物理世界有一定的理解，并且可以通过反复实验来证明自己的假设。

5583E

在对人工智能的研究中，“常识”是一项重要但长久以来缺失的元素。

5418A

由此，朱博士引出了下一个问题，发展心理学的哪些维度可以运用到人工智能中呢？当前朱博士的团队在着重研究五大类问题：功能性（Functionality）, 物理（Physics）, 意图（Intent）, 因果（Causality）和效用（Utility）。从下面这幅图可以看到，我们能预测水将会从倾斜的水壶中流出，理解倒放的番茄酱瓶是在利用重力，小狗是趴在透明的玻璃桌上而不是悬浮在空中。我们希望机器在看到这张照片时，也可以像人一样得出以上认知推断。

91128 Case Study

本次讲座朱博士还为我们分析了三大类的案例，分别是场景理解，物体理解和机器人应用。

01 场景理解

在场景理解中，上一代人工智能中典型的应用便是数据驱动。下图很好地展示了一个使用数据驱动的场景理解案例，这是一个大型且复杂的多相机、多视角下时空联合推理的任务，使用数据驱动可以做到人与物品的追踪以及场景的3D重建。

7CB23

相较于数据驱动，任务驱动则更符合人类行为。神经科学的研究表明，在做和任务相关的物体识别时，人的反应更接近于对动作的识别而非物体识别。于是，朱博士团队从场景意义的角度，开始从任务出发构建3D场景。下图展示了同时估计Surface normal、Depth Map和Object Mark三种任务的结果，以及直接渲染重建的结果。将渲染结果映射到任务结果中，经过反复优化后，朱博士团队可以用单张图片做出较好的三维重建。

47EC0

下面朱博士重点介绍了Functionality & Physics。在发展心理学的范式中，婴儿对物理的理解有很强的发展的过程。

2087B

利用人类对物理世界的理解方式，AI可以完成一些复杂的任务，例如点云的分割。传统的点云分割方式对小型物体很不友好，但加入了物理限制后，能得到很好的改善。朱博士表示，现在的技术发展已经可以将物理集成到计算机视觉中。

57764

人工智能可以利用物理引擎和人物交互分析，辅助和优化场景解译，从而理解复杂场景。同时，在学得场景解译模型后，可以反向实现场景合成。

83DC1

接下来，朱博士为我们介绍了Utility。其中一个典型的案例就是对椅子的识别，椅子的定义十分的广泛，仅通过标注的方式很难进行准确且全面的识别。朱博士团队首先进行了场景重建，并观察了人与场景的交互，跟据人坐下的行为得出了力的热力图，从而提取出可以作为椅子的物体，以及椅子的舒适性，本研究仅基于物理模型，没有进行任何训练。

以上便是对场景理解的概述，接下来朱博士介绍了在物体理解上的工作。

02 物体理解

物体理解中最典型的应用就是工具的使用。在人类学家发现猩猩也会使用工具以前，对工具的使用长久以来被当做人类与动物智力区别的标志。乌鸦可以解开软绳、利用短棍得到长棍并利用长棍得到肉，其对工具的理解远超机器。

B99F8

对工具的使用的定义是在示教中学习，并在新场景中推断应用。其中，学习是基于合理的人类示范的假设之上，并可以从示教中推理出关键的物理学概念。对应到计算机视觉中，便是解析, 取样与理解。

53924

在理解为什么要这样使用之后，需要推断的问题是对工具的选择以及如何使用。

33D52

除了对工具的使用之外，容器也是发展心理学中对物理世界理解的重要问题。例如，当物体被放进一个容器中时消失了，从人类认知出发，可以理解物体依旧存在于容器中。对于容器的问题，朱博士团队做了一系列的工作，使用物理仿真研究了人对“什么是容器”的理解。由此可以延伸出，对在画面中消失的物体的追踪。此外，朱博士为我们介绍了场景理解和物体理解在机器人上的应用。

5495C

03 机器人中的应用

朱博士认为机器人要从功能性的角度出发，而非简单模仿人的行为。首先朱博士为我们展示了复杂的开药瓶过程，其中有肉眼不可见的按压力。为了研究人开启复杂瓶盖的过程，朱博士团队经过反复迭代，设计了可以记录手部受力的手套。人利用手套示教了开启瓶盖的过程后，机器人可以进行模仿，并成功完成了开启复杂药瓶的任务。

A00EF

朱博士团队进一步细化研究了人手的稳定抓握方式，将离散的分类变成连续的，并发现了几种不能通过手工分类得出的类别。

31734

当前机器人对场景的重建不是一个通路的闭环，朱博士希望能够提供一个统一的框架，为机器人导航提供帮助。其中包括但不仅限于将2.5D模型重建成3D模型，集成运动学信息，加入虚拟连接的运动规划等等。

45CCE

在讲座的最后，朱博士为我们展示意图在机器人中的应用。False-belief task（错误信念任务）是一个常见的心智理论案例，其证明了人具有推断他人认知的能力。朱博士将这个案例演化成了物体追踪的任务，建立了可以理解人错误信念的系统。

7680B

讲座的最后，朱博士回放了儿童拼搭积木塔的视频，希望能在未来5到10年内做出同等水平的机器人系统。

文稿撰写 / 张研

排版编辑 / 魏欣葳

校对责编 / 黄妍

主讲人	朱毅鑫	时间	2022年5月25日下午14:00
地点	线上直播	精彩回顾

关于AIR

新闻中心

AIR团队

科学研究

产业交流

人才招聘

院级合作单位

新闻中心

学院新闻

大师对话

学术简报

媒体报道

AIR学术 | 北大助理教授朱毅鑫：“暗”，不止于“深”——类人常识的计算机视觉

相关新闻

AIR学术｜字节跳动李航：推进人工智能新前沿

AIR学术｜西湖大学于开丞：浅谈自主智能——Autolab 的视角

AIR学术｜南京大学姚遥：Creating a Realistic 3D World

最新动态

官方微信