AIR学术｜黄高：动态卷积神经网络

来源：发布时间：2021-04-03

清华大学智能产业研究院（AIR）致力于利用人工智能技术赋能产业升级、推动社会进步。为更好地增强学术交流，促进学科发展，保障行业最新信息的及时交换，AIR将定期举办各种不同类型的学术沙龙。

活动概况

4月1日下午在智能产业院图灵报告厅举办的AIR学术沙龙第一期，我们荣幸地邀请到清华大学自动化系助理教授黄高博士为师生作题为《动态卷积神经网络》的学术报告。活动中，黄高博士从动态自适应模型的角度介绍高效深度神经网络设计的研究进展，并探讨现有方法的局限以及未来发展前景。

本次活动吸引了来自清华大学、北京大学、帝国理工大学、爱丁堡大学、天津大学等院校的学者与学生参加，现场氛围热烈活跃。

黄高博士用严谨又不失风趣的语言为在座的清华学子及专家献上一场精彩纷呈的《动态卷积神经网络》学术盛宴，并在讲演结束后与同学们展开了热烈互动。黄高博士深入浅出、妙语连珠的精彩回应赢得了全场热烈的掌声。本次活动由清华大学智能产业研究院副院长刘洋教授主持。

微信图片_20210402142859.jpg

黄高与马维英、陶大程、聂再清等参会学者合影

讲者简介

微信图片_20210403111449.jpg

黄高，清华大学自动化系助理教授、博士生导师，2015年获清华大学博士学位，2015年至2018年在美国康奈尔大学计算机系从事博士后科研工作。致力于深度学习和计算机视觉研究，提出了主流卷积网络模型DenseNet。目前在NeurIPS，ICML，CVPR等国际顶级会议及IEEE多个汇刊共计发表学术论文50余篇，被引用20000余次。获CVPR最佳论文奖、达摩院青橙奖、世界人工智能大会SAIL先锋奖、全国百篇最具影响国际学术论文、中国人工智能学会自然科学一等奖和和国家优青基金资助等荣誉。

报告内容

近年来，深度神经网络在CV、NLP等领域中取得了广泛的应用，AlexNet, VGG, ResNet, DenseNet等网络在相应任务上取得了显著的突破。这些深度网络往往能够在更大参数量的支持下能够取得较好的性能。

（深度网络往往面临着计算量与性能间的权衡）

关于模型参数规模与性能提升间的联系，一个可能的解释在于更大的模型有助于识别那些非常规的、难度更高的图像。然而，对于静态网络而言，模型结构和参数在训练完成后就被固定下来，在推理阶段对于任何难度的输入都需要相同数量的参数去做推理。对于那些相对简单的样本而言，一个浅层的网络可能足以完成分类任务，采用大模型进行推理可能会带来不必要的计算冗余。那么是否可以根据输入样本的“难度”自适应地调节模型大小呢？

(采用不同规模的网络适配不同难度的样本)

一个简单而直观的解决方案是将多个模型从小到大地级联起来。对于任意的输入样本，首先经过小模型得到分类的结果和置信度，对于置信度低的模型再送入到更大的模型中重新分类。

这样的方案存在的问题在于，各个级联模型间是相互独立的。对于一个难度较大的样本，小模型的分类结果对后续的计算没有帮助，大模型需要重新对样本进行分类，这同样带来了计算上的冗余。因此，可以进一步地考虑在大模型的中间层插入分类器，使得简单样本不需要经过完整的模型即可得到分类结果。

（MSDNet架构图）

然而，深度卷积神经网络往往存在着中间层表示分类准确度低的问题。为解决这一问题，黄高老师在ICLR’18提出了MSDNet架构，该架构中的水平层衡量表征粒度，垂直层衡量分辨难度，每一垂直层中节点兼顾前一层的同粒度表征（水平连接）和更细粒度表征（斜向连接），而分类器只接在垂直层的粗粒度表征后。模型通过对分类器的置信度设定阈值来判断是否需要进一步的横向计算。通过调节阈值，模型可以在部署阶段调节计算能力，来完成计算量和性能间的权衡。下图中表明采用多尺度架构的动态网络MSDNet相对于静态的DenseNet能够达到2到5倍的速度提升。

（MSDNet在ImageNet和CIFAR-100上取得显著的速度提升）

MSDNet可以在推理阶段根据输入样本动态调控模型的计算能力，这也是动态网络较之于静态网络的一大优势。而动态网络并不仅仅可以基于样本维度来实现，黄高老师团队最新完成的一篇综述中给出了对动态神经网络的层次划分。文中将动态网络划分为三个大类，除了如MSDNet的样本自适应网络外，还包括空间维度和时间维度的自适应网络。

（动态网络层次划分）

从空间的维度上来看，一个人关注于一张图片的时候，往往会优先关注于相对关键的部分。对于模型而言，同样可以通过hard attention的方式使得模型的运算集中在关键区域，减少信息量有限的局部运算。一篇典型的工作是发表在ECCV’20的Spatially Adaptive Inference withStochastic Feature Sampling andm Interpolation.