AIR学术｜仉尚航：迈向开放环境泛化机器学习

来源：发布时间：2022-06-25

6月16日晚，第十一期DISCOVER LAB青年科学家论坛顺利开展。本期活动有幸邀请到了北京大学计算机学院助理教授、青年科学家仉尚航博士。仉博士为我们进行了题为Towards Generalization of Machine Learning in the Open World（迈向开放环境泛化机器学习）的精彩分享。本次活动全程在线上进行，并由清华大学智能产业研究院（AIR）副教授周谷越博士主持。

153AA

迈向开放环境泛化机器学习

讲者介绍

10D3A0

仉尚航，北京大学计算机学院助理教授（研究员、博导）。2018年博士毕业于美国卡内基梅隆大学，之后加入加州大学伯克利分校 Berkeley AI Research Lab (BAIR) & Berkeley Deep Drive (BDD) 从事博士后研究。主要研究方向为开放环境泛化机器学习理论与系统，同时在计算机视觉和类脑计算方向拥有丰富研究经验。已在人工智能顶级期刊和会议上发表论文40余篇。

报告内容

本次报告中，仉尚航博士重点介绍了机器学习在开放世界中的挑战。她以无人驾驶为例，阐述了从封闭学习环境转向开放世界的两个关键挑战。随后，仉博士也分享了几个为解决挑战所做的研究工作，并与同学们就此展开了热烈的讨论。

开放世界的两大挑战

仉尚航博士首先从实际应用出发，向同学们介绍了开放世界中存在的两大挑战——Domain shift（数据域偏移）和Category shift（类别偏移）。从封闭实验环境转到开放环境时会产生数据偏移，如真实环境中存在的不同场景和天气等问题会为实验带来一定的误差，这便是Domain shift问题。面对未知的新事物，已有的工作很难将其快速识别；而事物的长尾分布是普遍存在的，限制无人驾驶的真正实用化瓶颈很可能就是这5%的长尾部分，这便是Category shift问题。为了解决这两个问题，仉博士做了以下工作：

4B133

开放世界的两大挑战

多元域自适应问题

在已有的交通数据中，不同的场景和天气等因素会产生不同的数据分布，从而产生不同的数据域。然而，工作中往往只能标注少量的数据域，因此便产生了多元域自适应的问题，即：如何使模型在有标注的原域上进行训练并迁移到未标注的目标域。对此，仉博士提出了一个多元域自适应理论研究的框架，并做了最小化原域误差和最小化原域与目标域之间的距离的工作。Desired Task（目标任务）部分，在算法设计时希望原域和目标域的特征之间是不可区分的；而Domain Classifier（域分类器）具有辨别能力，能够区分特征来自于原域还是目标域。

7DF54

对抗性多原域自适应

当存在多个原域时，究竟应该使用全部的多个原域还是其中的几个原域？通过实验，仉博士发现一昧增加原域个数，可能会对效果产生负面影响。因此，她认为在原域选择时，选择与目标域相似度更高的原域比使用多个原域更好。

62AF7

多元提取域的自适应

通过进一步的实验，仉博士发现当原域与目标域的标签分布一致时，能够取得比较好的效果；而当分布不一致时，就会产生一些不可避免的误差。为了解决这个问题，仉博士提出不光要学习不变的特征，同时还需要学习不变的分类器，并在之后验证了该想法的可行性。

7B81E

不变的特征和不变的分类器

高效率高泛化的Transformer

随着Transformer在各个领域取得丰硕的成果，它被越来越多地应用于各种问题。然而，很少有人去研究Transformer的泛化能力，也缺乏相应的工作研究如何提升它的泛化能力。对此，仉博士做了相关实验。其结果表明，Vision Transformer的泛化能力相比于CNN（卷积神经网络）具有一定的优势。

30802

CNN与Vision Transformers在背景转移上的性能对比

与此同时，实验结果表明在风格转移方面，Vision Transformer的泛化能力不尽如人意。仉博士通过三种方案——Adversarial Learning（对抗学习）、Information Theory Based Learning（基于信息论学习）、以及Self-Supervised Learning（自监督学习）解决了这个问题，最终通过实验结果发现Vision Transformer取得了比CNN更好的效果。

75C08

改进后Transformer的量化结果

此外，为了解决Vision Transformer效率低下和传统模型误差累积的问题，仉博士还提出了稀疏注意力剪枝的技术，这项技术能够大幅度的提升训练的效率。同时，她也通过可伸缩的网络蒸馏架构，进一步减少了网络的累积误差。

报告结束后，线上的老师同学们与仉尚航博士积极互动并探讨议题。仉博士就如何从简单域转向复杂域向同学们提出了几点建议，如结合自监督学习和对抗学习等方法，从而提升下游任务的效果。同时，仉博士也指出在多任务的问题中，任务之间互相帮助和交互的设计框架往往能够取得更好的效果。

参考文献：

向上滑动阅览

Zhou, H., Zhang, S., Peng, J., Zhang, S., Li, J., Xiong, H., & Zhang, W. (2021, February). Informer: Beyond efficient transformer for long sequence time-series forecasting. In Proceedings of AAAI.

Zhang, S., Wu, G., Costeira, J. P., & Moura, J. M. (2017). Understanding traffic density from large-scale web camera data. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (pp. 5898-5907).

Zhang, S., Wu, G., Costeira, J. P., & Moura, J. M. (2017). Fcn-rlstm: Deep spatio-temporal neural networks for vehicle counting in city cameras. In Proceedings of the IEEE international conference on computer vision (ICCV) (pp. 3667-3676).

Zhang, S., Shen, X., Lin, Z., Měch, R., Costeira, J. P., & Moura, J. M. (2018). Learning to understand image blur. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR) (pp. 6586-6595).

Zhao, H., Zhang, S., Wu, G., Moura, J. M., Costeira, J. P., & Gordon, G. J. (2018). Adversarial multiple source domain adaptation. Advances in neural information processing systems (NeurIPS),

Zhao, S., Wang, G., Zhang, S., Gu, Y., Li, Y., Song, Z., ... & Keutzer, K. (2020, April). Multi-source distilling domain adaptation. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI) (Vol. 34, No. 07, pp. 12975-12983).

Zhao, S., Yue, X., Zhang, S., Li, B., Zhao, H., Wu, B., ... & Keutzer, K. (2020). A review of single-source deep unsupervised visual domain adaptation. IEEE Transactions on Neural Networks and Learning Systems (TNNLS).

Dong, H., Dong, H., Ding, Z., Zhang, S., & Chang. (2020). Deep Reinforcement Learning. Springer Singapore.

Li, B., Wang, Y., Zhang, S., Li, D., Keutzer, K., Darrell, T., & Zhao, H. (2021). Learning invariant representations and risks for semi-supervised domain adaptation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (pp. 1104-1113).

S. Zhou, S. Zhang*, et al. "Active Gradual Domain Adaptation: Dataset and Approach", IEEE Transactions on Multimedia (TMM), 2022.

C. Zhang#, M. Zhang#, S. Zhang#, et al. "Delving deep into the generalization of vision transformers under distribution shifts.", Conference on Computer Vision and Pattern Recognition (CVPR), 2022.

M. Liu, Q. Zhou, H. Zhao, L. Du, Y. Du, J. Li, K. Keutzer, S. Zhang*. Prototypical Supervised Contrastive Learning for LiDAR Point Cloud Panoptic Segmentation, International Conference on Robotics and Automation (ICRA), 2022.

S. Zhou, H. Zhao, S. Zhang*, et al. "Online Continual Adaptation with Active Self-Training", Artificial Intelligence and Statistics Conference (AISTATS), 2022.

关于 DAIR 实验室

大数据人工智能实验室（DAIR Lab）实验室是AIR科研方向的横向支撑实验室之一，由聂再清教授任实验室主任。DAIR Lab致力于针对大数据和人工智能应用中普遍存在的海量数据利用、数据多源异构、高质量训练数据缺乏、数据安全和数据孤岛问题，研究如何利用多模态预训练模型来提升来提高AI的综合认知能力、如何利用主动学习和半监督学习来提升训练数据生产效率、和如何实现以数据不动，数据价值流动为目标的安全高效协同联邦学习体系。打造机器自学习大数据平台，提高人机协作效率，低成本生产高质量知识图谱和ML-Ready数据，解决多种联邦场景下（包括同、异构数据，同、异构设备）的安全联邦学习算法的和质效优化问题。为自动驾驶、健康医疗、生物制药等重点国家行业需求，提供理论支持和技术保障，推动我国在大数据和人工智能领域的战略布局和产业升级。

主讲人		时间
地点		精彩回顾

关于AIR

新闻中心

AIR团队

科学研究

产业交流

人才招聘

院级合作单位

新闻中心

学院新闻

大师对话

学术简报

媒体报道

AIR学术｜仉尚航：迈向开放环境泛化机器学习

相关新闻

AIR学术｜字节跳动李航：推进人工智能新前沿

AIR学术｜西湖大学于开丞：浅谈自主智能——Autolab 的视角

AIR学术｜南京大学姚遥：Creating a Realistic 3D World

最新动态

官方微信