新闻中心

当前位置: 首页 > 新闻中心 > 学院新闻 > 正文

聂再清|大数据和多模态语义理解

来源:       发布时间:2021-06-05

在数字化时代下,大数据带给人们的价值不可估量,既要把握机会,也要接受挑战。如何安全高效地利用多模态的数据赋能社会发展、为人们带来便利,提高数据生成质量、降低数据产生成本,保护数据隐私并化解数据孤岛问题,是清华大学智能产业研究院(AIR)自研DAIR机器自学习大数据平台的使命。

——聂再清

活动介绍

北京智源大会是人工智能领域盛会,已成功举办两届。2021北京智源大会于6月1日至6月3日在线上线下同步召开。本次会议共设29个专题论坛,从AI基础研究、跨界融合、到产业应用,为各界人士提供了一个交流和碰撞想法的平台。本次会议聚集了八千余位AI领域的科学家、企业家、投资者、学界人员、业界人员,累计参与观看直播和讨论人次达200万。

清华大学国强教授、清华大学智能产业研究院(AIR)首席研究员聂再清于6月3日出席2021北京智源大会,并发表“大数据和多模态语义理解”的主题演讲,与大家分享在数字化3.0时代的挑战和机遇,并介绍了AIR自研的DAIR机器自学习大数据平台的核心内容和主要关注点。

讲者介绍

image.png

聂再清博士现任清华大学国强教授、智能产业研究院首席研究员。聂再清博士于 2004 年获得美国亚利桑那州立大学博士学位,师从美国人工智能学会前主席 Subbarao Kambhampati 教授,此前曾就读于清华大学计算机科学与技术系。2017年10月,聂再清博士加入阿里巴巴,任阿里巴巴人工智能实验室北京研发中心负责人和阿里巴巴天猫精灵首席科学家,也是教育部人工智能专家组咨询组专家。此前,聂再清博士就职于微 软亚洲研究院,任首席研究员,主要负责微软自然语言理解、实体挖掘的研发工作。在微软期间,他是微软学术搜索,人立方,以及企业智能助理 EDI 的发起人和负责人,也是微软自然语言理解平台 LUIS的技术负责人。

报告内容

信息技术发展的最大特点就是数字化,信息产业发展到现在的30余年历程中,我们经历了以内容数字化为主的1.0时代和以信息网络化为主的2.0时代,现在正处于数字化的3.0时代,是将信息与物理世界、生物世界融合的智能感知时代。数字化3.0时代下的产业升级是基于AI的产业变革,现有工业需要改变,新兴产业正在诞生,清华大学智能产业研究院在这一大背景下,重点关注基于大数据的智慧交通、智慧物联和智慧医疗这三个方面的智能产业应用。

一、数字化3.0时代的大数据挑战和机会

如何建立多源异构数据之间的联系以提高AI的认知能力,如何有效解决当下数据高成本标注问题并提高人机协作效率,如何在保障用户隐私和数据安全的前提下充分利用私有数据以及化解数据孤岛问题,是数字3.0时代的大数据所面临的挑战和机遇。

image.png

1. 多模态数据广泛存在

人类的认知是基于多模态信息融合的,多模态数据在3.0时代也广泛存在于方方面面。新型的个性化主动健康管理方式在3.0时代朝大家走来,现阶段存在大量的多模态数据,如图像、文本、健康设备获取的实时数据、个人行动轨迹等。这些个人健康信息数据量大且具有宝贵的价值,但在现阶段并没有被有效地积累和利用,因此也缺少必要的闭环反馈。智慧交通领域中,如果能将摄像头等提供的图像视频、激光雷达等提供的点云数据、V2X等多种模态数据有效协同,提升对于多模态场景的理解能力,将为自动驾驶技术发展带来跨越式的进步。智慧物联领域中,可以通过学习视频、语音、用户行为等多模态数据,使交互更加自然,功能更加智能,做更懂用户的智能助手。

image.png

2. 多模态知识和训练数据标注

前面提到的种种智能应用都离不开数据,知识和ML-Ready数据是数字化3.0时代的石油。每年互联网公司在标注数据中投入很多,但在现阶段,数据标注还是劳动密集型产业,往往需要雇佣很多标注人员进行大量简单且重复的工作。这样的工作不仅耗资巨大,而且很难保证标注的质量和结果的一致性。如何利用人工智能系统赋能人机协作,提高对于各种模态数据的标注效率和质量,是现阶段值得思考并着手去做的。

image.png

3. 合理利用私有数据,化解数据孤岛问题

大数据时代,公开数据所占比重越来越少,真正大量的私有数据已经逐渐成为各个企业的核心竞争力,这也成为大数据背景下智能应用的技术壁垒。如何在保护用户隐私安全和企业私有数据安全的基础上,推动行业内对于基础智能能力建设的意愿、利用多方安全计算和联合建模化解数据孤岛,是当下着眼要解决的问题。

image.png

二、DAIR机器自学习大数据平台

清华大学智能产业研究院面对数字化3.0时代的各项挑战,打造了DAIR机器自学习大数据平台。通过集成ML-Ready数据生产人机协作平台提高标注质量和效率,同时使用联邦学习和边缘计算技术保护数据安全和用户隐私,结合多模态机器学习,聚焦四种多模态智能服务——人机自然交互、用户理解、场景理解以及搜索和个性化推荐。

image.png

1. 多模态语义理解

在这里,首先我们要思考一个问题:语义理解必须建立在文本之上吗?答案是否定的。早在文字出现以前的100,000年前,智人便已经开始通过声音和视觉信息来理解语义。直到公元前3,000年前,楔形文字的出现,人类才开始书写和记录语言。而现在,婴儿牙牙学语之时,就已经在利用声音进行沟通和交互了。人类对于语义的理解存在两个平行的多模态系统,一个是先天的语音和视觉系统,另一个是通过后天学习的文字理解系统。未来机器的语义理解同人类一样,也必然是多模态的。

image.png

传统的语音语义理解方法通过对语音信号进行识别获得文本,在获得文本的基础上进行意图识别和实体抽取,以这些工作为基础最后构建实体链接。但这样的方法存在一些局限性,一是语音和语义的分隔,对语义的理解建立在文本建模基础之上,从而导致语音理解和语义理解被隔离;二是多信道问题,每一步的处理过程中产生的错误会向后传递并形成积累,导致信息损失不可避免。传统方法的局限性使其处理模式变得低效。

image.png

因此,聂再清教授介绍了其去年和天猫精灵团队同学合作提出的在语音上直接理解语义的工作(发表在ICASSP2020上[1]),实现基于音素的跨模态实体链接。利用音素的概念统一语言和文字的编码形式,绕开语义上的歧义问题,并结合实体知识图谱,使基于音素后验的翻译模型一步到位,通过单个模型减少传统链路上各模块的总信息损耗,大大提高编码效率和信息传递准确率。

image.png

2. ML-Ready数据生产人机协作平台

在数字化3.0时代下,海量原始数据源源不断地产生,而大多数场景下的原始数据需要经过标注才可以用于模型训练。现阶段使用人工标注的数据成本高且用时长,导致数据的标注速度远低于数据产生速度,非常不利于数据更新,更重要的是并不是每一份标注数据对模型训练都是有价值的。那么如何高效赋能海量的未标注数据呢?

聂再清教授团队打造的高效ML-Ready数据生产平台,利用主动学习(Active Learning)在原始数据池中筛选少量“难”分样本进行人工标注,并结合置信学习(ConfidentLearning)对人工标注标签做一致性检查,以保证标签的质量。随后对该部分人工标注数据进行自动数据增强来学习一个用于半监督学习的Teacher Model。通过Teacher Model在尚未人工标注的原始数据上进行自我训练,以达到协助人们完成对于大量原始数据的自动数据标注工作,高效产生ML-Ready数据的目的。结合置信学习和自动数据增强,半监督学习机器成为一个非常有前景的方向,近期在很多任务上利用海量的原始数据,已经带来了实质性的精度提升。

image.png

3. 面向隐私保护的机器学习

大数据是把“双刃剑”,为企业带来巨大价值,也为社会带来巨大发展,但这机遇和发展之中也蕴含着很多风险和挑战,考验我们对于数据进行利用的同时,对用户个人隐私的保护能力。当今大量的数据又通常为机构私有,这种拥有模式逐渐强化了数据孤岛问题,并不利于大数据的应用。那么如何在不妨碍用户个人隐私的前提下,利用大量的私有数据和个人数据帮助机器学习呢?

近年来,利用多方安全计算和联合建模解决数据孤岛问题的方法和工作受到了大量关注。在数据共享产业化的落地阶段,最需要解决的问题之一是提高用户参与提供数据的意愿,激励机制是提升参与方积极性的有效方式。联邦学习过程中数据不可见,如何构建公平、高效、可解释的激励机制极具挑战和价值。

image.png

在数字化时代下,大数据带给人们的价值不可估量,把握机会的同时也要接受挑战。如何安全高效的利用多模态的数据赋能社会发展、创新产业结构、提高生活品质、为人们带来便利,提高数据生成质量、降低数据产生成本,保护数据隐私并化解数据孤岛问题,是清华大学DAIR机器自学习大数据平台的使命。

参考文献:

[1] P. Wang, L. Wei, Y. Cao, J. Xie and Z. Nie,"Large-Scale Unsupervised Pre-Training for End-to-End Spoken LanguageUnderstanding," ICASSP 2020 - 2020 IEEE International Conference onAcoustics, Speech and Signal Processing (ICASSP), 2020, pp. 7999-8003, doi:10.1109/ICASSP40776.2020.9053163.

[2] Lugosch L, Ravanelli M, Ignoto P, et al. SpeechModel Pre-training for End-to-End Spoken Language Understanding[J]. Interspeech2019.

精彩回顾

公众号回复“智源大会”

打包下载本次推送所有讲座完整PPT

以下为“大数据和多模态语义理解”主题演讲完整视频

精彩内容点击回放

点击此处阅读原文

撰文 / 张嘉欢

编辑排版 / 刘聆羽

校对责编 / 黄妍

上一条:刘洋:如何撰写高质量科技论文 下一条:聂再清:人工智能最有前景的行业是生物世界的数字化

关闭

相关新闻

最新动态

业务合作:airoffice@air.tsinghua.edu.cn
招生招聘:airhr@air.tsinghua.edu.cn
联系电话:(010)82151160  

办公地点:北京市海淀区清华科技园启迪科技大厦C座12层

官方微信

京ICP备15006448号  |   版权所有©清华大学智能产业研究院