新闻中心

当前位置: 首页 > 新闻中心 > 学术简报 > 正文

AIR学术|刘洋:联邦学习的技术挑战和应用展望

来源:       发布时间:2021-07-19
主讲人 时间
地点 精彩回顾

7月15日上午,清华大学智能产业研究院(AIR)成功举办以“数据安全与可信AI”为主题的学术工作坊。本次活动由聂再清教授主持,邀请到杨强、宋晓冬、朱军、邰骋、刘洋五位教授带来精彩报告。


杨强:用户隐私,数据孤岛和联邦学习

宋晓冬:打造负责任的数据经济

朱军:理解与评测对抗鲁棒性

邰骋:高性能、保护隐私的生物识别技术

刘洋:联邦学习的技术挑战和应用展望


AIR学术工作坊是AIR定期举办的中大型学术交流研讨活动,旨在提供一个学术交流、思想碰撞的平台,实现信息共享。  



报告内容  


联邦学习的发展对数据产业产生了很大的影响,然而目前除了金融等少数场景,很多行业的数字化程度仍然比较低,故而数据价值的挖掘也受到了限制。因此,我们希望可以通过联邦学习抓住新的机遇,实现更多行业的数字化升级。

——刘洋


一、联邦学习及其分类


联邦学习(Federated Learning)是一种新兴的人工智能基础技术,在 2016 年由谷歌最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。其中,联邦学习可使用的机器学习算法不局限于神经网络,还包括随机森林等重要算法。联邦学习有望成为下一代人工智能协同算法和协作网络的基础。


联邦学习可分为横向联邦学习、纵向联邦学习和联邦迁移学习。横向联邦学习的概念最早由谷歌提出,横向联邦学习的名称来源于训练数据的“横向划分”,也就是数据矩阵或者表格的按行(横向)划分。不同行的数据有相同的数据特征,即数据特征是对齐的;横向联邦学习也称为特征对齐的联邦学习,适用于参与者的数据特征重叠较多,而样本ID重叠较少的情况。横向联邦学习核心的计算方法是联邦平均算法FedAvg,各方把模型参数做间歇性的平均或是梯度的平均,在谷歌提出联邦平均算法后,近几年也提出很多对联邦平均算法的改进,总结下来是主要对通信效率,参与方的选择,系统鲁棒性的提升。


image.png


纵向联邦学习的概念是由腾讯微众银行提出,纵向联邦学习的名称来源于训练数据的“纵向划分”,也就是数据矩阵或者表格的按列(纵向)划分。不同列的数据有相同的样本ID,即训练样本是对齐的。纵向联邦学习目前来说相对横向联邦学习应用更广,因为不同的机构之间,数据互补的价值往往比数据采样价值的提升更大,影响力也更大。纵向联邦学习的目标主要在于怎么让不同特征的数据进行联邦学习,训练过程中各方只拥有各方模型参数和各方的本地数据,模型和模型之间也没有交互,不像横向联邦模型中各方都训练同一个模型,模型参数是各方共享的。目前来说,纵向联邦学习已经产生了很多不同的分支,也伴随着很多隐私保护技术的产生,目前来说最大的挑战就是通信耗费高,它需要各方的反复迭代,为了解决这个问题,我们提出了Federated Block Coordinate Gradient Descent的方法,这种方法通过在不同的特征维度之间,做多次的本地梯度下降从而使性能提升很多,目前我们已经将该算法集成到了Fate平台上,起到了很好的效果。


image.png


纵向联邦学习需要用户与用户之间的对齐,它要求同样的用户在A和B方都有,我们需要他们在特征维度上有交互,但是现实生活中这样的用户数据是非常有限的,如何在这种有限的前提下依然能够做到联邦学习,我们就引入了迁移学习的概念,迁移学习适用于参与方A和参与方B在样本空间上有部分重叠。但他们有着不同的特征空间。


image.png


二、联邦学习面临的问题和挑战


1. 隐私与安全


模型训练和应用过程中的隐私泄露是当下阻碍人工智能技术发展的主要难题。联邦学习作为一种高效的隐私保护手段虽然可以在不直接获取数据源的基础上,通过参与方的本地训练与参数传递,训练出一个无损的学习模型;但联邦学习中也存在较多的安全隐患,主要的安全威胁有投毒攻击、对抗攻击以及隐私泄露等。


2. 通信效率


机器学习算法,特别是复杂的深度学习算法,在训练的过程中需要训练大量的参数,比如CNN可能需要训练上百万个参数,每一次更新过程需要更新上百万个参数;其次,网络通信的状态也可能导致很高的通信成本,比如不稳定的网络情况、参数上传和下载的过程中速度不一致都会导致整个算法的模型训练成本过大。


3. 异构性


联邦学习系统中,另一大问题就是众多客户端设备之间的异构性,包括存储、CPU计算能力、网络传输等多个方面的差异,这些异构性使得设备的计算时间不同,甚至导致个别设备直接掉线。


同时,联邦学习中数据也存在一定的异构性,联邦学习中的设备经常以非独立同分布的方式在网络中生成和收集数据,例如,移动端的用户在进行输入法下一单词预测的任务时,使用不同的语言会导致数据异构问题。此外,跨设备的数据持有方持有的数据数量很可能分布不均匀。因此,许多常见的针对独立同分布数据假设的优化算法对于联邦学习来说都是不适用的。


在当前的研究中,如何做好隐私安全、模型准确性和通信效率的平衡是我们的主要挑战。


image.png


三、联邦学习研究的新趋势


目前我们把联邦学习研究的新趋势归结于以下四点:


1. 梯度泄漏问题


联邦学习旨在在不共享数据的情况下训练一个鲁棒的模型,然而研究证明我们可以从用户的共享梯度中提取用户训练数据的标签。攻击利用梯度的方向和幅度来确定是否存在任何标签;当信息泄漏已经侵犯了联邦学习参与者的隐私时,如何解决梯度泄漏问题成为一个刻不容缓的问题。


image.png


2. 后门攻击


后门学习(backdoor learning)是一个重要且正在蓬勃发展的领域,与对抗学习(adversarial learning)类似,后门学习也研究深度学习模型的安全性问题,其研究主要包括两大领域:后门攻击(backdoor attacks)及后门防御(backdoor defenses)。


顾名思义,后门攻击希望在模型的训练过程中通过某种方式在模型中埋藏后门(backdoor),埋藏好的后门通过攻击者预先设定的触发器(trigger)激发。在后门未被激发时,被攻击的模型具有和正常模型类似的表现;而当模型中埋藏的后门被攻击者激活时,模型的输出变为攻击者预先指定的标签(target label)以达到恶意的目的后门攻击可以发生在训练过程非完全受控的很多场景中,例如使用第三方数据集、使用第三方平台进行训练、直接调用第三方模型,因此对模型的安全性造成了巨大威胁。


image.png


3. 个性化联邦学习


为了应对数据的Non-IID分布带来的挑战,一种有效的方法是在设备、数据和模型上进行个性化处理,以减轻异构性并为每个设备获得高质量的个性化模型,即个性化联邦学习。


image.png


4. 自动化AutoFL


AutoML(Automated machine learning)是将机器学习应用于现实问题的end-to-end流程自动化的过程。在典型的机器学习应用程序中,从业者必须应用适当的数据预处理,特征工程,特征提取和特征选择方法,使数据集适合机器学习。


image.png


5. 数据价值评估和激励机制


联邦学习的商业落地过程中,除了数据隐私的考虑之外,为联邦学习的参与者提供充足的激励也是必不可少的。针对上述的问题,我们需要设计一种机制,来对数据和模型分配优化等问题进行评估和激励。


四、联邦学习的应用展望


1. 联邦学习 5G驱动自动驾驶:


自动驾驶是未来几年AI落地的重点,传统的自动驾驶系统中,训练往往是集中式训练,所有人把数据上传,在一个模型里去做相关工作,但是这样存在很多问题,模型是集中分批量的去学习,样本采集的成本很高,数据整体的传输量大、延迟也会增加,同时整体的训练是一个统一的过程,随着5G的到来,一定程度上扩展了联邦学习的应用,可以把过去传统的集中式学习框架逐渐过渡到分布式的终端智能的互相学习的体系这种体系可以使各个终端持续的进行分布式学习,而不用批量的手机数据,在5G的加速下,可以低延迟的传输少量的参数,对于突发的任务,应对速度也有所提升,最终促进了终端智能的发展。


其中,车路协同是我们未来的一个趋势,它依靠的是协同智能,通过将单车智能与车路协同融合互补、迭代提升使单车的感知和路侧的智能可以结合在一起,从而更好的应对很多突发的事件。联邦学习在车路协同中可以帮助我们打破数据孤岛,解决车与车之间的数据和企业之间数据不能共享的问题;同时,不同的企业覆盖的地域也有所不同,车路协同需要很多的异构数据,路侧设备,交通数据,第三方服务,打通这些异构数据也需要纵向联邦学习的帮助。目前,联邦学习在自动驾驶领域是一个刚刚起步的阶段,仍然面临着很多的挑战,集中表现在数据和设备的异构性、设备适配问题、在多方协调的场景下严格对齐的样本少,设备的传输中往往会出现延迟,还有传输的效率和隐私问题。


image.png


2. 联邦学习赋能智慧医疗


医疗人工智能的最大挑战是医疗机构之间的数据无法互通,任何一家医院(或数据中心)数据量都是有限的,形成了大大小小的很多“数据孤岛”。我们可以利用联邦学习技术在数据不出数据中心的情况下,进行模型的学习,达到或接近数据集中情况下的为医疗领域提供一个隐私安全计算的环境,使得各方在保护用户隐私和信息安全的前提下提升系统效率,扩展医疗人工智能的应用。


image.png


五、展望


1. 自动驾驶、智慧医疗等产业落地为联邦学习研究提出了新的挑战;

2. 联邦学习与5G、区块链等技术的结合将促进效率和安全性升级;

3. 隐私保护和数据安全共享将是未来AI落地的必经之路。


讲者介绍


image.png


刘洋,清华大学智能产业研究院副研究员/副教授, 普林斯顿大学博士,清华大学本科毕业。曾任深圳前海微众银行股份有限公司资深研究员、AI部门研究团队负责人。她拥有10余项国际国内授权专利,超过100件专利申请,并在《Nature》、 AAAI、 IJCAI、 USENIX、ACM TIST 等知名学术期刊发表科研成果。她是《联邦学习》和《Federated Learning》的主要作者之一。她曾担任IEEE Intelligent Systems,ACM TIST等期刊客座编辑;曾获CCF科学技术奖科技进步杰出奖,AAAI人工智能创新奖等多个奖项。



撰文 / 杨美林

编辑排版 / 刘聆羽

校对责编 / 黄妍



精彩视频回顾及完整版PPT下载,请点击:

刘洋丨联邦学习的技术挑战和应用展望

上一条:AIR学术|邰骋:高性能、保护隐私的生物识别技术 下一条:AIR学术|刘菁菁:How Multimodal AI Empowers People

关闭

最新动态

业务合作:airoffice@air.tsinghua.edu.cn
招生招聘:airhr@air.tsinghua.edu.cn
联系电话:(010)82151160  

办公地点:北京市海淀区清华科技园启迪科技大厦C座12层

官方微信

京ICP备15006448号  |   版权所有©清华大学智能产业研究院