AIR学术｜杨强：用户隐私，数据孤岛和联邦学习

来源：发布时间：2021-07-19

7月15日上午，清华大学智能产业研究院（AIR）成功举办以“数据安全与可信AI”为主题的学术工作坊。本次活动由聂再清教授主持，邀请到杨强、宋晓冬、朱军、邰骋、刘洋五位教授带来精彩报告。

杨强：用户隐私，数据孤岛和联邦学习

宋晓冬：打造负责任的数据经济

朱军：理解与评测对抗鲁棒性

邰骋：高性能、保护隐私的生物识别技术

刘洋：联邦学习的技术挑战和应用展望

AIR学术工作坊是AIR定期举办的中大型学术交流研讨活动，旨在提供一个学术交流、思想碰撞的平台，实现信息共享。

报告内容

联邦学习生态势必会在未来进一步发展，也势必会成为“人工智能造福社会”的典范。

——杨强

随着人工智能与信息技术的蓬勃发展，大数据时代的帷幕徐徐拉开。数据驱动算法和模型，成为这个时代一个不可忽视的重要资源，也成为当前各个领域技术发展的核心竞争力。而今，数据虽然越来越多，可是“数据孤岛”问题也愈发严重。国家、企业和个人对数据安全以及数据隐私保护的重视程度越来越高，欧盟于2016年正式发布的《通用数据保护法案》，近期欧洲推出了极为严厉的个人数据隐私法案，我国不断促进和逐年完善诸多关乎用户个人信息安全的管理办法和意见，并于2020年7月发布《数据安全法（草案）》等等，均展示了各国对于用户隐私以及数据安全保护的力度和决心。

在这一大背景下，不同部门与机构间的数据沟通隔阂逐渐加深，如何在保护用户隐私和数据安全的前提下，合理共享数据，使得多元数据得以融合和碰撞，最大程度的发挥数据应有的价值呢？联邦学习（Federated Learning）应运而生，从技术层面出发，在保护数据权益的基础上使得数据发挥出其应有的作用和价值。杨强教授作为国内“联邦学习”理论的开创者，为我们带来了联邦学习的关键技术和应用案例的报告，下面是对报告内容不修改原意的梳理和呈现。

人工智能从1956年诞生之际到现在，起起伏伏六十余年，“人机交互”是其中不变的主题，而搭建人与机器交流的桥梁，承载人与机器沟通的语言，就是数据。世界各地，每天产生海量数据分散在各处，这些数据有不同的属主、以不同形式异构、将其聚合不仅仅需要巨大的成本，还有法律的约束限制等种种阻碍。因此，虽然AI的力量来自于大数据，但是在我们周围，更多存在的是分散在各个机构的小数据。

联邦学习在保障数据拥有方的自身权益不受侵犯的前提下，对各个小数据进行合理使用，其工作原理秉承着“数据不动而模型动”、“数据可用，而不可见”的原则，受到了广泛的认可，也是隐私计算和联邦学习的终极目标。

对数据的建模需要数据之间存在某种联系，按照不同参与方所拥有的数据类型所处的特征空间以及样本ID空间的分布情况，可以将联邦学习分为三个模式：

（1）横向联邦学习（Horizontal Federated Learning）；

（2）纵向联邦学习（Vertical Federated Learning）；

（3）联邦迁移学习（Federated Transfer Learning）。

1.横向联邦学习

横向联邦学习又被称为按样本划分的联邦学习，因为此时处理的是联邦学习参与方所拥有的不同数据样本间存在数据特征重叠的情况，其表现类似于在表格中将数据水平划分。

2.纵向联邦学习

纵向联邦学习处理的是联邦学习参与方拥有重叠数据样本，但在数据特征上有所不同，其表现类似于在表格中将数据垂直划分的情况，因此又被称为按特征划分的联邦学习。

3.联邦迁移学习

联邦迁移学习则主要处理当联邦学习参与方所拥有的数据样本和数据特征的重叠均很少的情况。虽然数据的样本和特征在表面上无太大连接，但是通过迁移学习等方式变换之后，这些数据会在另一个维度产生较多勾连。

当数据之间的某种连接关系被发现后，人们便可通过对本地模型的相关信息进行加密后再进行操作，达到合理使用且保护数据隐私的目的。在联邦学习研究的过程中，也存在很多算法以外的问题，其中一个被人们所关注问题的就是联盟机制的建立。加入联盟的时间早晚对数据产生收益以及对联盟发展的贡献至关重要，一个合理的激励机制的建立，决定联盟生态能否健康成长。

为了加强联邦学习研究人员的工作效率与沟通，杨强教授团队除了研究联邦学习相应技术以外，也致力于联邦学习技术标准的建设，当前已发布两项标准，其中《Guide for Architectural Framework and Application of Federated Machine Learning(联邦学习基础架构与应用)》是全球首个联邦学习标准，除此之外还有三项标准正在编写中。其团队发布的联邦学习开源平台——FATE，已经成为LINUX上最流行的联邦学习平台，并被其他许多平台使用作为技术核心。

在杨强教授团队的努力下，隐私计算的算法效率也在逐渐提升。隐私计算的第一代：安全多方计算（MPC），通过交换部分数据实现隐私保护，但由于其针对于精确计算，导致计算效率低。隐私计算的第二代：集中加密计算（TEE），通过对数据或程序加密防止数据泄露，但是该种方式价格昂贵，而且需要对数据进行几种处理，数据并未被保留在用户本地，很多情况下不能满足数据隐私的法律法规。隐私计算的第三代：联邦学习（FL），主要针对AI建模，联邦学习不仅保证数据不离开所有方，而且由于其只针对近似计算任务，其效率相较于前两代也得到了很大提高。

最后，杨强教授列举了联邦学习当前在智能金融、推荐系统、智慧医疗以及边缘计算这几方面的经典应用案例，使得大家能够学以致用，知行并进。

1.金融行业风控

联邦学习可以有效解决传统金融行业风控中如数据不全、数据滞后、数据缺乏可观标准、数据量庞大且非结构化等痛点。联邦学习可以有效将各个机构的模型联合起来，打破数据壁垒，有效提高反洗钱系统的准确度和审查人员的工作效率。

2.推荐系统

联邦学习可以将推荐系统中的用户和产品视为矩阵数据，有效地使得物理上分离的双方产生合作，发生数据的传播。联邦学习能够安全有效地联合海量数据并进行准确的分析，建设更为有利的推荐系统，实现精准的营销。

3.智慧医疗

联邦学习赋能智慧医疗，在对于数据隐私极为敏感的应用场景中发挥了极大的作用。通过联邦学习机制打破数据壁垒，有效提高疾病预测准确率。

4.边缘计算

联邦学习和5G边缘计算相辅相成。联邦学习在保障边缘计算中数据安全的同时，使其更为智能。而5G边缘计算也在提高联邦学习的调用速度，加速联邦学习以适用于更多场景起到关键作用。

联邦学习是人工智能和大数据发展这一时代背景下至关重要的技术，我们在兼顾算法性能的同时更加不能忽略对数据安全和隐私的重视。联邦学习生态势必会在未来进一步发展，也势必会成为“人工智能造福社会”的典范。

参考文献：

[1] 杨强, 刘洋, 程勇, 等. 《联邦学习》[M]. 电子工业出版社, 2020.

讲者介绍

杨强，加拿大工程院院士，微众银行首席人工智能官，香港科技大学讲席教授，AAAI 2021大会主席，中国人工智能学会（CAAI）荣誉副理事长，香港人工智能与机器人学会（HKSAIR）理事长以及智能投研技术联盟（ITL）主席。他是 AAAI/ ACM/ CAAI/ IEEE/ IAPR/ AAAS Fellow，也是《IEEE Transactions on Big Data》和《ACM Transactions on Intelligent Systems and Technology》创始主编，以及多个国际人工智能和数据挖掘领域杂志编委。曾获2019年度“吴文俊人工智能科学技术奖”杰出贡献奖，2017年ACM SIGKDD杰出服务奖。杨强毕业于北京大学，于1989年在马里兰大学获得计算机系博士学位，之后在加拿大滑铁卢大学和Simon Fraser大学任教，他的研究领域包括人工智能、数据挖掘、机器学习等。他曾任华为诺亚方舟实验室主任，第四范式公司联合创始人，香港科技大学计算机与工程系系主任以及国际人工智能联合会（IJCAI）理事会主席。领衔全球迁移学习和联邦学习研究及应用，最近的著作有《迁移学习》、《联邦学习》和《联邦学习实战》。

撰文 / 张嘉欢

编辑排版 / 冼晓晴

校对责编 / 黄妍

精彩视频回顾及完整版PPT下载，请点击：

杨强 | 用户隐私，数据孤岛和联邦学习

主讲人		时间
地点		精彩回顾

关于AIR

新闻中心

AIR团队

科学研究

产业交流

人才招聘

院级合作单位

新闻中心

学院新闻

大师对话

学术简报

媒体报道

AIR学术｜杨强：用户隐私，数据孤岛和联邦学习

相关新闻

AIR学术｜字节跳动李航：推进人工智能新前沿

AIR学术｜西湖大学于开丞：浅谈自主智能——Autolab 的视角

AIR学术｜南京大学姚遥：Creating a Realistic 3D World

最新动态

官方微信