7月15日上午,清华大学智能产业研究院(AIR)成功举办以“数据安全与可信AI”为主题的学术工作坊。本次活动由聂再清教授主持,邀请到杨强、宋晓冬、朱军、邰骋、刘洋五位教授带来精彩报告。
杨强:用户隐私,数据孤岛和联邦学习
宋晓冬:打造负责任的数据经济
朱军:理解与评测对抗鲁棒性
邰骋:高性能、保护隐私的生物识别技术
刘洋:联邦学习的技术挑战和应用展望
AIR学术工作坊是AIR定期举办的中大型学术交流研讨活动,旨在提供一个学术交流、思想碰撞的平台,实现信息共享。
报告内容
构建负责任的数据经济,最大的挑战不是来源于处理数据的技术瓶颈,而是如何安全地使用数据。
——宋晓冬
背景:数据经济价值和敏感数据使用挑战
数据是现代经济的重要发展动力,据统计个人数据为欧盟创造了8%的GDP价值,全球的数据经济也已经达到$3 Trillion。宋教授指出这些敏感的数据如何去使用,依然面临着前所未有的挑战:
1)个人无法有效控制数据如何被使用,比如美国加州DMV(department of motor vehicles)每年通过售卖驾驶员信息即可获利$50Million以上;
2)匿名可能也无法保护个人隐私,比如纽约时报能够从匿名的手机位置数据集中跟踪总统特工的位置;
3)用户无法从他们的数据中获取足够的利益,通过售卖某些数据记录每份即可获利数千美元,但用户却没有或很少获得相应的利益;
4)企业因数据泄漏每年会造成巨大的经济损失,尤其是CCPA和GDPR相关法律法规出台后,企业将付出更大的成本以应对数据泄漏等问题。
基于上述背景,宋教授借用Edd Wilder-James的话“The biggest obstacle to using advanced data analysis isn’t skill base or technology; it’s plain old access to the data”,指出当前急需一套负责任的数据经济(responsible data economy)框架。关于如何建设这套框架,宋教授指出要考虑三大因素,一是需要考虑合适的技术方案,二是需要考虑合适的激励模型,三是框架需要是合法的。
Secure Computing
关于合适的技术方案,宋教授首先分析了传统技术方案存在的问题,如数据加密仅能保护静态或者传输中的数据、数据要么不被使用,要么被复制—使得难以控制使用、匿名化并不总是能保护数据隐私。因此针对责任数据经济框架,宋教授指出我们的技术方案还需要保证数据在使用过程中的隐私保护、无需拷贝数据即可使用以保证数据可控、保护数据计算结果以防止敏感数据信息泄漏。目前发展较快的技术方案有安全计算(Secure Computing)、差分计算(Differential Privacy)、联邦学习(Federated Learning)、分布式账本(Distributed ledger)。本次讲座宋教授重点介绍安全计算相关的技术方案及其发展。
安全计算涉及多种技术方法,相比较而言可信硬件(Trusted Hardware)在性能和对通用计算平台支持上表现更优,其安全机制为安全硬件(Secure Hardware),保证数据在物理底层就能防止被攻击,具体如图所示。
另外各个芯片公司也不断将数据安全保护功能嵌入到芯片设计中,包括ARM、Intel、Nvidia等国际芯片巨头。
尽管如此,可信硬件设计依然面临各种挑战,如可信硬件到底多安全、在何种攻击下是安全的、用户会将何种数据(如比特币、金融数据、医疗数据等)用在可信硬件上等。为此,宋教授介绍了开源框架Keystone,这款框架为可信硬件设计提供了新的范式。Keystone框架的整体架构可见下图。
Do Neural Networks Remember Training Data?
针对安全计算,宋教授又提出一个非常有意思的问题“Do Neural Networks Remember Training Data? ”,即攻击者能否从学习好的模型中提取出训练数据相关信息。针对这个问题,宋教授又介绍了相关实验,实验显示当前的GPT等模型,居然可以记住相关的训练数据信息,见下图。
这就意味着训练的数据有可能从训练好的模型中可以再次被提取出来,也意味着数据有可能通过模型可以被泄漏。为此,宋教授等提出了用差分隐私以部分缓解该泄漏问题。
Better Incentives Models
关于如何建立更好的激励模型,宋教授指出关键是如何确定和分发数据的价值,具体思路涉及:
1)需要将机器学习作为一种联盟游戏,其中数据贡献者是联盟中的参与者,数据的有用性通过效用函数来表征;
2)引入Shapley值,该值定义了一种分配所有玩家联盟产生的利润的方式,系Lloyd Shapley 于 1953 年首次提出,也是唯一满足一组理想属性的分布。
宋教授首先分析了确定数据价值的难点,在于多源性、结果依赖性和累积性等。针对这些难点,宋教授及其团队提出如下框架去定义数据价值,如将学习看作一种联盟游戏、将结果建模成利润分配问题、以及通过引入Shapley值作为一种分配策略,这种分配策略很好地满足cumulative和equitable需求。另外针对如何加速Shapley值计算效率以提升落地效果,以及针对如何将Shapley值应用到联邦学习中,宋教授都做了详细的讲解。
最后宋教授还提出了一些开放性的问题,如数据权利到底是什么、谁拥有这些权利等。
讲者介绍
宋晓冬,加州大学伯克利分校电气工程与计算机科学系教授,研究方向为人工智能与深入学习,安全与隐私,曾获麦克阿瑟奖、古根海姆奖、美国国家科学基金会杰出青年教授奖、斯隆研究奖、《麻省理工科技评论》“35 岁以下科技创新 35 人”奖、ACM SIGSAC 杰出创新奖、安全和深度学习领域中顶级会议的最佳论文奖。宋晓冬教授是计算机协会会士、电子工程协会会士,是计算机安全领域引用最多的学者(获AMiner奖)。宋晓冬教授在加州大学伯克利分校取得博士学位,被 Inc.列入 100 位女性创始人,也被列入Wired25创新者 。
撰文 / 俞海宝
编辑排版 / 冼晓晴
校对责编 / 黄妍
精彩视频回顾及完整版PPT下载,请点击:
宋晓冬 | 打造负责任的数据经济