7月15日上午,清华大学智能产业研究院(AIR)成功举办以“数据安全与可信AI”为主题的学术工作坊。本次活动由聂再清教授主持,邀请到杨强、宋晓冬、朱军、邰骋、刘洋五位教授带来精彩报告。
杨强:用户隐私,数据孤岛和联邦学习
宋晓冬:打造负责任的数据经济
朱军:理解与评测对抗鲁棒性
邰骋:高性能、保护隐私的生物识别技术
刘洋:联邦学习的技术挑战和应用展望
AIR学术工作坊是AIR定期举办的中大型学术交流研讨活动,旨在提供一个学术交流、思想碰撞的平台,实现信息共享。
生物识别技术的落地应用场景广泛,不同任务面对的挑战是不相同的,那么如何在保证生物识别的性能同时保护用户的隐私?这是一个亟待解决的问题。
——邰骋
生物识别技术中的两个最基本任务是识别任务和验证任务,验证任务所进行的是1:1的比对,而识别任务则进行的是1:N的比对。识别任务类似于检索任务,但与检索任务不同的是生物识别往往要求精确匹配而不是模糊匹配。从难度来讲,识别任务具有更大的挑战,两种任务尽管具有相近的漏检率,但识别任务的错检率是验证任务的N倍。
例如,在传统的指纹识别流程中,共有注册和验证两个阶段,首先用户需要先在注册阶段通过传感器(按压,滚动,滑动,非接触式)输入原始指纹,再经过特征工程提取原始指纹的特征,最后将特征存入数据库。在验证阶段通过传感器来捕获需要验证的指纹,在数据库中检索的同时进行特征的比对,通过相似度的计算和阀值的设定来得出比对结果。
那么,在传统的指纹识别流程中如何定义指纹的特征?指纹的特征可以分为宏观特征(global feature)和细节特征(local feature)。相较于细节特征,宏观特征信息量比较有限。我们通常可以根据细节特征的组合来完成识别任务。特征的提取方式主要有Ridge Extraction和Minutiae Extraction两种,其中Ridge Extraction会将增强后的数据进行二值处理。Minutiae Extraction则更容易获取结构图(skeleton images)的特征。最后通过特征点的匹配情况对识别结果进行打分。然而一个比较大的挑战是在公安业务中,传统做法很难对现场条件的情况进行处理,通常需要进行特征标注,无法实现自动化,这个流程带来了较大的时间开销。
总结下来,传统的指纹识别有以下四点问题:1)不能自动处理潜在/低质量指纹2)对于大型数据库准确率有限3)基于ML的方法需要大量的训练数据4)性能问题(时间开销)。目前的特征提取技术基于上述缺点提出解决方案,核心思想是尝试使用多尺度特征。这样我们并不需要很多的标注数据进行训练,同时随着系统的使用,系统也会根据样本外数据进行自学习。
针对于性能上的问题,主要使用异构的系统架构,该系统首先使用高速的GPU进行过滤,并使用CPU来精确匹配,最后对匹配结果进行重排序来获取我们需要的输出。
在演讲的第二部分邰骋教授从隐私保护的角度来阐述生物识别技术所面临的的挑战。生物识别技术在许多应用中带来了便利,然而生物识别技术隐私问题也日益凸显,同时与密码相比,生物识别绑定于每个人,不会改变。生物识别技术的隐私问题不仅包括数据库泄露所带来的隐私泄露,也会面临着多种外部攻击:模仿攻击,设备替换,重放攻击,暴力破解等。
传统的加密手段秉持一个原则:明文密码永远不应该被存储。因此我们往往存储的是经过hash运算后的密码,然而传统的加密手段是否适用于生物识别呢?答案是否定的。同一个人原始数据不同(形态)得到的hash值不同。我们理想中的保护隐私的生物识别技术应该具有1)不可逆2)可撤销3)没关联三个特征。其中不可逆是指我们无法根据特征还原用户的原始信息。可撤销是指我们可以随时更换我们的模板。没关联则是指在应用之间,如果一个应用的数据泄露,那么并不会影响其他应用的使用。目前的人脸识别技术是否满足以上几个条件呢?从不可逆的角度,相关研究者做过实验,可以使用GAN来恢复原始数据的大部分信息。
针对于上述问题,目前的解决方式有三种BioHashing,Fuzzy Commitment,Fuzzy Vault。以BioHashing为例,其核心想法是在生物信息以外增加一个用户的密钥来生成新的hash值。他的优点很明显,通过two-factor身份验证提高了准确性。缺点也同样明显:需要记住私钥,牺牲方便性。如果密钥一旦暴露,则生物识别数据将变得不安全。
未来领域的研究主要集中于两个方面:1)生物识别系统FAR(false acceptancerate)和FRR(falserejection rate)的权衡。2)性能与隐私的权衡。
演讲的最后,邰骋教授回答了提问者关于重叠指纹特征干扰,与不同尺度特征匹配的相关问题。并指出由于各种技术困难,生物隐私保护尚未被广泛采用,但潜力巨大。
讲者介绍
邰骋,北京大数据研究院研究员,墨奇科技联合创始人,普林斯顿大学博士。邰骋博士的研究方向包括构建非结构化数据的算法和系统,研发了无标注的高精度图像搜索引擎,以无监督的方式实现了十亿级别图像的秒级高精度搜索,并在生物识别领域得到成功的应用。
撰文 / 徐元健
编辑排版 / 刘聆羽
校对责编 / 黄妍
精彩视频回顾及完整版PPT下载,请点击:
邰骋丨高性能、保护隐私的生物识别技术