2月23日, 由DISCOVER实验室主办的第十九期AIR DISCOVER青年科学家论坛如期举行。本活动有幸邀请到清华大学交叉信息学院助理教授王禹皓,为AIR的老师和同学们做了题为Long-term causal inference under persistent confounding via data combination(利用多重数据组合帮助提升受隐式扰动的长期因果推断效果)的精彩报告。本次活动由清华大学智能产业研究院(AIR)赵昊博士主持
王禹皓,清华大学交叉信息学院助理教授。本科毕业于清华大学自动化系,随后进入麻省理工学院计算机和电子工程系攻读博士学位,并任职于LIDS实验室。王禹皓教授在入职清华大学之前任职于剑桥大学统计学实验室并担任博士后研究员。王禹皓教授目前的研究兴趣集中在:Causal inference (因果推断);Experimental design (实验设计);High-dimensional statistics (高维统计);Distribution-free test (免分布假设检验)等领域。王禹皓教授曾有多篇文章发表于The Annals of Statistics,Biometrika,Bernoulli等顶尖统计学期刊以及NeurIPS等顶尖机器学习与人工智能会议。王禹皓教授还曾入选福布斯中国2021年度30 Under 30榜单:科学和医疗健康榜单。
本次报告中,王禹皓教授分享了他的研究:Long-term causal inference under persistent confounding via data combination并讲解了此框架在真实场景和数据下的应用逻辑。
王禹皓教授首先分享了因果推断的基本实验逻辑和评判标准,并介绍了现有两种实验方法的优劣势。
王禹皓教授指出基于观测数据的长期因果推断的优势在于可以低成本的获取大批量的实验数据,但是实验结果会受到隐式扰动的干扰。而基于对照实验的因果推断虽然可以屏蔽隐藏扰动的误差,但是存在道德风险。
王禹皓教授利用1940年代关于吸烟和癌症的研究来分析和讲解这个问题,在上世纪四十年代,科学家想要去研究吸烟和癌症的问题,但是发现吸烟和癌症都受到隐式扰动‘基因‘的影响,但是因为技术和道德限制,统计学家无法利用实验去排除基因的干扰,从而难以得出具体的关于吸烟和癌症的关系的结论。
所以在本文中王禹皓教授和合作者提出了一个全新的框架来解决此问题。
王禹皓教授首先介绍了在本文中使用的结果量化标准,在此架构中a代表了实验目标分属的AB组别,Y是输出的结果,通过一个评价效果函数可以将Y映射到长期影响因子(Long-term ATE)Т上,从而利用T来评判长期影响效果。
同时,王禹皓教授介绍了本框架的另一核心思想:Sequential Surrogates。此思想的目的在于利用时间上i.i.d的不同实验元素S1,S2,S3来构造出一个类马尔可夫链。从而使得每一次实验Si只由他的上一次实验Si-1来决定。
通过这种设计,我们可以利用S2元素来构建两个对照组,也即是S1和S3, 同时定义S1,S3 是两个受到隐藏扰动因子影响的独立元素。
但是因为S1和S3的互相独立性,我们无法直接对S1和S3进行量化比较,在这种情况下,王禹皓教授介绍了一个数学工具:bridge function来解决这个问题。
依图所示,h0是一个基于S3,S2,A,X的函数,通过h0的映射,我们可以将两个独立且不可比的元素组合{S1,S2}和{S2,S3}进行量化的比较。
同时王禹皓教授还补充了此公式成立的充要条件:第一点是S1和S3需要包含充足的受隐藏函数因子U的影响的信息;第二点是在S1到S3的时序变化期间,外部环境不能有变化。
在具体实现中,我们同时需要观测和实验数据来进行计算。我们可以通过观测数据来总结出一个bridge function,再将此方程插入到对照组实验数据中,计算得出长期影响因子T。
但是因为很多时候我们无法仅凭借观测数据就得出一个很容易求解的bridge function。在本文中,王禹皓教授还设计了一个新的技术:也即是 doubly robust estimation(双重鲁棒性估计)
在双重鲁棒性假设的条件下,我们可以同时定义两个bridge function,第一个是传统的outcome bridge function(h),第二个是selection bridge function(q)。经过研究发现,在doubly robust estimation的架构下,只要两个方程中有一个方程可以正确的预估long-term ATE,那么我们就能够得到稳定且可靠的结果。
Selection bridge function 具体的实现方法和实现的充要条件如上图所示。
最后,王禹皓教授分享了本框架在加州GAIN 工作数据集上面的具体应用效果,由下图可以看出本框架的计算准确率TDR远好于传统方法(Athey et al.(2020))的效果。
在王禹皓教授结束了分享之后,赵昊博士与王禹皓教授探讨了此框架的技术细节并相互交流了此框架在机器学习和自动驾驶数据分析中的应用。
最后,在大家热烈的掌声中,王禹皓教授成功的完成了本次分享。
文稿撰写 / 娄浩哲
排版编辑 / 王影飘
校对责编 / 黄 妍