新闻中心

当前位置: 首页 > 新闻中心 > 学术简报 > 正文

AIR学术|清华助理教授王禹皓:利用多重数据组合帮助提升受隐式扰动的长期因果推断效果

来源:       发布时间:2023-03-01
主讲人 时间
地点 精彩回顾

2月23日, 由DISCOVER实验室主办的第十九期AIR DISCOVER青年科学家论坛如期举行。本活动有幸邀请到清华大学交叉信息学院助理教授王禹皓,为AIR的老师和同学们做了题为Long-term causal inference under persistent confounding via data combination(利用多重数据组合帮助提升受隐式扰动的长期因果推断效果)的精彩报告。本次活动由清华大学智能产业研究院(AIR)赵昊博士主持

undefined


讲者介绍


undefined


王禹皓,清华大学交叉信息学院助理教授。本科毕业于清华大学自动化系,随后进入麻省理工学院计算机和电子工程系攻读博士学位,并任职于LIDS实验室。王禹皓教授在入职清华大学之前任职于剑桥大学统计学实验室并担任博士后研究员。王禹皓教授目前的研究兴趣集中在:Causal inference (因果推断);Experimental design (实验设计);High-dimensional statistics (高维统计);Distribution-free test (免分布假设检验)等领域。王禹皓教授曾有多篇文章发表于The Annals of Statistics,Biometrika,Bernoulli等顶尖统计学期刊以及NeurIPS等顶尖机器学习与人工智能会议。王禹皓教授还曾入选福布斯中国2021年度30 Under 30榜单:科学和医疗健康榜单。

报告内容


本次报告中,王禹皓教授分享了他的研究:Long-term causal inference under persistent confounding via data combination并讲解了此框架在真实场景和数据下的应用逻辑。

undefined

王禹皓教授首先分享了因果推断的基本实验逻辑和评判标准,并介绍了现有两种实验方法的优劣势。

王禹皓教授指出基于观测数据的长期因果推断的优势在于可以低成本的获取大批量的实验数据,但是实验结果会受到隐式扰动的干扰。而基于对照实验的因果推断虽然可以屏蔽隐藏扰动的误差,但是存在道德风险。

王禹皓教授利用1940年代关于吸烟和癌症的研究来分析和讲解这个问题,在上世纪四十年代,科学家想要去研究吸烟和癌症的问题,但是发现吸烟和癌症都受到隐式扰动‘基因‘的影响,但是因为技术和道德限制,统计学家无法利用实验去排除基因的干扰,从而难以得出具体的关于吸烟和癌症的关系的结论。

5B1E4

所以在本文中王禹皓教授和合作者提出了一个全新的框架来解决此问题。

8123F

王禹皓教授首先介绍了在本文中使用的结果量化标准,在此架构中a代表了实验目标分属的AB组别,Y是输出的结果,通过一个评价效果函数可以将Y映射到长期影响因子(Long-term ATE)Т上,从而利用T来评判长期影响效果。

3FA1C

同时,王禹皓教授介绍了本框架的另一核心思想:Sequential Surrogates。此思想的目的在于利用时间上i.i.d的不同实验元素S1,S2,S3来构造出一个类马尔可夫链。从而使得每一次实验Si只由他的上一次实验Si-1来决定。

4CEBE

通过这种设计,我们可以利用S2元素来构建两个对照组,也即是S1和S3, 同时定义S1,S3 是两个受到隐藏扰动因子影响的独立元素。

但是因为S1和S3的互相独立性,我们无法直接对S1和S3进行量化比较,在这种情况下,王禹皓教授介绍了一个数学工具:bridge function来解决这个问题。

ABD68

依图所示,h0是一个基于S3,S2,A,X的函数,通过h0的映射,我们可以将两个独立且不可比的元素组合{S1,S2}和{S2,S3}进行量化的比较。

4B157

同时王禹皓教授还补充了此公式成立的充要条件:第一点是S1和S3需要包含充足的受隐藏函数因子U的影响的信息;第二点是在S1到S3的时序变化期间,外部环境不能有变化。

3EF59

在具体实现中,我们同时需要观测和实验数据来进行计算。我们可以通过观测数据来总结出一个bridge function,再将此方程插入到对照组实验数据中,计算得出长期影响因子T。

但是因为很多时候我们无法仅凭借观测数据就得出一个很容易求解的bridge function。在本文中,王禹皓教授还设计了一个新的技术:也即是 doubly robust estimation(双重鲁棒性估计)

71DBB

在双重鲁棒性假设的条件下,我们可以同时定义两个bridge function,第一个是传统的outcome bridge function(h),第二个是selection bridge function(q)。经过研究发现,在doubly robust estimation的架构下,只要两个方程中有一个方程可以正确的预估long-term ATE,那么我们就能够得到稳定且可靠的结果。

4AE16

Selection bridge function 具体的实现方法和实现的充要条件如上图所示。

最后,王禹皓教授分享了本框架在加州GAIN 工作数据集上面的具体应用效果,由下图可以看出本框架的计算准确率TDR远好于传统方法(Athey et al.(2020))的效果。

5E48A

在王禹皓教授结束了分享之后,赵昊博士与王禹皓教授探讨了此框架的技术细节并相互交流了此框架在机器学习和自动驾驶数据分析中的应用。

28A86

最后,在大家热烈的掌声中,王禹皓教授成功的完成了本次分享。
Reference:https://arxiv.org/abs/2202.07234


文稿撰写 / 娄浩哲

排版编辑 / 王影飘

校对责编 / 黄  



上一条:AIR学术|清华教授陈国强:嗜盐菌合成生物学和“下一代工业生物技术” 下一条:AIR学术|浙大特聘研究员廖依伊:面向自动驾驶仿真平台的混合现实图像生成

关闭

业务合作:airoffice@air.tsinghua.edu.cn
招生招聘:airhr@air.tsinghua.edu.cn
联系电话:(010)82151160  

办公地点:北京市海淀区清华科技园启迪科技大厦C座12层

官方微信

京ICP备15006448号  |   版权所有©清华大学智能产业研究院