AIR学术｜清华助理教授王禹皓：利用多重数据组合帮助提升受隐式扰动的长期因果推断效果

来源：发布时间：2023-03-01

2月23日，由DISCOVER实验室主办的第十九期AIR DISCOVER青年科学家论坛如期举行。本活动有幸邀请到清华大学交叉信息学院助理教授王禹皓，为AIR的老师和同学们做了题为Long-term causal inference under persistent confounding via data combination（利用多重数据组合帮助提升受隐式扰动的长期因果推断效果）的精彩报告。本次活动由清华大学智能产业研究院(AIR)赵昊博士主持

undefined

讲者介绍

undefined

王禹皓，清华大学交叉信息学院助理教授。本科毕业于清华大学自动化系，随后进入麻省理工学院计算机和电子工程系攻读博士学位，并任职于LIDS实验室。王禹皓教授在入职清华大学之前任职于剑桥大学统计学实验室并担任博士后研究员。王禹皓教授目前的研究兴趣集中在：Causal inference (因果推断)；Experimental design (实验设计)；High-dimensional statistics (高维统计)；Distribution-free test (免分布假设检验)等领域。王禹皓教授曾有多篇文章发表于The Annals of Statistics，Biometrika，Bernoulli等顶尖统计学期刊以及NeurIPS等顶尖机器学习与人工智能会议。王禹皓教授还曾入选福布斯中国2021年度30 Under 30榜单：科学和医疗健康榜单。

报告内容

本次报告中，王禹皓教授分享了他的研究：Long-term causal inference under persistent confounding via data combination并讲解了此框架在真实场景和数据下的应用逻辑。

undefined

王禹皓教授首先分享了因果推断的基本实验逻辑和评判标准，并介绍了现有两种实验方法的优劣势。

王禹皓教授指出基于观测数据的长期因果推断的优势在于可以低成本的获取大批量的实验数据，但是实验结果会受到隐式扰动的干扰。而基于对照实验的因果推断虽然可以屏蔽隐藏扰动的误差，但是存在道德风险。

王禹皓教授利用1940年代关于吸烟和癌症的研究来分析和讲解这个问题，在上世纪四十年代，科学家想要去研究吸烟和癌症的问题，但是发现吸烟和癌症都受到隐式扰动‘基因‘的影响，但是因为技术和道德限制，统计学家无法利用实验去排除基因的干扰，从而难以得出具体的关于吸烟和癌症的关系的结论。

5B1E4

所以在本文中王禹皓教授和合作者提出了一个全新的框架来解决此问题。

8123F

王禹皓教授首先介绍了在本文中使用的结果量化标准，在此架构中a代表了实验目标分属的AB组别，Y是输出的结果，通过一个评价效果函数可以将Y映射到长期影响因子（Long-term ATE）Т上，从而利用T来评判长期影响效果。

3FA1C

同时，王禹皓教授介绍了本框架的另一核心思想：Sequential Surrogates。此思想的目的在于利用时间上i.i.d的不同实验元素S1,S2,S3来构造出一个类马尔可夫链。从而使得每一次实验Si只由他的上一次实验Si-1来决定。

4CEBE

通过这种设计，我们可以利用S2元素来构建两个对照组，也即是S1和S3，同时定义S1,S3 是两个受到隐藏扰动因子影响的独立元素。

但是因为S1和S3的互相独立性，我们无法直接对S1和S3进行量化比较，在这种情况下，王禹皓教授介绍了一个数学工具：bridge function来解决这个问题。

ABD68

依图所示，h0是一个基于S3，S2，A，X的函数，通过h0的映射，我们可以将两个独立且不可比的元素组合{S1,S2}和{S2，S3}进行量化的比较。

4B157

同时王禹皓教授还补充了此公式成立的充要条件：第一点是S1和S3需要包含充足的受隐藏函数因子U的影响的信息；第二点是在S1到S3的时序变化期间，外部环境不能有变化。

3EF59

在具体实现中，我们同时需要观测和实验数据来进行计算。我们可以通过观测数据来总结出一个bridge function，再将此方程插入到对照组实验数据中，计算得出长期影响因子T。

但是因为很多时候我们无法仅凭借观测数据就得出一个很容易求解的bridge function。在本文中，王禹皓教授还设计了一个新的技术：也即是 doubly robust estimation（双重鲁棒性估计）

71DBB

在双重鲁棒性假设的条件下，我们可以同时定义两个bridge function，第一个是传统的outcome bridge function(h)，第二个是selection bridge function(q)。经过研究发现，在doubly robust estimation的架构下，只要两个方程中有一个方程可以正确的预估long-term ATE，那么我们就能够得到稳定且可靠的结果。

4AE16

Selection bridge function 具体的实现方法和实现的充要条件如上图所示。

最后，王禹皓教授分享了本框架在加州GAIN 工作数据集上面的具体应用效果，由下图可以看出本框架的计算准确率TDR远好于传统方法（Athey et al.(2020)）的效果。

5E48A

在王禹皓教授结束了分享之后，赵昊博士与王禹皓教授探讨了此框架的技术细节并相互交流了此框架在机器学习和自动驾驶数据分析中的应用。

28A86

最后，在大家热烈的掌声中，王禹皓教授成功的完成了本次分享。

Reference：https://arxiv.org/abs/2202.07234

文稿撰写 / 娄浩哲

排版编辑 / 王影飘

校对责编 / 黄妍

相关新闻

AIR学术｜字节跳动李航：推进人工智能新前沿

3月5日下午，第42期AIR学术沙龙如期举行。本期活动荣幸邀请到了字节跳动李航博士，为我们作题为《推进人工智能新前沿》的报告。本次活动由中国工程院院士、清华大学智能产业研究院（AIR）院长张亚勤主持。讲者简介Hang Li is the Head of Research at ByteDance Technology. He is an ACM Fellow, ACL Fellow, and IEEE Fellow. He graduated from Kyoto University and received his Ph.D. from the University of Tokyo. Prio...

2025/03/19

AIR学术｜西湖大学于开丞：浅谈自主智能——Autolab 的视角

11月28日下午，由DISCOVER实验室主办的第三十八期AIR青年科学家论坛如期举行。本期活动荣幸第邀请到了西湖大学工学院助理教授于开丞，为AIR的老师和同学们做了题为Large Visual-Centric Models in Society Autolab Perspective的精彩报告，本次活动由清华大学智能产业研究院（AIR）助理教授龚江涛主持。讲者介绍于开丞博士，西湖大学工学院博士生导师、助理教授，人工智能企业KMina联合创始人兼首席科学家。于开丞先后于2016年...

2024/12/04

AIR学术｜南京大学姚遥：Creating a Realistic 3D World

11月28日晚，由DISCOVER实验室主办的第三十七期AIR青年科学家论坛如期举行。本次活动有幸邀请到南京大学智能科学与技术学院的姚遥副教授，为AIR的老师和同学们做了题为Creating a Realistic 3D World的精彩报告。嘉宾介绍姚遥副教授是2022年国家级人才计划青年项目（海外）入选者。曾任苹果公司高级研究员，Altizure创始团队核心成员（被苹果收购）。2015年于南京大学获学士学位，2019年于香港科技大学获博士学位。主要研究方向...

2024/12/04

主讲人		时间
地点		精彩回顾

关于AIR

新闻中心

AIR团队

科学研究

产业交流

人才招聘

院级合作单位

新闻中心

学院新闻

大师对话

学术简报

媒体报道

AIR学术｜清华助理教授王禹皓：利用多重数据组合帮助提升受隐式扰动的长期因果推断效果

相关新闻

AIR学术｜字节跳动李航：推进人工智能新前沿

AIR学术｜西湖大学于开丞：浅谈自主智能——Autolab 的视角

AIR学术｜南京大学姚遥：Creating a Realistic 3D World

最新动态

官方微信