当前位置：首页 > news >正文

双重差分法（DID）：算法策略效果评估的利器

news 2026/2/8 9:39:09

文章目录

算法评估
DID原理
简单实例
Python实现

算法评估

作为一名算法出身的人，曾长期热衷于算法本身的设计和优化。至于算法的效果评估，通常使用公开数据集做测试，然后对比当前已公开的结果，便可得到结论。

但是在实际落地过程中，却遇到了问题：没有公开数据集；即便有，也依然有必要在实际场景下再做验证，毕竟公开数据集和实际场景往往都有很大区别。

理论上来说，新研发了一个算法后，需要和业务已经在使用的人工经验（被理解为一种特殊的策略）做对比；算法迭代后，前后两个版本的算法也需要做对比。

不失一般性，假设在某个区域内，评价指标为最大化 $J$ ，此前使用算法A，当前有了新算法B，该如何评估B相比A是否能更好地促进 $J$ 的提升呢？

理想情况下，是在该区域的两个平行时空中，一个使用算法A，另一个使用算法B，分别得到指标 $J_A$ 和 $J_B$ 。然后比较两个指标的优劣，如果 $J_B$ 指标更好，那么算法B可以被认为是更有利于指标 $J$ 的提升。

但在任意给定的时间点，该区域实际上只能处于一种状态，即只使用算法A或者只使用算法B，因此只能观察到 $J_A$ 或 $J_B$ 。

因此，需要寻找两个相同的区域，然后分别使用A算法和B算法，再基于得到的指标进行算法优劣的评估。当然，要找到两个相同的区域，在现实中是很困难的；但是如果区域不同，无论控制其多少个参数相同，都有可能让 $J$ 受到某些未观测参数的影响。

如果退而求其次，不要求完全相同，是否还有机会去科学地评估算法A和B呢？答案是有的，就是本文即将介绍的双重差分法（difference-in-differences，DID）。

DID原理

DID的原理如下图所示。选定两个区域1和2，以算法B的干预时刻为基准，将时间定义为干预前和干预后。在干预后，区域1保持不变，继续使用算法A，最终可以得到A增量；区域2使用算法B后，得到的B增量可以被拆解为两个部分：区域2的自然增量A’，以及算法B带来的纯增量B‘。A’可以理解为不使用算法B时区域2的增量。如果在干预前，两个区域针对指标 $J$ 的变化趋势保持一致，那么我们可以基于A和此前的变化趋势估计出A’，即做出反事实推断。由于区域2实际的增量B是已知的，因此算法B带来的纯增量为
$B^{'} = B - A^{'}$

此时，我们发现，不再刻意要求区域1和区域2完全相同，只要求两者的历史指标变化区域保持一致即可，这显著降低了区域选取的难度。

如果使用数学表达式，可以描述为：
$Yit=α+δDi+λTt+β(Di×Tt)+ϵitY_{it}=\alpha+\delta D_i+\lambda T_t+\beta(D_i \times T_t)+\epsilon_{it}$
其中， $Y_{it}$ 为 $J$ 变量； $α\alpha$ 为截距； $δ\delta$ 、 $λ\lambda$ 和 $β\beta$ 为系数值； $D_i$ 为算法B，干预前为0，干预后为1； $T_t$ 为时间，干预前为0，干预后为1； $Di×TtD_i \times T_t$ 为交叉项； $ϵit\epsilon_{it}$ 为随机项。

对上式取条件期望后，算法增量（上图中的B’）为 $β\beta$ ，计算过程如下表所示。

$E (Y ∣ D, T)$	$T = 0$	$T = 1$	$Δ\Delta$
$D = 0$	$α\alpha$	$α+λ\alpha+\lambda$	$λ\lambda$
$D = 1$	$α+δ\alpha+\delta$	$α+δ+λ+β\alpha+\delta+\lambda+\beta$	$λ+β\lambda+\beta$
$Δ\Delta$	$δ\delta$	$δ+β\delta+\beta$	$β\beta$

显然，如果 $β>0\beta>0$ ，则认为算法B对指标 $J$ 有正向促进作用；反之，则认为有负向抵制作用。

简单实例

那么，如何求解 $β\beta$ 值呢？

目前大部分DID的代码都是基于stata实现的。因此，本节主要参考半块土豆切丝的视频，给出一个简单实例的计算过程。

实例描述为：A和B为历史指标的变化保持一致的两个地区，在1994年，B区实行了一项新政策，目标是评估新政策对指标 $y$ 的影响。相关数据如下。

country	year	y
A	1990	1342787840
A	1991	-1899660544
A	1992	-11234363
A	1993	2645775360
A	1994	3008334848
A	1995	3229574144
A	1996	2756754176
A	1997	2771810560
A	1998	3397338880
A	1999	39770336
B	1990	1342787840
B	1991	-1518985728
B	1992	1912769920
B	1993	1345690240
B	1994	2793515008
B	1995	1323696384
B	1996	254524176
B	1997	3297033216
B	1998	3011820800
B	1999	3296283392

此处先直接给出stata代码如下：

// stata代码gen period = (year>=1994) & !missing(year) // 生成时间虚拟变量D，1994年前为0,反之为1
gen treat = (country>1) & !missing(country) // 生成区域的虚拟变量T，干预为1，反之为0
gen did = period * treat // 生成交叉项D·Tdiff y, t(treat) p(period)  // DID回归：diff方式

为了更好地理解上述代码，把基本公式再抄写一遍
$Yit=α+δDi+λTt+β(Di×Tt)+ϵitY_{it}=\alpha+\delta D_i+\lambda T_t+\beta(D_i \times T_t)+\epsilon_{it}$
对应到该实例： $D$ 是政策变量treat，B地区为1，A地区为0，上述第2行代码实现； $T$ 是时间变量period，1994-1999年为1，1990-1993年为0，第1行代码实现； $Di×TtD_i \times T_t$ 是交叉项did，第3行代码实现； $β\beta$ 的计算由第4行代码实现。

先看一下计算结果。

Number of observations in the DIFF-IN-DIFF: 20Before         After    Control: 4              6           10Treated: 4              6           108              12
--------------------------------------------------------Outcome var.   | y       | S. Err. |   |t|   |  P>|t|
----------------+---------+---------+---------+---------
Before          |         |         |         | Control      |  5.2e+08|         |         | Treated      |  7.7e+08|         |         | Diff (T-C)   |  2.5e+08|  1.0e+09| 0.24    | 0.811
After           |         |         |         | Control      |  2.5e+09|         |         | Treated      |  2.3e+09|         |         | Diff (T-C)   | -2.0e+08|  8.4e+08| 0.24    | 0.812|         |         |         | 
Diff-in-Diff    | -4.6e+08|  1.3e+09| 0.34    | 0.737
--------------------------------------------------------
R-square:    0.31
* Means and Standard Errors are estimated by linear regression
**Inference: *** p<0.01; ** p<0.05; * p<0.1

输出内容看起来挺复杂，我们主要关注DIFF-in-Diff行、y列和P>|t|列的数值，分别是-4.6e8和0.737。其中-4.6e8即为我们要计算的 $β\beta$ 值；0.737表征的是所得到 $β\beta$ 值的靠谱程度，一般命名为 $p$ 。该值如果小于0.05，表明 $β\beta$ 值是有参考价值的；反之，无论 $β\beta$ 值为多少，均认为无显著变化。所有情况罗列一遍：

	$p > 0.05$	$p < 0.05$
$β>0\beta>0$	无显著效果	显著正向效果
$β<0\beta<0$	无显著效果	显著负向效果

所以，在该实例中，可以得到结论：该新政策对指标y并没有显著效果。

Python实现

事实上，有了多组period、treat、did和y值之后，要计算 $β\beta$ ，本质就是一个最小二乘法的优化问题。只不过此处，还需要求解 $p$ 值。庆幸的是，该功能并不需要自己编写代码去实现，可以调用statsmodels工具包来求解。

以下为Python计算 $β\beta$ 值的代码：

import statsmodels.formula.api as smf
import pandas as pdif __name__ == '__main__':df = pd.read_excel('test_data_101_1.xlsx')// 生成时间虚拟变量D，1994年前为0,反之为1df['period'] = df['year'].apply(lambda x: 1 if x >= 1994 else 0)// 生成区域的虚拟变量T，干预为1，反之为0df['treat'] = df['country'].apply(lambda x: 1 if x == 'B' else 0)// 生成交叉项D·Tdf['did'] = df['period'] * df['treat']// 调用smf计算beta值df = df[['period', 'treat', 'did', 'y']]model = smf.ols(formula='y ~ period + treat + did', data=df).fit()print(model.summary())

运行以上代码，可以得到

 OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.313
Model:                            OLS   Adj. R-squared:                  0.184
Method:                 Least Squares   F-statistic:                     2.430
Date:                Sun, 05 Mar 2023   Prob (F-statistic):              0.103
Time:                        22:27:31   Log-Likelihood:                -448.21
No. Observations:                  20   AIC:                             904.4
Df Residuals:                      16   BIC:                             908.4
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
==============================================================================coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept   5.194e+08   7.31e+08      0.711      0.488   -1.03e+09    2.07e+09
period      2.015e+09   9.44e+08      2.135      0.049    1.42e+07    4.01e+09
treat       2.511e+08   1.03e+09      0.243      0.811   -1.94e+09    2.44e+09
did        -4.556e+08   1.33e+09     -0.341      0.737   -3.28e+09    2.37e+09
==============================================================================
Omnibus:                        2.990   Durbin-Watson:                   2.288
Prob(Omnibus):                  0.224   Jarque-Bera (JB):                2.423
Skew:                          -0.814   Prob(JB):                        0.298
Kurtosis:                       2.494   Cond. No.                         7.66
==============================================================================

主要看did行、coef列和P>|t|列的数值。显然，该结果和stata的计算结果是完全一致的。

双重差分法（DID）：算法策略效果评估的利器

文章目录

算法评估

DID原理

简单实例

Python实现

相关文章：

双重差分法（DID）：算法策略效果评估的利器

【pytorch】使用mixup技术扩充数据集进行训练

面向对象设计模式：创建型模式之单例模式

IsADirectoryError: [Errno 21] Is a directory: ‘.‘

判断三角面片与空间中球体是否相交

继承下的缺省参数值和访问说明符

Spring核心模块—— BeanFactoryPostProcessorBeanPostProcessor（后处理器）

产品新人如何培养产品思维？

「兔了个兔」CSS如此之美，看我如何实现可爱兔兔LOADING页面（万字详解附源码）

【Java】阻塞队列 BlcokingQueue 原理、与等待唤醒机制condition/await/singal的关系、多线程安全总结

【水下图像增强】Enhancing Underwater Imagery using Generative Adversarial Networks

Maven专题总结—详细版

华为OD机试真题Java实现【字符串加密】真题+解题思路+代码（20222023）

「Python 基础」函数与高阶函数

DIV内容滚动，文字符滚动标签marquee兼容稳定不卡

SpringBoot_第五章(Web和原理分析）

4-2 Linux进程和内存概念

【微信小程序】计算器案例

408 计算机基础复试笔记 —— 更新中

找出最大数-课后程序(Python程序开发案例教程-黑马程序员编著-第二章-课后作业)

盘古信息PCB行业解决方案：以全域场景重构，激活智造新未来

MySQL 隔离级别：脏读、幻读及不可重复读的原理与示例

条件运算符

Cloudflare 从 Nginx 到 Pingora：性能、效率与安全的全面升级

Rust 异步编程

JDK 17 新特性

k8s业务程序联调工具-KtConnect

多模态大语言模型arxiv论文略读（108）

回溯算法学习

JS手写代码篇----使用Promise封装AJAX请求