查看原文
其他

rddsga—使用逆倾向得分加权的回归不连续设计分析

rddsga—使用逆倾向得分加权的回归不连续设计分析


rddsga允许在RDD设置中基于逆向倾向得分权重(IPSW)进行二进制子组分析。在给定一组协变量的情况下,每个子组中的观察结果通过它们属于该子组的条件概率的逆加权。分析重加权样本的差异处理效果有助于从其他可观察维度中分离出因兴趣亚组特征而产生的差异。

rddsga基于indepvars中的协变量向量计算IPSW,这些协变量也被用作模型中的控制变量。可以通过balance(varlist)指定单独的一组变量来计算IPSW。可以使用pweight (newvar)生成具有IPSW的新变量。为了评估每个协变量均数差异的统计显著性,rddsga使用均数相等的t检验,并报告得到的p值以及(加权的)标准化均数差异。联合显著性采用f检验进行评估。结果的平衡表以矩阵的形式存储(参见下面的存储结果),也可以使用disbalance来显示。

关于rddsga实现的方法的更多细节可以在项目的存储库中找到。在Gerardino, Litschig, Olken和Pomeranz(2017)中可以找到一个应用。

rddsga depvar assignvar [indepvars] [if] [in] , options
  • depvar是结果变量

  • assignvar是有已知截止的分配变量

  • indepvars是一组控制变量。

  • sgroup (varname)指定分组指标变量。此变量必须为虚拟变量(值为0或1)。必须指定此选项。

  • Treatment (varname)为实际治疗状态的指示变量。如果没有指定,则假定是一个精确断点RDD。

  • Cutoff (real)指定assignvar中的断点值;默认值是0(假设规范化的assignvar)。

  • bwidth (real)指定在断点周围对称的带宽。必须指定此选项。

  • balance (varlist)指定进入倾向得分估计的变量。如果未指定,则使用indepvars中的变量。如果想要平衡一组不同的协变量,而不是模型中用作控制的协变量,那么这个选项是有用的。如果indepvars为空,则必须指定此选项。

  • probit表示在拟合probit模型后计算倾向得分;默认是logit。

  • Nocomsup表示样品不应局限于共同支撑的区域。

  • firststage 表示用OLS估计断点回归。

  • reducedform使用OLS估计减少的形式效果。

  • ivregression用工具变量回归估计治疗效果。如果指定了,则要求在treatment(varname)中也指定一个处理变量。


案例应用

  Setup (click here for details on getting ancillary files)
        . use rddsga_synth

    Assess covariate imbalance using one covariate
        . rddsga Y X, balance(W1) sgroup(G) bwidth(10) dibal

    Silently store computed IPSW based on X1 and X2
        . rddsga Y X, balance(W1 W2) sgroup(G) bwidth(10) ipsweight(ipsw)

    Fit reduced form model
        . rddsga Y X, balance(W1 W2) sgroup(G) bwidth(10) reduced

    Estimate treatment effect in fuzzy RDD using instrumental variables regression and 200 bootstrap replications, comparing output without and with IPSW
        . rddsga Y X W1 W2, sgroup(G) bwidth(6) ivreg bsreps(100) treatment(D) noipsw
        . rddsga Y X W1 W2, sgroup(G) bwidth(6) ivreg bsreps(100) treatment(D)

1、导入数据

. use "rddsga_synth.dta", clear

. ed

. desc

Contains data from rddsga_synth.dta
  obs:        10,000                          
 vars:             6                          14 Sep 2017 11:28
 size:       240,000                          
--------------------------------------------------------------------------------------
              storage   display    value
variable name   type    format     label      variable label
--------------------------------------------------------------------------------------
Y               float   %9.0g                 Outcome
X               float   %9.0g                 Running variable
D               float   %9.0g                 Dreatment
G               float   %9.0g                 Subgroup
W1              float   %9.0g                 Covariate 1
W2              float   %9.0g                 Covariate 2
--------------------------------------------------------------------------------------
Sorted by: 


2、进行描述统计分析

. summ

    Variable |        Obs        Mean    Std. Dev.       Min        Max
-------------+---------------------------------------------------------
           Y |     10,000    .4167268    1.782474  -6.109462   8.632755
           X |     10,000     14.5016    24.98074       -100        100
           D |     10,000       .7217    .4481843          0          1
           G |     10,000        .499     .500024          0          1
          W1 |     10,000     .367162    .9535774  -3.993898    3.60193
-------------+---------------------------------------------------------
          W2 |     10,000     .365721    .9578171  -3.977856   3.723975


变量含义为:其中,Y表示因变量;X表示解释变量;D表示处理变量;G表示分组变量;W1和W2表示协变量/控制变量

3、断点回归分析设计

首先我们进行断点图形分析,查看解释变量与结果变量Y之间的散点图

接下来我们使用命令rdplot进行查看

.  rdplot Y X,c(0) p(1)

RD Plot with evenly spaced mimicking variance number of bins using spacings estimators
> .

         Cutoff c = 0 | Left of c  Right of c        Number of obs  =      10000
----------------------+----------------------        Kernel         =    Uniform
        Number of obs |      2775        7225
   Eff. Number of obs |      2775        7225
  Order poly. fit (p) |         1           1
     BW poly. fit (h) |   100.000     100.000
 Number of bins scale |     1.000       1.000

Outcome: Y. Running variable: X.
---------------------------------------------
                      | Left of c  Right of c
----------------------+----------------------
        Bins selected |       164         121
   Average bin length |     0.610       0.826
    Median bin length |     0.610       0.826
----------------------+----------------------
    IMSE-optimal bins |         6           7
  Mimicking Var. bins |       164         121
----------------------+----------------------
Rel. to IMSE-optimal: | 
        Implied scale |    27.333      17.286
    WIMSE var. weight |     0.000       0.000
    WIMSE bias weight |     1.000       1.000
---------------------------------------------





可以发现不存在明显的断点,因此我们使用逆倾向得分加权断点回归分析

4、逆倾向得分加权断点回归分析

4.1 不加入协变量进行分析


rddsga Y X, balance(W1 W2) sgroup(G) bwidth(10) reduced

. rddsga Y X, balance(W1 W2) sgroup(G) bwidth(10) reduced

Bootstrap replications (50)
----+--- 1 ---+--- 2 ---+--- 3 ---+--- 4 ---+--- 5 
..................................................    50


------------------------------------------------------------------------------
           Y |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval] (P)
-------------+----------------------------------------------------------------
Subgroup     |
           0 |  -.2170053   .2377593    -0.91   0.361    -.6832169    .2492062
           1 |   .7522075   .2686415     2.80   0.005     .2254403    1.278975
-------------+----------------------------------------------------------------
Difference   |   .9692128   .4001881     2.42   0.015     .0463774    1.892048
------------------------------------------------------------------------------

上述结果表面处理效应为0.9692128,并且是显著的

加入协变量来进行断点分析,比较无IPSW和有IPSW的效果结果为:

  rddsga Y X W1 W2, sgroup(G) bwidth(6) ivreg bsreps(100) treatment(D) noipsw

Bootstrap replications (100)
----+--- 1 ---+--- 2 ---+--- 3 ---+--- 4 ---+--- 5 
..................................................    50
..................................................   100


------------------------------------------------------------------------------
           Y |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval] (P)
-------------+----------------------------------------------------------------
Subgroup     |
           0 |   .3267913   .2170299     1.51   0.160    -.1508882    .8044709
           1 |   .3162328   .3168818     1.00   0.340    -.3812195    1.013685
-------------+----------------------------------------------------------------
Difference   |  -.0105586    .315844    -0.03   0.973    -.6300733    .6089561
------------------------------------------------------------------------------


.         . rddsga Y X W1 W2, sgroup(G) bwidth(6) ivreg bsreps(100) treatment(D)

Bootstrap replications (100)
----+--- 1 ---+--- 2 ---+--- 3 ---+--- 4 ---+--- 5 
..................................................    50
..................................................   100


------------------------------------------------------------------------------
           Y |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval] (P)
-------------+----------------------------------------------------------------
Subgroup     |
           0 |   .0401956   .3342838     0.12   0.906     -.695558    .7759492
           1 |   1.336952   .4279897     3.12   0.010     .3949536    2.278951
-------------+----------------------------------------------------------------
Difference   |   1.296757   .5235606     2.48   0.013     .2698043    2.323709
------------------------------------------------------------------------------





不加入IPSW,相对于控制组而言,实验组的处理效应为-.0105586 ,并且不显著。加入IPSW,相对于控制组而言,处理效应为1.296757  ,在1%水平下显著


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存