XT4. 高维固定效应模型
作者:胡雨霄 (伦敦政治经济学院)
实证分析中,我们经常需要控制各个维度的个体效应,以便尽可能减轻 遗漏变量 导致的偏误。在最常用的二维面板数据中,我们通常会采用 xtreg y x i.year, fe
的形式来控制 公司个体效应 和 年度效应。然而,在有些情况下,我们需要对三维甚至更高维度的数据进行分析 (例如,公司-年度-高管,省份-城市-行业-年度),此时,一方面要考虑估计的可行性,另一方面还需兼顾计算速度问题。
本文介绍的 reghdfe
命令可以很好地达成上述目的。reghdfe
主要用于实现多维固定效应线性回归。该命令类似于 areg
及 xtreg,fe
,但允许引入多维固定效应。此外,该命令在运行速度方面远远优于 areg
及 xtreg
, 因此倍受研究者青睐。
本文对该命令的介绍基于 A Feasible Estimator for Linear Models with Multi-Way Fixed Effects (Correia, 2016)。
1. 命令的安装
我们可以使用 ssc install
命令安装最新版本的 reghdfe
相关程序文件。需要特别说明的是,该命令依赖于最新版的 gtools
命令,因此,需要同时安装后者,否则执行 reghdfe
时可能会提示 错误信息。
ssc install gtools, replace
ssc install reghdfe, replace // 安装最新版命令
可以使用如下命令查看你使用的版本是否为最新版本 (如下是写作本文是的版本信息):
. which ftools
D:/stata/plus\f\ftools.adoversion 2.49.1 08aug2023
*!
. which reghdfer\reghdfe.ado
D:/stata/plus\version 6.12.3 08aug2023 *!
2. 命令的语法
该命令的具体语法如下:
if] [in] [weight],
reghdfe depvar [indepvars] [ absorb(absvars) [options]
其中, - depvar
: 因变量 - indepvars
: 解释变量 - absorb(absvars)
:引入固定效应 - 可以包含多维固定效应,即 absorb (var1,var2,var3,...)
。若想保存对某变量的固定效应,则运行命令absorb (var1,var2,FE3=var3)
, 变量 FE3 将保存对 var3 的固定效应估计结果。 - 可以包含不同效应间的交互影响,即absorb(var1#var2)
。
值得注意的是,reghdfe
允许定类变量 (categorical variable) 与连续性变量 (continuous variable) 进行交互,即 absorb(i.var1#c.var2)
。实证中很少引入这样的交互项。但如果对该问题感兴趣,可参考 Duflo (2014)。
3. Stata 实操
这一部分用两个实证的例子介绍如何运用 reghdfe
。
3.1 估计双重差分的固定效应模型(DID)
该命令可用于估计双重差分的固定效应模型(DID)。在 「连享会推文专辑:倍分法 (DID)」 系列推文中,列举了用于估计 DID 模型的三个命令:reg
, areg
, 以及 xtreg
。reghdfe
也可实现同样的估计结果,而且运行速度优于其他命令。
使用的数据请参考之前推文 Stata: 双重差分的固定效应模型。该数据模拟的情况为,政策冲击发生在 \(t = 14\) 时,对照组为 \(i = 1\),控制组为 $ i = 0$。模型为 $ y = 0.3 + 0.19 i + 1.67 d + 0.56 i d + e $。
set obs 400
gen firm=_n //生成企业数量
expand 24bysort firm: gen t=_n //时间跨度设定为24个季度(6年)
gen d=(t>=14)
label var d "=1 if post-treatment" //设定事件冲击发生在第14期
gen r=rnormal()
qui sum r, d
bysort firm: gen i=(r>=r(p50)) if _n==1
bysort firm: replace i=i[_n-1] if i==. & _n!=1 //设定处理组和对照组
drop r
label var i "=1 if treated group, =0 if untreated group"
gen e = rnormal() //设定随机变量
label var e "normal random variable"
gen y = 0.3 + 0.19*i + 1.67*d + 0.56*i*d + e //模型设置
首先,回顾双重差分模型的设定形式,
\[ y_{it} = \alpha + \beta (G_i \times D_i) + \mu_i + \lambda_t + \epsilon_{it} \]
其中,\(G_i\) 为分组虚拟变量(处理组=1,控制组=0);\(D_i\) 为分期虚拟变量(政策实施后=1,政策实施前=0);交互项 $G_i D_i $ 表示处理组在政策实施后的效应。\(\mu_i\) 与 \(\lambda_t\) 分别为个体固定效应和时间固定效应。
具体用于估计政策冲击对公司的影响的命令如下。
gen did = i*d ///生成交互项
y did, absorb(firm t) vce(cluster firm) reghdfe
变量 did 即为交互项,其系数为双重差分模型重点考察的处理效应。命令 absorb(firm t)
同时引入了公司固定效应以及时间固定效应。结果如下。
y did, absorb(firm t) vce(cluster firm)
reghdfe in 2 iterations)
(MWFE estimator converged
of obs = 9,600
HDFE Linear regression Number F( 1, 399) = 175.80
Absorbing 2 HDFE groups robust to heteroskedasticity Prob > F = 0.0000
Statistics
R-squared = 0.5102
Adj R-squared = 0.4875
Within R-sq. = 0.0198of clusters (firm) = 400 Root MSE = 1.0043
Number
for 400 clusters in firm)
(Std. Err. adjusted
-----------------------------------------------------------------------
| Robusty | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------+----------------------------------------------------------------
did | .5656247 .0426601 13.26 0.000 .4817581 .6494914_cons | 1.143579 .0084565 135.23 0.000 1.126954 1.160204
-----------------------------------------------------------------------
of freedom:
Absorbed degrees
-----------------------------------------------------+
Absorbed FE | Categories - Redundant = Num. Coefs |
-------------+---------------------------------------|
firm | 400 400 0 *|
t | 24 0 24 |
-----------------------------------------------------+cluster; treated as redundant for DoF computation * = FE nested within
3.2 估计多维固定效应的线性模型(复制一篇 AER 论文)
这一小节将介绍如何运用 reghdfe
估计多维固定效应的线性模型。American Economic Review一篇文章,The Costs of Patronage: Evidence from the British Empire (Xu, 2018), 提供的可供复制的代码中出现了大量 reghdfe
命令。本小节介绍该作者如何用 reghdfe
命令输出其文章Table 2第六列的结果。
作者在这篇文章中想要探究 任命制 (patronage) 对英国 政治体系 的影响。具体于 Table2,作者意图研究社会联系(social connections) 是否会影响政府官员的工资水平。Table 2中,第六列所估计的回归为:
\[log w_{ist} = \beta \times c_{it } + \theta_i + \omega_i + x_{it}'\gamma + \tau_t + \epsilon_{ist}\]
其中: - \(logw_{ist}\)为政府官员 \(i\) 于时间 \(t\) 在 \(j\) 州执政时的对数工资水平。Stata 命令中,该变量名为 log_salary_governor_gbp - \(c_{it}\) 为虚拟变量(Dummy Variable),当政府官员与其上任官员存在社会联系时,该变量取1。如若不然,则取0。社会联系包括:共同祖先,贵族身份以及教育背景。Stata 命令中,该变量名为 connected - \(\theta_i\) 为政府官员固定效应。该部分的设置为了解决政府官员的异质性 (heterogeneity) 问题。例如,具有较强能力的政府官员更有可能建立更多的社会关系。Stata 命令中, aid 为不同官员的 unique ID 变量。 - \(\omega_i\) 为政府官员执政时长固定效应。设置该部分是因为,执政时间的长短可能也会对社会关系产生影响。Stata 命令中, duration 为官员执政时长变量。 - \(x_{it}'\) 为控制变量。作者选用了执政者在历史上执政过的州的数目。Stata 命令中,该变量名为 no_colonies 。 - \(\gamma_t\) 为年份固定效应。该部分的设置是为了吸收执政者们在不同时期受到的共同时间冲击。Stata 命令中, year 为年份变量。 - \(\epsilon_{ist}\) 为残差。作者使用了聚类标准误的方法。
该回归的原假设为,\(H_0\): 社会联系 (connected) 与政府官员的工资水平 (log_salary_governor_gbp) 无关。若 connected 的系数 \(\beta\) 不显著,则不拒绝原假设。若 \(\beta\) 显著,则拒绝原假设,并可以判定社会联系对政府官员的工资水平显著相关。
用 Stata 实现该回归的命令如下。
///
reghdfe log_salary_governor_gbp no_colonies connected, year duration) ///
absorb(aid vce(cluster bilateral)
其中,absorb(aid year duration)
同时引入了官员固定效应、时间固定效应以及执政时长固定效应。
命令运行后的结果如下所示。数据请于 AER 官网 「下载」。
quietly use "analysis.dta", replace
///
reghdfe log_salary_governor_gbp no_colonies connected, year duration) vce(cluster bilateral)
absorb(aid in 26 iterations)
(MWFE estimator converged
of obs = 3,510
HDFE Linear regression Number F( 2, 1517) = 25.45
Absorbing 3 HDFE groups robust to heteroskedasticity Prob > F = 0.0000
Statistics
R-squared = 0.9255
Adj R-squared = 0.9109
Within R-sq. = 0.0978of clusters (bilateral) = 1,518 Root MSE = 0.2374
Number
for 1,518 clusters in bilateral)
(Std. Err. adjusted
------------------------------------------------------------------------
| Robust p | Coef. Std. Err. t P>|t| [95% Conf. Interval]
log_salary~
-------------+----------------------------------------------------------
no_colonies | .2234767 .0347473 6.43 0.000 .1553189 .2916346
connected | .0972969 .0355508 2.74 0.006 .0275628 .1670309_cons | 7.485619 .065766 113.82 0.000 7.356617 7.614621
------------------------------------------------------------------------
of freedom:
Absorbed degrees
-----------------------------------------------------+
Absorbed FE | Categories - Redundant = Num. Coefs |
-------------+---------------------------------------|
aid | 456 0 456 |year | 110 1 109 |
duration | 7 1 6 ?|
-----------------------------------------------------+of redundant parameters may be higher ? = number
上述结果表明,变量 connected 的系数为 0.097, 标准误为 0.036。这说明该变量在 1% 的水平上显著大于 0 。其经济学含义为,与上一任官员存在社会联系的官员,相较于无社会联系的官员,工资水平要高出 9.7%。也就是说,官员的工资水平和其社会关系显著相关。
4. 结语
这篇推文主要介绍了如何在实证中运用 reghdfe
。具体而言,本推文列举了两个例子。其一,为运用该命令对 DID 模型进行估计。其二,为运用该命令进行多维固定效应线性模型的估计。
若想对该命令有更多的了解,可参阅如下推文: - 秦利宾, 2022, Stata:关于reghdfe命令常见问题解答, 连享会 No.852. - 游万海, 连玉君, 2020, Stata: 面板数据模型一文读懂, 连享会 No.122.
5. 参考文献
- Correia, S. (2016). Linear Models with High-Dimensional Fixed Effects: An Efficient and Feasible Estimator, Working Paper. [PDF]
- Correia, S., Guimarães, P., & Zylkin, T. (2020). Fast Poisson estimation with high-dimensional fixed effects. The Stata Journal, 20(1), 95–115. Link, PDF, Google.
- Duflo, E. (2004). The medium run effects of educational expansion: evidence from a large school construction program in Indonesia. Journal of Development Economics, 74(1), 163–197. Link, PDF, Google.
- Xu, G. (2018). The Costs of Patronage: Evidence from the British Empire. American Economic Review, 108(11), 3170–3198. Link (rep), PDF, Appendix, Google.
- Clarke, D., & Tapia-Schythe, K. (2021). Implementing the panel event study. The Stata Journal, 21(4), 853–884. Link, PDF, Google.
6. 相关推文
Note:产生如下推文列表的 Stata 命令为:
lianxh reghd 高维, nocat md0
安装最新版lianxh
命令:
ssc install lianxh, replace
- 左志勇, 2022, Stata:三维引力模型介绍与估计-ppmlhdfe-nbreg-reghdfe, 连享会 No.848.
- 李梦馨, 2024, ivreghdfe 命令安装失败解决方法, 连享会 No.1477.
- 李胜胜, 2021, 引力模型-高维固定效应面板泊松模型, 连享会 No.574.
- 游万海, 连玉君, 2020, Stata: 面板数据模型一文读懂, 连享会 No.122.
- 王晓娟, 甘徐沁, 2021, regife:面板交互固定效应模型-Interactive Fixed Effect, 连享会 No.42.
- 秦利宾, 2022, Stata:关于reghdfe命令常见问题解答, 连享会 No.852.
- 罗兰若, 2022, Stata论文复现:高维线性回归的变量筛选-baing-ocmt, 连享会 No.866.
- 胡雨霄, 2020, reghdfe:多维面板固定效应估计, 连享会 No.156.
- 连玉君, 2020, Stata:reghdfe命令报错问题, 连享会 No.157.
- 连玉君, 2023, ivreghdfe-高维固定效应IV估计:错误信息处理-817 lines skipped, 连享会 No.1299.
- 陈佳慧, 2021, Stata:高维倾向得分法-hdps, 连享会 No.820.
- 黄涵麟, 2021, ocmt:高维固定效应模型的变量筛选问题, 连享会 No.530.