XT2. FE 和 RE 模型
整理人: 冯超楠 (北京航空航天大学)
邮箱: fengcnhpy@126.com
本节学习最为常用的两个面板数据模型:固定效应模型 (Fixed Effects model,简称:FE) 和随机效应模型 (Random Effects model,简称:RE)
1. 基本原理
1.1 混合 OLS 估计 (POLS)
首先回顾混合 OLS 模型,对于截面数据而言有以下线性表达式,其中 i 代表个体维度 (例如公司),公式如下:
\[ y_{i}=a+X_{i} \beta+\varepsilon_{i}\quad (1) \]
对于 Panel Data 而言有以下表达式,其中 i 代表个体维度,t 代表时间维度
\[ y_{it}=a+X_{it} \beta+\varepsilon_{i}\quad (2) \]
若直接用 OLS 方法应用于 Panel Data,则被称为混合 OLS 估计 (POLS)。在 Stata 中直接输入 reg
y x 就可以实现对该模型的混合 OLS 估计。其缺陷在于忽视了实际中个体效应对被解释变量的影响,如面试官的特征会对面试结果产生影响,公司不可观测的公司文化、CEO 的特征等会影响公司的业绩表现及财务决策,因此,将不变的截距项 \(a\) 替换成随个体变化的截距项 \(\alpha_{i}\) 后,\(\alpha_{i}\) 在经济意义上反映了每家公司不可观测的个体特征 (公司文化、CEO 特征等等)。
接下来就转入考虑个体特征的模型。
1.2 固定效应模型和随机效应模型
1.2.1 固定效应模型
首先看一下固定效应模型,模型右边所有的解释变量为 \[\color{Blue}X_{i t}^{\prime} \beta\color{Black}+\color{Blue}\alpha_{i}\color{Black}+\color{Red}\varepsilon_{i t}\]
其中,\(\color{Red}\varepsilon_{i t}\) 为随机扰动项,前两项中 \(\color{Blue}X_{i t}^{\prime} \beta\) 项既随个体 \(i\) (公司),又随时间 \(t\) 发生变化,而 \(\color{Blue}\alpha_{i}\) 项仅随个体 \(i\) 变化,不随时间 \(t\) 变化,被称为 “个体效应”。可以看到,固定效应模型在混合 OLS 模型基础上作了改进,允许个体之间有不同的截距项,这种截距项用来反映不同个体间不可观测的 “个体效应”。
\[ y_{it}=\color{Blue}X_{i t}^{\prime} \beta\color{Black}+\color{Blue}\alpha_{i}\color{Black}+\color{Red}\varepsilon_{i t}\color{Black}\quad (3) \]
1.2.2 随机效应模型
再来看一下随机效应模型,与固定效应表达式相同,不同的是此时 \(\color{Red}\alpha_{i}\color{Black}+\color{Red}\varepsilon_{i t}\) 被认为是模型的 (复合) 扰动项,第一项 \(\color{Red}\alpha_{i}\) 只随个体i发生变化,在时序维度上维持稳定 (即上述提及的 “个体效应”),第二项 \(\color{Red}\varepsilon_{i t}\) 同时随个体和时间发生变化,即随机效应模型是在干扰项的设定上反映 “个体效应”。
\[ y_{it}=\color{Blue}X_{i t}^{\prime} \beta\color{Black}+\color{Red}\alpha_{i}\color{Black}+\color{Red}\varepsilon_{i t}\color{Black}\quad (4) \]
1.2.3 固定效应模型与随机效应模型不同之处
固定效应模型和随机效应模型的表达式完全相同,但背后的含义完全不同。固定效应模型假定“个体效应” \(\alpha_{i}\) 为模型解释变量的一部分,可与其他解释变量 \(X_{i t}\) 相关;随机效应模型将“个体效应”将 \(\alpha_{i}\) 放入干扰项 (作为随机变量),与解释变量 \(X_{i t}\) 不相关,这是两个模型假设方面的主要差别。
在估计方法上,固定效应模型只需要在OLS基础上加入一系列 firm dummies,用来反映不同公司间截距项的差别,即“个体效应“;随机效应模型的干扰项相对复杂,由 \(\alpha_{i}\) (不随时间变化) 和 \(\varepsilon_{i t}\) (随时间变化) 两部分构成,导致异方差问题出现,此时需要采用广义最小二乘估计 (GLS) 方法。
2.模型的 Stata 实现
2.1 估计命令
2.1.1 固定效应模型在Stata中的估计命令
xtreg y x, fe
reg y x i.id
areg y x, absorb(id)
2.1.2 固定效应模型在Stata中的估计命令
xtreg y x, re
2.2 重点解读 Stata 中固定效应估计的具体思路
2.2.1 原理
\[ y_{it}=\alpha_{i}+\color{Black}X_{i t}^{\prime} \beta+\varepsilon_{i t}\color{Black}\quad (5) \]
- 式为固定效应模型的表述
\[ \overline{y}_{i}=\alpha_{i}\color{Black}+\overline{X}_{i}^{\prime} \beta+\overline{\varepsilon}_{i}\quad (6) \]
- 式为每家公司内部进行了“压缩“处理,对每家公司时序上的作了平均处理 (计算组内平均值):\(\overline{y}_{i}=(1/T_{i}) \sum_{t=1}^{T_i} y_{it}\)
\[\overline{\overline{y}}=\overline{\alpha}\color{Black}+\overline{\overline{X}}^{\prime}\beta+\overline{\overline{\varepsilon}}\quad (7)\]
- 式为整个样本的“压缩“处理,得到:\(\overline {\alpha}\color {Black}=(1 / N) \sum_{i=1}^{N} \alpha_{i}\),被解释变量在整个样本内的平均处理:\(\overline {y}_{i} \rightarrow \overline {\overline {y}}\)
\[\left(y_{i t}-\overline{y}_{i}+\overline{\overline{y}}\right)=\overline{\alpha}+\left(X_{i t}^{\prime}-\overline{X}_{i}^{\prime}+\overline{\overline{X}}^{\prime}\right) \beta+\left(\varepsilon_{i t}-\overline{\varepsilon}_{i}+\overline{\overline{\varepsilon}}\right)\quad (8)\]
- 去除了不可观测的 “个体效应”, (8) 式通过 (5) - (6) + (7) 得到,该变换称为组内去心,据此得到的估计量称为 Within-group Estimator (组内估计量) 或 De-meaned Estimator (去心估计量)
2.2.2 Stata 中的操作
先用数据处理方式计算 (5) - (6) + (7),随后采取 OLS 方式:reg
\(\tilde {y}_{i t}\) \(\tilde {X}_{i t}^{\prime}\),可得到固定效应模型估计值 \(\hat {\beta}_{F E}\)。
3. 混合 OLS 与固定效应模型估计之间的差异
3.1 举例说明
3.1.1 Case I
如下散点图,若直接进行 OLS 估计,得到红色的拟合线,反映 y 与 x 之间的负相关关系。
若了解数据背后的特征:每个红圈内样本点对应三家公司,假设三家公司有相同的斜率,对应截距不同三条拟合平行线 (更好反映数据拟合的结果) 为我们通过固定效应模型估计得到的结果。
同样的数据,POLS 和 FE 估计结果可能完全不同 (Case I 中 POLS 估计结果显著为负,而 FE 估计结果显著为正)。
3.1.2 Case II
散点图:三家公司在不同年份的样本点 (Panel Data),整体拟合,可得到一条紫色的拟合线,即 x 和 y 存在正相关关系。
考虑到个体特征,使用固定效应模型估计,得到三条平行蓝色拟合线 (斜率相同),每家公司有其特定的截距项
该种情形下,两种估计方法得到的估计值 (斜率) 都为正,但在数值上有所差异。
3.2 在 Stata 中的实例
3.2.1 不同模型估计: Stata 代码
我们使用 invest2.dta 作为研究数据,invest2.dta 包含 100 个观察值:5 家公司,每家公司有 20 年资料,涉及公司 id、时间 t、投资支出 invest、市场价值 market、资本存量 stock 五个变量。有多种方法估计投资支出 invest、市场价值 market、资本存量 stock 三个变量之间的关系,假设我们想研究投资支出、资本存量对市场价值的影响,则在回归模型中被解释变量为市场价值 market,解释变量为投资支出 invest、资本存量 stock,不同模型和估计方法 Stata 命令如下:
clear
. use invest2.dta,
. xtset id t
global y "market"
. "invest stock"
. global x
$y $x //POLS
. regress est store POLS
.
tab id, gen(dum)
. $y $x dum2-dum5 //OLS+Dummies(id)
. regress est store OLSdum1
.
regress $y $x dum1-dum5, nocons //OLS+Dummies(id)
. store OLSdum2
. est
$y $x, fe //FE
. xtreg est store FE
.
xtreg $y $x, re //RE
. store RE
. est
m "POLS OLSdum1 OLSdum2 FE RE"
. local `m', mtitle(`m') nogap compress ///
. esttab scalar(N r2 r2_w r2_b r2_o) ///
star(* 0.1 ** 0.05 *** 0.01)
3.2.2 不同模型估计和解释
第 (1) - (5) 列分别呈现了 POLS、OLS+Dummies(id) 有常数项、OLS+Dummies(id) 无常数项、FE、RE 模型估计结果。
第 (2) - (4) 列的估计系数以及 t 值完全一样,即无论是 OLS+Dummies(id)
还是 xtreg,fe
进行固定效应的估计,估计系数及标准误完全相同。唯一的差别在于 R 的平方,固定效应 xtreg,fe
组内去心方式在计算 R 平方的时候已经去除了 “个体效应” 的贡献,及列 (2) R 平方 (0.936) 与列 (4) R 平方 (0.417) 的差异在于 Dummies(id) 对 R 平方的贡献。列 (5) 是随机效应模型估计结果,从系数值及方向上比较而言,与列 (4) 固定效应模型估计结果更相似。