XT1. 面板数据模型简介
整理人: 冯超楠 (北京航空航天大学)
邮箱: fengcnhpy@126.com
1. 简介
面板数据由于数据量比较大,有助于我们做更为稳健的统计推断,同时面板数据结合了截面数据与时间序列数据的特征,有助于我们控制一些不可观测的个体效应。
1.1 举例说明
首先以一个面试的例子展示不可观测的个体效应对分析的影响:十个学生参与面试,是否录取由面试成绩排名决定。
use FE_mark.dta, clear //do FE_mark_DGP.do 数据生成过程
list, sep(6) //面试成绩
**结果显示
+-------------------+group id mark |
|
|-------------------|
1. | A组 1 75 |
2. | A组 2 73 |
3. | A组 3 85 |
4. | A组 4 81 |
5. | A组 5 79 |
6. | A组 6 87 |
|-------------------|
7. | B组 1 85 |
8. | B组 2 83 |
9. | B组 3 95 |
10. | B组 4 92 |
11. | B组 5 88 |
12. | B组 6 97 | +-------------------+
假设只录取 4 人,显然最终录取学生均来自于 B 组,主要原因在于分组面试过程中 A 组与 B 组学生面试打分的标准可能不同,猜测 A 组打分更严格。
gsort -mark //排名情况
list, sep(0)
**结果显示
+-------------------+group id mark |
|
|-------------------|
1. | B组 6 97 |
2. | B组 3 95 |
3. | B组 4 92 |
4. | B组 5 88 |
5. | A组 6 87 |
6. | B组 1 85 |
7. | A组 3 85 |
8. | B组 2 83 |
9. | A组 4 81 |
10. | A组 5 79 |
11. | A组 1 75 |
12. | A组 2 73 | +-------------------+
我们可以做一下两组的统计分析,发现 A 组的平均成绩为 80,而 B 组平均成绩为 90,即 B 组整体上偏高 10 分。从标准差来看,两者的离散程度基本一致,即两组内部差异控制得基本一致。另外,从图形上我们也能直观地发现两组分数的明显差异,若最初学生在 A 组与 B 组之间的分配完全随机,则这样的差异不应该存在,我们需做出调整保证两个组的分数具有可比性。
tabstat mark, by(group) s(mean sd min max) f(%4.2f)
**结果显示for variables: mark
Summary by categories of: group (面试组别)
group | mean sd min max
-------+----------------------------------------
A组 | 80.00 5.48 73.00 87.00
B组 | 90.00 5.59 83.00 97.00
-------+----------------------------------------
Total | 85.00 7.42 73.00 97.00 ------------------------------------------------
1.2 深入讨论
面试成绩 = 面试官的偏好 + 个人实际能力 + 运气
学生面试成绩由面试官偏好、个人实际能力以及运气决定,其中面试官偏好决定了整个组的平均面试成绩,而运气例如对题目的熟悉程度等可以被视为期望值为 0 的残差项。我们采用一个更为严谨的数学表达式来反映成绩的构成,面试成绩、面试官偏好、个人实际能力、运气分别用 \(Y_{it}\)、 \(a_{i}\) 、\(X_{it}\)、\(e_{it}\) 表示:
\[Y_{it}=a_{i}+X_{it}+e_{it}\quad(1)\]
其中,\(i\) = 1,2 ,表示面试组别;t = 1,2,…6 表示面试者序号
1.2.1 问题: 如何去除 \(\alpha_{i}\) ?
\[ \bar{Y_{i}}=a_{i}+\bar{X_{i}}+\bar{e}_{i}\quad(2) \]
上标\(-\)代表每一组的平均值,通过(1)-(2),我们可以得到:
\[ Y_{it}-\bar{Y_{i}}= X_{it}- \bar{X_{i}}+ e_{it}- \bar{e}_{i}\quad(3) \]
(1)-(2)式去除了 \(a_{i}\),最终得到的(3)式中 \(Y_{it}-\bar{Y_{i}}\) 表示面试者成绩-面试者所在组均值,能够更合理地反映了面试者个人实际能力的差别,这种方法称为组内去心或组内差分,是去除不可观测个体效应的主要方法,同时也借助了 Panel 的数据特征。
1.2.2 面试成绩调整
左、右两个图分别是 A、B 组的面试分数调整,在原来的分数上分别减去 A 组平均成绩 80 以及 B 组平均成绩 90。虽然此时的分数能够反映学生的个人实际能力,出于公布分数的需要,我们可以在此基础上加一个常数,保证排名不变。
为了保证百分制,我们进一步调整时选择 85 作为常数项(其中 85 是 12 个学生的样本均值)
总结而言,我们最终调整方案为:
最终成绩 = 原始成绩 - 组内均值 + 样本均值
调整后的最终面试成绩如下:
gsort -mark_FE //最终排名情况
list group id mark_FE, sep(6)
**结果显示
+----------------------+group id mark_FE |
|
|----------------------|
1. | A组 6 92 |
2. | B组 6 92 |
3. | A组 3 90 |
4. | B组 3 90 |
5. | B组 4 87 |
6. | A组 4 86 |
|----------------------|
7. | A组 5 84 |
8. | B组 5 83 |
9. | A组 1 80 |
10. | B组 1 80 |
11. | B组 2 78 |
12. | A组 2 78 | +----------------------+
根据调整后的最终面试成绩,前 4 名中各有 2 名来自 A 组和 B 组,在面试学生随机分组的假设下,此时的面试结果更为合理。
1.3 评论
- 应用面板数据模型的一个主要目的就是控制不可观测的个体效应,即本例中的:面试评委偏好
- 公司研究中,个体效应包括:公司文化, CEO 特征等
- 个人消费行为研究中,个体效应包括:个人习惯, 能力, 消费理念等
2 面板数据特征
2.1 面板数据的结构
面板数据兼具截面资料和时间序列资料的特征,对于面板数据而言,需要标识两个变量,分别是个体变量 idcode 以及年份变量 year,实际操作中使用 Stata 命令 xtset idcode year
。同时,xtset 、xtdes、xttab 可以帮助我们认清面板数据的结构, 其中, xtset 能识别面板 balanced or unbalanced,xtdes 更为详细地解析面板数据在个体和时间维度上的分布情况,xttab 能够对面板数据中类别变量的情况进行分析。具体操作见 help xtset
,help xtdes
以及 help xtdes
。
2.2 好处
扩大了样本量,有助于得到更为稳健的统计推断
可以控制不可观测的个体效应; 通过组内差分解决
help xt
详细介绍了 Stata 里面处理 panel 的一系列命令