XT1. 面板数据模型简介

整理人: 冯超楠 (北京航空航天大学)
邮箱:

1. 简介

面板数据由于数据量比较大,有助于我们做更为稳健的统计推断,同时面板数据结合了截面数据与时间序列数据的特征,有助于我们控制一些不可观测的个体效应。

1.1 举例说明

首先以一个面试的例子展示不可观测的个体效应对分析的影响:十个学生参与面试,是否录取由面试成绩排名决定。

use FE_mark.dta, clear  //do FE_mark_DGP.do 数据生成过程
list, sep(6)  //面试成绩

**结果显示
     +-------------------+
     | group   id   mark |
     |-------------------|
  1. |   A组    1     75 |
  2. |   A组    2     73 |
  3. |   A组    3     85 |
  4. |   A组    4     81 |
  5. |   A组    5     79 |
  6. |   A组    6     87 |
     |-------------------|
  7. |   B组    1     85 |
  8. |   B组    2     83 |
  9. |   B组    3     95 |
 10. |   B组    4     92 |
 11. |   B组    5     88 |
 12. |   B组    6     97 |
     +-------------------+

假设只录取 4 人,显然最终录取学生均来自于 B 组,主要原因在于分组面试过程中 A 组与 B 组学生面试打分的标准可能不同,猜测 A 组打分更严格。

gsort -mark   //排名情况
list, sep(0)

**结果显示
     +-------------------+
     | group   id   mark |
     |-------------------|
  1. |   B组    6     97 |
  2. |   B组    3     95 |
  3. |   B组    4     92 |
  4. |   B组    5     88 |
  5. |   A组    6     87 |
  6. |   B组    1     85 |
  7. |   A组    3     85 |
  8. |   B组    2     83 |
  9. |   A组    4     81 |
 10. |   A组    5     79 |
 11. |   A组    1     75 |
 12. |   A组    2     73 |
     +-------------------+

我们可以做一下两组的统计分析,发现 A 组的平均成绩为 80,而 B 组平均成绩为 90,即 B 组整体上偏高 10 分。从标准差来看,两者的离散程度基本一致,即两组内部差异控制得基本一致。另外,从图形上我们也能直观地发现两组分数的明显差异,若最初学生在 A 组与 B 组之间的分配完全随机,则这样的差异不应该存在,我们需做出调整保证两个组的分数具有可比性。

tabstat mark, by(group) s(mean sd min max) f(%4.2f)

**结果显示
Summary for variables: mark
     by categories of: group (面试组别)

 group |      mean        sd       min       max
-------+----------------------------------------
   A组 |     80.00      5.48     73.00     87.00
   B组 |     90.00      5.59     83.00     97.00
-------+----------------------------------------
 Total |     85.00      7.42     73.00     97.00
------------------------------------------------

1.2 深入讨论

面试成绩 = 面试官的偏好 + 个人实际能力 + 运气

学生面试成绩由面试官偏好、个人实际能力以及运气决定,其中面试官偏好决定了整个组的平均面试成绩,而运气例如对题目的熟悉程度等可以被视为期望值为 0 的残差项。我们采用一个更为严谨的数学表达式来反映成绩的构成,面试成绩、面试官偏好、个人实际能力、运气分别用 \(Y_{it}\)\(a_{i}\)\(X_{it}\)\(e_{it}\) 表示:

\[Y_{it}=a_{i}+X_{it}+e_{it}\quad(1)\]

其中,\(i\) = 1,2 ,表示面试组别;t = 1,2,…6 表示面试者序号

1.2.1 问题: 如何去除 \(\alpha_{i}\) ?

\[ \bar{Y_{i}}=a_{i}+\bar{X_{i}}+\bar{e}_{i}\quad(2) \]

上标\(-\)代表每一组的平均值,通过(1)-(2),我们可以得到:

\[ Y_{it}-\bar{Y_{i}}= X_{it}- \bar{X_{i}}+ e_{it}- \bar{e}_{i}\quad(3) \]

​(1)-(2)式去除了 \(a_{i}\),最终得到的(3)式中 \(Y_{it}-\bar{Y_{i}}\) 表示面试者成绩-面试者所在组均值,能够更合理地反映了面试者个人实际能力的差别,这种方法称为组内去心或组内差分,是去除不可观测个体效应的主要方法,同时也借助了 Panel 的数据特征。

1.2.2 面试成绩调整

左、右两个图分别是 A、B 组的面试分数调整,在原来的分数上分别减去 A 组平均成绩 80 以及 B 组平均成绩 90。虽然此时的分数能够反映学生的个人实际能力,出于公布分数的需要,我们可以在此基础上加一个常数,保证排名不变。

为了保证百分制,我们进一步调整时选择 85 作为常数项(其中 85 是 12 个学生的样本均值)

总结而言,我们最终调整方案为:

最终成绩 = 原始成绩 - 组内均值 + 样本均值

调整后的最终面试成绩如下:

gsort -mark_FE   //最终排名情况
list group id mark_FE, sep(6)

**结果显示
     +----------------------+
     | group   id   mark_FE |
     |----------------------|
  1. |   A组    6        92 |
  2. |   B组    6        92 |
  3. |   A组    3        90 |
  4. |   B组    3        90 |
  5. |   B组    4        87 |
  6. |   A组    4        86 |
     |----------------------|
  7. |   A组    5        84 |
  8. |   B组    5        83 |
  9. |   A组    1        80 |
 10. |   B组    1        80 |
 11. |   B组    2        78 |
 12. |   A组    2        78 |
     +----------------------+

根据调整后的最终面试成绩,前 4 名中各有 2 名来自 A 组和 B 组,在面试学生随机分组的假设下,此时的面试结果更为合理。

1.3 评论

  • 应用面板数据模型的一个主要目的就是控制不可观测的个体效应,即本例中的:面试评委偏好
  • 公司研究中,个体效应包括:公司文化, CEO 特征等
  • 个人消费行为研究中,个体效应包括:个人习惯, 能力, 消费理念等

2 面板数据特征

2.1 面板数据的结构

面板数据兼具截面资料和时间序列资料的特征,对于面板数据而言,需要标识两个变量,分别是个体变量 idcode 以及年份变量 year,实际操作中使用 Stata 命令 xtset idcode year。同时,xtsetxtdesxttab 可以帮助我们认清面板数据的结构, 其中, xtset 能识别面板 balanced or unbalanced,xtdes 更为详细地解析面板数据在个体和时间维度上的分布情况,xttab 能够对面板数据中类别变量的情况进行分析。具体操作见 help xtset,help xtdes 以及 help xtdes

2.2 好处

  1. 扩大了样本量,有助于得到更为稳健的统计推断

  2. 可以控制不可观测的个体效应; 通过组内差分解决

help xt 详细介绍了 Stata 里面处理 panel 的一系列命令