R1. OLS简介
整理: 袁洛琪 (北京大学)
邮箱: luoqi_yuan@163.com
在探究解释变量 x 与被解释变量 y 之间的关系时,最经常使用的是简单线性回归模型:
\[
y=\beta_0+\beta_1 x+u
\] 其中,\(\beta_1\)代表斜率,\(\beta_0\)代表截距,\(u\)代表误差项。
在估计方程斜率和截距大小时,普通最小二乘法 (Ordinary Least Square, OLS) 是被运用最多的参数估计方法,其中斜率的计算公式为 \[ \hat{\beta}_1=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{x})}{\sum_{i=1}^n(x_i-\bar{x})^2} \] 截距计算公式为 \[ \hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x} \] OLS在判断拟合值和观测值接近程度的标准是残差平方和 (sum of squared residuals, SSR) \[ \sum_{i=1}^n \hat{u}_i^2=\sum_{i=1}^n (y_i-\hat{\beta}_0-\hat{\beta}_1x_i)^2 \] 尽可能地小。
1. 基本假设
在利用OLS对变量x和变量y的关系进行估计时,使用的数据首先应该满足以下假设:
1.1 线性于参数
在总体模型中,因变量y与自变量x和误差u应满足如下关系: \[ y=\beta_0+\beta_1 x+u \] 其中,\(\beta_0\) 和 \(\beta_1\)分别表示总体的截距和斜率。
1.2 非完全多重共线性
X 是满秩的,i.e. \(rank(X) = k\)
1.3 零条件均值
给定变量x的任何值,误差的期望值都为零,也即\(E(u|x)=0\)
1.4 弱外生性
变量x的观测值与真实值相比是没有误差的
1.5 同方差
给定变量x的任何值,误差都有相同的方差,也即\(Var(u|x)=\sigma^2\)
2. 结果解释
2.1 系数估计值
系数度量的是自变量x与因变量y之间存在关系的强弱,表示的是当自变量x变化一个单位时,因变量y随之变化多少;
在 Stata 中,可通过命令 reg y x
得出相应结果。
2.2 标准误与t值
系数标准误度量的是系数的不确定性程度,为了检验自变量x与因变量y是否存在联系还需要进行t检验。t检验的原假设H0是系数等于0(自变量x与因变量y之间不存在联系),当t统计量大于相应显著性水平和自由度下的t值时,我们就可以说在该显著性水平上,自变量x与因变量y是否存在联系。
t统计量的计算公式为 \[
t=\frac{\hat{\beta}_1}{se}
\] 在 Stata 中,可通过命令dis "t-value = " %4.2f _b[weight]/_se[weight]
得出相应结果。
2.3 拟和值与残差
拟和值是指给定自变量x的某一特定值,根据斜率估计值\(\beta_1\)和截距估计值\(\beta_0\)计算出的因变量拟和值\(\hat{y}\);
残差是因变量观测值与估计值时间的差值。
在 Stata 中,可通过自动计算和手动计算两种方式得出,具体代码如下:
regress price weight
predict price_fit, xb // 拟合值, xb 选项可以省略,默认
gen price_fit2 = _b[_cons] + _b[weight]*weight //手动计算
predict e, residual // 残差, residual 选项是必须的, 可以简写为 r
gen e2 = price - price_fit //手动计算
br price weight price_* e*
2.4 拟合优度
拟合优度度量的是自变量x多好地解释了因变量y,计算公式为 \[ R^2=\frac{MSS}{TSS} \] 其中,\(TSS=\sum_{i=1}^n(y_i-\bar{y}\)代表因变量y总的波动;
\(MSS=\sum_{i=1}^n(\hat{y_i}-\bar{y}\)代表模型度量的因变量y的波动。
2.5 多个自变量与拟合优度
情况1: \(X_1\)与\(X_2\)对因变量y的解释部分不重合,单独放入\(X_1\)时系数显著;继续加入\(X_2\)时,\(X_1\)和\(X_2\)的系数依然显著,同时拟合优度增加。
情况2: \(X_1\)与\(X_2\)对因变量y的解释部分重合,单独放入\(X_1\)时系数显著;继续加入\(X_2\)时,\(X_1\)的系数不再显著。
参考文献
- 伍德里奇. 计量经济学导论: 现代观点. 清华大学出版社, 2014.
- 维基百科:http://en.wikipedia.org/wiki/Ordinary_least_squares