上课材料之五

  文件类别:其它

  文件格式:文件格式

  文件大小:115K

  下载次数:55

  所需积分:3点

  解压密码:qg68.cn

  下载地址:[下载地址]

清华大学卓越生产运营总监高级研修班

综合能力考核表详细内容

上课材料之五
上课材料之五 第四章 古典线性回归模型 在引论中,我们推出了满足凯恩斯条件的消费函数与收入有关的一个最普通模型:C =α+βX+ε,其中α>0,0<β<1ε是一个随机扰动。这是一个标准的古典线性回归模型。假 如我们得到如下例1的数据 例1 可支配个人收入和个人消费支出 |年份 |可支配收入 |个人消费 | |1970 |751.6 |672.1 | |1971 |779.2 |696.8 | |1972 |810.3 |737.1 | |1973 |864.7 |767.9 | |1974 |857.5 |762.8 | |1975 |847.9 |779.4 | |1976 |906.8 |823.1 | |1977 |942.9 |864.3 | |1978 |988.8 |903.2 | |1979 |1015.7 |927.6 | 来源:数据来自总统经济报告,美国政府印刷局,华盛顿特区,1984。 (收入和支出全为1972年的十亿美元) 一、线性回归模型及其假定 一般地,被估计模型具有如下形式: yi=[pic]+βxi+εi,i=1,…,n, 其中y是因变量或称为被解释变量,x是自变量或称为解释变量,i标志n个样本观测值 中的一个。这个形式一般被称作y对x的总体线性回归模型。在此背景下,y称为被回归量 ,x称为回归量。 构成古典线性回归模型的一组基本假设为: 1. 函数形式:yi=[pic]+βxi+εi,i=1,…,n, 2. 干扰项的零均值:对所有i,有:E[εi]=0。 3. 同方差性:对所有i,有:Var[εi]=σ2,且[pic]是一个常数。 4. 无自相关:对所有i≠j,则Cov[εi,εj]=0。 5. 回归量和干扰项的非相关:对所有i和j有Cov[xi,εj]=0。 6. 正态性:对所有i,εi满足正态分布N(0,[pic])。 模型假定的几点说明: 1、函数形式及其线性模型的转换 具有一般形式 [pic] 对任何形式的g(x)都符合我们关于线性模型的定义。 [例] 一个常用的函数形式是对数线性模型: [pic]。 取对数得: [pic]。([pic]) 这被称作不变弹性形式。在这个方程中,y对于x的变化的弹性是 [pic], 它不随x而变化。与之相反,线性模型的弹性是: [pic]。 对数线性模型通常用来估计需求函数和生产函数。 尽管线性模型具有巨大的灵活性,但在实际中存在着大量的非线性模型的形式。 例如,任何变换也不能将 [pic]和[pic](0<[pic]<1) 转化为线性回归模型。 2、回归量 对于回归量即解释变量我们有两种处理方法,第一种将X设定为非随机变量,第二种 方法将X设定为随机变量。 1)当X为非随机变量 xi的值在yi的概率分布中是已知的常数。这条假定暗示yi的每一个值都是一个概率分 布的观察值,这个概率分布具有均值 [pic] 和方差 [pic]。 此外,有必要假定,对n≥1 [pic] 是一个有限正数,这个假定被称作识别条件,若xi没有任何变化,我们所有的观测值 将落在一条垂直线上,我们的观测数据将不允许我们作出关于回归[pic]+βx的任何推断 。这个识别条件等同于子样的极差max(X1,…,Xn)-min(X1,…,Xn)≠0。 2)当X为随机变量 若x被当作一个随机变量,则假定1成为一个对y和x的联合分布的陈述。 我们就用条件期望和方差来处理。 3、随机干扰项 1)如果干扰项不是零均值,即E[εi]=μ,对所有的i,则[pic]+βx+εi等同于([pic] +μ)+βx+(εi-μ),令[pic]′=[pic]+μ及εi′=εi-μ可得到模型,[pic],此模型满足我 们原始模型的要求。 2)观测值中的随机部分假定是不相关的: E[εiεj]=0 对所有i不等于j。 这被称为非自相关。 二、最小二乘法 1 最小二乘系数 总体回归是E[yi|xi]= [pic]+βxi,而我们对E[yi|xi]的估计记作 [pic]。 和第i的数据点相联系的干扰项是 [pic] 对a和b的任何值,我们用残差 [pic] 来估计εi,从这些定义可知: [pic] [pic]。 对任何一对值a和b,残差平方和是: [pic] 最小二乘法系数就是使这个拟合标准达到最小的a和b的值。最小化的一阶条件是 [pic] [pic] 和 [pic] [pic] 将上两式展开合并同类项后得到正规方程组 [pic] (1) [pic] (2) (1)式暗示[pic],而(2)式暗示[pic] 为了得到解,我们首先用n除(1)结果是 [pic] 最小二乘回归线通过均值点。现在分离a: [pic] (3) 有了a后,我们可以求解(2)得到b。首先,[pic]。将此和(3)代入(2)并重新安 排各项。 [pic] 或 [pic][pic] 最小的残差平方和,对a和b的二阶微商矩阵是 [pic] . 我们必须表明这是一个正定矩阵,两个对角元素永远为正,所以仅需证明行列式为正 ,行列式为[pic],所以行列式为 [pic] 由识别条件得知这是一个正值。这样a和b是平方和的最小化因子。 2 回归拟合的评价 1)回归量x是非随机变量 总变差是离差的平方和: [pic] [pic][pic] [pic] 第二个等式成立是因为[pic] 我们将其写作 总平方和=回归平方和+残差平方和 或 SST=SSR+SSE. 我们利用下式得到一个关于回归直线对数据拟合程度的度量 [pic] 为了方便计算与分析,约定 [pic] [pic] 和 [pic] x和y间的样本相关系数是[pic]。利用[pic]我们得到[pic],这表明回归的斜率和x、y间 的相关系数具有相同的符号,而且 [pic] . 这进一步证明了我们利用R2作为回归模型拟合优劣指标的正确性。 3 方差分析表 进一步研究回归平方和SSR与残差平方和SSE,我们可以得到下面三个结论: a)在β=0的假设条件下,回归平方和[pic]服从自由度为1的卡方分布x2(1)(为什么 ?); b)残差平方和[pic]服从自由度为n-2的卡方分布x2(n-2); c)在β=0的假设条件下,[pic]服从F(1,n-2)分布。现在我们来证明这三个结论。 证明: a)[pic],其中[pic],易知[pic], [pic]。 可以验证[pic]是幂等矩阵。 [pic] [pic] 在β=0的假设条件下,[pic]才服从自由度为1的卡方分布x2(1)(为什么?) b)因为[pic] 所以[pic] 易验证[pic]也是幂等矩阵 [pic] [pic] 最后一个等式成立是因为[pic]。 所以[pic],从而[pic]。此结论成立不需要β=0的假设条件下,为什么? c)因为[pic] [pic] 所以SSR与SSE是相互独立的统计量。从而,在β=0的假设条件下,[pic]服从F(1,n -2)分布,所以,可以用来作模型的整体检验的统计量。 概括这些计算的一个方便的途径是方差分析表,可总结在方差分析表1中。 表1 方差分析表 |变差来源 |变差 |自由度 |均方 | |回归 |SSR=b2Sxx |1 |[pic] | |残差 |[pic] |n-2 |[pic] | |总 |SST=Syy |n-1 |[pic] | |[pic] | 2)回归量X是随机变量 我们要利用方差分解公式 [pic] [pic] =[pic] 我们将它应用到子样空间里来,即 [pic] [pic][pic] 所以,两边去掉1/n后得到: [pic][pic] 我们得到了和把X当成非随机变量时同样的结果,因此,方差分析表也是一样的。 考虑消费函数的例子,这里C是消费而X是收入,我们得到 [pic] [pic] [pic] 总平方和的各个部分为 总平方和=64,972.12 回归平方和=64,435.13 残差平方和=537.00 [pic] 显然,此回归提供了一个很好的拟合。 对消费和收入数据,方差分析表如下所示 例1数据的方差分析表 |变差来源 |变差 |自由度 |均方 | |回归 |64,435.15 |1 |64,435.13 | |残差 |537.00 |8 |67.124 | |总 |64,972.13 |9 |7,219.12 | |[pic] | 另一个计算和通常R2相类似公式是: [pic] 任何一个模型的残差都可用[pic]来计算。 三、最小二乘法估计量的统计特征 我们利用了最小二乘法,从纯粹的代数方法,求得所拟合的最小二乘系数a和b,从统 计意义上来说,这个结果可以看作是对参数[pic]和β的一个估计(因为还存在着利用其 他估计方法得到的估计)。我们现在对a、b的无偏性,有效性和精确度等统计特性作分 析。 我们所考虑的计量模型是: [pic] β的最小二乘估计是 [pic] [pic] (1) 其中权数, [pic] (2) 仅仅是x1,…,xn的一个函数。 1、b是β的无偏估计 将[pic]代入(1),我们得到 [pic] [pic] [pic] (3) 所以 [pic] (4) 这是因为[pic]。不论ε的分布如何,在我们其他假定下,b是β的一个无偏估计量,利 用(3)得到b的样本方差 [pic] 线性回归模型的假定4暗示这个和的方差中的协方差项是零,所以有 [pic] 特别要注意b的方差中的分母。x的变差越大(也就是x的采样范围越广),则这个方差越 小。 2、a是α的无偏估计 对于最小二乘截距a,我们有: [pic] [pic] [pic] 利用(3)式并加以整理,我们有 [pic] 其中 [pic] 由于求和中每一项的期望都为0,所以a也是α的估计量无偏估计量。a的样本方差就是[pic] 的方差,根据独立性有 [pic] (通过对括号中的项进行平方并利用[pic]的结果,可以得到上式中后一结果)。 3、a、b估计量的协方差矩阵 两个估计的协方差是 [pic] [pic] a和b两者都有[pic]的形式,因此它们都是线性估计量,前边给出了它们的样本均值 和方差并证实了它们是无偏的。正如已指出的,还存在利用数据估计[pic]和β的其他方 法。然而,从线性无偏估计量的角度,没有任何估计量比最小二乘估计量具有更小的样 本方差,这就是高斯—马尔科夫定理。 ****当把正态分布干扰项的假定加入上面的过程时,我们得到估计量的分布的一个完 备的结果。由于a和b两者都是正态分布变量的线性函数,因而它们也都是正态分布的。 其均值和方差已导出,概括起来,在正态性假设下,有 [pic] 4、b是β的最小线性无偏估计。 思考:证明b=[pic]是线性无偏估计量中,方差最小的一个估计量。 [证明] 令另一个估计量是 [pic] 在等式两边取期望,我们可以看到,若使[pic]是无偏的,必须有[pic]及[pic]。这样, [pic]。[pic]的方差是 [pic] 令[pic] [pic] [pic] 利用[pic],易得到[pic],这就是在[pic]的方差中只留下两个平方项,这意味着[pic] 一定大于[pic]。 推导[pic] [pic] [pic] 四、最小二乘估计量的统计推断 在前面的内容里,我们在假定干扰项是正态分布和样本X1,…Xn是非随机的条件下, 给出了最小二乘估计量的确切的样本分布。但通常的参数估计过程包括构造置信区间和 对α和β值的假设检验。为了做到这一点,我们需要参数的真正样本方差的估计,这将需 要对未知参数[pic]的一个估计,并构造假设检验方法。 1、[pic]的无偏估计量的推导 由于[pic]是[pic]的期望值,而[pic]的一个估计, [pic] 似乎是一个自然的估计量,通过写出[pic],并把[pic],[pic]代入,我们得到 [pic] [pic] (1) 我们对某一个别干扰项[pic]的估计受两种因素的扭曲:所有干扰项的样本平均和我 们可以归于β并非完美估计这一事实所造成的影响。回忆所有干扰项是独立的,所以[pic] 。现在我们平方的两边并取期望值,可得到 [pic] [pic] 在对这些项求和时,我们利用[pic]。整理后,我们有 [pic] 这表明[pic]的一个无偏估计量是 [pic] 这样,我们可以得到b的抽样方差的一个估计为 [pic] . 以后,我们将用记号[pic]表示一个估计量的抽样方差的一个样本估计。 t分布统计量的构造 [pic] (1) 的分布是标准正态。由[pic]服从[pic] [pic] (2) 并且和b是独立的。 根据(1)和(2),我们得到: [pic] 是一个标准正态变量和一个除以其自由度的卡方量的平方根之比,它服从自由度为( n-2)的t分布。这样,记[pic],则比率 [pic] (3) 可以形成统计推断的基础。 2、抽样分布 β的置信区间将以(3)为基础。特别的,我们可以有 [pic]≤[pic]≤[pic], 其中[pic]是要求的置信水平,[pic]是来自于自由度为(n-2)的t分布的适当的临 界值。利用a及其估...
上课材料之五
 

[下载声明]
1.本站的所有资料均为资料作者提供和网友推荐收集整理而来,仅供学习和研究交流使用。如有侵犯到您版权的,请来电指出,本站将立即改正。电话:010-82593357。
2、访问管理资源网的用户必须明白,本站对提供下载的学习资料等不拥有任何权利,版权归该下载资源的合法拥有者所有。
3、本站保证站内提供的所有可下载资源都是按“原样”提供,本站未做过任何改动;但本网站不保证本站提供的下载资源的准确性、安全性和完整性;同时本网站也不承担用户因使用这些下载资源对自己和他人造成任何形式的损失或伤害。
4、未经本网站的明确许可,任何人不得大量链接本站下载资源;不得复制或仿造本网站。本网站对其自行开发的或和他人共同开发的所有内容、技术手段和服务拥有全部知识产权,任何人不得侵害或破坏,也不得擅自使用。

 我要上传资料,请点我!
COPYRIGT @ 2001-2018 HTTP://WWW.QG68.CN INC. ALL RIGHTS RESERVED. 管理资源网 版权所有