白话空间统计二十三:回归分析番外-ArcGIS中的OLS(二)
前文再续,书接上一回。
上一节讲到解读OLS的结果第一页的表格,今天从第二页开始:
第二页分成两部分,下面这嘚吧嘚吧的一堆英文,实际上就是上面那些信息的解释,英语好的同学实际上看这个文档就可以了,如果懒得看,可以看虾神我嘚吧嘚吧的中文解释,如下:
1、Number of Observations 观测值的数量
也就是参与回归的样本数有多少个,我这里是山东全省的区县,共计137个。
2、Multiple R-Squared:多重R平方系数。
Adjusted R-Squared:校正R平方系数
这个名词的解释或者说翻译在不同的书里面都不同,有的叫做“决定性系数”,也有的直接翻译成“实际值和预测值之间的相关系数的平方”(好吧,就是这个解释)。反正不管怎么翻译,意义都是一样的。该术语用于衡量整个回归模型的性能,通常它会与Adjusted R-Squared (校正R平方系数)一起用。
这两个系数的取值,都在0-1之间,可以转换为百分数,通常指的是自变量方程对因变量的解释能力。比如等于0.8的时候,表示回归方程能够解释80%的因变量的变化。
如果我们把因变量(观测值)和估计值作一个柱状图,就可以看出效果来了:
这个平方系数越高,那么他们的重合度就越高。
而校正R平方系数,通常要比多重R平方系数要稍微低一些,因为这个系数的技术与数据的情况关系更强,所以对模型的性能评估也更加准确一些。
3、Joint F-Statistic 联合F统计量
Prob(>F) degrees of freedom F统计量的可信概率的自由度
Joint Wald Statistic 联合卡方统计量
Prob(>chi-squared) degrees of freedom 卡方统计量的可信概率的自由度
首先简单解释一下几个统计学专业术语——如果是学统计的同学,可以直接忽略了,但是虾神估计看这个文章的,大部分都不是统计学出生的同学,所以这里简单做个解释:
首先是卡方统计量:卡方统计量指的是符合卡方分布的统计量,所以这个概念实际上是来自卡方分布,下面看看啥叫卡方分布:
如果有一组随机数,是呈现正态分布,比如下面这组数据:
那么把这组数据计算平方和,就会得到一个新的数据,这个数据就是符合卡方分布的数据。
下面就是不同自由度下的卡方分布:
从上图发现,自由度越大,越接近正态分布。等等……又多了一个术语。。。嘛叫“自由度”?
自由度其实很简单,自由度的意思是,要进行计算的时候,取值不受限制的变量个数,自由度越大,取值的可选择余地就越大,在卡方分布中,自由度就是你那组正态分布的数据的个数——个数越多,取值的可选余地越大,那么分布就越接近正态分布。
然后说说与卡方分布贴合得非常紧密的下一个概念:F统计量和F分布
F统计量,是指符合F分布的统计量——这个解释如此到道理,想必大家和虾神一样,表示:
实际上概念就是这样来的,下面简单说说啥叫F分布。
F分布是英国统计学家R.A.Fisher在1924年提出,并以其姓氏的第一个字母命名。
这个Fisher就是我以前在文章中提到的那位:“现代统计学之父”的费希尔爵士,号称是“以一己之力独立创建了现代统计学的天才”(丹麦统计学家,统计学史的作者安德斯·哈尔德语)。
再贴一张这位老帅哥的相片:
如果说卡方分布是一个变量的分布,那么F分布,就是两个变量的分布,他们的关系如下:
下面是不同自由度下面的卡方分布:
联合 F 统计量和联合卡方统计量均用于检验整个模型的统计显著性。这个两个统计量与术语4所示的Koenker (BP) Statistic 有很深的关系,所以我还得先介绍了KBP才能继续回来说着两个东东。
4:Koenker (BP) 统计量
Koenker’s studentized Bruesch-Pagan statistic:科恩可 标准化 布鲁斯-培根统计,一下跳出了三个人名……做个简单介绍吧:(更详细内容,请直接wiki)。
罗杰 科恩可(Roger Koenker),美国伊利诺伊州大学香槟分校经济学和统计学教授
特雷弗·斯坦利·布鲁斯(Trevor Stanley Breusch):澳大利亚国立大学克劳福德公共政策学院教授,副主任
阿德里安·罗德尼·培根(Adrian Rodney Pagan):澳大利亚悉尼大学经济学院教授。
这个统计量主要用于确定模型所使用的解释变量是否在位置空间和数据空间中都与因变量具有一致性(稳定性)。那么有两种可能:
1、在位置空间中呈现一致性:那么由在各空间位置的解释变量,所表现出来的空间进程也将呈现一致性。这种情况说明数据空间变异程度很小。注意:这里的位置空间和地理空间没啥关系,指的是变量在数轴上的位置变化之后,结果是否出现不稳定性。
2、在数据空间中是否呈现一致性。如果在数据控件中一致,那么解释变量和预测值之间关系,不会因为解释变量发生变化而变化。也就是说模型不会出现异方差性。
又来一个名词:异方差性(heteroscedasticity ),是相对于同方差而言的。所谓同方差,是为了保证回归参数估计量具有良好的统计性质,经典线性回归模型的一个重要假定:总体回归函数中的随机误差项满足同方差性,即它们都有相同的方差。如果这一假定不满足,即:随机误差项具有不同的方差,则称线性回归模型存在异方差性。)
如下所示:如果是平稳状态,说明解释变量与预测值之间的误差,在任何一个位置都是差不多的。而不平稳状态,有可能出现位于中位数左边(小于中位数)的位置的数据误差小(预测更准确),而中位数右边的数据误差率大(预测不准)。
所以Koenker (BP) 统计量也叫做稳态评估。
现在回头来看联合 F 统计量和联合卡方统计量。
当Koenker (BP) 统计量具有显著性的时候,联合卡方统计量决定模型的显著性。如果Koenker (BP) 统计量不具有显著性的时候,联合F统计量才有可信性:
5:Jarque-Bera Statistic:模型偏差评估。
Jarque-Bera 统计量用于表示模型的残差(已观测/已知的因变量值 – 预测/估计值)是否呈现正态分布。P值表示了模型的残差是不是正态分布,如果P值可信(超过95%的置信度),则正态,不可信,则非正态。
如果发现模型的偏差非正态,则表示模型可能出现了偏差。
最后如果我们对残差进行空间自相关,发现出现了显著的空间自相关,那么说明模型出现了比较明显的错误(可能是某个关键变量出现了偏差)。
关于这个问题,我们下节继续。
待续未完。
转载自:https://blog.csdn.net/allenlu2008/article/details/70214946