白话空间统计二十三:回归分析(三)
要讲回归分析,绕不开的话题就是相关系数,在白话空间统计十八:相关性分析里面,对这个问题做了一个简要的描述,但是回过头来看,还有挺多东西漏掉了的,今天再用一个篇幅来讲讲相关系数一些其他的东西,并且给出数据和R语言脚本。
不知道大家还记得在空间上如何描述一组数据的方向和分布,如果不记得的话,可以去看看白话空间统计的第九章《方向分布》,得到的结果可以通过一系列的参数来决定一批点数据的方向和分布情况,那么其实在回归分析里面(具体的说,是相关性分析里面,这个工具也是可以用的,下面我们来看看这样一批数据)。
现在使用最高温度和最低温度作为示例数据,如下:(具体的脚本和数据,可以通过公众号邮箱获取)
第一幅图是实际数据,其他三幅图为了降低相关性,加入了随机变量进行干扰。
蓝色的虚线是所谓的SD线,指的是平均中心和它们的一个标准差组成的直线
Point 1 : x = mean(x),y = mean(y)
Point 2 : x = Point1.x + sd(x), y = Point.y + sd(y)
然后两点就可以确定一条直线了:
这条直线表示了与所有观测点的差值都是标准差的同等倍数的集合,相似系数越大,点围绕这条线的周边越密集,相似系数越小,就越离散。
黑色的直线是一元回归线。
从图上数据、标准差椭圆的各个参数以及相关系数的对比可以看出来,相关性越大,分布就越集中于SD线的附近,且生成的标准差椭圆扁率越大(方向更明显,分布更集中)。
接下去来看看回归里面几个很重要的概念,这些概念重要到以后在做地理加权回归的时候,告诉你如何去看懂结果……
残差如下图所示:如果一只嗷大喵,就下面这只正经的帅猫:
如果有一天,它喜欢上了玩cosplay,然后装备+帅猫……就变成了蝙蝠猫、蜘蛛猫、海贼猫……而变成什么样的猫,通过他cosplay用的道具来决定……这个道具,就是所谓的回归系数,总的来说,这个系数通常就是我们要求的,有了这个系数,这个回归方程就出来了。回归系数决定了这些cosplay之后的猫,与原始的帅猫之间的关联强度,cosplay得越厉害,就越看不出原始猫来。
另外还有一个概念就是残差,残差表示了误差,也表示了无法解释的情况。残差是整个回归模型里面最重要的信息之一,因为我们通过各种软件可以求出回归方程,但是回归方程和实际观察值肯定是有误差的,这个残差就是用于确定回归方程的拟合程度,残差越小,表示拟合效果越好。
最后一个参数,就是所谓的回归截距——就是那个裸猫……正如它表现的一样,它代表了所有的cosplay猫都不存在的情况,也就是自变量全部为0时候的预期情况。
最后通过下图,来解释以上参数的意义:
待续未完。
转载自:https://blog.csdn.net/allenlu2008/article/details/55223846