白话空间统计之四:P值和Z值(上):零假设
本来今天想要讲讲软件操作的,后来发现好像还有好几个重要的指标没有说,干脆等全部说完在讲操作吧,否则操作出来的结果会发现大量的“不明觉厉”。
首先是空间统计里面很神秘的两个值:P值和Z值。
要说这两个值之前,还是要复习一下统计学的概念,毕竟空间统计的理论基础还是建立在经典统计学上面的。
首先,统计学里面,有一个叫做“零假设”的概念非常厉害,一定要说说。
零假设(null hypothesis),有时候又称原假设,官方的解释是:指进行统计检验时预先建立的假设。也就是说,你在检验你的结果之前,先对这些结果假设一个数值区间,这个区间一般是符合某种概率分布的情况,如果你的真实结果偏离了你设定的区间,就表示发生了小概率事件。这样你原来的假设就不成立了。
如下图所示:
如果你的计算结果落在–2到2之间,就表示你的假设是可以接受得,但是不在这个范围内,就说明消息小概率事件了。既然有小概率事件,就说明两种可能:1,你的假设有错误;2,出现了异常值。
这个神奇的零假设有啥用呢?看下面这个例子:
我们来抛一枚硬币,(我发现统计学,特别是经典统计学最喜欢抛硬币了),在丢之前,我们就已经设定了无论正反两面的概率都在50%左右,(实际上更接近48%——52%这个区间)那么如果我们丢出来的结果,出现了正面概率高达80%,而反面才出现了20%,那就是说,超出了我预设的范围,发生了小概率现象,那么这种小概率现象就很值得研究了,虾神个人认为,如果出现了这种情况,最大可能是这个硬币被做了手脚。
当然,还有可能是出现硬币竖立了起来这种极小概率的事情……这种就得归类到异常值里面去了。
(关于抛硬币的另外一种思维方式,还可以看这篇文章:抛硬币的两种思维方式:
在经典统计里面,零假设认为你统计计算的数据是符合某种概率的,那么在空间统计里面,零假设表示什么呢?
看下面这个例子:
如果说,A市在7月份发生了200起案件,理论上,不设定条件的话,这200起案件应该是平均的分布在A市的每个区域的,但是实际上这是不可能的,我们会发现某些地区,案发率远远高于其他地区。
那么上面那个命题,最开始我们说明的,200起案件,平均分布在全市各个地方,就是所谓的“零假设”,在空间统计中,零假设指的就是空间位置在一定区域里面呈现完全随机(均匀)分布(在自然现象里面,均匀分布是极小概率才会出现的,基本上都可以忽略了,所以一般谈的就是完全随机)。
按照这样的假设,我们就可以对整个城市的案件案发地点进行统计分析了,如果计算出来的结果,符合我们假设,那么就只能说,这200起案件,发生的地点是随机的,没有聚集规律或者离散的规律。
在空间数据的分析中,有一个很重要内容,就是知道数据分布是否有规律。
拿到一份数据的时候,第一时间,要了解的,就是这份数据是不是有规律,因为有规律的数据才能进行更好的分析。而如果你拿到的这份数据是一份随机分布的数据,那么一般来说,就没有啥分析研究的可能了。因为纯随机(完全随机)是无法预测也无法找到模式的,就像素数(素数在数轴上出现的位置就是完全随机的,无法找到任何规律和模式)。
所谓的纯随机,也有三种可能,一种是你的假设是纯随机的,二是你要计算的数据本身是纯随机的,第三就是你要计算的数据与其周边数据的关系是纯随机。
那么如何对随机假设进行判断呢?也就是说,你的结果是接受零假设还是拒绝零假设,这种就可以通过P、Z两种值的结果来帮助我们进行判断。
(未完待续)
转载自:https://blog.csdn.net/allenlu2008/article/details/47152263