白话空间统计十三:零假设(补记)
说在前面的话:前面花了好多章来讲各种数据分析的方法和例子,突然发现我原来设想的主线乱了。我的设想是对空间统计进行科普型的描述,结果写到后面,特别是这几章(准确说是从填中位数中心的算法坑开始),幸好有吴道长果断提醒,说我偏离方向了,我才豁然省悟。再次友情感谢吴道长(PS:吴道长是GIS圈子里面古玩玩的最好的,古玩界里面,GIS技术最好的综合性人才)。所以从今天开始,我继续把空间统计里面那些绕口的理论变成大白话写给大家。
好,继续今天的内容,其实零假设这个内容在讲P值和Z得分的时候,已经专门用一章来讲述过了,但是好几次都遇上有人问我,而后又表示前面那一章文字描述太多,没有看懂云云……所以我准备再花一章的内容,用图的方式来讲一讲。
其实要说到零假设,最早也还是由罗纳德·艾尔默·费希尔(Ronald Aylmer Fisher 1890~1962)爵士在他的《试验设计》一书中提出的,就是前两天说线性平均方向那个费希尔爵士,要说统计算法,以后他老人家会重复重复再重复的出现在我们的文章中。因为作为“现代统计学之父”的费希尔爵士,号称是“以一己之力独立创建了现代统计学的天才”(丹麦统计学家,统计学史的作者安德斯·哈尔德语)。
再贴一张这位老帅哥的相片:
零假设在统计里面,是用来干嘛的呢?
简单的说,零假设最早是为了解决瞎猜的问题。
看下面这个例子:
现在进入经典统计学里面的标准示例——丢硬币:
一个号称赌神的人,说他能够猜中丢出的硬币的正反。现在来验证一下这个赌神是否名副其实,然后我们来丢硬币,让这个赌神猜,那么如果只丢三枚硬币的话,瞎猜也能蒙对12.5%,这能够说明赌神有猜中硬币的能力么?
为了证明(或者推翻)这个赌神确实有这个能力,所以就加大样本数量,比如:我们一次性丢出10枚硬币,如下:
10枚硬币,一共有1024种组合,那么如果他是靠蒙得话,就只有不到1%的可能猜对,而在这种情况下,他还能够准确说对每一枚硬币的正反,那说明这个赌神的确有可能有猜中硬币正反的能力。
但是,是不是一定有呢?能不能消除瞎猜这个可能?继续加大硬币数量,比如扔出15枚硬币:
靠猜中的结果就变成了十万分之三了。但是不管你加多少硬币,都不可能把靠瞎蒙的机率降低到0,所以当这个机率下降到一定程度的时候,我们就说,已经拒绝了瞎猜的可能性,也就是拒绝了零假设。费希尔爵士认为,这个临界值就是5%,只要是单纯靠瞎猜的成功率,超过了5%,那么就表示拒绝了零假设,而不需要达到1%甚至。
这个5%在各行各业中都在不断应用集成和发展,空间统计也是一样。
继续看例子,比如一个城市的犯罪事件,假设没有任何的附加条件,应该是这样的:
也就是城市的每个区域,他的犯罪率应该是相同的。嗯当然也有可能是这样:
也就是说,在城市任何一个角落,都有可能发生案件,也有可能不发生,完全是随机的。这与均匀分布不同的是,均匀分布是每个角落都有且只有一例(这是几乎不可能的)。相对来说,随机发生的可能性就大很多了,有可能这个区域一起都没有,也有可能连续发生好几起。
那么作为分析师,你首先要告诉我,拿到的这份数据是不是随机的,有没有随机的可能。如果是随机的,就说明罪犯是无目的的犯罪,走哪逮哪,完全靠瞎蒙。
无目的的犯罪是最麻烦的,罪犯没有目的的瞎蒙,那么警察也只能跟着瞎蒙……
为了不瞎蒙,就要先进行数据的探索和分析了。
首先,假设罪犯就是无目的的犯罪,如果能够推翻这个假设,自然就证明了罪犯是有目的的,这样才可以进一步进行分析。
这个假设罪犯是随机犯罪的过程,就是所谓的零假设,接下去计算这个零假设的可能性,也就是前面所过的p值和Z得分,如果符合真实的罪犯犯罪数据,与我们的假设有超过5%的重合可能,那么就真有可能这些罪犯的作案过程就真有可能是随机的。
过程如下:
那么如何判定是否拒绝了零假设呢?这份数据是否随机呢?请回头去看把话空间统计第四章:P值和Z得分。
最后,总结一句话:我们做的所有计算,最后的目的就是为了推翻零假设,零假设的存在,就是为了让我们去拒绝的。
(看到这里,想到老夫就像零假设……被无数女生拒绝……遂有感而发)。
转载自:https://blog.csdn.net/allenlu2008/article/details/47950451