白话空间统计二十七:统计学七支柱之空间统计版本(一)前言

何为支柱?支柱的概念就是一旦出问题,整个体系就会轰然崩塌……今天有幸阅读到了中科院于淼老师的文章《作为世界观的统计学》一文,觉得深有感触,作为一个致力于推广空间统计的二流科普写手的虾神,觉得突然心潮澎湃,不以此build一系列空间统计的版本,太对不起这么威武的一本书了。所以就有了如下一系列文章。

另外,作为这本书的原文,统计学七大支柱,国内也已经有译文出版,大家可以访问如下地址:
统计学七支柱
http://bbs.pinggu.org/forum.php?mod=viewthread&tid=6221870&fromuid=6139125

本书是美国著名统计学家,统计学史专家,芝加哥大学统计学院教授Stephen M. Stigler(斯蒂芬.斯蒂格勒)的杰作,对统计学历史上里程碑式的几种统计思想的历史来源的回溯,记录的是数百年来这些思想萌芽和发展的若干瞬间。有些思想的发展或许并不瞩目,但源远流长。

这里所谓的七支柱,分别是:

下面对七支柱做个简单的解释(部分内容,引用网络上的部分原文或者大意)

支柱一:聚合(Aggregation)

聚合,或者翻译成汇总也可以,是统计学赖以存在的经典用途。最原始的统计需求就是对客观世界的抽象,跟农业最相关的天文观察要求所有测量要准确,但问题是每次测出来都会有差异,那么就需要一个方法来描述相似但不一样的测量值,这就是统计聚合思想的来源。任何分析都是无法将所有的细节都完整记录的,如果人类记住一切的细节,那么庞大的信息量会让大脑直接宕机,此时抽象的意义就很大了。现在比较火的大数据就好比这个人,细节丰富但需要有意识地抽象,不然就是一堆数字的堆砌。这里最常见的统计学术语就是众数、中位数还有均值,都是聚合抽象描述的体现。

在空间统计的领域里面,也有各类概念来表达,比如对于数据分布的整体描述,空间自相关,对于数据之间的差异性,有空间异质性等等。

其实这个思想提出时也是被批判的,因为平均这个概念经常会导致各种问题,而聚合出来的东西例如平均人不是客观存在的,也就没法指导具体事物的描述。但本来聚合描述的就不是具体事物,它用总结替代完整描述,通过选择性舍弃一部分信息来获得更有价值的信息,这可以说是统计学的一个根基。

支柱二:信息度量(Information Measurement)

将海量数据进行抽象聚合的时候,需要知道哪些信息需要保留,而哪些信息可以被舍弃。当我们构建一个统计量时,其实是丢掉了一些与目的无关的信息的。统计学的一个关键概念里面,抽样的样本数,并非是越多越好,因为到达一定程度之后,无论如何加大样本量,所获得新的信息也非常有限了。

比如经典统计学里面的抛硬币,抛100次硬币之后,正负的概率已经接近50%了,将这个次数提升到1000次甚至10000次,概率也不会有太大的变化。也就是说,后面90%乃至99%的新的实验次数,所提供的信息不回比前面1%的实验所提供的信息更多。

所以基于这个原理,做统计的人可以放心搞抽样以及基于分布的理论,而不担心丢失太多信息。

但是在空间统计领域,因为空间自相关和空间异质性的存在,如何抽样就成了一个新的大问题——如何保证抽样出来的数据保有了原始数据的空间相关性和异质性,是一个大问题……

支柱三:似然度(likelihood)

这个词对于非统计学专业的同学来说,是个足够冒出一脑袋问好的词语……实际上,似然度指的是在特定分布下出现的概率,简单来说,就是某件事在在限定的大背景下发生的概率。基于概率的推理本身就是统计学很特殊的世界观,简单说就是只要概率不为零,一切皆可能。

休谟认为奇迹是违反自然法则而不能发生的,但 Price 用贝叶斯理论推导认为即使发生概率很小,多次实验后也会发生奇迹,在这里经验法则跟统计规律就出现了对立。传统世界观是决定论的、逻辑的,但统计世界观是概率的,不可知的或可更新的,很难说哪种是世界本来面目,只能说这是两种认知角度,可以矛盾地存在于同一个人身上。

支柱四:内部比较(intercomparison)

所谓的“攘外必先安内”,有了面向背景目标的似然度,统计学可以解决外部比对问题,也就是跟预设分布去比较。然而,现实问题更多是数据内部的异质性所要求的内部比较,很多耳熟能详的统计方法例如 t 检验、方差分析、Bootstrap 等都是用来解决内部比较问题的。

支柱五:回归(regression)

回归思想应该是统计学作为世界观最直接的体现,一般人看世界是发展的或静止的或规律决定的,但统计学家看世界是自带回归视角的,也就是说,凡事都会回归到本来的样子,规律性是松弛有度的。

空间统计里面,加入了地理加权回归,为经典统计学的回归做出了卓越的贡献……另外,还有同学会问,回归或者地理回归具体有啥用,网络上有一个经典的说法就是:回归主要的作用就是被铺天盖地的论文拿来当炮灰(你看,俺的方法比回归好),或者在外专业里面当万精油(你看,俺跑了个回归,系数显著耶)。

支柱六:实验设计

统计学要为复杂现象提供合理的设计工具,时至今日,在数据概念满天飞的时代数据收集似乎不是问题,很多人就会说更重要的是提出问题。这倒没错,但如果没有统计学实验设计思维的加持,很多问题是无法对应实际数据的。

支柱七:残差

本质上科学就是通过解释剩余现象进步,而当今其实理论体系里留给重大发现的空间是有限的,所有人都在力图精进 1%,不过都是在 80%-90% 的基础上的,也就是大家伙都在当前的噪音里探索未知信号的模式。具体到统计模型就是对模型解释不了的部分与模型诊断的思想,有了这个部分统计学就有了不断发展的动力与自我审视的原则。

以上就是所有的统计学七支柱,下面虾神大约会用一个月的时间,将其解读为空间统计的内容……大家有兴趣的话,可以取网上搜索相关文章,也可以通过我提供的下载原书。

待续未完
转载自:https://blog.csdn.net/allenlu2008/article/details/80229070

You may also like...