空间统计之七:中心要素
写到这一章,空间统计系列的内容已经写了七章了,前面的所有内容包括了空间统计的几个基本理论基础,如空间自相关、空间异质性、莫兰指数、空间关系概念化以及他们之间的量化度量方式P值和Z得分等,那么空间统计学与经典统计学在理论上的不同点,就说得差不多了。毕竟空间统计学还是发源于经典统计学上面的,经典统计学上面的很多概念,在空间统计学里面也照样能用得上,所以从今天开始,我们会介绍一些经典统计学上的概念内容在空间统计学上代表的意义和作用。
要说到统计,大部分人脑子里面马上就会蹦出一堆的折线图、饼状图、柱状图等等,当然这些图表所能表示的内容和想要表示的内容,都是由人们去进行判读的。
在这些进行需要人工识别判读的关键性指标里面,让人更耳熟能详的,无非是“平均数、中位数、众数”这种能够对整个数据样本有代表性的一些值。
同样,在空间统计中,也会去寻找这样的具有代表性的值,如今天我们要说“中心要素”。
在经典统计学中,中位数表示从它开始,可以将整份数据分成上下两个部分,关键是这个数不能是被计算出来的,而是数据中的一个样本(当然,如果是偶数个,那么是中间两个样本的平均值)。
那么如果是空间数据,比如一堆点,那么我们怎么去选择它们的中心要素呢?
经典统计学中,对一组数据进行排序之后寻找中位数,往往都是一维的,也就是排列成了一条直线队列,这样很容易找到中位数。
但是在空间分析中,哪怕是点状要素,也是平面二维分布的,那么如果让你对二维平面的数据线进行一个排列,那么安装你的想法,如何进行?以X坐标为准,Y坐标为第二顺位?还是以Y坐标为准,X为第二顺位?南向北排列,还是北向南?所以在二维平面上进行排列,本来就是不靠谱的事情。
那么中心点,有什么作用呢?
看下面这个例子:
这里面的每一个房子代表是城内的一个仓库,现在有一批货物,要分发到每个仓库中去,那么我们要关心的是,如何选择最少的成本,也就是最短的运输路径来完成。
如果按照传统的思想,我当然找到一个中心点,这个中心点离所有的仓库的距离都差不多,这样当然是最好的,但是如果这个中心点并非是一个仓库,难道为了这个中心点,我们还要新建一个仓库么?那当然是不可能的。
所以我们要从这些仓库里面,寻找到位于最中心的一个仓库,从这个仓库出发,到所有的仓库,他们的路程距离最短。
这个仓库,就是中心要素了。计算如下:
如上图,红色的这个点,就是所有仓库的中心要素了,它可能不在所有数据的中心位置,但是它是现有数据中,所有其他要素的最小累积距离相关联的要素。
当然,在ArcGIS里面,还提供了权重选项,如果选择了加权,就还可以设置其他的条件,比如考虑到仓库的承载量等。
关于加权的问题,我们以后再说。接下去,我们继续说他的工作原理。
经典统计学里面,寻找中位数的方法,是对样本数据进行排序,然后按照样本的个数,找到中间的那个数据,在空间统计中,因为无法直接进行排序,所以需要把二维空间点的分布,变成一维的线性排序来寻找。
这个变化的方式,就是用点与其他每个点的距离之和,来作为该点的值,如下:
A点的距离总和 =
7 + 9 + 4 + 7 + 7 + 3 = 37
B点的距离总和 = 3 + 4 + 3 + 6 + 6 + 3 = 25
以此类推,把所有点的距离总和都计算出来,然后进行排序,最后距离总和最小的那个点,就是所谓的中心要素。
距离计算的方式,ArcGIS提供了两种,分布是欧式距离和曼哈顿距离,当然,你如果已经明白了这个工具的算法,自己去写代码实现也是可以的。
中心要素的作用很广泛,像上面举例的仓库选择问题。当然还有很多应用,比如:我现在要建立一个超市,我当然希望找到所有居民都路程最短的地方来建立。但是城市规划可不会容许我计算之后,选择最佳的位置,他肯定已经画出了若干地块,我只能在这些地块里面去选择最优的一块,那么这个工具和算法,就能派上用场了。如下:
每个一个小块,表示一个小区,那么如果按照计算,红色的点,作为中心点,肯定是效果最好的,但是未必允许你使用,下面这些是允许你建立超市的地块,如下:
每个一个小块,表示一个小区,那么如果按照计算,红色的点,作为中心点,肯定是效果最好的,但是未必允许你使用,下面这些是允许你建立超市的地块,如下:
那么你会发现,你计算出来的点,根本就不能用于建设超市,只能从这些可以建设的区块中去挑选,继续计算:
挑选出了,最中心,而且允许我们进行建设的那一块地。
像我上面的这个计算,你就无法通过现成的工具来直接实现了,因为你是要计算与所有区块的位置,然后再挑选出符合建设的用地,所以我上面所说的算法,你就可以自己进行编程实现了。
过程如下:
1、计算出每一个面与其他所有面的距离的总和。
2、挑选出可以用于建设的那些地块,进行排序。
3、取出距离总和最小的结果,作为中心要素。
最后总结一下空间统计里面的中心要素与经典统计里面的中位数的异同点
相同点 |
不同点 |
1、寻找到的数据,都是样本数据中的一个样本。 2、从位置上来看,中位数和中心要素都是到所有其他样本最近的一个点。 |
计算方法不同。中位数是通过排序然后通过样本在序列中的位置来确定的。而中心要素是通过与所有要素的距离总和进行计算,得到距离最小的那个要素。 |
如果对文章有疑问,请关注虾神的微信公众号:
转载自:https://blog.csdn.net/allenlu2008/article/details/47704215