空间数据挖掘与空间大数据的探索与思考(二)

教程目录

空间数据挖掘与空间大数据的探索与思考

可视化号称是数据分析的最后一公里,有时候(更准确的说,是大部分时候),一张图就够了。图1是美国2000年人口统计数据,灰色的球表示所在州的人口数量,而且按照球体的大小,也很轻易的分辨美国的三大人口中心:分别是纽约、芝加哥、洛杉矶,橙色的球代表原住民。如果看的不是图,而是将这张上的数据列出做成Excel表,估计打印20页没有问题,但是看一份二十页的表格容易,还是上只给出下面这样一张地图更明白的了解整个美国人口分布呢?自然是不言而喻的。

图1 美国2000年人口数据统计图(图片来源于Esri官方网站)

接下来我们来谈一下地理数据平台。这里有一个很简单的例子,首先看两份数据,第一份是中国各省的GDP数据,这个数据一般由国家统计局去管理和发布;

第二份是中国地质公园的分布图,大家都知道,地质公园代表的是某一类地貌特征,比如云南的石林,或者汶川地震纪念遗址等,这类数据在我国存放在国家地质调查局。

如果没有什么意外,这两份数据应该是老死不相往来的,一般情况下也不会想到国家统计局和地质调查局的这两份数据会有什么关联,但是如果有有一天,一个级别很高的领导,看见了这个数据,可能会想让你告诉他,中国的经济和中国的地质公园或者地貌特征有怎样的关联,你会怎么做呢?你可能会先到统计局拿数据,再到地调局拿数据,然后组织专家,写了一个500页的报告,提交上去……

但其实领导那么忙,哪有功夫看你这个500页的报告呢?他实际上只需要告诉他一个很简单的结论,并且让他很清晰的了解,而且他也不是真正需要精确到极点的数据,只需要你给他一个答案,使他脑子里面的信息形成一个闭合的决策链,这样就已经就达到目的了。

如果用地理平台来做这个事情的话,不需要复杂的报告,仅仅需要把两个图叠在一起就行,下面做一个GDP分布图,上面叠一个地质公园的图(见下图)。

这时候你就可以告诉他,中国的地质公园和中国的GDP没什么关系。所以我们说地理就是天然的数据平台,任何数据叠在地理上面,通过其空间位置关联在一起,就能形成完全不同的一套解答方案。所以我们学GIS的人在可视化和汇报方面有天然的优势,我们有一个天然数据可视化平台,地图就是这个天然的信息平台,任何数据都可以放在上面。并且通过数据空间化进行横向的关联,以得到新的信息和结论。

这些数据,都是直接浮现在表面上的,所以有些时候光给一张图是也还是不够的。

比如像这种情况:如果我是某个学校的校长,有一天教育局局长来我的学校视察,然后我俩在站台上看。课间操铃声响了,所有学生都跑出来,局长就问我,下面这些学生里哪些学生关系好?我作为校长只能回答“对不起我不知道”,局长就会说你这个校长当得不合格,哪些学生关系好都不知道。

再接下去,体育老师的口号响了,所有学生都排得整整齐齐,局长又问我,“刚才学生很乱,你不明白我原谅你,现在他们站得这么整齐了,请问哪些学生关系好?”我也只能继续回答不知道。所以在数据分析中,均匀分布和随机分布的内涵基本上是一样的。

那么什么时候可以知道呢?课间操之后,体育老师说解散,这时候我们再看这个分布情况,就很清楚了,现在可以告诉局长哪些学生关系好,哪些学生关系不好。实际上,这就是地理分析里面的空间自相关,通过某一类关系,人类可以自然而然地分成不同的类别,这是我很喜欢的一个例子。


 

转载自:https://blog.csdn.net/allenlu2008/article/details/79599793

You may also like...