大数据分析――希拉里邮件门的数据探索

36大数据
11月9日中午,不关心也不懂政治的我忽然非常感动,多少,我们在朋友圈的直播里见证了一个以一敌万的故事,这不是武侠小说,也不是好莱坞电影,而是2016年美国大选,几个黑客掀起的希拉里邮件门,多少让川普弯道超车,让看起来稳赢的希拉里最后黯然退场,黑客应该争取了关键的, 超过两位数的的支持率。

11月10日,美国著名的黑客Kim Dotcom在Twitter如是说(他的彪悍人生可自行google)

36大数据

什么是邮件门

邮件门是希拉里以及周边的重要人物的电脑被黑客攻击/内幕爆料的后,通过wikileaks(维基解密)在网上公开的邮件。

邮件门之前,我没有怀疑过美国的民主与科学, 然而事实上有人的地方就有江湖,邮件门的关键词颠覆了我的世界观,沙特财团的联系、政治现金、邪教、买官、媒体串通……

更要命的是非常可疑的暗杀事件,许多反对希拉里的人都会以非常奇怪的方式集中式死掉

36大数据

大选期间维基泄密被长城封了,因此我爬取了维基泄密上三份邮件泄密的所有数据>>>邮件门数据 。如果你对数据有兴趣,可以直接在这里下载,而下一步,我做了个网站 www.hotu.co/hillary 你可以自己去探索这份数据集。

解读网络的基本知识

在我们的理解里,这世界上的事物与关系,正如点与线:点是实体,线是他们的联系,比如人是实体,而2人的电话是是他们发生了一种联系,正如两个点和他们的连线,同理,发货人和收货人是点,物流是线,收款人和借款人是点,交易是线,两边的邮箱是点,邮件是线。

一封邮件是1一个人给n个人的通信,你写邮件的时候可以给一个人,也可以给一个组,所以一封邮件表达的人与人的通信关系,基本是这个样子(发件人为from,收件人为to):

36大数据

可以想象,许许多多的邮件构成了一个网络, 但因为我们几份数据的采集不一样,网络的构成其实是有差异的,比如说DNC的邮件是是服务器的邮件被复制,还原了一个组织的内部沟通,所以并没有一个特别显著的中心,而podesta和希拉里的邮件,都是自己的邮箱被公开,所以还原了一个人的联系记录,他们就很显然地处于网络的核心位置。

但其实这些网络也是较为复杂的,本质上,这是一个他们社交关系的2度网络:即你给希拉里发了邮件,抄送或发送a、b、c(小黄点),其实a、b、c和希拉里不认识,但确实有关联,大家都在一个以项目作为划分的圈子里,因此之后我们会在网络图里经常会看到这样的结构

36大数据

力引导布局

某种意义上说,网络关系和形状可以关系不大,比较下面两种网络, 因为点和点的链接没有变,其实本质上是一样的:

36大数据

然而,两种图给我们的感受是完全不一样的,因此在这个领域,有一种术语叫layout(布局), 简而言之layout就是给点线排位置,影响的是图最后的形状。

假设我们有1000个邮箱,其中的邮件往来关系可能有1000000 = 1000 * 1000种,如果考虑邮件的方向 有 2000000种。

然而事实上,人以群分,物以类聚,我们的社交关系、电话联络、邮件往来、交通网络都会形成聚落关系,你可能和你的小学同学是个两两认识的联系网络,身边的同事,兴趣圈的朋友同样是聚集的小网络,而聚落之间的通信则很少,道路网络也是一样,城市和城市密集的路网之间是稀疏而漫长的的高速公路和国道省道……

如果要刻画这种疏密有致的聚类关系,我们可以用力引导布局(Force Layout)算法实现。

不明觉厉的名词背后,往往是简单而朴素的直觉,力引导图的本质是什么,回忆中学的物理,如果一组正电荷在一起,一定是因为同性相斥四散而去,而如果正电荷之间有了弹簧,弹簧之间互相吸引,则会取到一个平衡。那如果弹簧就是邮件关系,我们就可以让互相联系的组织因为引力聚集在一起,而不联系的群落之间则互相疏离,我们就会得到一张网络关系图,比如:

希拉里网络

希拉里是个对科技发展有点淡漠的老人,她热爱黑莓手机,中间手机坏了几次,换完手机牌子还是黑莓,也许因为希拉里经常用手机发东西,所以邮件经常只言片语,其实有用的信息不是很多,但其集中度很有意思。

希拉里三大亲信

如果在希拉里网络关系 点击一下,一张高度集中的网络猛然呈现。

希拉里的邮件两万七,但联系人仅三百多,而且最后归结到3个超级联系人,集中度令人惊叹,比如这是谢丽尔.米尔斯( Cheryl.Mills), 和希拉里发了4400封邮件,外加希拉里回了1000多封,也就是,希拉里1/5的邮件和她发的。

36大数据

当然这3个联系人里最有名的当属胡马(Huma),如果对邮件门有个大致的了解,应该知道胡马的丈夫Weiner的出轨门,Weiner因为在色情网站上发裸照等等事情被FBI捉拿,然后被爆出电脑里藏了大量希拉里的机密邮件,也是FBI开始调查希拉里的理由之一。

如果我们把这3个邮箱头往google一搜索,信息一下子就丰富了,和生于1947年的希拉里比,三大心腹人种各异,而且都是小鲜肉,最老的也和希拉里差了20岁, 如果算上从podesta邮件组发现的 Robby Mook, 这位哥也是70后。

36大数据

希拉里和竞选会很少联系

我们知道希拉里竞选会的主席是Podesta,而三大邮件门事件中,丑闻最多的就是Podesta,所以我们可以在搜索框右边选择邮件搜一下Podesta,然而结果极为惊人,这么一位老伙计,希拉里几乎从来不联系,仅有的联系也是Happy Birthday和现在能不能通个电话一类的…

36大数据

这里面有几个可能,首先希拉里的邮件是美国政府有选择性公开的,所以可能没把Podesta和希拉里的联系公开出来,此外美国政府公开的邮件里只有名字没有邮箱,而去 Podesta的邮件可视化搜索希拉里的几个邮箱,发现只也只联系几个人。

事实上希拉里有无数马甲。为了查清楚明细, 按照网络的资料,搜集了希拉里的一堆邮箱:

36大数据

在podesta邮件中,除了Podesta本人,发现和希拉里联系仅有的几个人:

36大数据

这个联系人里其实没几个人,比如三个邮箱都属于 Robby Mook,希拉里竞选会的经理

因此,有个小结论:

希拉里通过三大亲信和外界联系,包括Podesta

我们去 Podesta的邮件可视化 搜索下几个朋友的邮箱,马上就出来了,三大亲信都联系了Podesta,但其实,三大亲信很可能都有好几个邮箱,比如胡马就至少有3个:

36大数据

Podesta邮件门探微

Podesta的邮件破解源于一封钓鱼邮件,黑客伪造了一个看起来很正常的邮件链接,podesta点击了一下,导致十年来的邮件完全被黑客复制了一份,Podesta比希拉里勤勉多了,十年来邮件数据库dump文件就有数百兆(全是文字啊亲)。

Podesta 邮件总览

Podesta的邮件长达十年之久。

因此,这个聚类囊括了Po主席十年的联系关系,如果我们用颜色区分邮箱的域名,这种分布其实和邮件网络的聚类很接近,相同颜色的点都在一起。

左下方的多是其大学law.georgetown.edu 圈子的邮件 ,圆圈里的邮箱主要是希拉里身边的人,邮箱要不是 hillaryclinton.com 的 要不是hrcoffice.com的。右上角的基本是现任政府的,要么是barackobama.com 的要么是 ptt.gov的。

还有些小的聚落,比如albrightstonebridge.com 是一咨询公司,有意思的是你可以在dnc和podesta的邮件体系里发现好几个咨询公司,这些应该都是政府的智囊团。

36大数据

搜索名字包含Podesta的邮箱,发现有好多个,左上角可能是他家亲戚的邮箱,他们也和主席发邮件。

而很有意思的是右下角的邮箱podesta@law.georgeton.edu ,这个应该是他在学校申请的邮箱,找他的人一堆从来不回, 因此很可能别人发邮件抄送了2个邮箱,但他是回复在另一个邮箱,而且,联系这个邮箱的人基本不给他gmail的邮箱发东西,我觉得,po主席尽可能用其他邮箱发邮件而不用gmail的。

36大数据

单独联系Podesta的人是谁?

podesta身边有好多点,这些邮件有几个特点

1、基本上只有直接和Podesta联系的人才会被引力吸到中心

2、大部分点很小,即没有发太多的邮件

其中很多发了很多邮件的邮箱从来就没收到回信,也不是Podesata的高冷,打开其中的一个,发现原来都是推送的新闻,想想也是,这些邮箱发送的信息很多,但从来没有抄送过谁,所以就被吸到中心了。

36大数据

但还有不少人是Podesta回过邮件的。你想,为啥这些人直接联系了Podesta,却从来基本从来没有抄送别人?,很可能是因为密不告人,如果是公事公办,一般也会抄送下老板什么的,如果我们进入这个区域,是很容易发现一些情况的,

比如(更多资料在这里) :

1、 POLITICO分管政治的主编Glenn Thrush, 有一封邮件是如何为希拉里团队写枪文。

36大数据

2、美联社记者Julie Pace为了希拉里团队写枪文。

36大数据

3、赫芬顿邮报记者Brent Budowsky写信给Podesta为自己的文章”The Magic of Bill

Clinton”邀功。Podesta的回复只是一个字”Yep”, 而Brent Budowsky自告奋勇去伪装出一种支持桑德斯的立场,这样桑德斯败选后,更有利于他去说服桑德斯支持者出来投希拉里的票。不过老哥确实挺有耐性的,写了250多封邮件,只回了30几封

36大数据

4、雅虎记者Katie Couric为希拉里写枪文。这位亲实在和Podesta联系太少了,才写了2次邮件,好不容易才把页面参数调整了(把很小的点找出来,电脑卡成翔了)才找到了这位同学。

36大数据

DNC邮件门

DNC(Democratic National Committee,DNC) 是民主党全国代表大会,基本是美国总统选举初期的时候开始,而这份数据是这个组织近一年来的所有邮件,据说这份数据是罗马尼亚黑客’Guccifer 2.0’搞出来的:

首先,list一下关键人物,这些身份在危机泄密里面都是有说明的:

36大数据

DNC的网络聚落像一只昆虫,头部是Jordon Kaplan 和 Scott Comer为主的财务和财政系,他们和许许多多外部的团体沟通,而身子则是DNC内部的骨干,业务为主的人员。

当我们点开头部财务系的周边的关联公司,可以发现主要是服务软件公司,策略咨询公司,金融服务公司,律师事务所等等, 这些公司可能是和dnc有资金上的往来,需要审批。而财务系统其实和公司内部同事讨论比较少,因此形成了一个独立的头部。

36大数据

如果我们通过内容搜索一个和财务关系不大的词,但是和政治有关,比如china, 就会发现都是业务核心部分的左下角的人在讨论:

36大数据

而希拉里身边的人,邮箱域名为 hillaryclinton.com 就是左下方的一堆大黄点,他们不和财务系统人打交道,也不是很边缘化,处在网络中处于下部的位置

但身子右下方有个很大的点,周边围绕了一圈外部的公司,这个点是通讯总监Miranda,从他周边的联系邮箱看,他主要联系网络媒体和传统媒体,LGBT网站,教师工会之类的非经济往来的机构,也和dnc内部的同事联系非常多,其邮件活动的覆盖可谓壮观,但其实并不怎么和头部的财务系统打交道:

36大数据

对这部分邮件,已经有许多很详细的解读 俺的英语太蹩脚,还是自行阅读吧。

更多有意思的探索

邮件只是整个事件的冰山一角,所有的人都深知邮件的危险性,比如一封谈论权钱交易的邮件里,huma说,这种事情最好还是别用邮件说了,也许因此,这些文件极大地激发了美国选民的想象力。

36大数据

所有的邮件数据都是非常庞大的记录,比如podesta,数据前后长达十年。因此你根据线索搜索许许多多和政治无关的关键字,也可以发现很多有意思的东西,比如搜索 zhang,wang,li,都可以找到邮件里的中国人。

又比如搜索 “alibaba”,也能发现许多报道,而且alibaba总是和Jack Ma的关键词一起出现, 比如马老板是美国人的座上宾,在DNC的一封来自白宫的邮件里,工作人员询问为什么马云出现在白宫, 然后另一个人巴拉巴拉说了一堆马云是奥巴马的朋友一类的话:

Jack Ma, the founder of Alibaba, was spotted leaving the White House. Can you tell us anything about why he was here?

但如果你搜索 “tencent”, “baidu”, 则基本无所获,但如果你搜索 “wechat”,则发现微信的使用已经深入到了白宫的政治社交圈,比如dnc和podesta的邮件里都有好多相关内容,有些外国人在邮箱里留了自己的微信号以便交流(搜了下竟然真找到了某哥们…),也有些微信号留的是宣传的公众号。

如果你搜索和国内政治有关的话题,才发现,原来希拉里以及周边的人都是非常关心中国的政治形势的,里面好多是Cheryl.Mills 发的,这里面非常有意思,当然这里不便多说。。。。。。

我们这辈子应该都没机会去美国从政了, 看着这份大数据集,是不是有种身临其境的感觉?那么 输入 www.hotu.co/hillary 探索这几份迷宫般的邮件网络吧。

资源来自网络,如有侵权请联系我删除。

You may also like...

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

CAPTCHAis initialing...