处理不断增长的数据集
目录
Aaron Morris是Allvision IO的首席执行官兼联合创始人。Allvision IO利用多个3D数据来源,利用机器学习和云计算创建可操作的洞察力。他在匹兹堡的卡内基梅隆大学攻读机器人学专业,开始了他在科技领域的旅程,并最终创立了Allpoint Systems。该公司最终被Autodesk收购,在Autodesk工作了五年后,他于2017年创立了Allvision IO,意识到从收集的数据中获取的洞察力中存在信息上的差距。欲了解更多信息,请访问www.allvision.io。
这次采访已经经过轻微编辑,以便简洁明了。
在地理空间行业中,现在可以利用人工智能(AI)做到几年前无法做到的最重要的事情是什么?
归结起来,我在很多演讲中经常使用一个广泛的术语,即数字孪生。它是高清地图的基本概念,以及保持新鲜、实时的难以观察到的资产数据库,通常是在卫星或飞机无法观测到的尺度上。我们绘制了许多城市环境,因此可以定位消防栓、路缘石、公用电线杆和路灯等物体。这里有大量的基础设施。当我开始了解时,我对这个世界中还有多少未知的事情感到惊讶。
因此,即使只是几年前,在历史上,如果一个城市计划升级卤素路灯,对这些清单进行清点的主流方式就是:“嗯,我们那里有多少灯?”它们显示在Excel电子表格上,写着在福布斯大道。我不知道。即使只是几年前,收集这些信息也是非常手动和严格的。即使使用数字手段,我们与许多城市和政府进行对话时,他们会说:“我们将使用Google街景进行虚拟步行和审核。”这只比实际步行街道稍微好一点。如果你开始计算完成一个资产需要多长时间,数字将是令人震惊的。
在那样的规模上维护任何可靠的资产数据库的想法是不可能的。你可以进行一次性的研究,但仅限于此。但这正是人工智能可以并已经开始发挥作用的地方。它是一种工具。它不是万能的,但它的基本功能是利用现在可以轻松获取的大量数据。我不会说这很容易,但现在比以往任何时候都更加容易得多。然后开始对数据进行挖掘。找出一个看起来像这样的东西。即使它不是理想的,从时间的角度来看,它比人们通过虚拟或手动浏览数据并进行工作要好得多。
这就是我看到人工智能的作用。我们第一次可以提取这些大规模数据集中的关键地理空间信息。而真正有趣的是,它以两种方式推动了过程。首先,它允许进一步的训练,因此每当这些算法有所改进或出现下一组深度学习模型时,你不必从头开始。你不必创建新的先验条件。你已经有了这个现有的标记图像数据库和已经完成的工作,可以启动下一个阶段。
第二个是它允许验证,因为很多人没有意识到人工智能中有多少人力工作,无论是在标记方面,用于训练系统,还是在后期的质量控制方面。你将看到我们将开始加速。所以下一个周期,你已经知道事物大致在哪里,并且有一定的质量控制水平。
下一次迭代发生时,为了达到更高质量所需的时间将减少。它将带来更精细的细节水平和更细致的粒度。人工智能现在真正让我们达到了一个高频率、可靠的数字世界表征,因此产生了这个数字孪生的概念。
在您的工作中,您能想到应用人工智能于地理空间工作流程并取得积极成果的例子吗?有什么好处?
“我不一定知道所有可以利用人工智能做的事情,但我觉得一旦我们达到一个可靠的、得到维护的数据库的阶段,构建在其之上的应用可能会令人惊叹。”
我的意思是,我们是一家人工智能平台公司,但并不是每件事都进行得完美无缺。有许多项目可以说真正展示了它的能力。例如,我们的一个客户是纽约市。在疫情前,他们实际上要求我们进行路缘研究。目标是了解有多少可用的停车位,什么类型的停车位,他们还在考虑拥堵收费和其他问题。然后疫情爆发后,这种研究转变为公交车站和无障碍设施。直到今天,他们仍然对如何到达公交车站以及周围的情况非常感兴趣。
在这五个行政区中有15,000个这样的公交车站。他们有大致的地图位置,但当你想要考虑无障碍性时,必须看一下,路缘石离地面有多高?那里有没有遮蔽物?有没有消防栓或其他可能阻挡人行道的东西?因此有更多低级别的细节。简单的事情,比如他们在纽约有一种称为Lollipop的特殊标志来标识公交车站。我们已经进行了大量的标志工作,但实际上没有那个特定的资产,但是因为我们已经有了一个现有的模型,知道什么是标志,只需几个示例展示给它,“好的,这就是Lollipop”,它基本上就可以找到每个公交车站的位置。这是一个例子,因为我们已经有了一些已经构建好的东西,所以几乎不需要付出太多努力,我们能够迅速地找到它。
我们与他们进行了试点,以查看准确性。我们的做法是这样的,我们说好,一旦我们找到了公交车站,再找出其他六七个相关的资产,以了解无障碍性。因此,我们确定了人行道、路缘石、是否有斜坡,或者是否有遮蔽物。我们进行了这个过程,然后城市界定了,好的,如果基于这个比率的无障碍性是什么,你找到了吗?你找到了吗?你找到了吗?在完成第一轮之后,我们进行了分析,然后他们进行了自己的分析,以比较我们的系统和他们对这些站点的评估。
我们的准确率达到了93%,与他们完全一致的地图。我们之间的差异在于,有一个站点是看人行道是否更平坦和无障碍的,而混凝土旁边有一片草坪。我们没有考虑进去;我们只是假设如果是平坦的,而且没有障碍物,那就没问题。但是他们认为草坪是一个障碍物,因为你无法穿过它。因此,我们进行了调整。当我们重新分类时,我们确保,如果看到绿色,那就是不可访问的。准确率达到了97%到99%。它真的很准确,我们付出的努力很少。这是我们取得成功的一个方面。我们发现,在随时间反复出现的项目的第一次实施中,我们和系统在理解资产方面存在一点学习曲线。
但一旦被纳入到系统中,继续进行审计和评估就变得更加高效。
我们为货运铁路做了很多工作,关注他们的资产上的积极列车控制,比如信号、转辙器和交叉口。关于列车事故的新闻报道很多;最近刚刚发生了一个事故。
也许最近的那个事故与我们所做的工作无关,但是我们现在使用的系统,他们会在列车上安装一个传感器,沿着轨道行驶,然后将数据提供给我们。它完全自动进行审计,几乎没有任何干预。如果发现任何差异,他们将进行回溯,然后制定一个修复计划。由于多年来的实践,它现在对该应用进行了精细调整。
所以这些只是我们看到人工智能被用于快速审计我们所没有的事物的一些例子,或者随着时间的推移,对系统进行精细调整以保持事物的正常运行和监测。
有趣的是,我之所以涉足机器人技术,是因为世界上有很多东西人们都认为是理所当然的,其中之一就是基础设施。他们会抱怨坑洼很糟糕,但与此同时,他们从来没有停下来问:谁来修补那个坑洼?他们如何找出问题所在?所以他们希望一切都是完美的,他们希望它存在,但他们并不关心它如何变成这样,或者它如何被维护。
你对地理空间领域中人工智能的发展有什么期待?
老实说,有几件事让我感到兴奋。对我来说,来自创业方面最让我兴奋的是未被探索的可能性。我并不完全知道可以用它做什么,但我觉得一旦我们达到了一个可靠的、得到维护的数据库的阶段,可以在其之上构建的应用将是令人惊叹的。
我经常举的一个例子是Uber。
在某个时候,有人可能尝试过建立Uber,但是许多已经存在的技术的融合使其成为可能,比如地图界面、智能手机、地理定位服务,甚至支付服务。所有这些都已经存在,而这个数十亿美元的组织之所以诞生,是因为他们组合了其中的几个组件。
另一个令人兴奋的事情就是现在的数据量。我公司最初的一个版本真正困扰我的问题就是获取数据非常昂贵、非常困难。
现在有多个团队在进行地图绘制。自动驾驶车辆在这方面有所退缩。如果你追踪Gartner的技术成熟度曲线,你会发现他们现在处于幻灭谷。但对我来说,所有这些中的一个积极因素就是传感器和地图绘制方面的巨大投资。
现在像我这样的公司可以存在,因为我不需要去拥有任何采集设备。我不试图出售数据采集服务。我有供应商已经驾驶过或最近驾驶过或需要时可以驾驶过的数据,他们是我的供应商。我可以直接去找交通部门、城市,问他们有什么问题需要我来解决。我认为随着时间的推移,这种方式会越来越多。
你如何设想将来在工作中使用人工智能?
对我们来说,是要深入一些细节的工作。我们最早构建的,并且继续构建的东西,实际上是一个“找到我”功能,对吧?这里有这么多数据,找到这个,找到那个。虽然这个问题表面上听起来很简单,但实际上实现起来非常困难。在Geo Week上我做过一个演讲,在演讲中展示了停车标志的不同变种。光照消除,可能是晴天,可能是夜晚,可能下雨,可能多云,可能是涂鸦的停车标志。在你看来,这个东西可能只是一样东西,但在实际中有很多变化。
所以我们花费了很多时间来达到“找到我”的目标,但一旦你实现了“找到一个东西”的功能,你就可以开始问一些次要的问题。这个东西的状况如何?是不是变得褪色了,倾斜了,或者其他什么情况。你可以提取额外的属性。像路灯或电话杆这样的东西通常包含其他类型的资产,无论是它们自身的标志还是天线或其他设备。你可以开始理解它们上面有什么,结合不同类型的数据。所以,对我来说,从一个电信应用的角度来看,我一直觉得非常有趣的是将街灯和路标的地理位置与建筑物立面结合起来,再加上可能是信号强度编码的传感器。
你可以构建一个在非可见光谱范围内的地图,可以帮助你提高无线接入的质量,或者给你一个看不见的热图,一种找到纽约高楼大厦中信号不好的位置的方法。对我们来说,下一步我们要做的是拿出这个现有模型并进行精细调整。在扩展其能力以寻找世界上的事物之外,还有什么新的细节可以从中提取出来?
还有很多基础设施存在,很多组件,每天我都在了解一些新的资产,一些新的标志。我们的关注点主要集中在美国。一旦你转移到欧洲或亚洲,情况就完全不同了。现在是令人兴奋的时刻,随着数据的可访问性如此之高,我认为我们在所有这些方面真正处于一个增长点上。
而且我们谈论AI作为一个将人力劳动带走的工具。实际上,我认为恰恰相反。在帮助创建这些数据库并保持其维护方面有很多就业机会,而使用AI只是实现这一目标的工具。