Everyblock的新地理编码修复

技术鸡尾酒会-08.jpg
阿德里安全息图。(图像由 加法理论通过Flickr

最近我写了一篇关于a洛杉矶警察局地理编码数据故障lapdcrimemaps.org网站以及数据库支持的超本地站点网络,每个块.

在4月。8,Everyblock创始人要说Adrian Holovaty在博客中介绍了他的公司的两种方式解决不准确的地理数据问题.

  1. 纬度/经度交叉检查。“从现在开始,与其盲目依赖数据源的经度/纬度点,我们用我们自己提供的地址地理编码来交叉检查这些点。如果洛杉矶警察局对某一特定犯罪的地理编码与我们自己的地理编码结果相差甚远,那我们就不会对那起犯罪进行地理编码了,我们在犯罪页面上发布了一条注释,解释了为什么地图不可用。(如果你好奇,我们用375米作为门槛。也就是说,如果我们自己的地理编码器找到了一个点,离洛杉矶警察局提供的点超过375米,那我们就不会把犯罪放在地图上了,或者在街区/社区网页上。)
  2. 堆焊ungeocoded数据。“从今天开始,只要我们有按邻域排列的总图表,邮政或其他边界,我们包括号码,和比例,无法进行地理编码的记录。每个位置图都有一个新的“未知”行,提供这些数字。请注意,从技术上讲,这一数字不仅包括不可编码的记录,还包括任何成功地进行了地理编码但不位于任何附近的记录。例如,在费城犯罪部门,你可以看到,在过去30天里,1%的犯罪报告发生在一个“未知”的社区;这意味着这35条记录要么无法进行地理编码,要么就位于我们编制的费城周边地区之外。”

这些策略可以——也可能应该——被任何依靠政府或第三方地理数据发布在线地图的组织所采用。

Holovaty的文章也包含了一个很好的关于什么是地理数据以及它如何在实践中工作的简单语言解释。这是在网络时代构成新闻101的一种信息。

注:这篇文章最初发表在《波因特》杂志上电子媒体趣闻

重新写这篇文章[和泽曼塔一起]