吴海山百度大数据 百度用大数据在中国找到 20 个鬼城这是怎么做到的

2017-07-08
字体:
浏览:
文章简介:"这块区域林立着办公楼.服务中心.博物馆.剧院和运动场,还有成片的联排别墅.按照最早的设想,这里会容纳 100 万人口居住和生活,但现在一个人也没有."2010 年,<时代>杂志在内蒙古鄂尔多斯的康巴什地区拍了组图片,把这个当时人迹罕至.过度开发的新城区称为 Ghost City,后来"鬼城"成了你在媒体上经常看到的词语.<时代>在 2010 年拍摄的鄂尔多斯这个热门词曾经一度受到争议,"鬼城"也成了颇有中国特色的现象.而

"这块区域林立着办公楼、服务中心、博物馆、剧院和运动场,还有成片的联排别墅。按照最早的设想,这里会容纳 100 万人口居住和生活,但现在一个人也没有。"

2010 年,《时代》杂志在内蒙古鄂尔多斯的康巴什地区拍了组图片,把这个当时人迹罕至、过度开发的新城区称为 Ghost City,后来"鬼城"成了你在媒体上经常看到的词语。

《时代》在 2010 年拍摄的鄂尔多斯

这个热门词曾经一度受到争议,"鬼城"也成了颇有中国特色的现象。而做互联网搜索的百度,最近想用大数据更精确、更科学的说明"鬼城"到底是怎样一种状态。

百度的鬼城研究能让你看到什么?

打开百度鬼城项目的专题页面,你首先看到的是一张中国地图,其中红色区域就是百度用算法分析得到的高空置率区域,也就是所谓的"鬼城"了。你能放大来看具体某个城市的某个区域。

不过这 20 个城市并没有按照空置率的高低做出排名,百度大数据实验室研发工程师、也是鬼城项目的主导人吴海山告诉《好奇心日报》,他们实际上无法做出一个客观的"鬼城排行榜":"按照规"鬼城"区域的面积吧,不同城市的面积大小不一样;按百分比吧,城市又分老城和新城之分,拿谁来计算呢?"

你也应该注意到了,这些城市里有些被标注为蓝色,它们是百度定义的"旅游城市",这些地方的人口呈现季节性流动,所以它们并不是鬼城。

"这个结果并不代表整个城市是个’鬼城’,只是一些区域空置率较高,叫做 ghost town 可能更科学一些。"吴海山说。

根据计算,百度总结出的 20 个典型鬼城,单位最小到区县。这些城市包括威海乳山、鄂尔多斯东胜区、天津滨海新区、成都市双流县等等。

为了研究鬼城,百度调用了你使用手机地图的数据

这个看似庞大的项目实际上只花费了 2 个研究员 4 个月的时间来完成,它是第一个使用大数据这个相对客观的方法来研究鬼城的项目。

在这之前,对住房空置率的研究算得上是"原始级别",比如在夜间清点某片区域的灯光数目,或者通过电话访问调查住户情况。

"这些研究大多从宏观层面说,没有说具体鬼城‘鬼’在哪里?到底哪些区域是空的。"吴海山认为,用大数据作为研究方法更为精确。

鬼城的计算过程大致分为两个部分。

研究人员首先通过搜索全网的数据和信息,来确定研究样本的范围。诸如安居客这样的房地产网站可以帮助吴海山的团队确定哪些地方是住宅区,写字楼、别墅区会被算法筛除。

确定居住区以后,下一步是确定每一片居住区的入住率。在这里,百度用了手机应用的数据。

也许你没有意识到,每一次当你打开那些能定位的应用,百度都会记录下你的搜索关键词和位置信息。这些数据构成了鬼城研究的基础,百度一共调用了 6 个月的用户信息。

这些信息不仅仅来自百度自家的百度地图应用,所有使用百度地图接口的第三方应用比如百度糯米,都被包含其中。

吴海山说你完全不必因此担心隐私问题:"定位数据本身在百度有很高的隐私级别,我们要使用的话是要经过非常严格的审批。能够识别出来用户,ID 身份也全部是加密的。"

有了这些数据,百度用算法筛选出住宅区作为样本,在这些地方上划分出一个个最小的研究单位,如果某个单位内的人口数目如果小于一个既定值,即判断为空置区域。

这些区域会被标注,再经过一些列的校准比如和卫星图对比后,最终的宏观结果就是你所看到的一片片红色的方块。

吴海山告诉《好奇心日报》,利用这个算法得出的结果,实际上很难衡量准确度,而且产生数据的手机用户也大多是年轻人。不过他觉得目前的数据衡量是否是空城还是足够的:"国内大概六亿多移动用户,手机百度、百度地图这两个能够达到 90% 的覆盖率肯定是没问题的。"

实际上百度算出了 50 个"鬼城",最终呈现了其中一部分

鬼城背后是百度的大数据实验室

鬼城是个偏向学术和公益性质的研究。吴海山和他所在的百度大数据实验室,同时也在进行着一些商业化项目,比如可以帮助商户科学选址的"百度慧选"。这是这间实验室 80% 的工作。

这个在今年 8 月上线的数据平台调用了用户的搜索数据。比如你打算在某个商业街开一家火锅店,百度会告诉你这个区域有多少人在搜索"火锅"这个词,从而帮你选定一个合适的开业地址。

"中国的中小型企业(做决策的方法)还是比较原始,我们要去帮助他们精细化的操作,大数据是非常能发挥功效的。"吴海山说,用大数据解决商业问题是个很大的市场。

百度为了让众多产品线积累出的数据发挥作用,将它们整合成一个大数据平台,包括大数据实验室在内的百度内部机构和外部公司,都能从这个平台上获取数据。

吴海山说,调用数据需要经过严格的审核。"我们有一个使用的政策,合作伙伴用的和商业用的,数据级别是一样的。"

大数据实验室是李彦宏"投资未来"的举措之一,2014 年成立的"百度研究院"还下设了另外两个实验室,分别研究深度学习和人工智能。

与之对应的是,百度在今年第三季度为研发支出了 26.9 亿元成本,同比增长 46.9%。

不过百度依然是个靠网络广告生存的公司,在这一季 183.83 亿的总营收中,有 125.19 亿 来自于此。 未来我们能看到多少类似鬼城这样的项目,最终还是取决于百度的广告生意能有多好。