郑宇城市计算 郑宇:城市计算如何解决城市规划问题(3个规划案例 4大经典选址模型)
推广:《城市数据师梦想特训营》原创大牛公开课报名详询QQ 3070403320
【新课程!城市大数据实操攻略】12月11日北京开营,火热报名中!面向城市研究和规划工作者的个性化定制课程,从大数据基础、互联网大数据、轨迹大数据、大数据可视化、Python、机器学习、到 R,城市数据师需要具备的一切技能都在此!(点击看详情)
现在生活越来越现代化,出现的城市问题也越来越多,例如交通的拥堵、能耗的增加、环境的恶化等。
在很多年前要想解决这些问题,看似是不可能完成的任务。现在我们有了各种各样的大数据,还有成熟的云计算平台,拥有的数据从社交媒体到交通流量、气象信息。如果使用得当的话,就可以利用这些数据来发现城市面临的问题,进一步利用数据来解决问题。
基于这样的挑战,我们从2008年开始提出“城市计算”这样的愿景,包括以下四个层面:
1 城市感知和数据获取:
参与感知,群体感知和移动感知计算
2 城市数据管理:
时空索引,流数据、轨迹数据和图数据管理,异构数据索引
3 城市数据分析:
数据挖掘、模式识别、机器学习和可视化
4 服务提供:
改进城市规划,缓解交通拥堵,节约能耗,降低空气污染,......
把这四个层面联成一个环路,不断的自动的在不干扰人的情况下来解决这个挑战。
之前发表的论文中有这个系统里面每个层面面临的挑战和需要的技术,典型的应用案例介绍,今天选一些与城市规划相关的应用案例跟大家分享一下。
案例1:利用人的移动数据和兴趣点来发现城市里不同功能的区域
区域里的功能并没有单一的,这个地方是科学文教区,可能里面也有商业和住宅。这个图是用两个数据做出来的北京市各种功能区划的表达,相同的颜色表示有相同功能的分布。比如红色区域主要是科学文教,我强调并不是一个简单的单一功能,而是多种功能分布,所以这里面相同颜色区域,具备的是相同功能分布的区域。
进一步来讲这里基本上是以科学文教为主,并不是每个角落都服务于科学文教,因此有必要对每一种功能的核心所在做一个划分。这个图反应的就是黑色右边就是成熟商业区的核心所在,越黑的地方就是核心商业区的可能性越高。
这是一个结果,那这个结果有什么用呢?城市规划一般都是十年一个版本,过了5年后,城市未必像设想的那样发展,变化的原因也很多。在做下一个版本之前要搞清楚当前城市什么状况,才能知道下一个版本怎么做。有人问这里有多少是商业、文教、景点,没有人会给出答案,这个时候就必须要利用大数据的技术来自动的算出这个结果来。
这里面用了两类数据,为什么是两类数据?兴趣点数据很直观,我们看到这边有清华、北大,自然就是科学文教区,这里还有餐馆。在数据库里面,一个是商场旁边的大型饭店,还有一个小区里面餐馆,即便他们在类别上表达相同的数据,但是它们反映的地貌却完全不一样,这个时候必须要用人的移动性来区别这种相同的数据。
左边的小餐馆可能只有周边老百姓经常去,是个便民服务点,后面的餐馆可能会有很多人从四面八方来。所以人的行为可以区分相同的数据分类。
人的移动性本身也反应了区域的地貌,比如8点出去,8点回来,这个区域是住宅区,把这两部分数据结合起来,动态加静态才可以真正反映区域的功能,以及区域在不同功能上的分布。
给大家一个简单的概念,带来一点新的思维,在这个里面机器学习里面有一个主题模型的工作,主要是用来做文本分类,把一篇文章做一个主题分布。比如说文章中80%讲猫20%讲狗,进一步文章的主题可以表示为词的分布,我们现在用这个模型做一个影射,把一个区域看成一篇文章,这个区域怎么定义,比如说城市主干道把城市划分为区域,这个区域里面的职能,就相当于人们出行的规律,人们几点出发、回来、从哪来,去哪里,这个数量就是词频,有50个人出去,有50个词频,有几个餐馆、学校,只要把这个模型引用过来,区域划分好,只要给定POI和人的移动性的数据,可以自动算每个区域在功能上的分布是多少。
所以,这是一个自动的算法。我们在北京做了一些验证,可以用这个算法对连续两年数据的进行分析,对比结果看变化是不是有道理。A区域在刚开始是浅黄色的新兴住宅区,到了2011年的时候,变成在建的灰色区域。我们觉得这个变化很奇怪,后来做了调研,这个地方是北京的中国村开建了,有大量的拆迁,出现这个变化的原因是因为人的出行规律变了。
下面是望京的对比,主要是规划为住宅区,我们分析的结果也是如此。我们发现有一些紫色的新兴商业区,这个是以前没有规划,是后面自发形成的区域。我们知道望京已经有几个新兴商业区了,要在下一个版本知道有几个商业区,不要再规划,这是一个提示。
案例2:城市道路交通
第一,就是搞清现状,知道城市的功能分布,知道核心所在。
第二,随着城市的发展,道路设计跟不上需求,能把这些跟不上需求的道路规划找出来,给他们建议,帮助他们做更好的规划,改进城市的问题。
要强调的是,真正的原因在这个区域里面,把这个城市用主干道分成不相干的区域,人在区域内部,从区域A到区域B完成任务,求学、求医等等,路面上的交通流量只是一个观察,并不是原因。根据这些元素,用数据挖掘的方法,检测出不合理的边,这个方法就不赘述了。
用这个方法可以找到边界点,我们不能根据一天的数据看出问题来,可能偶尔是一个交通事故,有必要在多天的数据上面做频繁的数据挖掘。
需要用算法找出问题来。很多天的数据综合在一起,看哪些问题是频繁出现的,把这些问题变成频繁指数挖掘的问题。如果这个问题经常出现,我相信不应该是交通事故的问题,而是真正设计不合理的地方,建议让规划人员考虑改进。
因此我们要研究的是区域内的连通性,连通性好不好,这个连通性怎么表达呢?我们把大量的出租车的GPS轨迹信息,映射到这些区域上,来建区域的图,其中的蓝点就是区域中心,是一个位置中心。
蓝色的线就是车辆轨迹,从每条边上可以提取很多信息,包括流量、速度、人们的绕路比。
这个是在2009年、2010年做的北京结果。道路不合理的地方,其中颜色越深,出现问题越高,就是设计不合理的地方。
这个地方在2009年的时候有一个瓶颈,原因是大家通过这个地方上四环,后面由于路打通之后,人们多了一个选择,从这个地方上四环。
从这个角度来讲,我们工作有两个价值:
1 从一年的数据里面发现问题,建议规划人员作出改进;
2 通过两年数据对比可以验证实施的规划是否起到实际作用。
我相信这点很重要,我们现在很多规划到底好不好其中心里没有底,有数据分析方法可以验证一下方法,对以后的工作也有很大的帮助。
案例3:城市黑洞
三个工作叫城市的黑洞。黑洞的意思是在一个时间段人们进入一个地方,进入的人数远远大于出来的人数,这个叫黑洞。反过来,出来的人远远大于进去的人,叫做火山。在城市里存在大量的火山和黑洞。
(原为动态画面:北京真实的实时火山和黑洞)
这个黑洞的大小是不知道的,在单位平方公里里面有多少人进去,我们不知道这个黑洞有多大,什么时候出现,在哪里出现,火山有多大,边界和外延在哪,人从哪来去哪里。
用数据的方法捕捉到黑洞、火山,建立黑洞火山的关系,这个方法很有用。现在OD只是一个方法。这个是北京真实的实时火山和黑洞,并不是一个路上,而是很多路的组合。这个问题很复杂,并不会预先知道在哪出现,红的是火山,蓝的是黑洞。知道这种黑洞的变化,随着时间的发展和火山的关系,对人出行的理解有很重要的帮助。
四大经典选址模型
下面,我再跟大家分享四个选址的工作。选址也是城市规划的一部分,总结了一下,在数学科学里面可以用到的方法里面,无非就是四个模型。
模型1:Optimal meeting points problems
(最优汇合点问题)
模型2:Maximum coverage problem- submodular maximization
(最大化覆盖问题)
模型3:Learning-to-rank problems
(学习排序问题)
模型4:Uncertainty minimization problems (entropy)
(不确定性最小化问题(熵))
选址工作1:利用大数据完善医疗应急服务
第一个我们叫做Optimal meeting points problems(中文含义:最优汇合点问题),是在北京市的一个救护车站的选址工作。
现在的救护车是这样工作的:病人打电话,120从救护中心派车救人,送到医院再返回救护车中心。救护车的车站并不一定都在医院里面,这是有设计需求的,因为要在20分钟之内要到事发地点,所以分布在城市的各个地方。
怎么设置救护车站的位置非常关键,以前的时候都是通过静态数据,比如POI,或者静态人口数据,并没有考虑到真实的人的需求。人口多并不一定求救多,这跟人的结构和年龄有关。
现在有真实的120的呼叫记录和交通流量记录,知道什么时候有什么人打电话,我们根据真实的请求数据可以重新布置站点。经过计算之后,变成下图的分布,可以缩短抢救病人的30%的时间。也就是说以前需要100个小时,现在只要70个小时,那这30个小时可以干什么?可以挽救更多病人的生命。
进一步规划出这个站点之后,要放多少车,这个也是一个动态的问题。早上需求量很大,晚上需求量很小,需要把车在站点之间动态调度。要回答一个问题,车救人之后要回哪里去,这个是一个自由的选择,可以使系统的吞吐量最大化,这个是动态调度的问题。它其实是一个Optimal meeting points problems的一个问题,也就是我希望找到一些点,是其他到这个点最优,平均最优或者最小。
选址工作2:充电桩覆盖数量最大化
第二个选址问题,是在贵阳落地的一个真实项目,用出租车的GPS轨迹来设定充电桩,我们希望充电桩覆盖数量最大化,这是一个最大化覆盖问题。
在这个区域里面想放五个充电桩,根据过去一年出租车GPS的轨迹,找到5个点,使这5个点加在一起,不重复的数量最多,并不是最热的5个路口,那就太简单了。轨迹放在一起,我要找的是一个不重复的地方,在云平台用大数据的方法,引入我们的系统方法,一种快速的搜索方法,使得可以快速的找到这个结果。
我们可以把人的专业知识引进来,并不是说是一个简单数字最大化的问题,还有其他问题如有没有空地、配套设施、有没有吃饭的地方,如果这个地方不合理,我们可以删掉它,保留其他几个结果,然后再算。
这就变成一个人机交互的数据挖掘,这也是机器学习的最高境界,就是人在挖掘的过程中,利用你的行业知识,把人的智能和机器的智能结合在一起,这种交互式挖掘,我用专业的知识告诉你什么地方不合理,让你重新迭代开发。
选址工作3:用大数据给房地产排序
这是一个商业模型,买房子的时候大家都想买高价值的房子,而不是高价格的房子。房屋的价值可以做,都在同样一个市场里面,那个房子会涨价更快,跌价的时候会跌的更慢,按照涨幅比排序,我们可以得到房屋的顺序,这个房屋的价值用什么决定?就是地段。
可以根据POI和路网信息提取,有多少交通枢纽站、餐馆、学校和学校的品质,可以从人们出行的规律里面:有多少人坐公交车、地铁来、什么时候来和走、比率是什么样的,都能反应出来区域的价值和品质、。从数据中可以提取出特征,有了这些特征,我们就做一个排序的问题,我大概知道这十个问题,就是排序选最优的问题。
选址工作4:部署空气质量监测站选址建议
第四类问题,是一个最小化不确定性的问题。
在北京市环保部要建立一个站点,北京市有35个,还要再建4个,这4个建在哪里最合理,使得对整个城市得到监测效果最好?这是一个Uncertainty minimization problems 。
加入这几个站点,使我们对空气质量推断的效果更好,我们用算法模型来算。根据已有站点的数据输入,如果能准确预测没有建站点空气质量的话,如果能做到准确率很高的话,可以不用先站站点。
这边用了一个不确定性的概念来替代准确率。在机器学习里面,对一个分类算法的时候,会产生一些概率分布,优、良、差的分布,这个可以算一个信息熵,这个熵越大越不确定,越小越确定,越不确定的地方,就越要建站点,这个是最小化不确定性的问题。
用这四类选址模型基本上都可以解决其他选址问题。我们都希望跟数据科学结合,而不是一个数据分析师,首先要懂得行业的问题,知道什么原因跟交通拥堵相关,什么会导致空气污染。如果不知道的话,就不知道应该用什么数据来解决,想不到数据就想不到模型,这是一连串的问题。
要对数据本身和背后的意义有了解,比如出租车GPS轨迹不仅仅反应路面交通流量,还反应人的出行规律,知道人们的上车、下车地点,知道大规模的出租车出行的规律就知道人们的出行规律,可以反应经济规律和环境规律。
我们需要考虑得更远:这个数据可以从领域A用到领域B,解决领域C的问题。
最后需要知道更多的模型,包括数据分析、数据管理、数据挖掘、可视化,以及怎么使用这个云平台。一个真正的数据科学家是什么?是站在云平台上面看问题、想数据、关联模型,把模型有机组合起来,部署到云平台上面,产生的鲜活知识来解决行业问题,这才是科学家。
(以上文字和照片内容由城市数据派整理,未经发言者审核)