查看原文
其他

【文章导读】大数据背景下的通勤模型构建与应用(上篇)——模型篇

点击关注 > 城市规划
2024-08-31

导读


近年来,随着大数据的兴起,借助大数据的城市空间研究成果不断涌现。以手机信令、公交刷卡、大规模GPS等为代表的“大数据”已经进入城市规划和城市研究的各个领域,但研究重点仍聚焦于城市现状分析上。利用大数据建立模型,并基于模型进行具体规划应用的探索较少。本研究以手机信令数据为主要数据源,以“通勤”(居住-就业)作为研究对象,构建精细化的上海市分单元通勤模型,并探索基于残差分析的模型优化方法,最后通过两个案例展示了模型在规划实践中的应用。说明:本文为论文《大数据背景下的通勤模型构建与应用——以上海为例》的主要内容的简写导读版,由于需要说明建模的方法过程,理论性较强。分两篇推送,上篇为模型篇;下篇为应用篇。


1

数据来源

手机信令数据。本研究使用上海移动手机信令数据,数据记录量上,上海市域范围内平均每天约记录到1600万左右用户,产生信令数据约5亿条。通过手机信令数据识别用户的居住地和就业地,共识别出1370万稳定的居住就业人口,占上海市六普常住人口的57%。将数据汇总到上海市各普查区单元(社区、行政村),得到每个单元的居住人口和就业人口(即就业岗位)以及各单元之间的通勤联系(居住-就业)。可以看到,从中心城区向外记录量逐渐越少,平均从每单元出发的通勤流1836条。

图1 | 各单元通勤出发记录量 

通勤时间数据。通勤时间数据来源于高德地图,统计早高峰时段上海市各单元之间的通勤时间,包含小汽车时间和公交时间,总计约3000万条数据。汇总数据显示,上海市早高峰平均通勤时间约为47min,与上海交通调查数据接近。


2

基础模型构建

以通勤量为因变量,以就业岗位和通勤时间为自变量,构建基础模型:

其中,为单元间的通勤量,为就业地单元的就业岗位数量,为出发地和就业地之间的通勤时间成本,分别为出发地单元的就业岗位影响系数和通勤时间衰减系数,为常数项。

基础模型平均拟合优度为0.76,各单元拟合优度如图2所示。中心城单元拟合优度较高,尤其是外环以内浦西地区,拟合优度普遍在0.7以上。中心城外围近郊区至远郊区过渡地带的拟合优度较差,在0.5~0.7范围内波动,因为这些地区的居民中远距离通勤者占比较高,对于以距离衰减为基本规律的模型来说,大量的远距离通勤者显然会降低模型的拟合优度。而远郊区的拟合优度又有所提高,总的来说,是因为这些地区相对独立,就业大多在本地区内解决,通勤活动相对规律,模型较容易拟合。

▲ 图2 | 基础模型拟合优度

模型系数上,分别求解各单元的就业岗位影响系数(αi)和通勤时间衰减系数(βi),如图3所示。分单元模型的就业岗位系数的值大部分在0.9至1.1之间,通勤时间衰减系数的值大部分在-2.8至-1.8之间。就业岗位系数反映的是一个单元的居民受就业地岗位数量影响的程度,该系数越大,意味着在目的地增加相同数量的就业岗位对该单元的居民产生的吸引越大。就业岗位系数最大的地带位于浦西内外环之间自东北向西南一带,而该地带恰恰是上海市就业岗位相对比较缺乏的地区,分布着大量大型居住区(图3a)。通勤时间衰减系数反映的是通勤量随距离变化的敏感程度,该系数的绝对值越大说明增加相同通勤时间后通勤量减少得越快,即该单元居民更偏向于就近就业。其空间分布上,中心城区的绝对值普遍小于外围地区(图3b)。中心城区单元周边的就业岗位选择较多,且公共交通可达性高,因而居民的就业空间分布相对均匀。而外围岗位相对稀少,且交通可达性较差,大部分的居民就业被限制在本地,反映在距离衰减系数上会呈现较大负值。上述这些通勤空间规律的异质性在传统的全局通勤模型上是无法反映出来的。

▲ 图3 | 础模型系数空间分布



3

残差分析-优化模型

基础模型平均拟合优度为0.76,即可以解释约76%的外出通勤行为,剩余部分是通过目前的两个自变量(即就业岗位和通勤时间)无法解释的部分,即模型的残差(residuals)。残差可能由各种原因造成,最主要的原因是模型缺少影响通勤的关键变量。对基础模型的残差进行分析,可从中提取新的变量,从而对基础模型进行优化。图4所示是上海各单元之间实际的通勤联系和通过模型预测的通勤联系之间的差异,可以看到,模型预测结果总体上与实际结果接近,但存在部分差异较大的区域。

▲ 图4 | 基础模型系数空间分布

   

如图5所示是模型的“通勤联系残差”。图中的有向线段代表模型预测值低于实际值的数量,即实际值减去预测值,线段越粗,则代表模型低估的值越大。从图中可以看出,高残差联系的空间分布具有明显的特征。通过分析,可以总结出4类典型特征。特征一为远郊区行政区内部的通勤联系被低估,实际通勤联系远高于预测通勤联系,典型例子如金山、奉贤、青浦等。特征二为主城区边缘就业中心大量吸引周边居民就业,模型低估了这部分通勤者,典型例子为张江和金桥。特征三为近郊区大型就业中心逆向吸引中心城的就业者,而模型低估了这部分通勤联系,典型例子如宝钢工业园区。特征四为地铁末端大型居住区与中心城区通勤联系较强,模型对此的解释预测能力有限,典型例子为9号线沿线的九亭等地区。
▲ 图5 | 通勤联系残差
根据这4个特征,可以提取出3个新的变量。根据特征一提取“行政边界”,根据特征二和三提取“就业中心”变量,根据特征四提取“地铁沿线”变量。将3个变量加入到基础模型中,重新拟合模型,得到的“优化模型”的平均拟合优度为0.87,模型的解释力相比于基础模型有了大幅度提高。

表1 | 从基础模型残差中提取的新变量



4

残差进一步分析——残差模型

优化模型仍有进一步提升的潜力,但通过上述方法再找到系统变量的难度较大。本研究通过对模型个体残差的局部空间自相关分析,生成“残差自变量”,加入优化模型,形成残差模型。“残差自变量”表征当下通勤中的特殊联系,短期预测中可以保留,中长期预测不应该考虑。
局部空间自相关可以根据单元个体的残差空间分布特征,对残差进行空间统计,将残差分为4种典型的集聚类型:高高集聚(HH cluster)、低低集聚(LL cluster)、高低集聚(HL cluster)、低高集聚(LH cluster)。各种类型的残差分布对应的可能现实因素如表2所示。但值得一提的是,表中所列的地铁线、就业岗位类型、搬迁等因素仅仅是影响残差的若干因素之一,实际上是无法将4种类型的残差集聚类型精确对应到其影响因素的。

表2 | 残差集聚特征与解释

经过局部空间自相关检验,将空间上存在显著集聚特征的残差分为了4种类型,根据集聚类型生成残差自变量,每一种类型对应一个虚拟变量。将该残差变量加入到优化模型中,形成残差模型,残差模型包含5个常规变量和4个残差变量,该模型的平均拟合优度超过0.92,远高于基础模型和优化模型。残差模型仅能用于通勤量的预测,且适用于近期预测,不能直接解释,不适用于远期预测。


5

建模方法总结

基于手机信令数据大样本和全覆盖的特点,构建分单元通勤模型,得到基础模型,并通过残差分析对模型进行优化,得到优化模型和残差模型,进而形成“基础模型-优化模型-残差模型”的建模路径。对比传统建模路径和大数据建模路径,可以看到,大数据建模的核心在于对残差的系统分析和变量提取,这在传统数据环境下是很难实现的。

图6 | 基于大数据的建模路径

3个模型中,基础模型包含两个最基本变量(就业岗位数量和通勤时间),拟合优度较低;优化模型通过残差分析加入了更多的变量(X),可认为是常规手段下最好的模型;残差模型包含常规变量和残差变量(N),拟合优度最高,但只可预测不可解释,因为残差自变量本质上是不可解释的。

表3 | 三个模型的特性比较
注:X是通过残差分析提取出的系统变量;N是局部空间自相关生成的变量。


本文撰稿:顾家焕



原文介绍

《大数据背景下的通勤模型构建与应用——以上海市为例》刊于《城市规划》2020年第11期P69-77页

顾家焕,浙江省城乡规划设计研究院助理工程师。王  德,同济大学建筑与城市规划学院,高密度人居环境生态与节能教育部重点实验室,教授,博士生导师。本文通信作者。

国家自然科学基金重点项目:基于大数据的城市中心区空间规划理论与关键技术研究(51838002)资助。

【原文下载】本文已在知网发布,点击文尾“阅读原文” 或 识别二维码即可下载阅读全文



欢迎在朋友圈转发,转载请在后台留言


微信改版后
好多人说不能很方便找到我了其实把咱们“城市规划”置顶就可以啦只需要5秒钟哟~






官方投稿网址:http://www.planning.com.cn微博:http://weibo.com/cityplanningreview微信号:chengshiguihuazazhi电子期刊:App Store搜索“城市规划”(支持iPad下载)国内统一刊号:CN 11-2378/TU国际标准刊号:ISSN 1002-1329





关注、分享、在看与点赞,至少我要拥有一个吧~
继续滑动看下一个
城市规划
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存