第一作者介绍
张帆,北京大学遥感与地理信息系统研究所助理研究员。2017年在香港中文大学获得博士学位;2015-2016年在麻省理工学院Senseable City Lab访问。研究方向:时空数据挖掘与社会感知;深度学习与计算机视觉。
内容导读
我们走在城市的大街小巷,仅仅通过简单地观察周边环境,就可以判断出这里是居民区亦或是商业区。事实上,在我们观测到的城市物质空间中,蕴含了大量关于城市功能、出行、人口属性和社会经济的信息。而如何量化城市物理空间,挖掘其表达的社会经济属性、居民活动模式,进而从“人地关系”的角度回答 - 物质空间究竟能够在多大程度上反映社会空间,一直是有待研究的问题。
图1城市物质空间蕴含了大量关于城市功能和社会经济属性的信息
社会感知(Social Sensing)旨在利用各项人类活动大数据,提取时空行为模式,感知人文及社会经济要素。本文提出了社会感知的新视角 – 利用街景大数据量化城市物质空间,进而通过城市物质空间来反演社会活动空间及社会经济属性。在案例分析中,本研究训练了一个深度卷积神经网络,通过输入一张北京地区的街景图片,来预测街景图片所在街道上,居民平均每小时的出行量曲线。结果显示,在北京五环内的900多条主要街道上,模型在预测居民出行量量级上,取得了74.1%的准确度(Acc = 74.1%);仅仅通过街景图片反映的信息,模型可以解释66.5%居民出行模式的变化(R2 = 0.665)。简单地来讲,“仅仅看一眼街景,我们就能猜到每天几点钟有多少人在这里打出租车。”
通过深度学习“黑箱”的方法,本研究搭建了连接物质空间与社会活动空间关系的桥梁。研究方法可以潜在地衡量建成环境与人类活动、社会经济水平发展的不均衡性,为人地关系研究、城市设计与管理提供参考和决策支持。论文于2019年5月发表于ISPRS Journal of Photogrammetry and Remote Sensing。
实验数据
本研究涉及街景图片数据和出租车上下车数据。其中街景数据以每30m为采样间隔,总数超过12万张,覆盖北京地区五环内的大部分街道。出租车上下车数据包含了2016年北京地区2万辆出租车在3个月内每次上下车点的位置和时间信息。我们将这些信息以每小时为时间单元,以街道为空间单元进行聚合,形成了对研究区域内917条街道中每条街道的出租车上下车的日时谱曲线。如图2所示为其中中关村街道、西单北大街、光华路和广顺北路的街景图片,以及道路对应的居民出行活动的时谱曲线。
图2研究区域-北京地区五环内的917条街道;研究数据-每条街道的街景图片和居民出行活动的时谱曲线
研究方法
本研究设计了一个基于DenseNet的深度卷积神经网络,实现将任意一张街景图片为输入,输出街景图片所在街道的居民出行活动的日时谱曲线(由24维向量组成)。如图3所示,DenseNet(b) 对图片(a)进行深度特征学习,旨在提取其反映建成环境质量和街道功能等深层次的语义信息。进而利用深度特征,建立24个独立的分类器(c),单独估计24小时中每小时的出租车上下车数目。本研究在模型训练和预测的整个过程中,对经典深度学习方法流进行改进,采用了“先分类后回归”、“迁移学习”、“多任务学习”等策略,在实现了多分类、多目标预测任务的同时,提高了模型学习的效率。详情请参考论文。
图3基于DenseNet的居民出行活动日时谱曲线预测
实验结果
图4所示为模型在测试集中预测出行活动量的表现,其在24个小时的预测上都取得了较高且稳定的准确率(平均为74.1%)。
图4模型对每小时居民出行活动量的预测效果(左:量级准确度;右:绝对量平均误差)
图5所示为模型对12个示例样本的预测结果,其中每列左侧为模型输入;每列中间的图片中红色区域代表了模型认为最有信息量、最有助于识别(informative region)的区域;右侧是观测曲线与预测曲线的对比(注意样本间虽然模式相似,但量级有显著差异)。
图5模型的街景样本预测示例(左:原始街景;中:显著区域;右:观测与预测曲线)
图6展示了模型对全部样本(测试集)进行预测,并聚合后的居民出行时空分布。观测值与预测结果之间没有显著差异。
图6模型预测每条道路上的居民出行活动量(左:观测值;右:预测值)
我们同样对预测误差比较大的街道进行了分析。图7所示为三条被模型显著高估的街道 – 南三环辅路,菜市口街以及景山前街。这三条街道被模型认为本应该有较高的出行活动量,但实际量却比较小。通过实证分析我们发现,南三环辅路经道路空间单元划分后,长度较短,聚合的出租车上下车数目较少,而该路段展示出的街景却与相邻街道单元类似,较为繁华,导致模型预测失衡,此类误差可归结为可变面元问题(MAUP)。菜市口街的街景中呈现了大量居民区,但由于同一条街道上两个地铁站(菜市口站,陶然亭站)的分流效应,导致实际出租车出行流较小。而景山前街由于交通管制,出租车被限制停车载客落客,导致其街景呈现的物质环境与实际的活动量不匹配。
图7模型预测误差较大的三条道路 – 南三环辅路,菜市口街,景山前街
总结
街景图像是观测城市物质空间的一种新型大数据源。在空间尺度上与遥感影像相似,但观测视角更接近于人,所表达的内容也更为丰富。街景图像不但详尽地描绘了城市物质空间的组成,同时蕴含了大量有关城市功能和社会经济属性的信息,是一种“社会感知”大数据。通过融合各项人类活动大数据、对地观测大数据,将有助于我们进一步理解地理语义、认识城市空间分异、空间交互等空间特征及演化过程,帮助我们全面研究地理环境。
街景大数据为城市物质空间的定量研究带来了机遇,而深度学习方法为多源大数据间的关联分析提供了有力的工具。本研究通过深度学习的方法,定量地研究了城市物质空间与社会活动空间之间的关系,并潜在地提供了一种基于社会感知数据来衡量城市建设与社会经济发展之间均衡性的手段。
文献
[1] Fan Zhang, Lun Wu, Di Zhu, Yu Liu. (2019). Social sensing from street-level imagery: A case study in learning spatio-temporal urban mobility patterns. ISPRS Journal of Photogrammetry and Remote Sensing, 153, 48-58.
[2] Fan Zhang, Ding Zhang, Yu Liu, Hui Lin. (2018). Representing place locales using scene elements. Computers, Environment and Urban Systems, 63, 58-67.
[3] Fan Zhang, Bolei Zhou, Liu Liu, Yu Liu, Helene H. Fung, Hui Lin, Carlo Ratti. (2018). Measuring human perceptions of a large-scale urban region using machine learning. Landscape and Urban Planning, 80, 148-160.
点击阅读原文获取论文原文
https://www.researchgate.net/publication/332911579_Social_sensing_from_street-level_imagery_A_case_study_in_learning_spatio-temporal_urban_mobility_patterns