导航
English GitHub
E-mail geosoftpku@tom.com
E-mail geosoftpku@tom.com
时空大数据与社会感知研究组
成果速递
当前位置: 中文主页 >> 科研成果 >> 成果速递

基于流数据时空聚类的居民移动模式发掘

发布时间:2019-10-24 点击次数:

1. 研究背景

在大数据时代,我们很容易获取大量具有高时空分辨率,并且与个体位移相关联的流数据(flow data)。这些流数据如人口迁徙,既可以揭示群体的移动模式,也能反映空间单元的联系强弱,同时为我们理解区域空间结构也提供了一种途径。聚类是对数据的一种高度概括分析,流聚类将彼此相似的流进行聚合,可以突出显示流数据的分布特征。已有的流聚类方法主要存在两个问题,一方面,这些方法将流分割成OD点对进行处理,而没有考虑能直接反映移动趋势的流的方向和长度属性;另一方面,它们忽视了流数据的时间属性,导致时间模式的缺失;例如,给定两个流的空间聚类,一个在时间上均匀分布,另一个在时间上有聚集趋势,如果这两个聚类都显示城市内居民通勤的时空分布,那么后者在治理交通拥堵上更应该被给予更多关注。本研究提出了一种流数据的时空聚类方法,此方法基于流的方向和长度定义了新的空间相似度度量方法,同时从集合角度度量了流的时间相似度。该聚类方法使用分步策略以及层次框架对流数据进行聚类,能够识别不同分布结构下的流的聚簇并且不会受到噪声的影响,可用从海量流数据中发现时空聚集模式。

2. 方法

空间相似度  考虑到流数据可以使用有向线段表示,我们认为两条流在空间上相似必须满足以下三条规则:(a)在空间位置上是邻近的;(b)方向角是相近的;(c)长度是近似相等的。如图1所示,考虑这三条规则仅有f2f1在空间上相似。如果两条流fifj根据某种方法已确保在空间位置上邻近(图2a),那么不妨将其移动至同一起点O(其方向和长度并不会发生改变),取一个认为相似的阈值r,如果这两条流是相似的,那么fj的终点Vj势必降落在以Vi为圆心、半径为r的圆内,并且与fi相似的所有流,经过平移后,终点都将都在圆内。

1. 流的空间相似判定

undefined

2. 利用阈值圆界定相似流

时间相似度  流的时间相似度采用了Jaccard相似性度量方法,是根据共现的时间长度相对于出现的总时间长度的占比,并且取一阈值作为判定是否相似的准则。例如,两条流的发生时间分别是6:306:35,结束时间分别为6:456:55。那它们的共现时间为10分钟,出现的总时间长度为25分钟,则时间相似度为10/25=0.4。如果两条流的时间相似度为1表示它们出现时间完全重合,如它们没有共现则相似度为0

分步层次聚类 我们的聚类方法采用了两步聚类策略,即首先依据空间相似的判定准则产生流的空间聚类,然后对每一空间类中的流再进行时间聚类,进而得到时空聚类。使用此策略的原因在于,在地理分析中,空间聚类相较于时间聚类更具有分析价值。例如,如果一些流虽然在时间上非常聚集,但在空间中是均匀分布的,这显然不是一个地理学研究的关注点,因为它没用反映任何有意义空间模式。在具体的聚类过程中,我们使用了自底向上层次聚类框架,即首先将每条流作为一类,然后根据相似度是否满足阈值条件不断合并聚类,从而得到最终聚类结果。

3.实例分析

我们对北京市一天的近27万条出租车流数据(图3a)进行聚类,空间聚类的结果如图3b所示。可以发现,在交通枢纽(如北京西站、北京南站、首都机场)、重要商业区(如五道口、朝外)、重要居住区(如回龙观)以及一些地铁换乘站点之间存在出租车流的聚集。我们对首都机场和朝外区域的双向流(图3b#151#318)进行了时间聚类,时间类的分布如图4所示,可以发现,从朝外出发到机场的出租车流集中在早上6时前后,说明这一时间段有大量打车赶早间航班的旅客。而机场到朝外的流分散在下午到晚间,这些时间内的航班比较多且不过于集中,并且也有很多其他交通工具可供此间到京旅客选择。

3. (a)北京市一天出租车数据;(b)空间聚类结果

4 朝外区域与首都机场间的流的时间聚类结果分布

4. 总结

流数据呈现了个体层面的位移。本文提出的流数据聚类方法结合了流的时间和空间特征,能够从海量流数据中发现时空聚集,不仅有助于对海量流数据进行可视化,也能够揭示人类移动模式和区域空间结构,可应用与对城市规划、交通管理等领域。