导航
English GitHub
E-mail geosoftpku@tom.com
E-mail geosoftpku@tom.com
时空大数据与社会感知研究组
成果速递
当前位置: 中文主页 >> 科研成果 >> 成果速递

利用地理标记的社交媒体数据构建空间嵌入式旅游热点网络

发布时间:2019-10-24 点击次数:

    社交媒体和移动位置服务(LBS)产生了大量带地理标记的空间数据。使用社交媒体地理大数据构建旅游热点网络可以增强人们对旅游活动的理解。本次研究利用Flickr地理照片数据构建空间嵌入式旅游热点网络,同时应用复杂网络分析方法研究网络特征,提供了一种基于社交媒体地理大数据构建空间嵌入式网络的方法。


数据准备

    本次研究使用通过Flickr的免费API获得的来自中国北京213,938张地理标记图片的元数据。时间跨度2005年1月1日至2016年1月1日。这些照片由22,354位用户上传。清理冗余图片后,剩余185,531张图片。图1显示了北京地区Flickr照片的空间分布情况。

 

图1. Flickr照片的空间分布

构建网络

1 聚类热点

    本次研究使用Clustering by Fast Search and Find of Density Peaks (CFSFDP)聚类算法,设置阈值过滤噪声,生成类簇中心。将归属于同一景点的类簇中心合并为一个旅游热点。图2举例说明是否使用阈值过滤噪声的差异。(a1)过滤噪声后的故宫博物院类簇集;(a2)未过滤噪声的故宫博物院类簇集;(b1)过滤噪声后的钟鼓楼—什刹海区域类簇集;(b2)未过滤噪声的钟鼓楼—什刹海区域类簇集。

 

(a1)


(a2)

 

(b1)

 

(b2)

      图2. 聚类结果示例

2 网络模型

    我们提取了221个旅游相关热点,将这些热点视为网络中的顶点。通过聚类,我们建立了用户的历史轨迹和旅游热点之间的映射关系。按照访问热点的时间顺序,生成了每个用户的轨迹,例如{南锣鼓巷→天安门广场→故宫博物院→雍和宫→颐和园}。接下来,考虑一个用户连续访问两个热点(即一个热点对)所形成的链接。这种链接视为顶点对之间的无向边。每当一个用户访问一个顶点对时,两个顶点之间的旅行频率增加1(不考虑方向)。随后将边的旅行频率指定为网络中边的权重。因此,基于提取的热点和热点间的拓扑关系,我们构造了一个具有221个顶点、3135条边的无向加权网络。网络可视化如图3。

 

      图3. 北京旅游热点网络

3 网络特征

(1)无标度特征

    顶点度定义为链接到顶点的边的数量。顶点强度定义为链接到顶点的边的权重和。顶点压力定义为顶点强度与顶点度的比值。三种指标是对热门景点的不同衡量方式。将所有受欢迎的景点在空间上可视化,读者能够对其地理分布情况有所了解。

 

      图4. 顶点度、强度和压力指标Top 10的景点主题地图

    分别将累计频率与顶点度、顶点强度、顶点压力和边权重在双对数坐标系下作图,如图5。如果分布是幂律分布,则双对数坐标系下的拟合应为直线。5(a)和5(b)呈现了明显的尾部下弯趋势,对此的解释是距离对空间嵌入式网络中的链接很有影响。即,顶点是在空间上分散的,一般而言顶点倾向于与附近的顶点相连,所以度值越大的顶点越少。类似于地理学中,物体之间的相互作用随着距离的增加而减小。“下弯”趋势表明,距离效应是影响空间嵌入网络拓扑结构形成的重要因素。


(a)

 

(b)

 

(c)

 

(d)

    图5. 双对数坐标系下累计频率与顶点度、强度、压力、边权重的散点图。(a)顶点度—累计频率;(b)顶点强度—累计频率;(c)顶点压力—累计频率;(d)边权重—累计频率。

 

以上结果表明,北京旅游热点网络的顶点和边分布遵循一般的幂律分布,网络具有无标度特征。

 

(2)小世界特征

  在空间嵌入式旅游热点网络中,边权重即旅行频率不是阻抗,因此不适用Dijkstra最短路径算法。Opsahl等通过考虑中间顶点的数量来扩展最短路径算法,最短路径长度定义为

 α是调整参数,以平滑边权重。

    衡量加权网络的小世界特征使用网络的全局效率和局部效率。全局效率定义如下:

  dij 通过最短路径长度公式计算。假设局部子图Gi由顶点的邻居节点构成,则局部效率定义为局部子图的平均效率,如下

    即便将该旅游热点网络视为无权网络,即所有边权重为1,网络在全局和局部层面仍然是高效的,全局效率值为0.5352,局部效率值为0.7777。当考虑实际权重时,全局效率增加到0.6049,局部效率增加到0.9523。结果表明,旅游热点网络除具有小世界特征外,还具有高度的容错性。这也意味着关闭一些景点不会对旅游热点网络的整体结构产生破坏性影响。

 

(3)聚集系数

  聚集系数分为局部聚集系数和全局聚集系数。无权网络的聚集系数表征网络网络的局部和全局拓扑性质。无权网络的局部聚集系数定义为邻接节点构成子图的实际边数与理论最大边数的比值

  无权网络的全局聚集系数定义为封闭三元组数量与所有三元组数量的比值。即

 

  研究中考虑到边权重对网络拓扑形成的影响,扩展加权网络的局部聚集系数:

 

  加权网络的全局聚集系数与无权网络的全局聚集系数定义类似,只需考虑边权重即可

 

   Cw(k)表示加权网络所有度为k的顶点局部聚集系数的平均值, Cu(k)表示无权网络所有度为k的顶点局部聚集系数的平均值。Cw(k)的度量提供拓扑和权重之间相关性的全局信息。观察到73%的 Cw(k)大于Cu(k) ,只有15%的 Cw(k)小于Cu(k) 。此外,计算旅游热点网络的全局聚集系数Cw和Cu分别为0.6643和0.4469。大多数情况下, Cw(k)大于Cu(k) ,并且 Cw大于Cu,即相互连接的三元组更可能由具有更大权重的边形成。

(4)旅游巴士线路设计

  尽管北京的大部分旅游景点可以乘坐公共交通工具,但由于交通方式多样、转乘时间长等原因,游客旅游体验可能会交叉。考虑到目前北京的公交线路和旅游热点网络的特点,我们提出两条新的旅游巴士线路设计:(1)颐和园-奥林匹克公园-雍和宫-故宫博物院-天安门广场-前门-天坛公园;(2)798艺术区-三里屯太古里-南锣鼓巷-钟鼓楼-天安门广场-前门(如图6)。一方面,这两条旅游专线尽可能覆盖高流量、远距离热点对;另一方面,这两条旅游线路道路交通状况良好,从而补充了北京现有的旅游公交线路。

(1)

 

(2)

图6. 旅游巴士专线设计

结论

  此次研究基于社交媒体地理大数据,引入了网络科学方法来建立空间嵌入式旅游网络,为景点识别、旅行行为分析和旅游线路设计提供了一种新颖的技术视角。首先,网络顶点由聚类算法在原始Flickr数据集里提取。然后,建立了北京市的空间嵌入式旅游热点网络,并进行复杂网络分析。结果表明,该网络具有以下几个有趣的特点:

1 顶点度、强度、压力和边权重服从幂律分布,网络具有明显的无标度特征;

2 网络中相互连接的三元组更可能由更大权重的边形成;

3 无论是否考虑网络边权重,该网络在全局和局部层面都是高效的,具有明显的小世界网络特征,高效的局部效率反映了网络具有高度的容错性;

4  根据旅游出行模式和现有交通选择,我们提出了两条新的旅游巴士线路,预期结果将有助于游客了解北京旅游景点的布局并合理规划旅行线路,还可以帮助旅行社设计、销售旅游产品,帮助政府部门调整和增加旅游巴士专线等。


引用格式

X. Wu, Z. Huang, X. Peng, Y. Chen, Y. Liu, “Building a spatially-embedded network of tourism hotspots from geotagged social media data,” IEEE Access, vol. 6, iss. 1, pp. 21945-21955, 2018.DOI:https://doi.org/10.1109/ACCESS.2018.2828032.

 

 

素材来源:S³-Lab

  材料整理:伍昕钰  

内容排版:鲍  毅