基于模糊形式概念分析方法提取模糊场所空间层次结构
内容导读
场所(place)间的空间层次关系(spatial hierarchy)是场所复杂空间关系中的一个基本关系,对场所关联分析和定性空间推理有重要价值。本研究提出了一个基于模糊形式概念分析(fuzzy formal concept analysis, 简称FFCA)的方法,实现对模糊场所空间层次关系的提取。我们把每个场所表达为由特定外延(extent)和内涵(intent)构成的概念(concept),基于这些概念来生成场所空间层次结构,并通过问卷调查验证所提方法的有效性。
1. 研究背景
场所是地理学的重要概念,在联系个体行为和物理环境上扮演重要角色。人们在日常生活中常使用各种地名(toponym)来指代不同场所,从而达到表达空间位置信息、特定活动或情感等交流目的。如何以人和机器都容易理解的方式表达场所,是场所研究的一个重要内容。从场所的空间边界特征,可将场所分为两类:一类是空间边界明确的场所,比如行政区;另一类是空间边界模糊的场所,如市中心(downtown)、中关村。人们日常交流中的许多场所都属于后者。如何合理考虑场所的模糊性,是场所研究的一个难点。
海量带有地理标签的用户生成数据(user-generated data)的出现为场所建模提供了有力支持,使定量表达场所成为可能。已有很多研究针对场所的非空间属性进行表达,定量刻画场所的节律、活动和情感特点等;而对场所的空间属性方面,现有研究多关注场所(特别是模糊场所)空间范围(footprint)的表达,对模糊场所间空间关系的研究较少。而场所间的空间层次关系是场所复杂空间关系中的一个基本关系,对场所关联分析和定性空间推理有重要价值。对模糊场所空间层次结构的提取,需要考虑:(1)如何定量表示场所的空间范围和确定模糊场所在空间上的部分-整体关系;(2)如何表达多个模糊场所之间复杂的空间层次结构。
2. 方法
我们提取模糊场所空间层次结构的方法由图1所示的三个部分构成。我们选取带有地理位置和地名标签的用户生成内容(user-generated content, 简写为UGC)作为数据源类型。同时,假设任意给定地名的场所在二维地理空间的任意位置都存在表示隶属于该场所程度的隶属度。
图1. 总体流程
2.1. 数据预处理
数据预处理的目的是从UGC中计算场所的隶属度。给定某一地名,具有该地名标签的UCG在空间位置上数量越多,认为该位置隶属于该地名场所的程度越高。考虑到UGC的空间分布是离散且不规则的,这里我们采用核密度分析工具来生成连续的UGC分布密度平面,进而使用模糊线性变换函数将核密度平面转换为数值分布在[0,1]的隶属度平面。
2.2. 场所模糊形式概念分析
模糊形式概念分析(fuzzy formal concept analysis,以下简称FFCA)是一种基于格理论(lattice theory)的数据分析方法,能有效处理模糊集(fuzzy set)并挖掘隐藏在数据中的层次信息和概念知识。
首先给出场所的模糊形式背景(fuzzy formal context)的定义。
场所的模糊形式背景表达为三元组(triple)形式Kplace = (L, TN, R = φ(L×TN)),L是二维空间点的集合,TN是地名的集合,R是L和TN之间关系的集合。L中的每一个点l = (x,y) 表示一个位置(location)。R用定义域在L×TN 的模糊集表示,每对关系(l, tn)∈R对应一个0到1之间的隶属度μR(l, tn),其中l∈L, tn∈TN。隶属度μR(l, tn)对应上一步数据预处理得到的隶属度。
理论上L是一个无限集合,从可操作性考虑,我们通过均匀采样获取有限个点来代表L,从而得到如表1所示的模糊形式背景。
表1. 场所的模糊形式背景示意
给定模糊形式背景 和一个置信度阈值 ,对 ,定义 ;对 ,定义 。一个场所可以表达为一个概念 ,其中 , , , 且 。X称为概念c的外延, 是外延的表示形式,Y称为概念c的内涵。
对两个场所概念 和 ,当且仅当 , 是 的子场所(subplace), 是 的超场所(superplace)。我们把这种关系用 表示,即 。将给定场所模糊形式背景的所有场所概念按照关系 连接,生成场所模糊概念格(fuzzy concept lattice),即场所空间层次结构。另外,如果 且不存在 使 ,我们称 是 的下级邻居(lower neighbor), 是 的上级邻居(upper neighbor)。
场所概念 的外延 的隶属度定义为:
(1)
其中, 指场所概念c的所有上级邻居的内涵集合的并集, 是场所概念c的所有上级邻居的内涵集合的交集, , 。
场所概念 及其子场所 之间可计算相似度Sim(ci, cj):
(2)
下面我们通过图2这个简单的例子对方法进行说明。图2(a)中不同颜色的点模拟不同地名标签的UGC数据的空间分布。将这10个场所每2个分成一组形成5组不同情景,分别代表两个场所之间相离、相交、近似相等、包含和近似包含这5种常见的空间关系。同时,我们假设不同情景之间的场所都是相离的。图2(b)是对应图2(a)的隶属度平面,图2(c)是对图2(b)进行均匀采样得到模糊形式背景后,通过FFCA方法得到的场所空间层次结构。场所概念间的相似度用灰色加粗数字表示。可发现,情景#2、#3和#5具有相似的结构,但是相似度差异较大。
图2. 基于模拟数据的FFCA例子
2.3. 场所层次结构的简化
由于FFCA严格根据数学特征生成概念,只要内涵或外延存在微小差异就会被认为是不同的场所概念,这会导致生成的概念数量呈指数增长,生成的层次结构规模过大而难以应用到实际分析中。实际上,FFCA中相似的场所概念很可能表示的是现实中的同一个场所。因此,我们利用相似度信息对场所概念进行聚类,从而对上一步生成的场所空间层次结构进行简化。
图3. (a)场所概念聚类;(b)场所空间层次结构简化
3. 案例分析
我们选取北京市海淀区中关村及其周边的13个场所作为研究场所,以这13个地名作为关键词,收集相关新浪微博数据,使用上述介绍的方法得到化简后的场所空间层次结构如图4所示。
图4. 化简的场所空间层次结构
对提取出来的场所空间层次结构的验证需要参考很多与这些研究场所相关的本地知识。我们在案例分析中选取这些场所也正是因为作者对这些场所比较熟悉。为了验证所提取结果的合理性和所提方法的有效性,我们进行了问卷调查。问卷调查参与者为熟悉中关村及其周边区域的市民,共得到有效问卷50份。问卷调查结果如图5所示。对比图4和图5可看到,由我们的方法得到的场所空间层次结构总体上和问卷调查参与者认知的层次结构是一致的,个别略有差别的情况根据本地知识也容易找到合理的解释。
图5 从问卷调查中得到的场所间的空间“部分-整体关系”(箭头从“大场所”指向“小场所”,箭头粗细反映认同该空间“部分-整体关系”的问卷调查参与者比例的多少)
4. 结论
已有许多研究借助UGC对场所进行形式化表达,从UGC中同时提取多个场所也不再是难事。在实现多个场所的提取后,我们需要考虑如何挖掘多个场所之间的内在结构,而场所的空间层次结构正是其中关键的一类结构。我们的方法能从UGC中半自动地提取出模糊场所的空间层次结构,利用模糊集尽可能地保留模糊场所的信息,同时以图(graph)的形式对场所空间层次结构进行表达,从而有助于我们推断场所间的其他空间关系,也方便在此基础上添加其他场所属性来构建场所知识图谱。
参考文献
Xiaoyu Wu, Jianying Wang, Li Shi, Yong Gao & Yu Liu (2019): A fuzzy formal concept analysis-based approach to uncovering spatial hierarchies among vague places extracted from user-generated data, International Journal of Geographical Information Science. https://doi.org/10.1080/13658816.2019.1566550