目录
[10. 空间数据挖掘与空间决策支持系统](#10. 空间数据挖掘与空间决策支持系统)
[10.1. 空间数据挖掘](#10.1. 空间数据挖掘)
[10.1.1. 空间数据挖掘的概念](#10.1.1. 空间数据挖掘的概念)
[10.1.2. 空间数据挖掘的方法与过程](#10.1.2. 空间数据挖掘的方法与过程)
[10.1.3. 空间数据挖掘的应用](#10.1.3. 空间数据挖掘的应用)
[10.2. 空间决策支持系统](#10.2. 空间决策支持系统)
[10.2.1. 空间决策支持系统的概念](#10.2.1. 空间决策支持系统的概念)
[10.2.2. 空间决策支持系统的结构](#10.2.2. 空间决策支持系统的结构)
[10.2.3. 空间决策支持系统的功能与应用](#10.2.3. 空间决策支持系统的功能与应用)
[10.3. 智能GIS](#10.3. 智能GIS)
[10.3.1. 智能GIS概述](#10.3.1. 智能GIS概述)
[10.3.2. 智能GIS关键技术](#10.3.2. 智能GIS关键技术)
[10.4. 习题](#10.4. 习题)
10. 空间数据挖掘与空间决策支持系统
目前,空间数据飞涨,并且其固有的空间位置属性衍生了各种不确定的空间关系,包括空间拓扑关系、空间方位关系、空间距离关系以及它们之间的组合关系,这些空间关系通常以非显性的方式隐含于空间数据中,使得人们对空间数据解析和处理的难度大大提高。空间数据丰富和空间知识贫乏的现象长期存在着,这种趋势的发展促成了空间数据挖掘和知识发现的产生。另外,利用地理信息系统的地理信息处理、分析和综合能力,并与空间模拟和决策分析技术相结合,可以构成空间决策支持系统,从而拓展空间模拟和决策分析能力。
10.1. 空间数据挖掘
10.1.1. 空间数据挖掘的概念
1.空间数据挖掘的概念
随着空间数据库技术的高速发展,人类积累了大量的空间数据,尤其是地理信息系统、遥感、医疗影像,计算机辅助设计(CAD)、动植物生态领域等方面的广泛应用导致空间数据急剧地产生和增加,如美国国家航空和宇宙航行局(National Aeronautics and pace Administration,NASA)对地观测系统(Earth Observing System,EOS)每天都要产生1TB空间数据;中国建成的覆盖全国、全省的大型地理空间数据库和专题数据库的数据总量超过1250GB;有关火灾数据、地形分布数据等等,都收集大量、数据类型和特征繁多的空间数据。据统计:全球拥有的数据量每20个月翻一番,因此我们不仅拥有极其庞大的空间数据,而且其空间数据类型越来越复杂、结构越来越多样。日益丰富具有空间特征的数据在一定程度上已超出了人类大脑的分析能力,从而形成空间数据虽多,但知识贫乏、用处不大的局面。因此,迫切需要从这些空间数据中发现领域知识,从而一个多学科、多领域综合交叉的新兴研究领域------空间数据挖掘(Spatial Data Mining)应运而生。
空间数据挖掘是指从空间数据库中提取用户感兴趣的空间模式与特征、空间与非空间数据的普遍关系及其它一些隐含在数据库中的普遍的数据特征。简单地讲,空间数据挖掘是指从空间数据库中提取隐含的、用户感兴趣的空间和非空间的模式、普遍特征、规则和知识的过程(蒋良孝等,2003)。它可以发现普遍的几何知识、空间分布规律、空间关联规则、空间分类规则、空间特征规则、空间区分规则、空间演变规则等。空间数据挖掘需要综合数据挖掘、空间数据库、空间信息学、计算机科学等技术。它可用于对空间数据的理解,空间关系和空间与非空间数据间关系的发现,空间知识库的构造,空间数据库的充足和空间查询的优化。空间数据挖掘总体可以分为空间关联规则技术、空间同位、空间离群技术、空间分类、时空序列等技术。其在地理信息系统,地理市场(Geomarketing)、遥感、CAD、图像数据库探测、医学图像处理、导航、交通控制、环境研究等许多使用空间数据领域中有广泛的应用。
2.空间数据挖掘的知识类型
数据挖掘中常见的知识有广义型(Generalization)、分类型(Classification)、关联型(Association)和预测型(Prediction)四类,它们也同样适用于空间数据库。为了便于理解和应用,空间数据挖掘知识类型可以划分得如下更加具体几种类型。
(1)普遍的几何知识
普遍的几何知识是指某类目标的数量、大小、形态特征等普遍的几何特征。GIS空间数据库中的目标主要有点、线、面(多边形)三类。用统计方法可容易地在GIS中直接获取各类目标的数量和大小,但GIS中并不直接存储形态特征,需要运用专门的算法提取曲折度、方向、密集度等特征值,在此基础上归纳高水平的普遍几何特征。
(2)空间分布规律
空间分布规律是指目标在地理空间的分布规律,分成在垂直向、水平向以及垂直向和水平向的联合分布规律。垂直向分布即地物沿高程带的分布,如植被沿高程带分布规律、植被沿坡度坡向分布规律等;水平向分布指地物在平面区域的分布规律,如不同区域农作物的差异、公用设施的城乡差异等;垂直向和水平向的联合分布即不同的区域中地物沿高程分布规律。
(3)空间关联规则
空间关联规则是指空间目标间相邻、相连、共生、包含等空间关联规则。例如,村落与道路相连,道路与河流的交叉处是桥梁等。空间分布规律在本质上属于空间关联规则,它表达的是空间对象与空间位置和(或)高程的关联。
(4)空间聚类/分类规则
空间聚类/分类规则是指根据对象的空间或非空间特征将对象划分为不同类别的规则,可用于GIS的空间概括和综合。例如,将距离很近的散布的居民点聚类成居民区。聚类和分类都是对空间对象的划分,划分的标准是类内差别最小而类间差别最大,区别在于事先是否知道类别数和各类别的特征。
(5)空间特征规则
空间特征规则是指某类或几类空间目标的几何的和属性的普遍特征,即对共性的描述。普遍的几何知识属于空间特征规则的一类。如"宁夏的森林资源分布比较集中"描述宁夏森林资源的空间特征规则,也是普遍的几何知识。
(6)空间区分规则
空间区分规则是指两类或多类目标间几何的或属性的不同特征,即可以区分不同类目标的特征,是对个性的描述。
(7)空间演变规则
若空间数据库是时空数据库或空间数据库中存有同一地区多个时间数据的快照(Snapshot),则可以发现空间演变规则。空间演变规则是指空间目标依时间的变化规则,即哪些地区易变,哪些地区不易变,哪些目标易变、怎么变,哪些目标固定不变。
(8)面向对象的知识
指某类复杂对象的子类构成及其普遍特征的知识。可用的知识表达方法有:特征表、谓词逻辑、产生式规则、语义网络、面向对象的表达方法、可视化表达方法等,应根据不同的应用选取不同的表达方法,并且各种表达方法之间还可以相互转换。
10.1.2. 空间数据挖掘的方法与过程
1.空间数据挖掘方法
空间数据挖掘和知识发现是多学科和多种技术交叉综合的新领域,它综合了机器学习、数库、专家系统、模式识别、统计、管理信息系统、基于知识的系统、可视化等域的有关技术,另外,空间数据挖掘并不是某一种具体的全新的方法,它的许多方法在地理信息系统、地理空间认知、地图数据处理、地学数据分析领域内早己广泛应用。因而,数据挖掘和知识发现方法是丰富多彩的,并且不仅包括一般数据挖掘的方法,同时也有很多针对空间数据库的方法。目前空间数据挖掘和知识发现主要有以下方法(王占全,2005;彭晶倩,2006):
(1)空间分析方法
空间分析能力是GIS的关键技术,是GIS系统区分于一般制图系统的主要标志之一。空间分析方法常作为数据预处理和特征提取方法与其他数据挖掘方法结合使用。
(2)统计分析方法
统计方法一直是分析空间数据的常用方法,着重于空间物体和现象的非空间特性的分析。它具有较强的理论性和成熟的算法,多用于处理数字型数据。统计分析方法中的回归分析、方差分析、主成分分析、因子分析等方法经常用于规律和模式的提取。统计方法的最大缺点是要假设空间分布数据具有统计不相关性,但在空间数据挖掘中,由于空间对象属性的相关性很强,在一定程度上限制了统计分析方法在空间数据挖掘中的使用。
(3)归纳学习方法
归纳学习是从大量的己知数据中归纳抽取出一般的判断规则和模式,一般需要相应的背景知识。归纳学习在数据挖掘中的使用非常广泛,己经有了成熟的理论算法,如著名的C4.5算法(由ID3算法发展而来),具有分类快和适用于大型数据库的特点;AOI(面向属性的归纳方法),能归纳出高层次的模式或特征。
(4)空间关联规则挖掘方法
关联规则反映一个事物与其他事物之间的相互依赖性或相互关联性。如果两个或多个事物之间存在关联,那么,其中一个事物就能从其他己知事物中预测得到。所谓关联规则是指数据集中支持度和信任度分别满足给定闭值的规则。经典的算法有R.Agrawal等人提出的Apriori算法,以及对其的改进算法:AprioriTid,APrioriHibrid等。
(5)聚类方法
空间聚类分析是要将空间数据库中的对象按照某些特征划分为不同的有意义的子类,同一子类中的对象具有高度相似的某种特征,并与不同子类的特征具有明显的差异(巩华荣,2007)。采用聚类分析的优点在于:想获取的结构或簇可以直接从数据中找到,不需要任何背景知识。
(6)分类方法
是指分析空间对象导出与一定空间特征有关的分类模式。空间分类的目的是在空间数据库对象的空间属性和非空间属性之间发现分类规则。
①决策树分类
Fayyed等人使用决策树方法对星形结构对象的图像进行分类,从而探测行星与银河系。他们的方法是使用FOCAS系统为选中的对象,例如天空图像,生成区域、方向等的基本属性。训练集中的对象由宇航员来分类。基于这些分类,构成用于决策树算法的10个训练集,决策树是通过学习算法得到的。最后,由决策树生成一个健壮、通用、正确的最小分类规则集合。该方法处理的是图像数据库,并应用于天文研究领域。但它却不善于处理常用于GIS中的向量数据格式。
②贝叶斯分类
贝叶斯分类方法的关键是使用概率表示各种形式的不确定性。在选择某事件面临不确定性时在某一时刻假定此事件会发生的概率,然后根据不断获取的新的信息修正此概率。修正之前的概率称为先验概率,修正之后的概率称为后验概率。贝叶斯原理就是根据新的信息从先验概率得到后验概率的一种方法。贝叶斯方法在使用先验信息方面由于没有确定的理论依据,存在颇多争议。但是在大型数据集方面,贝叶斯分类方法具有高准确率和高运算速度。
(7)神经网络方法
人工神经网络是近年来的一个研究热点,在信号处理、模式识别、人工智能、自适应控制、决策优化等众多领域得到了广泛的研究和应用。神经网络由多个非常简单的处理单元(神经元)按某种方式相互连接而形成,靠网络状态对外部输入信息的动态响应来处理信息。神经网络在数据挖掘中主要用于获取分类知识,优点是分类精度高、对噪声具有稳健性;缺点是获得的知识隐含在网络结构中,不容易被人们理解和解释,而且网络训练时间一般比较长,不易利用领域知识。
(8)粗集理论
粗集理论是波兰华沙大学Z.Pawlak教授在1982年提出的一种智能数据决策分析工具,被广泛研究并应用于不精确、不确定、不完全的信息的分类分析和知识获取。粗集理论为空间数据的属性分析和知识发现开辟了一条新途径,可用于空间数据库属性表的一致性分析、属性的重要性、属性依赖、属性表简化、最小决策和分类算法生成等。粗集理论与其它知识发现算法结合可以在空间数据库中数据不确定的情况下获取多种知识。
(9)模糊集理论
模糊集理论是L.A.Zadeh教授在1965年提出的。它是经典集合理论的扩展,专门处理自然界和人类社会中的模糊现象和问题。利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。系统的复杂性越高,精确能力就越低,模糊性就越强,这是Zadeh总结出的互克性原理模糊集理论在遥感图像的模糊分类、GIS模糊查询、空间数据不确定性表达和处理等方面得到了广泛应用。
(10)云理论
云理论是李德毅院士提出的用于处理不确定性的一种新理论,云理论由云模型、虚拟云、云运算、云变换和不确定性推理等内容构成。云模型将模糊性和随机性相结合,解决了作为模糊集理论基础的隶属函数概念的固有缺点,为数据挖掘中定量与定性相结合的处理方法奠定了基础;虚拟云和云变换用于概念层次结构删除和概念提升;云推理用于不确定性预测等。云理论在知识表达、知识发现、知识应用等方面都可以得到充分的应用。
(11)遗传算法
遗传算法(简称GA)是模拟生物进化过程的算法,最先由美国的John Holland教授于20世纪60年代初提出,其本质是一种求解问题的高效并行全局搜索方法,它能在搜索过程中自动获取和积累有关搜索空间的知识,并自适应地控制搜索过程以求得最优解。遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。数据挖掘中的许多问题,如分类、聚类、预测等知识的获取,可以表达或转换成最优化问题,进而可以用遗传算法来求解。
(12)空间趋势分析
空间趋势指离开一个给定的起始空间对象时,非空间属性的变化情况。例如,当离城市中心越来越远时经济形势的变化趋势。其分析结果可能是正向趋势、反向趋势或者没有趋势。一般在空间数据结构和空间访问方法之上分析空间趋势,需要使用回归和相关的分析方法。由于空间对象自身的特殊性,传统的回归模型可能并不合适。例如,传统的线性回归模型( y = Xβ +ε)对空间对象就不适用,需要使用空间自回归SAR模型:
y =ρW y + X β+ε
(13)概念格理论
概念格是由R.Wille在1982年首先提出的,作为数据分析的有力工具,概念格己经被广泛地应用于知识发现和数据挖掘领域。它的每一节点称为一个概念,每个概念由概念格的外延和内涵两部分组成,概念的外延表示属于这个概念所有对象的集合,而内涵则表示为所有这些对象所共有的属性集合。概念格描述了对象和属性之间的关系,概念格的哈斯图清晰地表明了概念间的泛化和特化关系,并实现了知识的可视化。因此,概念格理论已经被广泛地应用于知识工程、知识管理、数据挖掘、信息检索及软件工程等领域。
(14)支持向量机
支持向量机(Support Vector Machine, SVM)是一种新的机器学习技术,由Vapnik 和他的同事于1995 年提出(刘叶青,2008)。它能非常成功地处理回归问题(时间序列分析)和模式识别(分类问题、判别分析)等诸多问题,并可推广于预测和综合评价等领域,因此可应用于理科、工科和管理等多种学科。目前国际上支持向量机在理论研究和实际应用两方面都正处于飞速发展阶段。它广泛的应用于统计分类以及回归分析中。支持向量机属于一般化线性分类器。这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区。因此支持向量机也被称为最大边缘区分类器。
此外,还有空间特征,图像分析和模式识别方法,证据理论,数据可视化方法,地学信息图谱方法,计算几何方法等。上述每一种方法都有一定的适用范围。在实际应用中,为了发现某类知识,常常要综合运用这些方法。空间数据挖掘方法还要与常规的数据库技术充分结合。例如,在时空数据库中挖掘空间演变规则时,可利用GIS的叠置分析等方法首先提取出变化了的数据,再综合统计方法和归纳方法得到空间演变规则。总之,空间数据挖掘利用的技术越多,得出的结果精确性就越高,因此,多种方法的集成也是空间数据挖掘的一个有前途的发展方向。此外,空间数据挖掘除了发展和完善自己的理论和方法,还要充分借鉴和汲取数据挖掘和知识发现、据库、机器学习、人工智能、数理统计、可视化、地理信息系统、遥感、图形图像学、医疗、分子生物学等学科领域的成熟的理论和方法。
2.空间数据挖掘过程
空间数据挖掘是一个复杂的过程,这一过程分为三个阶段:空间数据的获取和预处理、空间数据挖掘、空间数据的评价和可视化解析,如下图所示。
空间数据挖掘的一般过程
(1)空间数据的获取和预处理
空间数据的获取和预处理需要经历三个步骤:
①数据准备:了解空间数据挖掘相关领域的基本情况,学习该领域的先决知识,分析挖掘的目的,构造概念分层。
②数据选择:根据需要从空间数据库中提取与空间数据挖掘相关的数据,使用合适的空间数据结构和数据访问方法。
③数据预处理:消除噪声数据,统一数据格式和数据源,对丢失数据利用统计方法进行填补,确保数据的完整性和一致性。
(2)空间数据挖掘
空间数据挖掘阶段又分为三个步骤:
①确定目标:对于空间数据挖掘的不同要求,会在具体的知识发现过程中采用不同的数据挖掘算法,所以首先要确定空间数据挖掘的目标。
②建立模型:根据空间数据挖掘的目标,选择合适的数据挖掘算法,建立空间数据挖掘的模型,并使得数据挖掘模型和整个空间数据挖掘的评判标准相一致。
③数据挖掘:运用选定的数据挖掘算法,从数据中提取用户所需要的知识,这些知识可以用特定的方式表示,也可以用常规的方式表示。
(3)空间数据的评价和可视化解析
空间数据的评价和可视化解析阶段包括模式解释、知识评价和可视化展示:
①模式解释:对于数据挖掘的模式进行解释,有时为了取得更有效的知识,可能返回到前面的步骤进行反复提取。
②知识评价:将数据挖掘得到的知识以能理解的方式展现,包括对结果的一致性检查,以确保本次发现的知识不与领域的相关知识相抵触。
③可视化展示:将数据挖掘的知识用可视化的方法展示,如GIS技术,将空间数据挖掘的结果展布于空间地图上。
10.1.3. 空间数据挖掘的应用
空间信息约占数字地球总信息量的80%。空间数据挖掘是将这些信息转为有用的知识的有效工具之一,在"数字地球"海量空间数据处理中占有一十分重要的地位,有着广泛的应用前景,如在地理信息系统、遥感、图像数据库探测、医学图像处理、导航、交通控制、环境研究以及其它许多使用空间数据的领域中都有着十分广泛的应用。由于SDM获取的知识同现有GIS分析工具获取的信息相比更加概括、精炼,并可发现现有GSI分析工具无法获取的隐含的模式和规律,因此它的应用范围比GSI更广阔。空间数据挖掘的应用概括起来主要有以下几个方面:
(1)可用于对空间数据的理解,发现显示或隐含的空间目标或现象空间关系,指导科研人员进行更有效的工作;
(2)可用于空间数据库管理系统中对空间数据库的数据集进行重组和空间查询的优化;
(3)可作为辅助决策支持和分析的工具;
(4)可为空间数据仓库提供比SOLAP(Spatial Online Analytical Process)更高级的分析工具;
(5)可与GIS和其它IT工具高度集成构成智能化软件包。
目前,空间数据挖掘的应用,主要表现在能够指导发现新空间实体、空间决策、游览空间数据库,理解空间数据,发现空间联系以及空间数据与非空间数据之间的关系,重组空间数据库,构造空间知识库,优化空间查询等。其中,具体的应用实例有在遥感影像中的应用,在公共卫生信息中的应用等等。
1.在遥感影像中的应用
空间数据挖掘适用于高分辨率遥感影像海量数据的特点,为知识获取以及基于知识的遥感目标识别和分类的自动化和智能化开辟了一个崭新的途径。利用它从遥感影像数据库中自动提取和利用已有的知识,可以解决当前困扰遥感数据自动处理所面临的瓶颈问题,实现对高光谱遥感影像精细光谱地物目标的自动识别、分析、提取、匹配和分类,扩展遥感影像目标识别和分类的能力,提高空间分辨率遥感影像中地物目标提取的精度和自动化分类程度,如SKTCAT己经发现了16个新的极其遥远的类星体;POSS系统将天空图像中的星体对象分类准确性从75%提高到94%。MagellanStudy系统通过分析启明星表面的大约30000幅高分辨率雷达图像,识别出火山位置,CONQUEST系统采用基于内容的空间和时间查询,发现出大气层中臭氧洞形成的样本知识。Tesic等人还利用关系规则发现算法从星云图像中发现知识。
2.在公共卫生信息中的应用
空间数据挖掘在公共卫生方面也有广泛的应用,主要是对疾病时空分布规律、疾病成因、和医疗资源的空间优化配置。通过空间自相关分析得出社会经济如失业率、居住空间、单亲家庭、社会等级以及人口密度等对人的健康影响,从而实现对疾病成因进行分析。提出利用空间区域性研究对于人群健康分布,同时指出地理分析技术在医疗资源平衡分配中的潜在应用意义。对小区域的医院分布和距离之间的关系进行了分析,为医疗资源优化配置提供了基础。对健康服务空间分布的均衡性进行分析,指出了疾病发病区之间均衡配置医疗资源具有重要意义。
空间数据挖掘在其它领域的应用还包括交通事故分析、空间数据融合、对电力负荷的空间分布进行预测、对土地覆盖情况进行分类、气候变化的空间分布规律、对农作物产量进行预测、对城市地区进行分类等。
10.2. 空间决策支持系统
地理信息系统有很强的地理信息处理、分析和综合能力,这些能力与空间模拟和决策分析技术相结合,可以构成空间决策支持系统,用于辅助资源与环境能过的规划和管理。空间决策支持系统可以看作是地理信息系统在空间模拟和决策分析能力上的延伸,它允许决策人员能更加有效的使用地理信息,能更加简便和灵活地使用系统提供的模型和决策分析工具分析决策问题,探讨不同的决策方案,评价和选择最佳决策方案。
10.2.1. 空间决策支持系统的概念
决策支持系统(Decision Support System,简称DSS)是以计算机技术为手段,主要针对半结构化或非结构化决策问题的求解,通过人机交互实现辅助决策的信息系统(王家辉,2003)。它通过数据库系统、模型库系统和人机交互系统,为决策者提供决策所需的数据、信息等背景材料,帮助用户明确决策目标和识别问题,利用建立和修改决策模型来提供多个备选方案,通过人机交互对方案进行分析、比较和判断,为正确的决策提供支持。DSS系统以模型库系统为核心,模型分析技术与数据存取技术结合起来,通过提供友好的人机交互界面,帮助解决管理人员面临的结构化程度不高的决策问题。但是DSS系统并不是要完全取代管理人员。决策支持系统的理论及其技术的发展与许多学科有关,它涉及到计算机软件和硬件、信息论、人工智能、管理科学、行为科学等领域,这些学科的相互交叉构成了它的理论基础(石昊楠,2005)。决策支持系统又是一种开放的技术,一般来说,只要是面向计算机并且能给管理人员提供决策支持的技术,都能将它转换成为决策支持系统的技术。
空间决策支持系统(Spatial Decision Support System,SDSS)是由空间决策支持、空间数据库等相互依存、相互作用的若干元素构成,并进行空间数据处理、分析和决策的有机整体,即具有地理数据管理、空间分析与模拟以及决策分析能力的交互式计算机系统。空间决策支持系统是在常规决策支持系统和地理信息系统相结合的基础上发展起来的新型信息系统。空间决策支持是应用空间分析的各种手段对空间数据进行处理变换,以提取出隐含于空间数据中的事实与关系,并以图形、表格和文字的形式直接地加以表达,为现实世界中的各种应用提供科学、合理的决策支持。空间决策可以认为是空间分析的高级阶段,空间分析技术则是实现空间决策的工具,二者的关系如下图所示(朱选,2006)。从图可以看出,空间分析与空间决策之间的关系可表达为空间决策=空间数据/操作/分析+模型。由于空间分析的手段直接融合了数据的空间关系,并能充分利用数据的现势性特点。因此,其提供的决策支持将更加符合客观现实,因而更有利于决策。
空间分析与空间决策支持技术之间的关系
空间决策支持系统与一般的决策支持系统相比较,有其特点,如数据具有明显的空间特征,系统中涉及到大量的空间模型与空间分析运算。空间问题比较复杂,不确定性程度也更大,因此,空间决策支持系统比一般DSS要复杂一些,具体来说,两者的差异主要在于以下五个方面:
(1)数据形式不同。空间数据是指以地球表面空间位置为参照的自然、社会和人文经济数据,它们可以具有图形、图像、文字、表格和数字等形式。在空间信息系统中,数据又由三部分组成:①在某个已知参考坐标系中的位置,即几何坐标。②地理实体之间的空间拓扑关系,即通常的点、线、面之间的逻辑关系。③与几何位置无关的属性,是与地理实体相联系的地理变量或地理意义,以定性或定量形式表达的自然、社会、经济要素。
(2)信息获取方式不同。空间数据有专门的获取途径,它们是通过数字化仪、扫描仪或图像处理系统等硬件设备及相应的驱动软件输入空间信息系统。
(3)决策模型不同。空间决策支持系统中有许多特有的空间模型,空间模型有时候可以转化为非空间模型来运算,而非空间模型亦可通过在每一个空间单元上实施该模型而空间化。
(4)决策结果的输出不同。空间决策支持系统输出的决策结果多为图形、图像和表格等。
(5)系统结构不同。SDSS增加了GIS空间数据库及数据库管理系统。
10.2.2. 空间决策支持系统的结构
决策支持系统的结构,有过二单元、三单元、四单元和五单元的提法。二单元是由模型库与数据库组成,较为低级。三单元是由人机对话系统、模型库与数据库单元组成,增强了决策者在决策过程中的主观能动和必要干预,同时也能对决策者有所启示(高雪迪,2006)。参照DSS的结构组成划分,可把基于空间决策支持系统的组成要素分为空间数据库及其管理系统(数据部分)、空间模型库及其管理部分(模型部分)和人机接口(对话管理部分),如下图所示。(常晋义,1996;高雪迪,2006;聂庆华,2006;刘耀林,2007)
空间决策支持系统的结构
1.空间模型库及其管理系统
所谓模型是以某种形式对一个系统的本质属性的描述,以揭示系统的功能、行为及其变化规律。模型是客观世界的一个表征和体现,同时又是客观事物的抽象和概括。空间决策支持系统的模型库中有以下几种模型:数学模型,数据处理模型,图形、图像模型,报表模型,空间分析模型等。模型库(Model Base)是提供模型存储和表示模式的计算机系统。在这个系统中,还包含一个以上适当的存储模式进行模型提取、访问、更新和合成等操作的软件系统,这个软件系统称为模型库管理系统。由于空间问题研究对象的复杂性和不确定性等特点,SDSS模型自动生成尚处于理论探索阶段。如何充分有效的组织和管理已有模型,使之在具体应用任务中发挥作用,是系统必须解决的实际问题。
2.方法库及其管理系统
方法库实现模型与方法的分离存储,为模型生成和修改提供了方便,也提高了模型的运行效率。由于方法总是相对成熟和固定的,每一种方法又总是相对独立的,模型对方法来说是一种调用和被调用的关系,方法库为模型库提供算法上的支持。各种模型共享一类方法或一类模型共享多种方法,因此实现了软件资源共享。方法库管理系统主要包括源码的编辑、目标的生成、方法入库、修改、删除、划块分类和加工等功能。
3. 知识库及其管理系统
知识库用来存放各种规则、专家的经验、有关的知识和因果关系等。主要包括事实库、规则库和约束三部分。事实库存放求解问题的说明性知识、构成信息实体的事实等内容。规则库中的主要内容是特定领域的规则、定理、定律等过程性知识及说明模型库中各个模型的使用范围、方法及关系的规则信息。约束库主要是说明知识的使用范围和条件。知识库系统的结构与知识的表达有关。常用的知识表示法有:产生式规则、语义网络、谓词逻辑、框架、面向对象的表示及几种方法的混合使用的表示法。以产生式规则表示的知识库系统,由知识库、知识生成支持机构、推理机、工作存贮器等部分组成。无论知识库系统结构如何组成,知识库、推理机及工作存贮器是知识库系统的基本组成要素。
知识库管理系统的功能是在决策过程中,通过人机交互作用,使系统能够模拟决策者的思维方法和思维过程,发挥决策者的经验、判断和推测,从而使问题得到满意且具有一定可信度的解答。
4.空间数据库及其管理系统
数据库是SDSS的基础,用来存放某区域空间内关于一定空间要素特征的数据。SDSS中的数据分为两类:空间数据和属性数据。空间数据描述空间实体的几何位置,以及实体之间的空间关系,具体地理位置特征。其内部结构较紧密,数据类型一致,内部关系非常复杂。属性数据用以描述实体的自然、社会特性,其相互关系较少,数据类型复杂,结构松散。在SDSS数据库设计中,重要的是如何组织和管理空间数据并确保空间数据与属性数据的密切配合。数据库管理系统的功能是:对数据进行常规的管理和维护,支持数据的查询和标志,及时准确地为系统提供所需的信息,支持模型运算及统计分析,在决策推理中提供各种基本事实等。
5.人机交互系统
人机交互系统是决策支持系统与用户之间的交互界面。用户通过该系统控制实际决策支持系统的运行,决策支持系统既需要用户输入必要的信息和数据,同时要向用户显示运行情况以及最后结果。它要有以下几个功能:1)提供丰富多彩的显示和对话,对于SDSS要有显示空间数据的功能;2)输入输出转换功能,系统对输入数据和信息要转换成能够理解和执行的内部表示形式,系统运行结束后应该把系统的结果按一定格式显示或打印给用户;3)控制决策支持的有效运行,人机交互系统需要将模型系统、数据系统进行有机综合集成形成系统,并使系统有效运行。
10.2.3. 空间决策支持系统的功能与应用
1.空间决策支持系统的功能
SDSS的最终目的是辅助和支持决策者做出决策。这里,需要特别注意的是:DSS 是辅助决策者进行决策,而不是代替人做决策;其用户一般是相应层次的决策者,而不是计算机专业人员;其能处理的问题一般是半结构化甚至是非结构化的问题,辅助决策的工作方式是人机交互式的。SDSS是在GIS和决策支持系统的基础上发展起来的,是信息服务系统的更高层次。实现SDSS的关键在信息的有效提取并加以分析,不在于信息收集与更新的过程。一个使用有效的SDSS应具有以下功能:
(1)及时、准确的向决策者提供信息。决策行为的实效性很强,必须在规定的时间内作出。因此,要求SDSS能及时地提供决策者信息,即使不能实时的提供信息,也要在允许范围内尽快地为决策者提供信息。信息的准确性就是反映客观事物的真实性,如果信息不准确,就会误导决策。
(2)提供多层次的信息。决策者所需要的信息大多是经过加工整理、能够反映事物的本质特征和发展趋势的综合信息。而综合信息是建立在对大量信息的收集、存储的基础之上的,因此SDSS应能提供多层次的信息访问功能。
(3)多维数据视图及数据挖掘。所谓"维",就是观察问题的角度,决策分析需要从不同角度观察分析数据,即SDSS能为决策者提供多侧面、全方位的信息。数据挖掘功能则帮助决策者一步步深入地进行数据分析,从而找出事物的内在规律,为决策服务。近年来,快速发展的OLAP技术和基于数据仓库的数据挖掘技术对实现这一功能奠定了基础。
(4)信息分析功能。包括产生各种固定的及随机的报表、图形,并根据各种基于数学方法的模型进行分析预测功能。
2.空间决策支持系统的应用
由于社会需求的牵引和技术发展的推动,空间决策支持系统已经发展到了一个新的阶段,在与空间问题有关的各领域内得到了广泛的应用,如城市用地选址、最佳路径选取、定位分析、资源分配和机场净空分析等(石昊楠,2005)。
(1)在军事领域的应用,如指挥自动化系统,它是一种用于战场军事地理环境分析和辅助决策的现代军事应用系统,可辅助各级指挥员完整、准确、快速地分析战场环境地理要素,科学地进行军事决策,正确选择作战方向和作战空间,合理地组织军事行动;
(2)在防洪防凌及水量调度决策支持中的应用,如黄河防洪防凌决策支持系统,黄河水量调度管理决策支持系统,抢险救灾决策支持系统;
(3)在大型水利工程中的应用,如基于GIS的万家寨工程移民决策支持系统;
(4)在城市规划、管理决策支持中的应用,如城市公交线路规划决策支持系统,城市房地产管理决策支持系统;在各种管网(电力、通信、供水、煤气等)管理决策支持中的应用,如基于GIS的配电网故障后处理决策支持系统;
(5)在生态环境决策支持中的应用,如黄河生态环境监测与规划系统等等。
10.3. 智能GIS
目前,地理信息系统已成功地应用到了包括资源管理、设施管理、城市和区域的规划、人口和商业管理、交通运输等领域。传统地理信息系统具有较强的数据输入、存储、检索和显示能力。随着GIS 在上述等领域应用的日益深入,遇到了很多关于经验性的东西,或者一些定性的问题,使得GIS的传统功能已经无法满足要求,这就需要把地理信息系统和当今非常流行的人工智能技术互相结合,发挥各自的优点,使问题得到更加完美的解决,这就是智能GIS。
10.3.1. 智能GIS概述
智能GIS是指与专家系统(Expert System 简称ES)、神经网络、遗传算法等相结合的GIS,它实际上是基于知识的专家系统在GIS中的应用,GIS经过多年发展规律现在已经日趋成熟,但其应用还主要停留在数据库、空间叠加分析上,缺乏知识处理能力和推断能力。目前,对智能化GIS 有两种理解(黄继安,2004):
一方面,是指在GIS 系统中应用人工智能技术,建立智能化时空数据处理和分析模型,在人工智能理论支持下对时空信息处理和分析。在地学规律指导下,结合具体的地学知识和地理信息,通过地学分析和人工智能等技术手段,获得更精确的反映实际地学规律的分析结果。发展地理智能系统,就是以地学分析模型为基础,运用统计分析、神经计算、知识处理系统、地学优化等智能技术,在时空信息、地学知识的相互作用下进行综合地学分析。
另一方面,则是指GIS 系统作为一种处理分析空间信息的通用技术在某一个领域的应用,使管理水平、决策系统体现智能化。例如,在智能运输系统中,通过采用先进的电子技术、地理信息系统技术、通信技术等高新技术,对传统的交通运输系统及管理体制进行改造,从而形成一种信息化、智能化、社会化的新型现代交通系统。在整个交通系统中强调了运输设备的系统性、信息交流的交互性以及服务的广泛性。当前在智能化城市建设中主要应用于:(1) 车辆管理和调度;(2)车辆导航;(3)公共交通信息;(4)事故管理和处理;(5)交通管制。由于将出行者、道路和交通运输工具三者作为一个整体系统来综合考虑,因此使交通运输基础设施得以发挥最大效能,车辆堵塞和交通拥挤得到有效解决,出行者的安全度和舒适度得到明显改善,并通过节约能源和保护环境使全社会获得巨大的社会效益。
10.3.2. 智能GIS关键技术
智能GIS是基于知识的专家系统,而人工智能(Artificial Intelligent,AI)是研究用计算机模拟人类的大脑从事推理、解题、识别、设计和学习等思维活动的学科,并且专家系统、模式识别和智能机器人是AI的重要领域。因此,研究智能GIS所涉及的技术主要有专家系统中知识库和推理机,智能空间决策支持系统,用来求解复杂系统问题的理论与工具------机器学习(如人工神经网络)和进化算法等。
专家系统是由美国斯贝福大学的Edward Feigenbaum教授提出,并把专家系统定义为是一种智能计算机程序,它运用知识和推理来解决只有专家才能解决的复杂问题。因此,专家系统是模拟专家决策能力的计算机系统,它拥有某个特殊领域专家的知识和经验。并像专家一样运用领域知识,通过推理,在具体领域进行智能决策。专家系统核心是知识库(事实、规则)和推理机。
1.知识库
知识库(事实、规则)用于存入由领域专家提供或通过其他途径(如类比、归纳等机器学习手段以及神经网络等)获得的、为求解该领域问题所必需的专门知识。在实现时需要一个动态数据库,动态数据库存放已知事实和推理结果。知识库中有两个主要问题:①知识表示形式。例如,产生式规则(If...Then...),渭词逻辑(真/假二值)、模糊逻辑([0,1]连续值),框架,语义网络,过程性知识和脚本。②知识的精确程度。包括精确性知识和不精确性知识。精确性知识是指原理性公式和公理;不精确性知识是指经验性知识,用置信度、概率、证据理论和模糊数学等方法描述。
2.推理机
推理机控制专家系统的问题求解过程,完成对知识的搜索和推理。根据上下文信息,推理机先识别在知识库中匹配的所有规则,从中选择并启用一条规则。目前,还没有通用的方法构造推理机,如何构造推理机不仅取决于领域问题性质,还取决于专家系统中知识表达和组织方法。
3.智能空间决策支持系统
专家系统(ES)是利用专家知识在计算机上进行推理,达到专家解决问题的能力。专家系统和空间决策支持系统几乎是同时兴起的,都能起到辅助决策的作用。但专家系统辅助决策的方式属于定性分析;空间决策支持系统辅助决策方式属于定量分析,将两者结合起来形成智能空间决策支持系统。
4.人工神经网络
人工神经网络(Artificial Neural Network , ANN) 是20世纪80 年代以来人工智能领域中兴起的研究热点。它是模拟生物的神经结构系统而建立的非线形动力学系统(罗敏霞,2004),与传统的计算方法相比,神经网络具有以下特点:它不需要建立数学模型,经过学习能够建立样本隐含的复杂关系;具有很强的适应性和容错性;分布并行式的存储方式;非编程、自组织、自适应处理数据。因此神经网络特别适用于用常规计算方法难于表达的信息处理过程。人工神经网络吸取了生物神经网络的许多优点, 因而有其固有的特点:高度的并行性、高度的非线性全局作用、良好的容错性与联想记忆功能、十分强的可塑性和自组织、自适应、自学习功能。目前,许多学者做了大量开拓性工作,提出了许多理论和学习算法。例如,反向传播法(Back Propagation ,BP)、玻耳兹曼机、模拟退火算法、联想记忆、竞争学习等(金星姬,2008)。
人工神经网络是人工智能的重要领域,用于分类、聚类、特征挖掘、预测和模式识别。神经网络模仿生物神经网络,本质上是一个分布式矩阵结构,它通过对训练数据的挖掘。逐步计算网络连接的权值。神经网络首先要求一定数量的具有已知样本特征的训练样本,然后用训练好的网络结构对其他样本进行处理。
人工神经网络在空间决策支持系统中的应用包括两个方向:①知识获取。如果周围缺少某一领域的专家,或者很难构造出解决问题的模型时,可以考虑利用人工神经网络的某一学习算法获取知识,只是很难利用得到的内部网络配置解释获取知识的过程。②模型的自动选择。选择合适的模则对于SDSS用户来说是很重要的。传统SDSS系统中,模型选择是通过SDSS人机对话部分,以菜单方式、命令方式或窗口方式,以SDSS用户完成。SDSS模型中存储有许多模型,要求SDSS用户从中选择合适的模型有时是十分困难的。因此,可以利用人工智能和人工神经网络技术实现模型自动选择。
5.进化算法
进化算法仿效生物学中进化和遗传的过程,遵从"生存竞争,优胜劣汰"的原则,从一组随机生成的初始可行群体出发,借助复制、交换、突变等遗传操作,逐步逼近所研究问题的最优解。从实质而言,进化算法是一种具有自适应调节功能的搜索寻优技术。通常,进化算法包括遗传算法(Genetic Algorithms,GA)、遗传规划(Genetic Programming,GP)、进化策略(Evolution Strategies,ES)、进化规划(Evolutionary Programming,EP)等四种典型方法(云庆夏,2000)。
其中,遗传算法是一个群体优化过程,为了得到目标函数的最小(大)值, 它不是从一个初始值出发,而是从一组初始值出发进行优化。这一组初始值好比一个生物群体,优化的过程就是这个群体繁衍、竞争和遗传、变异的过程。遗传算法主要有以下步骤:
(1)设置初值。
(2)竞争。这一步是先根据优生的原则,选择初群体(初始值组) 中的若干个个体来产生下一代。例如可以根据目标函数值的大小决定个体被选中的概率,并按这个概率选择初始群体中的个体,以体现优生原则。
(3)繁衍。它包括演化、杂交和变异。可以简单地采取类似于上面讲到的优化步骤,也可以采取变异或杂交算法。在离散变量(通常它们是很高维数的离散取值向量))优化问题中,一种常见的杂交方法是:对两个选中的个体,决定性地或随机地取它们(两个离散值向量)中的各自的一段相同维数的分量,互换对接成两个新个体,称为子代。针对不同的实际问题,可以根据原先对所需优化的问题的了解,选取其他的繁衍(即竞争、遗传与杂交)方式。
(4)以子代代替其父代(即产生子代的那两个个体),反复进行步骤②与③,不断产生后代直至目标函数在整个群体中的最小(大)值不能再继续优化。
随着研究的不断深入,智能GIS中用来求解复杂系统问题的理论与工具除了人工神经网络和进化算法外,部分学者也利用模糊系统、免疫算法、DNA计算、优化算法(如蚁群算法,粒子群算法等)等应用到不同的GIS领域,使GIS的智能化程度不同提高。
10.4. 习题
1.什么是空间数据挖掘? 它有什么特点?
2.空间数据挖掘的知识类型有哪些?
3.空间数据挖掘的过程是怎样的?其集成模式是有哪些?
4.空间数据挖掘的方法有哪些?
5.什么是空间决策支持系统?
6.空间决策支持系统的结构有哪些,其特点是什么?
7.什么是智能GIS?