副标题:基于POI数据的站点功能混合度探究------以厦门市为例(二)
K-means聚类算法(K-means clustering)是一种广泛使用的无监督学习方法,用于将数据集中的对象分成K个簇(cluster)。这里的"无监督"意味着我们事先并不知道每个数据点应该属于哪个类别。K-means聚类的目标是让同一个簇内的数据尽可能相似,而不同簇之间的数据差异尽可能大。简单来说,就是将性质相近的数据归为一类。
本篇文章是对岛内的地铁站站点基于6大类别POI数据进行分类,使用IBM旗下的 SPSS Statistics 软件进行分析或者使用一些SPSS在线平台都可以进行分析;
本篇文章使用的SPSS在线平台:SPSSPRO-免费专业的在线数据分析平台
软件:IBM SPSS Statistics 版本27.0
SPSS Statistics 软件的操作方法,把数据导入后选择【分析】→【分类】→【K-均值聚类】,这里需要把上篇文章提到的生活服务、医疗保健服务、商务住宅、科教文化服务、交通设施服务、公司企业这六类POI都选为变量,分类数量这里选择分为【3】类,这个是一个主观值,通过该值得出分类结果的可解释度来判断是否需要继续调整,方法选择【迭代与分类】,点击确定即可;
运行结果如下,聚类结果为3类,类别1有2个,类别2有30个,类别3有8个;
诚然专业软件可以进行更细致和更深入的分析,但是对于初入门的小伙伴来说,在线的一些SPSS分析平台也不错的选择,门槛更低(这里没有广子,纯个人使用体验),这类平台有什么好处呢,简单的来说傻瓜式入门,就类似傻瓜相机,上手直接拍就行;
以现在用在这个SPSS在线分析平台为例,如果你不确定分类的数量,可以选择【手肘法则】,另外记得勾选一下【生成类别变量】,这样在结果里会标注哪些站点是属于哪一个类别的,
这里也简单解释一下什么是手肘法则,手肘法则(Elbow Method)是一种用来确定K均值聚类算法中K值(即簇的数量)的方法,对于一个簇,它的畸变程度越低,代表簇内成员越紧密,畸变程度越高,代表簇内结构越松散。 畸变程度会随着类别的增加而降低,但对于有一定区分度的数据,在达到某个临界点时畸变程度会得到极大改善,之后缓慢下降,这个临界点就可以考虑为聚类性能较好的点。
通俗解释:
如果你把一些玩具球分成几堆,一开始,你只分了一两堆,你会发现有些球离得很远,这堆里的球并不那么紧密。但是,当你开始多分几堆时,你会发现每堆里的球靠得更近了,也就是每堆球更加紧密了。不过,当你继续增加堆数时,你会发现尽管你增加了堆数,但球之间的紧密程度提升得越来越慢,几乎没有什么大的变化了。
这个过程中,有一个特别的点,就是当你增加堆数时,球的紧密程度有了一个显著的提升,然后就慢慢不再有太大的变化了。这个点就像是你的手臂弯起来的那个角度,所以叫做"肘部"。这个"肘部"点就是选择合适群组数量的好地方,因为它意味着增加更多的群组带来的好处已经不多了。
另外在数据进行分析前需要对数据进行显著性分析,也就是P值分析,简单来说,就是这个数据在数值上有没有分析的价值,这部分详细解释可见:基于网格尺度的上海市人口分布空间聚集特征分析与冷热点识别_上海人口网格分析-CSDN博客
这里直接放分析结果,这个也就是平台的优势,就是对功能的整合和对结果解读的优化;
通过分析结果可以看到,在K=3时,曲线出现了明显的弯曲,之后即使K值继续增加,坡度变化也非常缓慢。这意味着K=3是一个合理的簇数量选择,因为再增加簇的数量对改善聚类效果的帮助已经不大了;
聚类结果如下图,与SPSS Statistics 软件分析的结果一致;
聚类结果的不同簇在二维空间的分布情况;
又到了看图说话的环节,我们先来看看不同类别的站点分布情况,类别2、3基本上在岛中心位置分布同时涵盖1号线岛内的大部分站点,类型1也群体数量最多的一类,同时也基本上涵盖了地铁2、3号线的岛内大部分站点,在此基础上我们再结合百度百科的"厦门地铁"这一词条可知,厦门地铁的建设顺序也是按1、2、3号线顺序建成的,先建成的站点周边建成区通常发展更加的完善,所以在各类POI发展情况会有别于后建成的站点;
聚类种类
- 类别1:主要特点是生活服务POI数量较高,公司企业POI数量相对较少。这些站点适合居住,因为生活便利设施丰富。
- 类别2:生活服务POI数量适中,公司企业POI数量较高。这些站点既有一定的生活便利性,又具备较强的商业和工业特性,适合工作和商业活动。
- 类别3:生活服务POI数量较高,公司企业POI数量也较高。这些站点综合了居住和商业的特点,适合既有居住需求又有工作需求的人群。
基于三类不同站点的特征我们把他分别进行定义,类别3定义为:商业生活服务****为主导型的站点,商业生活服务为主导型的站点,这类站点的生活服务和公司企业POI数量都较高,适合既有居住需求又有工作需求的人群,且建成较早,周边业态已经成熟;
类别1定义为:企业办公为主导型的站点 ,因为站点建设时间等一些因素的影响,我们通过生活服务设施与公司企业POI数量的比例关系进行界定,类别3的生活服务设施与公司企业POI数量的比例关系1:5左右,而类型1的在1:7以上,也就意味着在同样多的公司企业POI情况下,该站点可以带来更多的生活服务设施POI,当然这里也存在边际递减效应,姑且先如此定论;
类别2定义为:混合功能性站点,该类型站点POI功能分布比较均衡,且大部分站点处于发展阶段,因为该类型站点最多,所以既包含生活服务类型POI占比较多的站点,也存在公司企业占比较多的站点,同样的因为K-means聚类是一种无监督学习方法,也不排除分类方法本身所带来的误差。
另外这里明确一个概念,就是我们讨论的前提是基于POI数量来作为讨论的基础,像医疗保健POI、科教文化POI这些类型它们的大部分主体是学校、医院,而这些POI它们各自又有自己的辐射范围,就单论数量而言,确实有些片面了,就某一类型POI的影响范围,我们另写文章进行讨论,这里我把统计出来的岛内原始数据放在这里,有兴趣的可以通过其他分类方法来进行分类;
站点 | 生活服务 | 医疗保健 | 商务住宅 | 科教文化 | 交通设施 | 公司企业 | 聚类种类 |
---|---|---|---|---|---|---|---|
吕厝 | 7538 | 284 | 370 | 540 | 1044 | 1400 | 类别3 |
湖滨东路 | 7066 | 318 | 408 | 488 | 914 | 1242 | 类别3 |
火炬园 | 3908 | 190 | 280 | 318 | 452 | 1540 | 类别1 |
莲坂 | 4253 | 172 | 206 | 211 | 450 | 696 | 类别1 |
莲花路口 | 3251 | 108 | 183 | 199 | 424 | 653 | 类别1 |
乌石浦 | 3326 | 88 | 127 | 144 | 369 | 488 | 类别1 |
厦门火车站 | 3012 | 140 | 192 | 198 | 399 | 478 | 类别1 |
文灶 | 2887 | 209 | 180 | 233 | 355 | 420 | 类别1 |
江头 | 3237 | 117 | 144 | 153 | 278 | 327 | 类别1 |
镇海路 | 2983 | 141 | 104 | 178 | 248 | 196 | 类别1 |
体育中心 | 1538 | 82 | 154 | 330 | 368 | 530 | 类别2 |
中山公园 | 1899 | 167 | 98 | 243 | 213 | 217 | 类别2 |
后埔 | 2113 | 84 | 97 | 100 | 193 | 213 | 类别2 |
五缘湾 | 1494 | 66 | 90 | 148 | 200 | 712 | 类别2 |
塘边 | 1953 | 71 | 102 | 147 | 161 | 268 | 类别2 |
华荣路 | 1363 | 59 | 112 | 84 | 206 | 682 | 类别2 |
育秀东路 | 1425 | 86 | 102 | 180 | 287 | 348 | 类别2 |
湖里创新园 | 1313 | 33 | 84 | 106 | 134 | 755 | 类别2 |
将军祠 | 1487 | 119 | 125 | 149 | 191 | 276 | 类别2 |
古地石 | 1551 | 60 | 68 | 80 | 80 | 213 | 类别2 |
湖里公园 | 1041 | 44 | 118 | 80 | 212 | 555 | 类别2 |
软件园二期 | 972 | 23 | 62 | 78 | 177 | 684 | 类别2 |
小东山 | 886 | 31 | 105 | 82 | 142 | 559 | 类别2 |
安兜 | 994 | 45 | 76 | 60 | 76 | 492 | 类别2 |
蔡塘 | 1233 | 35 | 61 | 89 | 81 | 244 | 类别2 |
何厝 | 612 | 7 | 48 | 71 | 168 | 793 | 类别2 |
岭兜 | 794 | 30 | 46 | 45 | 125 | 438 | 类别2 |
殿前 | 986 | 47 | 35 | 56 | 43 | 280 | 类别2 |
人才中心 | 730 | 32 | 84 | 129 | 180 | 272 | 类别2 |
建业路 | 745 | 28 | 84 | 62 | 198 | 308 | 类别2 |
坂尚 | 943 | 36 | 35 | 53 | 70 | 268 | 类别2 |
观音山 | 406 | 12 | 30 | 49 | 101 | 477 | 类别2 |
高崎 | 674 | 14 | 19 | 15 | 29 | 253 | 类别2 |
湖滨中路 | 434 | 14 | 36 | 94 | 131 | 172 | 类别2 |
邮轮中心 | 400 | 18 | 62 | 31 | 112 | 151 | 类别2 |
五通 | 399 | 22 | 26 | 41 | 25 | 184 | 类别2 |
钟宅 | 500 | 29 | 13 | 68 | 23 | 61 | 类别2 |
东宅 | 339 | 19 | 22 | 29 | 62 | 206 | 类别2 |
湿地公园 | 381 | 19 | 16 | 24 | 24 | 212 | 类别2 |
两岸金融中心 | 168 | 16 | 12 | 30 | 25 | 67 | 类别2 |
结论
-
商业生活服务为主导型的站点(类别3):
- 特点:这类站点的生活服务和公司企业POI数量都较高,适合既有居住需求又有工作需求的人群。这些站点通常建成较早,周边业态已经成熟,因此在商业和服务设施方面更为完善。
- 站点:吕厝、湖滨东路。
- 影响:由于这些站点周边的发展较为成熟,吸引了大量企业和居民,形成了综合性的商业和居住区。
-
企业办公为主导型的站点(类别1):
- 特点:这类站点的生活服务POI数量较高,但公司企业POI数量也不少。主要以企业办公为主,尽管生活服务设施丰富,但并不是主要功能。
- 站点:火炬园、莲坂、莲花路口、乌石浦、厦门火车站、文灶、江头、镇海路。
- 影响:这些站点主要服务于企业办公需求,周边的生活服务设施虽然丰富,但更多的是为了满足上班族的日常需求。
-
混合功能性站点(类别2):
- 特点:这类站点的POI功能分布较为均衡,既有较丰富的生活服务设施,也有较多的公司企业。这些站点大多处于发展阶段,既包含生活服务类型POI占比较多的站点,也存在公司企业占比较多的站点。由于K-means聚类是一种无监督学习方法,分类方法本身可能带来一定的误差。
- 站点:体育中心、中山公园、后埔、五缘湾、塘边、华荣路、育秀东路、湖里创新园、将军祠、古地石、湖里公园、软件园二期、小东山、安兜、蔡塘、何厝、岭兜、殿前、人才中心、建业路、坂尚、观音山、高崎、湖滨中路、邮轮中心、五通、钟宅、东宅、湿地公园、两岸金融中心。
- 影响:这些站点的多功能性使其能够满足多种需求,适合居住和工作,但由于处于发展阶段,不同站点的具体功能分布可能有所差异。
文章仅用于分享个人学习成果与个人存档之用,分享知识,如有侵权,请联系作者进行删除。所有信息均基于作者的个人理解和经验,不代表任何官方立场或权威解读。