共享单车轨迹数据分析:以厦门市共享单车数据为例(七)

副标题:基于POI数据的站点功能混合度探究------以厦门市为例(二)

K-means聚类算法(K-means clustering)是一种广泛使用的无监督学习方法,用于将数据集中的对象分成K个簇(cluster)。这里的"无监督"意味着我们事先并不知道每个数据点应该属于哪个类别。K-means聚类的目标是让同一个簇内的数据尽可能相似,而不同簇之间的数据差异尽可能大。简单来说,就是将性质相近的数据归为一类。

本篇文章是对岛内的地铁站站点基于6大类别POI数据进行分类,使用IBM旗下的 SPSS Statistics 软件进行分析或者使用一些SPSS在线平台都可以进行分析;

本篇文章使用的SPSS在线平台:SPSSPRO-免费专业的在线数据分析平台

软件:IBM SPSS Statistics 版本27.0

SPSS Statistics 软件的操作方法,把数据导入后选择【分析】→【分类】→【K-均值聚类】,这里需要把上篇文章提到的生活服务、医疗保健服务、商务住宅、科教文化服务、交通设施服务、公司企业这六类POI都选为变量,分类数量这里选择分为【3】类,这个是一个主观值,通过该值得出分类结果的可解释度来判断是否需要继续调整,方法选择【迭代与分类】,点击确定即可;

运行结果如下,聚类结果为3类,类别1有2个,类别2有30个,类别3有8个;

诚然专业软件可以进行更细致和更深入的分析,但是对于初入门的小伙伴来说,在线的一些SPSS分析平台也不错的选择,门槛更低(这里没有广子,纯个人使用体验),这类平台有什么好处呢,简单的来说傻瓜式入门,就类似傻瓜相机,上手直接拍就行;

以现在用在这个SPSS在线分析平台为例,如果你不确定分类的数量,可以选择【手肘法则】,另外记得勾选一下【生成类别变量】,这样在结果里会标注哪些站点是属于哪一个类别的,

这里也简单解释一下什么是手肘法则,手肘法则(Elbow Method)是一种用来确定K均值聚类算法中K值(即簇的数量)的方法,对于一个簇,它的畸变程度越低,代表簇内成员越紧密,畸变程度越高,代表簇内结构越松散。 畸变程度会随着类别的增加而降低,但对于有一定区分度的数据,在达到某个临界点时畸变程度会得到极大改善,之后缓慢下降,这个临界点就可以考虑为聚类性能较好的点。

通俗解释:

如果你把一些玩具球分成几堆,一开始,你只分了一两堆,你会发现有些球离得很远,这堆里的球并不那么紧密。但是,当你开始多分几堆时,你会发现每堆里的球靠得更近了,也就是每堆球更加紧密了。不过,当你继续增加堆数时,你会发现尽管你增加了堆数,但球之间的紧密程度提升得越来越慢,几乎没有什么大的变化了。

这个过程中,有一个特别的点,就是当你增加堆数时,球的紧密程度有了一个显著的提升,然后就慢慢不再有太大的变化了。这个点就像是你的手臂弯起来的那个角度,所以叫做"肘部"。这个"肘部"点就是选择合适群组数量的好地方,因为它意味着增加更多的群组带来的好处已经不多了。

另外在数据进行分析前需要对数据进行显著性分析,也就是P值分析,简单来说,就是这个数据在数值上有没有分析的价值,这部分详细解释可见:基于网格尺度的上海市人口分布空间聚集特征分析与冷热点识别_上海人口网格分析-CSDN博客

这里直接放分析结果,这个也就是平台的优势,就是对功能的整合和对结果解读的优化;

通过分析结果可以看到,在K=3时,曲线出现了明显的弯曲,之后即使K值继续增加,坡度变化也非常缓慢。这意味着K=3是一个合理的簇数量选择,因为再增加簇的数量对改善聚类效果的帮助已经不大了;

聚类结果如下图,与SPSS Statistics 软件分析的结果一致;

聚类结果的不同簇在二维空间的分布情况;

又到了看图说话的环节,我们先来看看不同类别的站点分布情况,类别2、3基本上在岛中心位置分布同时涵盖1号线岛内的大部分站点,类型1也群体数量最多的一类,同时也基本上涵盖了地铁2、3号线的岛内大部分站点,在此基础上我们再结合百度百科的"厦门地铁"这一词条可知,厦门地铁的建设顺序也是按1、2、3号线顺序建成的,先建成的站点周边建成区通常发展更加的完善,所以在各类POI发展情况会有别于后建成的站点;

聚类种类
  • 类别1:主要特点是生活服务POI数量较高,公司企业POI数量相对较少。这些站点适合居住,因为生活便利设施丰富。
  • 类别2:生活服务POI数量适中,公司企业POI数量较高。这些站点既有一定的生活便利性,又具备较强的商业和工业特性,适合工作和商业活动。
  • 类别3:生活服务POI数量较高,公司企业POI数量也较高。这些站点综合了居住和商业的特点,适合既有居住需求又有工作需求的人群。

基于三类不同站点的特征我们把他分别进行定义,类别3定义为:商业生活服务****为主导型的站点,商业生活服务为主导型的站点,这类站点的生活服务和公司企业POI数量都较高,适合既有居住需求又有工作需求的人群,且建成较早,周边业态已经成熟;

类别1定义为:企业办公为主导型的站点 ,因为站点建设时间等一些因素的影响,我们通过生活服务设施与公司企业POI数量的比例关系进行界定,类别3的生活服务设施与公司企业POI数量的比例关系1:5左右,而类型1的在1:7以上,也就意味着在同样多的公司企业POI情况下,该站点可以带来更多的生活服务设施POI,当然这里也存在边际递减效应,姑且先如此定论;

类别2定义为:混合功能性站点,该类型站点POI功能分布比较均衡,且大部分站点处于发展阶段,因为该类型站点最多,所以既包含生活服务类型POI占比较多的站点,也存在公司企业占比较多的站点,同样的因为K-means聚类是一种无监督学习方法,也不排除分类方法本身所带来的误差。

另外这里明确一个概念,就是我们讨论的前提是基于POI数量来作为讨论的基础,像医疗保健POI、科教文化POI这些类型它们的大部分主体是学校、医院,而这些POI它们各自又有自己的辐射范围,就单论数量而言,确实有些片面了,就某一类型POI的影响范围,我们另写文章进行讨论,这里我把统计出来的岛内原始数据放在这里,有兴趣的可以通过其他分类方法来进行分类;

站点 生活服务 医疗保健 商务住宅 科教文化 交通设施 公司企业 聚类种类
吕厝 7538 284 370 540 1044 1400 类别3
湖滨东路 7066 318 408 488 914 1242 类别3
火炬园 3908 190 280 318 452 1540 类别1
莲坂 4253 172 206 211 450 696 类别1
莲花路口 3251 108 183 199 424 653 类别1
乌石浦 3326 88 127 144 369 488 类别1
厦门火车站 3012 140 192 198 399 478 类别1
文灶 2887 209 180 233 355 420 类别1
江头 3237 117 144 153 278 327 类别1
镇海路 2983 141 104 178 248 196 类别1
体育中心 1538 82 154 330 368 530 类别2
中山公园 1899 167 98 243 213 217 类别2
后埔 2113 84 97 100 193 213 类别2
五缘湾 1494 66 90 148 200 712 类别2
塘边 1953 71 102 147 161 268 类别2
华荣路 1363 59 112 84 206 682 类别2
育秀东路 1425 86 102 180 287 348 类别2
湖里创新园 1313 33 84 106 134 755 类别2
将军祠 1487 119 125 149 191 276 类别2
古地石 1551 60 68 80 80 213 类别2
湖里公园 1041 44 118 80 212 555 类别2
软件园二期 972 23 62 78 177 684 类别2
小东山 886 31 105 82 142 559 类别2
安兜 994 45 76 60 76 492 类别2
蔡塘 1233 35 61 89 81 244 类别2
何厝 612 7 48 71 168 793 类别2
岭兜 794 30 46 45 125 438 类别2
殿前 986 47 35 56 43 280 类别2
人才中心 730 32 84 129 180 272 类别2
建业路 745 28 84 62 198 308 类别2
坂尚 943 36 35 53 70 268 类别2
观音山 406 12 30 49 101 477 类别2
高崎 674 14 19 15 29 253 类别2
湖滨中路 434 14 36 94 131 172 类别2
邮轮中心 400 18 62 31 112 151 类别2
五通 399 22 26 41 25 184 类别2
钟宅 500 29 13 68 23 61 类别2
东宅 339 19 22 29 62 206 类别2
湿地公园 381 19 16 24 24 212 类别2
两岸金融中心 168 16 12 30 25 67 类别2

结论

  1. 商业生活服务为主导型的站点(类别3)

    • 特点:这类站点的生活服务和公司企业POI数量都较高,适合既有居住需求又有工作需求的人群。这些站点通常建成较早,周边业态已经成熟,因此在商业和服务设施方面更为完善。
    • 站点:吕厝、湖滨东路。
    • 影响:由于这些站点周边的发展较为成熟,吸引了大量企业和居民,形成了综合性的商业和居住区。
  2. 企业办公为主导型的站点(类别1)

    • 特点:这类站点的生活服务POI数量较高,但公司企业POI数量也不少。主要以企业办公为主,尽管生活服务设施丰富,但并不是主要功能。
    • 站点:火炬园、莲坂、莲花路口、乌石浦、厦门火车站、文灶、江头、镇海路。
    • 影响:这些站点主要服务于企业办公需求,周边的生活服务设施虽然丰富,但更多的是为了满足上班族的日常需求。
  3. 混合功能性站点(类别2)

    • 特点:这类站点的POI功能分布较为均衡,既有较丰富的生活服务设施,也有较多的公司企业。这些站点大多处于发展阶段,既包含生活服务类型POI占比较多的站点,也存在公司企业占比较多的站点。由于K-means聚类是一种无监督学习方法,分类方法本身可能带来一定的误差。
    • 站点:体育中心、中山公园、后埔、五缘湾、塘边、华荣路、育秀东路、湖里创新园、将军祠、古地石、湖里公园、软件园二期、小东山、安兜、蔡塘、何厝、岭兜、殿前、人才中心、建业路、坂尚、观音山、高崎、湖滨中路、邮轮中心、五通、钟宅、东宅、湿地公园、两岸金融中心。
    • 影响:这些站点的多功能性使其能够满足多种需求,适合居住和工作,但由于处于发展阶段,不同站点的具体功能分布可能有所差异。

文章仅用于分享个人学习成果与个人存档之用,分享知识,如有侵权,请联系作者进行删除。所有信息均基于作者的个人理解和经验,不代表任何官方立场或权威解读。

相关推荐
zhixingheyi_tian1 分钟前
Spark 之 Aggregate
大数据·分布式·spark
PersistJiao1 分钟前
Spark 分布式计算中网络传输和序列化的关系(一)
大数据·网络·spark
宅小海3 小时前
scala String
大数据·开发语言·scala
小白的白是白痴的白3 小时前
11.17 Scala练习:梦想清单管理
大数据
java1234_小锋3 小时前
Elasticsearch是如何实现Master选举的?
大数据·elasticsearch·搜索引擎
Swift社区4 小时前
LeetCode - #139 单词拆分
算法·leetcode·职场和发展
Kent_J_Truman4 小时前
greater<>() 、less<>()及运算符 < 重载在排序和堆中的使用
算法
IT 青年5 小时前
数据结构 (1)基本概念和术语
数据结构·算法
wxl7812275 小时前
如何使用本地大模型做数据分析
python·数据挖掘·数据分析·代码解释器
Dong雨5 小时前
力扣hot100-->栈/单调栈
算法·leetcode·职场和发展