共享单车轨迹数据分析：以厦门市共享单车数据为例（七）

副标题：基于POI数据的站点功能混合度探究------以厦门市为例（二）

K-means聚类算法（K-means clustering）是一种广泛使用的无监督学习方法，用于将数据集中的对象分成K个簇（cluster）。这里的"无监督"意味着我们事先并不知道每个数据点应该属于哪个类别。K-means聚类的目标是让同一个簇内的数据尽可能相似，而不同簇之间的数据差异尽可能大。简单来说，就是将性质相近的数据归为一类。

本篇文章是对岛内的地铁站站点基于6大类别POI数据进行分类，使用IBM旗下的 SPSS Statistics 软件进行分析或者使用一些SPSS在线平台都可以进行分析；

本篇文章使用的SPSS在线平台：SPSSPRO-免费专业的在线数据分析平台

软件：IBM SPSS Statistics 版本27.0

SPSS Statistics 软件的操作方法，把数据导入后选择【分析】→【分类】→【K-均值聚类】，这里需要把上篇文章提到的生活服务、医疗保健服务、商务住宅、科教文化服务、交通设施服务、公司企业这六类POI都选为变量，分类数量这里选择分为【3】类，这个是一个主观值，通过该值得出分类结果的可解释度来判断是否需要继续调整，方法选择【迭代与分类】，点击确定即可；

运行结果如下，聚类结果为3类，类别1有2个，类别2有30个，类别3有8个；

诚然专业软件可以进行更细致和更深入的分析，但是对于初入门的小伙伴来说，在线的一些SPSS分析平台也不错的选择，门槛更低（这里没有广子，纯个人使用体验），这类平台有什么好处呢，简单的来说傻瓜式入门，就类似傻瓜相机，上手直接拍就行；

以现在用在这个SPSS在线分析平台为例，如果你不确定分类的数量，可以选择【手肘法则】，另外记得勾选一下【生成类别变量】，这样在结果里会标注哪些站点是属于哪一个类别的，

这里也简单解释一下什么是手肘法则，手肘法则（Elbow Method）是一种用来确定K均值聚类算法中K值（即簇的数量）的方法，对于一个簇，它的畸变程度越低，代表簇内成员越紧密，畸变程度越高，代表簇内结构越松散。畸变程度会随着类别的增加而降低，但对于有一定区分度的数据，在达到某个临界点时畸变程度会得到极大改善，之后缓慢下降，这个临界点就可以考虑为聚类性能较好的点。

通俗解释：

如果你把一些玩具球分成几堆，一开始，你只分了一两堆，你会发现有些球离得很远，这堆里的球并不那么紧密。但是，当你开始多分几堆时，你会发现每堆里的球靠得更近了，也就是每堆球更加紧密了。不过，当你继续增加堆数时，你会发现尽管你增加了堆数，但球之间的紧密程度提升得越来越慢，几乎没有什么大的变化了。

这个过程中，有一个特别的点，就是当你增加堆数时，球的紧密程度有了一个显著的提升，然后就慢慢不再有太大的变化了。这个点就像是你的手臂弯起来的那个角度，所以叫做"肘部"。这个"肘部"点就是选择合适群组数量的好地方，因为它意味着增加更多的群组带来的好处已经不多了。

另外在数据进行分析前需要对数据进行显著性分析，也就是P值分析，简单来说，就是这个数据在数值上有没有分析的价值，这部分详细解释可见：基于网格尺度的上海市人口分布空间聚集特征分析与冷热点识别_上海人口网格分析-CSDN博客

这里直接放分析结果，这个也就是平台的优势，就是对功能的整合和对结果解读的优化；

通过分析结果可以看到，在K=3时，曲线出现了明显的弯曲，之后即使K值继续增加，坡度变化也非常缓慢。这意味着K=3是一个合理的簇数量选择，因为再增加簇的数量对改善聚类效果的帮助已经不大了；

聚类结果如下图，与SPSS Statistics 软件分析的结果一致；

聚类结果的不同簇在二维空间的分布情况；

又到了看图说话的环节，我们先来看看不同类别的站点分布情况，类别2、3基本上在岛中心位置分布同时涵盖1号线岛内的大部分站点，类型1也群体数量最多的一类，同时也基本上涵盖了地铁2、3号线的岛内大部分站点，在此基础上我们再结合百度百科的"厦门地铁"这一词条可知，厦门地铁的建设顺序也是按1、2、3号线顺序建成的，先建成的站点周边建成区通常发展更加的完善，所以在各类POI发展情况会有别于后建成的站点；

聚类种类

类别1：主要特点是生活服务POI数量较高，公司企业POI数量相对较少。这些站点适合居住，因为生活便利设施丰富。
类别2：生活服务POI数量适中，公司企业POI数量较高。这些站点既有一定的生活便利性，又具备较强的商业和工业特性，适合工作和商业活动。
类别3：生活服务POI数量较高，公司企业POI数量也较高。这些站点综合了居住和商业的特点，适合既有居住需求又有工作需求的人群。

基于三类不同站点的特征我们把他分别进行定义，类别3定义为：商业生活服务****为主导型的站点，商业生活服务为主导型的站点，这类站点的生活服务和公司企业POI数量都较高，适合既有居住需求又有工作需求的人群，且建成较早，周边业态已经成熟；

类别1定义为：企业办公为主导型的站点 ，因为站点建设时间等一些因素的影响，我们通过生活服务设施与公司企业POI数量的比例关系进行界定，类别3的生活服务设施与公司企业POI数量的比例关系1:5左右，而类型1的在1:7以上，也就意味着在同样多的公司企业POI情况下，该站点可以带来更多的生活服务设施POI，当然这里也存在边际递减效应，姑且先如此定论；

类别2定义为：混合功能性站点，该类型站点POI功能分布比较均衡，且大部分站点处于发展阶段，因为该类型站点最多，所以既包含生活服务类型POI占比较多的站点，也存在公司企业占比较多的站点，同样的因为K-means聚类是一种无监督学习方法，也不排除分类方法本身所带来的误差。

另外这里明确一个概念，就是我们讨论的前提是基于POI数量来作为讨论的基础，像医疗保健POI、科教文化POI这些类型它们的大部分主体是学校、医院，而这些POI它们各自又有自己的辐射范围，就单论数量而言，确实有些片面了，就某一类型POI的影响范围，我们另写文章进行讨论，这里我把统计出来的岛内原始数据放在这里，有兴趣的可以通过其他分类方法来进行分类；

站点	生活服务	医疗保健	商务住宅	科教文化	交通设施	公司企业	聚类种类
吕厝	7538	284	370	540	1044	1400	类别3
湖滨东路	7066	318	408	488	914	1242	类别3
火炬园	3908	190	280	318	452	1540	类别1
莲坂	4253	172	206	211	450	696	类别1
莲花路口	3251	108	183	199	424	653	类别1
乌石浦	3326	88	127	144	369	488	类别1
厦门火车站	3012	140	192	198	399	478	类别1
文灶	2887	209	180	233	355	420	类别1
江头	3237	117	144	153	278	327	类别1
镇海路	2983	141	104	178	248	196	类别1
体育中心	1538	82	154	330	368	530	类别2
中山公园	1899	167	98	243	213	217	类别2
后埔	2113	84	97	100	193	213	类别2
五缘湾	1494	66	90	148	200	712	类别2
塘边	1953	71	102	147	161	268	类别2
华荣路	1363	59	112	84	206	682	类别2
育秀东路	1425	86	102	180	287	348	类别2
湖里创新园	1313	33	84	106	134	755	类别2
将军祠	1487	119	125	149	191	276	类别2
古地石	1551	60	68	80	80	213	类别2
湖里公园	1041	44	118	80	212	555	类别2
软件园二期	972	23	62	78	177	684	类别2
小东山	886	31	105	82	142	559	类别2
安兜	994	45	76	60	76	492	类别2
蔡塘	1233	35	61	89	81	244	类别2
何厝	612	7	48	71	168	793	类别2
岭兜	794	30	46	45	125	438	类别2
殿前	986	47	35	56	43	280	类别2
人才中心	730	32	84	129	180	272	类别2
建业路	745	28	84	62	198	308	类别2
坂尚	943	36	35	53	70	268	类别2
观音山	406	12	30	49	101	477	类别2
高崎	674	14	19	15	29	253	类别2
湖滨中路	434	14	36	94	131	172	类别2
邮轮中心	400	18	62	31	112	151	类别2
五通	399	22	26	41	25	184	类别2
钟宅	500	29	13	68	23	61	类别2
东宅	339	19	22	29	62	206	类别2
湿地公园	381	19	16	24	24	212	类别2
两岸金融中心	168	16	12	30	25	67	类别2

结论

商业生活服务为主导型的站点（类别3）：
- 特点：这类站点的生活服务和公司企业POI数量都较高，适合既有居住需求又有工作需求的人群。这些站点通常建成较早，周边业态已经成熟，因此在商业和服务设施方面更为完善。
- 站点：吕厝、湖滨东路。
- 影响：由于这些站点周边的发展较为成熟，吸引了大量企业和居民，形成了综合性的商业和居住区。
企业办公为主导型的站点（类别1）：
- 特点：这类站点的生活服务POI数量较高，但公司企业POI数量也不少。主要以企业办公为主，尽管生活服务设施丰富，但并不是主要功能。
- 站点：火炬园、莲坂、莲花路口、乌石浦、厦门火车站、文灶、江头、镇海路。
- 影响：这些站点主要服务于企业办公需求，周边的生活服务设施虽然丰富，但更多的是为了满足上班族的日常需求。
混合功能性站点（类别2）：
- 特点：这类站点的POI功能分布较为均衡，既有较丰富的生活服务设施，也有较多的公司企业。这些站点大多处于发展阶段，既包含生活服务类型POI占比较多的站点，也存在公司企业占比较多的站点。由于K-means聚类是一种无监督学习方法，分类方法本身可能带来一定的误差。
- 站点：体育中心、中山公园、后埔、五缘湾、塘边、华荣路、育秀东路、湖里创新园、将军祠、古地石、湖里公园、软件园二期、小东山、安兜、蔡塘、何厝、岭兜、殿前、人才中心、建业路、坂尚、观音山、高崎、湖滨中路、邮轮中心、五通、钟宅、东宅、湿地公园、两岸金融中心。
- 影响：这些站点的多功能性使其能够满足多种需求，适合居住和工作，但由于处于发展阶段，不同站点的具体功能分布可能有所差异。

文章仅用于分享个人学习成果与个人存档之用，分享知识，如有侵权，请联系作者进行删除。所有信息均基于作者的个人理解和经验，不代表任何官方立场或权威解读。