基于 K-means 聚类的天天基金数据分析、挖掘、可视化

✨ 觉得有用?别忘了点个 Star ⭐! 你的支持是我持续更新的最大动力!


🎯 项目目标

利用无监督学习对 11,344 只公募基金进行智能分组,挖掘高价值投资标的

本项目通过 K-means 聚类算法 对天天基金平台公开数据进行分析,旨在:

  • 自动识别具有相似风险收益特征的基金群体;
  • 揭示市场结构性分化(如"高增长高波动" vs "低增长稳收益");
  • 为投资者提供数据驱动的分类参考与决策支持。

🔧 技术流程

1. 数据采集

  • 模拟 AJAX 请求爬取天天基金平台数据;
  • 获取字段包括:基金代码、名称、单位净值、日增长率、资产配置、成立日期等;
  • 合法合规,避免高频请求,确保数据稳定性。

2. 数据清洗与预处理

  • 剔除重复记录(共 56 条);
  • 处理缺失值与异常值(采用 IQR 方法);
  • 标准化日期格式与数值类型,统一数据口径。

3. 特征工程

构建以下核心特征用于聚类:

类别 特征 说明
收益类 日增长率、净值变化率 衡量短期与中期收益能力
风险类 增长波动性(30 日滚动标准差) 反映价格稳定性
结构类 价值比率、日增长率排名 辅助判断市场地位

💡 特征重要性分析显示:日增长率贡献度最高(0.6572)

4. 聚类建模

  • 使用 K-means++ 初始化提升收敛稳定性;
  • 通过 肘部法则轮廓系数(Silhouette Score = 0.4495) 确定最优聚类数 K=2
  • 最终聚类结果清晰区分两类基金:
    • 聚类 0:低增长、低波动、稳健型(平均日增长率 0.31%)
    • 聚类 1:高增长、高波动、进取型(平均日增长率 1.37%,夏普比率 0.88)

5. 可视化分析

  • 散点图:展示聚类在"日增长率 vs 波动性"平面上的分布;
  • 雷达图:对比两类基金在多维指标上的差异;
  • 直方图:揭示日增长率呈右偏分布,仅 1.4% 基金日涨超 2%。

📈 关键发现

  • 医疗健康主题基金表现最优 :平均日增长率达 1.51%
  • 市场呈现明显两极分化:高风险聚类虽波动大,但收益显著领先;
  • 聚类 1 中包含大量行业主题基金(如新能源、半导体),具备高弹性特征;
  • 低风险聚类以债券型、货币型基金为主,适合保守投资者。

📁 数据概览

项目 数值
基金样本数量 11,344 只
特征维度 10+
数据截止日期 2025-12-22
聚类数量(K) 2
轮廓系数 0.4495

🚧 局限性与未来工作

当前局限

  • 数据时效性受限(截至 2025 年底);
  • 未纳入基金经理履历、基金规模、换手率等高阶特征;
  • K-means 对非球形簇或噪声敏感。

未来方向

  • 引入 K-prototype 聚类 处理混合类型数据(数值 + 类别);
  • 融合 NLP 技术解析基金持仓文本描述;
  • 构建 动态聚类系统,支持每日增量更新;
  • 接入回测框架,验证聚类策略的长期收益表现。

📂 项目结构

bash 复制代码
.
├── analyse/                   # 原始与处理后的数据集
│   ├──  analysis_version.ipynb   # 数据可视化
│   ├──  crawler.ipynb  # 爬虫
│   └──  data_clean_analysis.ipynb  # 数据清洗,数据分析
│   └──  data_model.ipynb # 数据建模
├── results/                # 聚类结果于总结
│   ├── tiantian jjin report.txt
│   ├── tiantianjin results.csv
│   └── tiantianjin_summary.csv
├── requirements.txt        # 依赖库
└── README.md

🛠️ 快速开始

bash 复制代码
# 克隆项目
git clone https://gitee.com/at-share/analyse-project.git
cd analyse-project

# 安装依赖
pip install -r requirements.txt

⚠️ 注意:原始数据需自行爬取或提供合法来源。项目不包含天天基金平台的原始数据文件。


🙌 致谢

  • 数据来源:天天基金网
  • 算法参考:scikit-learn KMeans, Silhouette Analysis
  • 可视化:Matplotlib, Seaborn

✨ 本项目为学术研究与技术探索用途,不构成任何投资建议。

相关推荐
饼干哥哥4 天前
开源Skills|搭建亚马逊动态关键词库系统,每天抓SSS级机会词
人工智能·深度学习·数据分析
倔强的石头_6 天前
企业工商数据源站点:无验证无拦截,批量获取工商数据完整方案
数据分析
hboot12 天前
AI工程师第二课 - 数据处理
人工智能·python·数据分析
王小王-12313 天前
基于 Hive 的网易云音乐数据分析及可视化系统
hive·hadoop·数据分析·音乐数据分析·网易云音乐分析·hive音乐分析·hadoop网易云
Database_Cool_13 天前
大规模数据分析降本指南:AnalyticDB Serverless 弹性架构实战
数据仓库·阿里云·架构·数据分析·serverless
YangYang9YangYan13 天前
2026初入职场学习数据分析的价值
学习·数据挖掘·数据分析
有Li13 天前
PTCMIL:基于提示 token 聚类的全切片图像多实例学习分析文献速递/多模态医学影像最新进展
论文阅读·学习·数据挖掘·聚类·文献·医学生
砚底藏山河13 天前
沪深A股:如何获取基金持股数据
java·python·数据分析·maven
jarreyer13 天前
【数据分析绘图】excel绘图和bi工具区别
数据挖掘·数据分析·excel
星川皆无恙13 天前
大数据k-means聚类算法:基于k-means聚类算法+NLP微博舆情数据爬虫可视化分析推荐系统(新版)
大数据·人工智能·爬虫·算法·机器学习·自然语言处理·kmeans