基于 K-means 聚类的天天基金数据分析、挖掘、可视化

✨ 觉得有用?别忘了点个 Star ⭐! 你的支持是我持续更新的最大动力!


🎯 项目目标

利用无监督学习对 11,344 只公募基金进行智能分组,挖掘高价值投资标的

本项目通过 K-means 聚类算法 对天天基金平台公开数据进行分析,旨在:

  • 自动识别具有相似风险收益特征的基金群体;
  • 揭示市场结构性分化(如"高增长高波动" vs "低增长稳收益");
  • 为投资者提供数据驱动的分类参考与决策支持。

🔧 技术流程

1. 数据采集

  • 模拟 AJAX 请求爬取天天基金平台数据;
  • 获取字段包括:基金代码、名称、单位净值、日增长率、资产配置、成立日期等;
  • 合法合规,避免高频请求,确保数据稳定性。

2. 数据清洗与预处理

  • 剔除重复记录(共 56 条);
  • 处理缺失值与异常值(采用 IQR 方法);
  • 标准化日期格式与数值类型,统一数据口径。

3. 特征工程

构建以下核心特征用于聚类:

类别 特征 说明
收益类 日增长率、净值变化率 衡量短期与中期收益能力
风险类 增长波动性(30 日滚动标准差) 反映价格稳定性
结构类 价值比率、日增长率排名 辅助判断市场地位

💡 特征重要性分析显示:日增长率贡献度最高(0.6572)

4. 聚类建模

  • 使用 K-means++ 初始化提升收敛稳定性;
  • 通过 肘部法则轮廓系数(Silhouette Score = 0.4495) 确定最优聚类数 K=2
  • 最终聚类结果清晰区分两类基金:
    • 聚类 0:低增长、低波动、稳健型(平均日增长率 0.31%)
    • 聚类 1:高增长、高波动、进取型(平均日增长率 1.37%,夏普比率 0.88)

5. 可视化分析

  • 散点图:展示聚类在"日增长率 vs 波动性"平面上的分布;
  • 雷达图:对比两类基金在多维指标上的差异;
  • 直方图:揭示日增长率呈右偏分布,仅 1.4% 基金日涨超 2%。

📈 关键发现

  • 医疗健康主题基金表现最优 :平均日增长率达 1.51%
  • 市场呈现明显两极分化:高风险聚类虽波动大,但收益显著领先;
  • 聚类 1 中包含大量行业主题基金(如新能源、半导体),具备高弹性特征;
  • 低风险聚类以债券型、货币型基金为主,适合保守投资者。

📁 数据概览

项目 数值
基金样本数量 11,344 只
特征维度 10+
数据截止日期 2025-12-22
聚类数量(K) 2
轮廓系数 0.4495

🚧 局限性与未来工作

当前局限

  • 数据时效性受限(截至 2025 年底);
  • 未纳入基金经理履历、基金规模、换手率等高阶特征;
  • K-means 对非球形簇或噪声敏感。

未来方向

  • 引入 K-prototype 聚类 处理混合类型数据(数值 + 类别);
  • 融合 NLP 技术解析基金持仓文本描述;
  • 构建 动态聚类系统,支持每日增量更新;
  • 接入回测框架,验证聚类策略的长期收益表现。

📂 项目结构

bash 复制代码
.
├── analyse/                   # 原始与处理后的数据集
│   ├──  analysis_version.ipynb   # 数据可视化
│   ├──  crawler.ipynb  # 爬虫
│   └──  data_clean_analysis.ipynb  # 数据清洗,数据分析
│   └──  data_model.ipynb # 数据建模
├── results/                # 聚类结果于总结
│   ├── tiantian jjin report.txt
│   ├── tiantianjin results.csv
│   └── tiantianjin_summary.csv
├── requirements.txt        # 依赖库
└── README.md

🛠️ 快速开始

bash 复制代码
# 克隆项目
git clone https://gitee.com/at-share/analyse-project.git
cd analyse-project

# 安装依赖
pip install -r requirements.txt

⚠️ 注意:原始数据需自行爬取或提供合法来源。项目不包含天天基金平台的原始数据文件。


🙌 致谢

  • 数据来源:天天基金网
  • 算法参考:scikit-learn KMeans, Silhouette Analysis
  • 可视化:Matplotlib, Seaborn

✨ 本项目为学术研究与技术探索用途,不构成任何投资建议。

相关推荐
2501_944934733 小时前
中专财务人员转型数据分析的可行性分析
数据挖掘·数据分析
2501_944934735 小时前
高职学历转行电商运营的数据分析学习路径
学习·数据挖掘·数据分析
belldeep5 小时前
什么是探索性数据分析 (EDA)?
数据挖掘·数据分析·eda
BOB-wangbaohai6 小时前
软考-系统架构师-数据库系统(二)
数据库·数据分析·软考·系统架构师
sensen_kiss13 小时前
INT303 Big Data Analysis 大数据分析 Pt.12 推荐系统(Recommendation Systems)
大数据·数据挖掘·数据分析
wang_yb14 小时前
当条形图遇上极坐标:径向与圆形条形图的视觉革命
数据分析·databook
databook14 小时前
当条形图遇上极坐标:径向与圆形条形图的视觉革命
python·数据分析·数据可视化
电商API_1800790524719 小时前
批量获取电商商品数据的主流技术方法全解析
大数据·数据库·人工智能·数据分析·网络爬虫
木头左1 天前
基于GARCH波动率聚类的指数期权蒙特卡洛定价模型
机器学习·数据挖掘·聚类