sklearn库都有哪些数据集

Scikit-learn(通常简称为sklearn)是Python的一个开源机器学习库,它包含了许多用于机器学习和数据挖掘的工具。其中,它提供了一些内置的数据集,用于测试算法和训练模型。以下是截至我的知识截止日期为止,sklearn库提供的一些常见数据集:

  1. load_boston() : 波士顿房价数据集,已于0.24版本起弃用,因为该数据集存在伦理问题,建议使用fetch_openml来获取替代数据集。
  2. load_iris(): 鸢尾花数据集,经典的分类数据集,包含3种不同类型的鸢尾花的4个属性。
  3. load_diabetes(): 糖尿病数据集,用于回归分析。
  4. load_digits(): 手写数字数据集,用于分类。
  5. load_linnerud(): 练习生理数据集,多元回归数据集,包含3个生理特征和3个运动特征。
  6. load_wine(): 红酒识别数据集,用于多类别分类。
  7. load_breast_cancer(): 乳腺癌数据集,用于二分类问题。

除了这些小规模的数据集,sklearn还提供了一些函数来获取在线或大规模的数据集:

  • fetch_20newsgroups(): 获取20个新闻组文本数据集,用于文本分类和聚类分析。
  • fetch_olivetti_faces(): 获取奥利维提人脸图片数据集。
  • fetch_lfw_people()fetch_lfw_pairs(): 获取Labeled Faces in the Wild (LFW)人脸数据集的人脸图片。
  • fetch_covtype(): 获取森林植被类型数据集(用于预测森林覆盖类型)。
  • fetch_california_housing(): 获取加利福尼亚住房价格数据集,用于回归分析。

此外,fetch_openml函数可以用来下载OpenML.org上的成百上千个数据集。

这些数据集通常用于教学、演示和测试机器学习模型的性能。在实际应用中,您可能需要处理更复杂和专业化的数据集。

相关推荐
墨染天姬1 分钟前
【AI】如何创建SKILL
人工智能
鹿鸣悠悠2 分钟前
【AI-08】Prompt(提示词)
人工智能·算法
TG_yunshuguoji8 分钟前
阿里云代理商:百炼用AI重新定义图像的诞生
人工智能·阿里云·云计算
Le0v1n8 分钟前
分词核心逻辑+BERT实操全指南
人工智能·bert·easyui
光羽隹衡8 分钟前
计算机视觉——Opencv(光流估计实现目标追踪)
人工智能·opencv·计算机视觉
2501_926978338 分钟前
从“数字果蝇” 到“数字意识”以及AGI的构建思路
大数据·人工智能·经验分享·算法·ai写作·agi
咕噜签名-铁蛋9 分钟前
OpenClaw 腾讯云部署教程 一键搭建 AI 聊天机器人
人工智能·机器人·腾讯云
白鲸开源11 分钟前
AI Agent 两大 “神辅助” 对决:MCP vs Skills 谁更能打?
人工智能·开源·aigc
智能工业品检测-奇妙智能13 分钟前
机器人在化工园区巡检的场景有哪些
人工智能·机器人·自动化·机器视觉·山东奇妙智能·圣泉集团
AI成长日志14 分钟前
【GitHub开源项目】OpenClaw深度解析——开源多模态大模型系统的架构设计与核心实现
人工智能·系统架构·开源·github