文章目录
菜鸡镇贴!!!
scikit-learn 简要介绍
Scikit learn是一个开源的机器学习库,支持有监督和无监督的学习。它还提供了用于模型拟合、数据预处理、模型选择、模型评估和许多其他实用程序的各种工具。
scikit-learn 安装
本文仅提供Linux下的安装指南 其他平台可参照官网指南安装
Operating System :Linux
Packager : conda
使用Anaconda或miniconda安装程序或miniorge安装程序安装conda(其中任何安装程序都不需要管理员权限)。
然后运行:
conda create -n sklearn-env -c conda-forge scikit-learn
conda activate sklearn-env
scikit-learn 数据集介绍
scikit-learn内置了一些标准数据集,例如用于分类的鸢尾花和数字数据集以及用于回归的糖尿病数据集。该软件包还提供了一些助手,用于获取机器学习社区常用的较大数据集,以对来自"真实世界"的数据进行算法基准测试。此外它还具有一些人工数据生成器。
简而言之 scikit-learn提供了三种数据集供你来学习机器学习:测试数据集、真实数据集和数据集生成器。
数据集如下:
Category | Dataset |
---|---|
Toy datasets | Iris plants dataset |
Diabetes dataset | |
Optical recognition of handwritten digits dataset | |
Linnerrud dataset | |
Wine recognition dataset | |
Breast cancer wisconsin (diagnostic) dataset | |
Real world datasets | The Olivetti faces dataset |
The 20 newsgroups text dataset | |
The Labeled Faces in the Wild face recognition dataset | |
Forest covertypes | |
RCV1 dataset | |
Kddcup 99 dataset | |
California Housing dataset | |
Species distribution dataset | |
Generated datasets | Generators for classification and clustering |
Generators for regression | |
Generators for manifold learning | |
Generators for decomposition | |
Loading other datasets | |
Sample images | |
Datasets in svmlight / libsvm format | |
Downloading datasets from the openml.org repository | |
Loading from external datasets |
数据集API介绍
General dataset API. 根据所需的数据集类型,有三种主要类型的数据集接口可用于获取数据集。
**The dataset loaders. **它们可用于加载小型标准数据集,如Toy数据集部分所述。
**The dataset fetchers. **它们可用于下载和加载更大的数据集,如真实世界数据集部分所述。
Loaders
python
datasets.clear_data_home([data_home]) 删除数据主缓存的所有内容。
datasets.dump_svmlight_file(X, y, f, *[, ...]) 以svmlight/libsvm文件格式转储数据集。
datasets.fetch_20newsgroups(*[, data_home, ...]) 从20个新闻组数据集中加载文件名和数据(分类)。
datasets.fetch_20newsgroups_vectorized(*[, ...]) 加载并向量化20个新闻组数据集(分类)。
datasets.fetch_california_housing(*[, ...]) 加载加州住房数据集(回归)。
datasets.fetch_covtype(*[, data_home, ...]) 加载covertype数据集(分类)。
datasets.fetch_kddcup99(*[, subset, ...]) 加载kddcup99数据集(分类)。
datasets.fetch_lfw_pairs(*[, subset, ...]) 加载"野生(LFW)对中的已标记人脸"数据集(分类)。
datasets.fetch_lfw_people(*[, data_home, ...]) 加载野外标记面孔 (LFW) 人物数据集(分类)。
datasets.fetch_olivetti_faces(*[, ...]) 从 AT&T(分类)加载 Olivetti 面孔数据集。
datasets.fetch_openml([name, version, ...]) 按名称或数据集 ID 从 openml 获取数据集。
datasets.fetch_rcv1(*[, data_home, subset, ...]) 加载 RCV1 多标签数据集(分类)。
datasets.fetch_species_distributions(*[, ...]) Phillips 等人的物种分布数据集加载器。
datasets.get_data_home([data_home]) 返回 scikit-learn 数据目录的路径。
datasets.load_breast_cancer(*[, return_X_y, ...]) 加载并返回威斯康星州乳腺癌数据集(分类)。
datasets.load_diabetes(*[, return_X_y, ...]) 加载并返回糖尿病数据集(回归)。
datasets.load_digits(*[, n_class, ...]) 加载并返回数字数据集(分类)。
datasets.load_files(container_path, *[, ...]) 加载以类别作为子文件夹名称的文本文件。
datasets.load_iris(*[, return_X_y, as_frame]) 加载并返回鸢尾花数据集(分类)。
datasets.load_linnerud(*[, return_X_y, as_frame]) 加载并返回体育锻炼 Linnerud 数据集。
datasets.load_sample_image(image_name) 加载单个样本图像的 numpy 数组。
datasets.load_sample_images() 加载示例图像以进行图像处理。
datasets.load_svmlight_file(f, *[, ...]) 将 svmlight / libsvm 格式的数据集加载到稀疏 CSR 矩阵中。
datasets.load_svmlight_files(files, *[, ...]) 从 SVMlight 格式的多个文件加载数据集。
datasets.load_wine(*[, return_X_y, as_frame]) 加载并返回葡萄酒数据集(分类)。
Samples generator
python
datasets.make_biclusters(shape, n_clusters, *) 生成用于双聚类的常量块对角结构数组。
datasets.make_blobs([n_samples, n_features, ...]) 生成各向同性高斯斑点以进行聚类。
datasets.make_checkerboard(shape, n_clusters, *) 生成具有块棋盘结构的数组以进行双聚类。
datasets.make_circles([n_samples, shuffle, ...]) 在 2d 中制作一个包含小圆的大圆。
datasets.make_classification([n_samples, ...]) 生成随机 n 类分类问题。
datasets.make_friedman1([n_samples, ...]) 生成"Friedman #1"回归问题。
datasets.make_friedman2([n_samples, noise, ...]) 生成"Friedman #2"回归问题。
datasets.make_friedman3([n_samples, noise, ...]) 生成"Friedman #3"回归问题。
datasets.make_gaussian_quantiles(*[, mean, ...]) 生成各向同性高斯并按分位数标记样本。
datasets.make_hastie_10_2([n_samples, ...]) 生成 Hastie 等人使用的二元分类数据。 2009 年,例 10.2。
datasets.make_low_rank_matrix([n_samples, ...]) 生成一个具有钟形奇异值的低秩矩阵。
datasets.make_moons([n_samples, shuffle, ...]) 制作两个交错的半圆。
datasets.make_multilabel_classification([...]) 生成随机多标签分类问题。
datasets.make_regression([n_samples, ...]) 生成随机回归问题。
datasets.make_s_curve([n_samples, noise, ...]) 生成 S 曲线数据集。
datasets.make_sparse_coded_signal(n_samples, ...) 生成信号作为字典元素的稀疏组合。
datasets.make_sparse_spd_matrix([n_dim, ...]) 生成稀疏对称定正矩阵。
datasets.make_sparse_uncorrelated([...]) 使用稀疏不相关设计生成随机回归问题。
datasets.make_spd_matrix(n_dim, *[, ...]) 生成随机对称正定矩阵。
datasets.make_swiss_roll([n_samples, noise, ...]) 生成瑞士卷数据集。
导入数据集demo
python
from sklearn import datasets
# 调用数据集
iris = datasets.load_iris()
digits = datasets.load_digits()
# 展示数据集
print(digits.data)
print(digits.target)
print(digits.images[0])