Scikit-Learn 基础教程

1. 安装 Scikit-Learn

首先,确保你的 Python 环境已安装好。然后,可以通过 pip 或 conda 安装 scikit-learn:

bash 复制代码
pip install -U scikit-learn

或者如果你使用的是 Anaconda 发行版,可以运行:

bash 复制代码
conda install scikit-learn
2. 导入库

一旦安装完成,就可以开始导入必要的库:

python 复制代码
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
3. 加载数据

Scikit-Learn 包含了一些内置数据集,例如鸢尾花数据集 (Iris dataset)。下面是如何加载并查看数据集的示例:

python 复制代码
# 加载数据
iris = load_iris()
X = iris.data
y = iris.target

# 查看数据的前几行
print("Features:", X[:5])
print("Labels:", y[:5])
4. 数据分割

为了评估模型性能,我们需要将数据分为训练集和测试集:

python 复制代码
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
5. 数据预处理

数据预处理是机器学习中的一个重要步骤。这可能包括缺失值处理、特征缩放等:

python 复制代码
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
6. 模型训练

选择一个模型并训练它。这里我们使用逻辑回归作为例子:

python 复制代码
model = LogisticRegression()
model.fit(X_train_scaled, y_train)
7. 模型评估

评估模型的性能:

python 复制代码
y_pred = model.predict(X_test_scaled)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)
8. 模型调优

我们可以使用网格搜索或随机搜索来调整模型参数以优化性能:

python 复制代码
from sklearn.model_selection import GridSearchCV

param_grid = {'C': [0.1, 1, 10], 'penalty': ['l1', 'l2']}
grid_search = GridSearchCV(LogisticRegression(), param_grid, cv=5)
grid_search.fit(X_train_scaled, y_train)

best_params = grid_search.best_params_
print("Best Parameters:", best_params)
9. 应用模型

最后,使用最佳参数训练最终模型并在新数据上进行预测:

python 复制代码
final_model = LogisticRegression(**best_params)
final_model.fit(X_train_scaled, y_train)
new_data = [[5.1, 3.5, 1.4, 0.2]]  # 示例新数据点
prediction = final_model.predict(scaler.transform(new_data))
print("Prediction:", prediction)
相关推荐
云泽野1 小时前
【Java|集合类】list遍历的6种方式
java·python·list
IMPYLH3 小时前
Python 的内置函数 reversed
笔记·python
.30-06Springfield3 小时前
人工智能概念之七:集成学习思想(Bagging、Boosting、Stacking)
人工智能·算法·机器学习·集成学习
小赖同学啊5 小时前
物联网数据安全区块链服务
开发语言·python·区块链
码荼5 小时前
学习开发之hashmap
java·python·学习·哈希算法·个人开发·小白学开发·不花钱不花时间crud
小陈phd6 小时前
李宏毅机器学习笔记——梯度下降法
人工智能·python·机器学习
kk爱闹6 小时前
【挑战14天学完python和pytorch】- day01
android·pytorch·python
Morpheon6 小时前
揭开预训练Pre-Training的力量:革新机器学习
人工智能·机器学习
勤奋的大熊猫6 小时前
机器学习中的 Agent 是什么?
人工智能·机器学习·agent
Blossom.1186 小时前
机器学习在智能建筑中的应用:能源管理与环境优化
人工智能·python·深度学习·神经网络·机器学习·机器人·sklearn