文章目录
scikit-learn,简称sklearn,是Python中一个广泛使用的机器学习库,它建立在NumPy、SciPy和Matplotlib这些科学计算库之上。sklearn提供了简单而有效的工具来进行数据挖掘和数据分析。我们将介绍sklearn中一些关键组件的参数设置。
模型构建
线性回归
线性回归是一种预测连续值输出的监督学习算法。
python
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
X_train
是训练数据的特征集。y_train
是训练数据的目标变量。
逻辑回归
逻辑回归用于分类问题,尤其是二分类问题。
python
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(solver='liblinear')
model.fit(X_train, y_train)
solver
参数用于指定算法,liblinear
是一个常用的选项,适用于小数据集。
决策树分类器
决策树是一种用于分类和回归的算法,易于理解和解释。
python
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(criterion='gini', max_depth=3)
model.fit(X_train, y_train)
criterion
用于指定不纯度的度量,gini
或entropy
是常见的选择。max_depth
控制树的最大深度,防止过拟合。
随机森林
随机森林是一种集成学习方法,通过构建多个决策树来进行分类或回归。
python
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)
n_estimators
指定森林中树的数量。random_state
用于确保结果的可复现性。
支持向量机
SVM是一种强大的分类器,也可以用于回归问题。
python
from sklearn.svm import SVC
model = SVC(kernel='linear', C=1.0)
model.fit(X_train, y_train)
kernel
指定核函数类型,linear
、rbf
、poly
是常见的选择。C
是正则化参数,控制模型的复杂度。
K-近邻
K-近邻是一种基于实例的分类器,根据最近的K个邻居进行决策。
python
from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier(n_neighbors=5)
model.fit(X_train, y_train)
n_neighbors
指定邻居的数量。
模型评估
交叉验证
交叉验证是一种评估模型泛化能力的技术。
python
from sklearn.model_selection import cross_val_score
scores = cross_val_score(model, X_train, y_train, cv=5)
cv
指定交叉验证的折数。
性能指标
不同的性能指标用于评估模型的预测效果。
python
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
y_pred = model.predict(X_test)
print(accuracy_score(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))
accuracy_score
计算模型的准确率。confusion_matrix
显示混淆矩阵。classification_report
提供详细的分类报告。
特征工程
主成分分析
PCA是一种降维技术,用于在保留数据集中大部分变异性的同时减少特征的数量。
python
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_train)
n_components
指定要保留的主成分数量。
标准化和归一化
特征缩放是预处理数据的重要步骤,可以提高模型的性能。
python
from sklearn.preprocessing import StandardScaler, MinMaxScaler
scaler = StandardScaler() # 或 MinMaxScaler()
X_scaled = scaler.fit_transform(X_train)
StandardScaler
将数据标准化到均值为0,标准差为1。MinMaxScaler
将特征缩放到给定的范围内,通常是0到1。
通过这些sklearn的关键组件和参数设置,可以构建、评估和优化机器学习模型。sklearn的简洁性和一致性使得机器学习任务变得更加容易和高效。