使用PyTorch实现逻辑回归:从训练到模型保存与性能评估

1. 引入必要的库

首先,需要引入必要的库。PyTorch用于构建和训练模型,pandas和numpy用于数据处理,scikit-learn用于计算性能指标。

python 复制代码
import torch
import torch.nn as nn
import torch.optim as optim
import pandas as pd
import numpy as np
from sklearn.metrics import accuracy_score, recall_score, f1_score

2. 加载自定义数据集

假设有一个CSV文件custom_dataset.csv,其中包含特征(自变量)和标签(因变量)。我们使用pandas来加载数据,并进行预处理。

python 复制代码
# 加载自定义数据集
data = pd.read_csv('custom_dataset.csv')

# 假设数据集中有多列特征和一个二分类标签
X = data.iloc[:, :-1].values.astype(np.float32)  # 特征
y = data.iloc[:, -1].values.astype(np.float32)   # 标签

# 将标签转换为0和1
y = np.where(y == 'positive', 1, 0)

3. 构建逻辑回归模型

使用PyTorch来构建逻辑回归模型。

python 复制代码
# 构建逻辑回归模型
class LogisticRegression(nn.Module):
    def __init__(self, num_features):
        super(LogisticRegression, self).__init__()
        self.linear = nn.Linear(num_features, 1)
    
    def forward(self, x):
        return torch.sigmoid(self.linear(x))

# 初始化模型
num_features = X.shape[1]
model = LogisticRegression(num_features)

4. 定义损失函数和优化器

我们使用二元交叉熵损失函数和随机梯度下降(SGD)优化器。

python 复制代码
# 定义损失函数和优化器
criterion = nn.BCELoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)

5. 训练模型

使用自定义数据集训练模型。

python 复制代码
# 将数据转换为PyTorch的张量
X_tensor = torch.tensor(X)
y_tensor = torch.tensor(y.reshape(-1, 1))

# 训练模型
num_epochs = 100
batch_size = 32
for epoch in range(num_epochs):
    for i in range(0, len(X), batch_size):
        X_batch = X_tensor[i:i+batch_size]
        y_batch = y_tensor[i:i+batch_size]
        
        # 前向传播
        outputs = model(X_batch)
        loss = criterion(outputs, y_batch)
        
        # 反向传播和优化
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        
    if (epoch+1) % 10 == 0:
        print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item()}')

6. 保存模型

训练完成后,我们可以使用PyTorch的state_dict方法保存模型。

python 复制代码
# 保存模型
torch.save(model.state_dict(), 'logistic_regression_model.pth')

7. 加载模型并进行预测

在需要时,我们可以使用PyTorch的load方法加载模型,并进行预测。

python 复制代码
# 加载模型
model = LogisticRegression(num_features)
model.load_state_dict(torch.load('logistic_regression_model.pth'))
model.eval()

# 进行预测
with torch.no_grad():
    X_test = torch.tensor(X[:5])
    predictions = model(X_test)
    predicted_labels = (predictions > 0.5).float().numpy().flatten()

print("Predicted Labels:", predicted_labels)

8. 性能评估

计算预测结果的精确度、召回率和F1分数。

python 复制代码
# 假设前5个样本为测试集,真实标签如下
y_true = y[:5]

# 计算性能指标
accuracy = accuracy_score(y_true, predicted_labels)
recall = recall_score(y_true, predicted_labels)
f1 = f1_score(y_true, predicted_labels)

print(f'Accuracy: {accuracy:.4f}')
print(f'Recall: {recall:.4f}')
print(f'F1 Score: {f1:.4f}')
相关推荐
xixixi777772 分钟前
Prompt脱敏——不损失(或尽量少损失)原文本语义和上下文价值的前提下,防止原始敏感数据暴露给模型服务方、潜在的攻击者或出现在模型训练数据中
人工智能·microsoft·ai·大模型·数据安全·提示词·敏感信息
凡泰极客科技2 分钟前
新浪财经专访凡泰极客梁启鸿:金融App的AI落地应避哪些坑
人工智能·金融
量子-Alex4 分钟前
【大模型技术报告】Qwen2-VL技术报告解读
人工智能
得赢科技5 分钟前
2026年料汁定制公司深度评测报告
人工智能
jllllyuz12 分钟前
基于卷积神经网络(CNN)的图像融合方法详解
人工智能·神经网络·cnn
香芋Yu13 分钟前
【深度学习教程——01_深度基石(Foundation)】04_分类问题怎么解?逻辑回归与交叉熵的由来
深度学习·分类·逻辑回归
风流 少年15 分钟前
解决AI画图的最后一公里-Next AI Draw.io MCP实践
人工智能·draw.io
OLOLOadsd12316 分钟前
牛群目标检测新突破:基于YOLOv3-SPP的精准识别与优化策略
人工智能·yolo·目标检测
小鸡吃米…18 分钟前
机器学习 - 贝叶斯定理
人工智能·python·机器学习
esmap21 分钟前
技术解构:ESMAP AI数字孪生赋能传统行业转型的全链路技术方案
人工智能·低代码·ai·架构·编辑器·智慧城市