如何快速从csv文件搭建一个简单的神经网络模型(回归)

快速搭建一个简单的神经网络预测模型

采用的数据是kaggle的房价预测数据
涉及的数据文件,提取码为:zxcv

python 复制代码
#导入相关包
import pandas as pd
import numpy as np
import torch
import torch.nn as nn

首先读取数据

c 复制代码
train=pd.read_csv("path",encoding="gbk")
test=pd.read_csv("path",encoding="gbk")

数据预处理

数据预处理包括:对数据进行标准化处理,将非数字类型数据转化为数字类型数据

python 复制代码
#查看训练集和测试集的数据大小
train.shape
#(1460, 81)
test.shape
#(1460, 81)
#将需要训练和测试的特征合成为一个DataFrame,保证对于训练数据和测试数据的处理是一致的。
all_feature=pd.concat([train.iloc[:,1:80],test.iloc[]])
#找出数字类型的数据,进行标准化处理
num_da=[i for i in all_feature.columns if all_feature[i].dtypes!='object']
all_feature[num_da]=all_feature[num_da].apply(lambda x: (x-x.mean())/x.std())
#将非数字类型数据转化为数字类型的数据
all_feature=pd.get_dummies(all_feature,dummy_na=True)
#对缺失值用所在列的均值进行填充
all_feature = all_feature.fillna(all_feature.mean())
#将训练数据的y取log值
train_y=train['SalePrice'].apply(lambda x:np.log(x))

将数据划分为训练数据集,和测试数据集:做好数据的预处理转化工作之后

python 复制代码
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
X_train = torch.tensor(X_train.values, dtype=torch.float32)
y_train = torch.tensor(y_train.values, dtype=torch.long)
X_test = torch.tensor(X_test.values, dtype=torch.float32)
y_test = torch.tensor(y_test.values, dtype=torch.long)```

数据转换

```python
#我们需要将dataframe数据转化为神经网络能处理的tensor数据
input_x=torch.tensor(all_feature.iloc[:train.shape[0],:].values.astype(np.float32))
input_y=torch.tensor(train_y.values.astype(np.float32))
test_x=torch.tensor(all_feature.iloc[train.shape[0]:,:].values.astype(np.float32))
#查看各类数据的维度是否符合要求
input_x
input_y
test_x

模型搭建

python 复制代码
input_size = input_x.shape[1] #样本个数
hidden1_size = 128 # 隐含层神经元个数
hidden2_size=256
output_size = 1
batch_size = 16
my_nn = torch.nn.Sequential(
    torch.nn.Linear(input_size, hidden1_size), #全连接层
    torch.nn.ReLU(),  #激活函数
    torch.nn.Linear(hidden1_size, hidden2_size), #全连接层
    torch.nn.ReLU(), #激活函数
    torch.nn.Linear(hidden2_size, output_size),
)
# MSE损失函数
cost = torch.nn.MSELoss(reduction='mean')
# Adam优化器
optimizer = torch.optim.Adam(my_nn.parameters(), lr=0.001)

模型训练

python 复制代码
losses = []
for i in range(500):
    batch_loss = []
    # MINI-Batch方法来进行训练
    for start in range(0, len(input_x), batch_size):
        end = start + batch_size if start + batch_size < len(
            input_x) else len(input_x)
        xx = torch.tensor(input_x[start:end],
                          dtype=torch.float,
                          requires_grad=True)
        yy = torch.tensor(input_y[start:end],
                          dtype=torch.float,
                          requires_grad=True)
        prediction = my_nn(xx)# 前向传播
        loss = cost(prediction, yy) # 计算损失
        optimizer.zero_grad() # 梯度清零
        loss.backward(retain_graph=True) #反向传播
        optimizer.step() # 更新参数
        batch_loss.append(loss.data.numpy()) #记录损失,便于打印

    # 打印损失
    if i % 100 == 0:
        losses.append(np.mean(batch_loss))
        print(i, np.mean(batch_loss))

模型保存

python 复制代码
torch.save(my_nn,'model.pth')
print("Saved PyTorch Model to model.pth")

模型预测

python 复制代码
#加载模型
model =torch.load("model.pth")
#不改变模型参数的基础上进行预测
pred=model(torch.tensor(test_x)).detach()
#对预测后的结果进行还原(之前取了对数)
pred=np.exp(pred)

保存结果

python 复制代码
#对测试的结果进行保存
test['SalePrice']=pred.reshape(1,-1)[0]
sub=pd.concat([test["Id"],test["SalePrice"]],axis=1)
sub=sub.set_index("Id")
sub.to_csv("sub.csv")
相关推荐
烟锁池塘柳015 分钟前
【深度学习】评估模型复杂度:GFLOPs与Params详解
人工智能·深度学习
果冻人工智能15 分钟前
🧠5个AI工程师在第一次构建RAG时常犯的错误
人工智能
白熊18821 分钟前
【计算机视觉】CV实战项目- DFace: 基于深度学习的高性能人脸识别
人工智能·深度学习·计算机视觉
layneyao23 分钟前
自动驾驶L4级技术落地:特斯拉、Waymo与华为的路线之争
人工智能·华为·自动驾驶
訾博ZiBo25 分钟前
AI日报 - 2025年04月30日
人工智能
毒果29 分钟前
深度学习大模型: AI 阅卷替代人工阅卷
人工智能·深度学习
吾日三省吾码39 分钟前
GitHub Copilot (Gen-AI) 很有用,但不是很好
人工智能·github·copilot
一颗橘子宣布成为星球1 小时前
Unity AI-使用Ollama本地大语言模型运行框架运行本地Deepseek等模型实现聊天对话(一)
人工智能·unity·语言模型·游戏引擎
南 阳1 小时前
从微服务到AI服务:Nacos 3.0如何重构下一代动态治理体系?
人工智能·微服务·云原生·重构
fmingzh1 小时前
NVIDIA高级辅助驾驶安全与技术读后感
人工智能·安全·自动驾驶