PyTorch学习:使用pytorch进行数据预处理

本文基于jupiter,将从如何读取数据集、对数据集处理缺失值、将数据转为张量形式来完成对数据的预处理。

其中用到的数据集有:house_tiny.csv、boston_house_prices.csv、Iris.txt

数据集: https://pan.baidu.com/s/17-xn66iShCXQCqZREo51Zw?pwd=5q6s

一、读取数据集

由于我未找到鸢尾花iris数据集的csv或者xlsx形式,所以对该数据集进行加工

1.代码

python 复制代码
import torch
import numpy as np
import pandas as pd
house_tiny=pd.read_csv('house_tiny.csv')
boston_house_prices=pd.read_csv('boston_house_prices.csv')
# 读取文本文件
with open('iris(1).txt', 'r') as file:
    lines = file.readlines()
# 分割每行的数据
data = [line.strip().split('\t') for line in lines]
# 创建 DataFrame 对象
df = pd.DataFrame(data)
# 将 DataFrame 保存为 Excel 文件
df.to_csv('iris.csv', index=False)

将iris数据集存为iris.csv形式。

2.结果

如下图所示,将这几个数据集都成功读入

二、对数据进行缺失值处理

1.代码

我使用的是用平均数来填补缺失值,同时将处理好的数据集放进一个新的csv文件

python 复制代码
# 使用平均数填充缺失值
house_tiny_fill=house_tiny.fillna(house_tiny.mean())
boston_fill=boston_house_prices.fillna(boston_house_prices.mean())
iris_fill = df.fillna(df.mean())
# 将补过缺失值的数据保存为新的 Excel 文件
house_tiny_fill.to_csv('house_tiny_fill.csv', index=False)
boston_fill.to_csv('boston_fill.csv',index=False)
iris_fill.to_csv('iris_fill.csv',index=False)

2.结果

以house_tiny的数据为例:

处理前:

处理后:

三、将数据转为张量形式

先使用 astype() 方法将 numpy.object_ 类型的数据转换为 float64 类型的数据,然后再创建张量。

将数据转为张量,我遇到一个问题:

也就是我的house_tiny数据集中有一列'pave'无法转成float64。

所以再对数据进行处理,然后去除掉'pave'这列在进行tensor转换

1.代码

python 复制代码
#取house_tiny_fill的数值
house_tiny_data = pd.read_csv('house_tiny_fill.csv', usecols=['NumRooms', 'Price'])
# 将两列数据存储到 NumPy 数组中
house_tiny_array = np.column_stack((house_tiny_data['NumRooms'].to_numpy(), house_tiny_data['Price'].to_numpy()))
#转成张量
tensor_house_tiny = torch.tensor(house_tiny_data.values)
tensor_iris = torch.tensor(iris.values)
tensor_boston = torch.tensor(boston_fill.values)

2.结果

数据处理前:

数据处理后:

由此就可成功转为tensor

四、张量输出

1.代码

python 复制代码
print('tensor_house_tiny',tensor_house_tiny)
print('tensor_iris',tensor_iris)
print('tensor_boston_house_prices',tensor_boston_house_prices)

2.结果

python 复制代码
tensor_house_tiny tensor([[2.0000e+00, 1.2750e+05],
        [2.0000e+00, 1.0600e+05],
        [4.0000e+00, 1.7810e+05],
        [2.0000e+00, 1.4000e+05]], dtype=torch.float64)
tensor_iris tensor([[5.1000, 3.5000, 1.4000, 0.2000, 1.0000],
        [4.9000, 3.0000, 1.4000, 0.2000, 1.0000],
        [4.7000, 3.2000, 1.3000, 0.2000, 1.0000],
        [4.6000, 3.1000, 1.5000, 0.2000, 1.0000],
        [5.0000, 3.6000, 1.4000, 0.2000, 1.0000],
        [5.4000, 3.9000, 1.7000, 0.4000, 1.0000],
        [4.6000, 3.4000, 1.4000, 0.3000, 1.0000],
        [5.0000, 3.4000, 1.5000, 0.2000, 1.0000],
        [4.4000, 2.9000, 1.4000, 0.2000, 1.0000],
        [4.9000, 3.1000, 1.5000, 0.1000, 1.0000],
        [5.4000, 3.7000, 1.5000, 0.2000, 1.0000],
        [4.8000, 3.4000, 1.6000, 0.2000, 1.0000],
        [4.8000, 3.0000, 1.4000, 0.1000, 1.0000],
        [4.3000, 3.0000, 1.1000, 0.1000, 1.0000],
        [5.8000, 4.0000, 1.2000, 0.2000, 1.0000],
        [5.7000, 4.4000, 1.5000, 0.4000, 1.0000],
        [5.4000, 3.9000, 1.3000, 0.4000, 1.0000],
        [5.1000, 3.5000, 1.4000, 0.3000, 1.0000],
        [5.7000, 3.8000, 1.7000, 0.3000, 1.0000],
        [5.1000, 3.8000, 1.5000, 0.3000, 1.0000],
        [5.4000, 3.4000, 1.7000, 0.2000, 1.0000],
        [5.1000, 3.7000, 1.5000, 0.4000, 1.0000],
        [4.6000, 3.6000, 1.0000, 0.2000, 1.0000],
        [5.1000, 3.3000, 1.7000, 0.5000, 1.0000],
        [4.8000, 3.4000, 1.9000, 0.2000, 1.0000],
        [5.0000, 3.0000, 1.6000, 0.2000, 1.0000],
        [5.0000, 3.4000, 1.6000, 0.4000, 1.0000],
        [5.2000, 3.5000, 1.5000, 0.2000, 1.0000],
        [5.2000, 3.4000, 1.4000, 0.2000, 1.0000],
        [4.7000, 3.2000, 1.6000, 0.2000, 1.0000],
        [4.8000, 3.1000, 1.6000, 0.2000, 1.0000],
        [5.4000, 3.4000, 1.5000, 0.4000, 1.0000],
        [5.2000, 4.1000, 1.5000, 0.1000, 1.0000],
        [5.5000, 4.2000, 1.4000, 0.2000, 1.0000],
        [4.9000, 3.1000, 1.5000, 0.1000, 1.0000],
        [5.0000, 3.2000, 1.2000, 0.2000, 1.0000],
        [5.5000, 3.5000, 1.3000, 0.2000, 1.0000],
        [4.9000, 3.1000, 1.5000, 0.1000, 1.0000],
        [4.4000, 3.0000, 1.3000, 0.2000, 1.0000],
        [5.1000, 3.4000, 1.5000, 0.2000, 1.0000],
        [5.0000, 3.5000, 1.3000, 0.3000, 1.0000],
        [4.5000, 2.3000, 1.3000, 0.3000, 1.0000],
        [4.4000, 3.2000, 1.3000, 0.2000, 1.0000],
        [5.0000, 3.5000, 1.6000, 0.6000, 1.0000],
        [5.1000, 3.8000, 1.9000, 0.4000, 1.0000],
        [4.8000, 3.0000, 1.4000, 0.3000, 1.0000],
        [5.1000, 3.8000, 1.6000, 0.2000, 1.0000],
        [4.6000, 3.2000, 1.4000, 0.2000, 1.0000],
        [5.3000, 3.7000, 1.5000, 0.2000, 1.0000],
        [5.0000, 3.3000, 1.4000, 0.2000, 1.0000],
        [7.0000, 3.2000, 4.7000, 1.4000, 2.0000],
        [6.4000, 3.2000, 4.5000, 1.5000, 2.0000],
        [6.9000, 3.1000, 4.9000, 1.5000, 2.0000],
        [5.5000, 2.3000, 4.0000, 1.3000, 2.0000],
        [6.5000, 2.8000, 4.6000, 1.5000, 2.0000],
        [5.7000, 2.8000, 4.5000, 1.3000, 2.0000],
        [6.3000, 3.3000, 4.7000, 1.6000, 2.0000],
        [4.9000, 2.4000, 3.3000, 1.0000, 2.0000],
        [6.6000, 2.9000, 4.6000, 1.3000, 2.0000],
        [5.2000, 2.7000, 3.9000, 1.4000, 2.0000],
        [5.0000, 2.0000, 3.5000, 1.0000, 2.0000],
        [5.9000, 3.0000, 4.2000, 1.5000, 2.0000],
        [6.0000, 2.2000, 4.0000, 1.0000, 2.0000],
        [6.1000, 2.9000, 4.7000, 1.4000, 2.0000],
        [5.6000, 2.9000, 3.6000, 1.3000, 2.0000],
        [6.7000, 3.1000, 4.4000, 1.4000, 2.0000],
        [5.6000, 3.0000, 4.5000, 1.5000, 2.0000],
        [5.8000, 2.7000, 4.1000, 1.0000, 2.0000],
        [6.2000, 2.2000, 4.5000, 1.5000, 2.0000],
        [5.6000, 2.5000, 3.9000, 1.1000, 2.0000],
        [5.9000, 3.2000, 4.8000, 1.8000, 2.0000],
        [6.1000, 2.8000, 4.0000, 1.3000, 2.0000],
        [6.3000, 2.5000, 4.9000, 1.5000, 2.0000],
        [6.1000, 2.8000, 4.7000, 1.2000, 2.0000],
        [6.4000, 2.9000, 4.3000, 1.3000, 2.0000],
        [6.6000, 3.0000, 4.4000, 1.4000, 2.0000],
        [6.8000, 2.8000, 4.8000, 1.4000, 2.0000],
        [6.7000, 3.0000, 5.0000, 1.7000, 2.0000],
        [6.0000, 2.9000, 4.5000, 1.5000, 2.0000],
        [5.7000, 2.6000, 3.5000, 1.0000, 2.0000],
        [5.5000, 2.4000, 3.8000, 1.1000, 2.0000],
        [5.5000, 2.4000, 3.7000, 1.0000, 2.0000],
        [5.8000, 2.7000, 3.9000, 1.2000, 2.0000],
        [6.0000, 2.7000, 5.1000, 1.6000, 2.0000],
        [5.4000, 3.0000, 4.5000, 1.5000, 2.0000],
        [6.0000, 3.4000, 4.5000, 1.6000, 2.0000],
        [6.7000, 3.1000, 4.7000, 1.5000, 2.0000],
        [6.3000, 2.3000, 4.4000, 1.3000, 2.0000],
        [5.6000, 3.0000, 4.1000, 1.3000, 2.0000],
        [5.5000, 2.5000, 4.0000, 1.3000, 2.0000],
        [5.5000, 2.6000, 4.4000, 1.2000, 2.0000],
        [6.1000, 3.0000, 4.6000, 1.4000, 2.0000],
        [5.8000, 2.6000, 4.0000, 1.2000, 2.0000],
        [5.0000, 2.3000, 3.3000, 1.0000, 2.0000],
        [5.6000, 2.7000, 4.2000, 1.3000, 2.0000],
        [5.7000, 3.0000, 4.2000, 1.2000, 2.0000],
        [5.7000, 2.9000, 4.2000, 1.3000, 2.0000],
        [6.2000, 2.9000, 4.3000, 1.3000, 2.0000],
        [5.1000, 2.5000, 3.0000, 1.1000, 2.0000],
        [5.7000, 2.8000, 4.1000, 1.3000, 2.0000],
        [6.3000, 3.3000, 6.0000, 2.5000, 3.0000],
        [5.8000, 2.7000, 5.1000, 1.9000, 3.0000],
        [7.1000, 3.0000, 5.9000, 2.1000, 3.0000],
        [6.3000, 2.9000, 5.6000, 1.8000, 3.0000],
        [6.5000, 3.0000, 5.8000, 2.2000, 3.0000],
        [7.6000, 3.0000, 6.6000, 2.1000, 3.0000],
        [4.9000, 2.5000, 4.5000, 1.7000, 3.0000],
        [7.3000, 2.9000, 6.3000, 1.8000, 3.0000],
        [6.7000, 2.5000, 5.8000, 1.8000, 3.0000],
        [7.2000, 3.6000, 6.1000, 2.5000, 3.0000],
        [6.5000, 3.2000, 5.1000, 2.0000, 3.0000],
        [6.4000, 2.7000, 5.3000, 1.9000, 3.0000],
        [6.8000, 3.0000, 5.5000, 2.1000, 3.0000],
        [5.7000, 2.5000, 5.0000, 2.0000, 3.0000],
        [5.8000, 2.8000, 5.1000, 2.4000, 3.0000],
        [6.4000, 3.2000, 5.3000, 2.3000, 3.0000],
        [6.5000, 3.0000, 5.5000, 1.8000, 3.0000],
        [7.7000, 3.8000, 6.7000, 2.2000, 3.0000],
        [7.7000, 2.6000, 6.9000, 2.3000, 3.0000],
        [6.0000, 2.2000, 5.0000, 1.5000, 3.0000],
        [6.9000, 3.2000, 5.7000, 2.3000, 3.0000],
        [5.6000, 2.8000, 4.9000, 2.0000, 3.0000],
        [7.7000, 2.8000, 6.7000, 2.0000, 3.0000],
        [6.3000, 2.7000, 4.9000, 1.8000, 3.0000],
        [6.7000, 3.3000, 5.7000, 2.1000, 3.0000],
        [7.2000, 3.2000, 6.0000, 1.8000, 3.0000],
        [6.2000, 2.8000, 4.8000, 1.8000, 3.0000],
        [6.1000, 3.0000, 4.9000, 1.8000, 3.0000],
        [6.4000, 2.8000, 5.6000, 2.1000, 3.0000],
        [7.2000, 3.0000, 5.8000, 1.6000, 3.0000],
        [7.4000, 2.8000, 6.1000, 1.9000, 3.0000],
        [7.9000, 3.8000, 6.4000, 2.0000, 3.0000],
        [6.4000, 2.8000, 5.6000, 2.2000, 3.0000],
        [6.3000, 2.8000, 5.1000, 1.5000, 3.0000],
        [6.1000, 2.6000, 5.6000, 1.4000, 3.0000],
        [7.7000, 3.0000, 6.1000, 2.3000, 3.0000],
        [6.3000, 3.4000, 5.6000, 2.4000, 3.0000],
        [6.4000, 3.1000, 5.5000, 1.8000, 3.0000],
        [6.0000, 3.0000, 4.8000, 1.8000, 3.0000],
        [6.9000, 3.1000, 5.4000, 2.1000, 3.0000],
        [6.7000, 3.1000, 5.6000, 2.4000, 3.0000],
        [6.9000, 3.1000, 5.1000, 2.3000, 3.0000],
        [5.8000, 2.7000, 5.1000, 1.9000, 3.0000],
        [6.8000, 3.2000, 5.9000, 2.3000, 3.0000],
        [6.7000, 3.3000, 5.7000, 2.5000, 3.0000],
        [6.7000, 3.0000, 5.2000, 2.3000, 3.0000],
        [6.3000, 2.5000, 5.0000, 1.9000, 3.0000],
        [6.5000, 3.0000, 5.2000, 2.0000, 3.0000],
        [6.2000, 3.4000, 5.4000, 2.3000, 3.0000],
        [5.9000, 3.0000, 5.1000, 1.8000, 3.0000]], dtype=torch.float64)
tensor_boston_house_prices tensor([[6.3200e-03, 1.8000e+01, 2.3100e+00,  ..., 1.5300e+01, 4.9800e+00,
         2.4000e+01],
        [2.7310e-02, 0.0000e+00, 7.0700e+00,  ..., 1.7800e+01, 9.1400e+00,
         2.1600e+01],
        [2.7290e-02, 0.0000e+00, 7.0700e+00,  ..., 1.7800e+01, 4.0300e+00,
         3.4700e+01],
        ...,
        [6.0760e-02, 0.0000e+00, 1.1930e+01,  ..., 2.1000e+01, 5.6400e+00,
         2.3900e+01],
        [1.0959e-01, 0.0000e+00, 1.1930e+01,  ..., 2.1000e+01, 6.4800e+00,
         2.2000e+01],
        [4.7410e-02, 0.0000e+00, 1.1930e+01,  ..., 2.1000e+01, 7.8800e+00,
         1.1900e+01]], dtype=torch.float64)
相关推荐
godspeed_lucip21 小时前
LLM和Agent——专题2: LLM as Judge 入门(2)
人工智能·python
沪漂阿龙21 小时前
面试题:激活函数是什么?为什么必须非线性,Sigmoid、ReLU、Softmax 怎么选,一文讲透深度学习高频考点
人工智能·深度学习
沪漂阿龙21 小时前
AI大模型面试题:模型求解和优化全解析——梯度下降、BGD、SGD、MBGD、学习率、Batch Size、损失函数、优化器一文讲透
人工智能·学习·机器学习
科技AI训练师21 小时前
B2B行业AI搜索优化卓越案例:GEO特工队助力芯片推荐率突破75%
人工智能·搜索引擎·百度
老王谈企服21 小时前
实在Agent智能体视频生成节点实战:多模型调度、Jinja模板与动态参数,打造自动化视频生产线
人工智能·自动化·音视频
XD7429716361 天前
科技晚报|2026年5月12日:Claude 进 AWS,AI 落地拼控制面
人工智能·科技·aws·科技新闻·科技晚报
lsjweiyi1 天前
WSL2 + ROCm + PyTorch 深度学习环境配置全记录
人工智能·pytorch·深度学习
孟俊宇-MJY1 天前
10 分钟零门槛本地部署 AI 编码助手!Ollama+Qwen2-7B+Continue 全程无外网、代码不泄露,企业内网合规首选【全平台完整版】
人工智能
霸道流氓气质1 天前
Spring AI ChatMemory 对话记忆配置指南:概念、实战与常见问题
java·人工智能·spring
十六年开源服务商1 天前
外贸WordPress用户调查与满意度调查实战指南2026
大数据·数据库·人工智能