200_深度学习的地基:PyTorch 数据操作与 Pandas 预处理实战

在机器学习中,N 维数组(Tensor) 是最核心的数据结构。无论是图像、语音还是文本,最终都会转化为数组进行计算。本篇将从 Tensor 的基本操作出发,带你走进数据预处理的真实世界。

1. N 维数组:神经网络的语言

N 维数组(在 PyTorch 中称为 Tensor)是存储和变换数据的核心工具。

  • 0维:标量(Scalar),如一个数字。
  • 1维:向量(Vector),如特征列表。
  • 2维:矩阵(Matrix),如一张灰度图或一个表格。
  • 3维及以上:张量(Tensor),如彩色图片(宽、高、通道)。

2. 核心代码:张量的创建与计算

文件展示了 PyTorch 中最常用的几种 Tensor 操作方法:

Python

复制代码
import torch

# 1. 创建 Tensor
x = torch.arange(12) # 创建 0-11 的一维张量
print(x.shape)      # 查看形状:torch.Size([12])
print(x.numel())    # 查看元素总数:12

# 2. 改变形状 (Reshape)
X = x.reshape(3, 4) # 变为 3 行 4 列的矩阵

# 3. 特殊张量
torch.zeros((2, 3, 4)) # 全 0 张量
torch.ones((2, 3, 4))  # 全 1 张量
torch.randn(3, 4)      # 标准正态分布随机张量

# 4. 张量连接 (Cat)
Y = torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
# 按行连接 (dim=0) 或按列连接 (dim=1)
torch.cat((X, Y), dim=0)

3. 数据预处理:从 CSV 到 Tensor

在现实任务中,数据通常存储在 CSV 文件中,且往往存在缺失值(NaN) 。文件演示了如何利用 pandas 库进行数据清洗。

实战:处理房屋数据

假设我们有一个简单的房屋数据集,其中包含缺失值:

Python

复制代码
import os
import pandas as pd

# 1. 创建虚拟数据集
os.makedirs(os.path.join('.', '01_Data'), exist_ok=True)
data_file = os.path.join('.', '01_Data', '01_house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')
    f.write('NA,Pave,127500\n')
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

# 2. 读取数据
data = pd.read_csv(data_file)

# 3. 处理缺失值:对数值型列用均值填充
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean())

# 4. 处理类别型缺失值:独热编码 (One-Hot Encoding)
# dummy_na=True 会将 NaN 也作为一个类别处理
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

# 5. 转换为 PyTorch Tensor
X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
print(X)

4. 关键技巧解析

广播机制 (Broadcasting Mechanism)

当两个形状不同的 Tensor 进行按元素运算时,PyTorch 会触发广播机制:

  • 自动复制行或列,使两个 Tensor 形状一致后再相加。
  • 条件:至少有一个维度是 1,且其他维度兼容。

内存节省

在进行大规模运算时,频繁的赋值(如 Y = X + Y)会开辟新内存。

  • 建议 :使用原地操作(In-place operation),如 Y += XY[:] = X + Y,以减少内存开销。

5. 总结:数据处理的闭环

通过对该文件的分析,我们可以梳理出进入模型前的标准步骤:

  1. 读取:用 Pandas 加载原始数据。
  2. 清洗:填充数值型缺失值,转换类别型数据。
  3. 转换:将 Pandas 的 DataFrame 转换为 Torch Tensor。
  4. 计算:利用 Tensor 的高效算子进行前向计算。

💡 学习小结

"Garbage in, Garbage out." 预处理的好坏直接决定了模型的上限。熟练掌握 torch 操作和 pandas 转换,是每一位算法工程师的必修课。

相关推荐
tedcloud1233 小时前
UI-TARS-desktop部署教程:构建AI桌面自动化系统
服务器·前端·人工智能·ui·自动化·github
曦月逸霜6 小时前
啥是RAG 它能干什么?
人工智能·python·机器学习
AI医影跨模态组学6 小时前
Lancet Digit Health(IF=24.1)广东省人民医院刘再毅&南方医科大学南方医院梁莉等团队:基于可解释深度学习模型预测胶质瘤分子改变
人工智能·深度学习·论文·医学·医学影像·影像组学
应用市场6 小时前
AI 编程助手三强争霸(2026 版):Claude、Gemini、GPT 各自擅长什么?
人工智能·gpt
CSND7406 小时前
YOLO resume断点续训(不能用官方的权重,是自己训练一半生成的last.pt)
深度学习·yolo·机器学习
2301_769340676 小时前
如何在 Vuetify 中可靠捕获 Chip 关闭事件(包括键盘触发).txt
jvm·数据库·python
AC赳赳老秦7 小时前
供应链专员提效:OpenClaw自动跟踪物流信息、更新库存数据,异常自动提醒
java·大数据·服务器·数据库·人工智能·自动化·openclaw
脑极体7 小时前
从Token消耗到DAA增长,AI价值标尺正在重构
人工智能·重构
csdn小瓯7 小时前
LangGraph自适应工作流路由机制:从关键词匹配到智能决策的完整实现
人工智能·fastapi·langgraph
QYR-分析7 小时前
高功率飞秒激光器行业发展现状、市场机遇及未来趋势分析
大数据·人工智能