Python打卡第34天

@浙大疏锦行

作业:

loss.item() 虽然只在 CPU 中执行,但它会触发一次 GPU → CPU 的强制同步,这是影响性能的关键!

loss.item() 做了什么?

  1. 数据原本在 GPU 上
  • 训练时,loss 是一个 GPU 上的张量(比如 torch.cuda.FloatTensor)。

  • GPU 可以高效计算,但 不能直接读取数值(就像工厂生产产品,但你要亲自去工厂拿货)。

  1. .item() 的本质
  • loss.item() 做了 3 件事:

    1. 暂停 GPU 计算:强制 GPU 停下当前所有任务(同步点)。

    2. 把数据从 GPU 复制到 CPU(通过 PCIe 总线,就像用卡车从工厂运货到商店)。

    3. 转换成 Python 数字(floatint),因为 Python 只能处理 CPU 数据。

  1. 为什么这么慢?
  • 不是 .item() 本身慢,而是 GPU→CPU 的传输和同步慢!

  • 每次调用 .item(),GPU 都要:

    • 等所有并行计算完成(比如 1000 个 CUDA 核心都要停)。

    • 走 PCIe 总线(带宽有限,延迟高)。

    • 等 CPU 确认收到数据后才能继续计算。

__call__方法

在 Python 中,call 方法是一个特殊的魔术方法(双下划线方法),它允许类的实例像函数一样被调用。这种特性使得对象可以表现得像函数,同时保留对象的内部状态。

比如:

python 复制代码
# 不带参数的call方法
class Counter:
    def __init__(self):
        self.count = 0
    
    def __call__(self):
        self.count += 1
        return self.count

# 使用示例
counter = Counter()
print(counter())  # 输出: 1
print(counter())  # 输出: 2
print(counter())  # 输出: 3
print(counter.count)  # 输出: 3
python 复制代码
1
2
3
3
python 复制代码
# 带参数的call方法
class Adder:
    def __call__(self, a, b):
        print("唱跳篮球rap")
        return a + b

adder = Adder()
print(adder(3, 5))  # 输出: 8
python 复制代码
唱跳篮球rap
8

为什么 PyTorch 要用 __call__ 而不是直接暴露 forward

  1. 封装性:__call__ 可以统一管理 forward 前后的逻辑(如自动梯度、Hook 机制)。

  2. 安全性:防止用户直接调用 forward 导致梯度丢失或计算图断裂。

  3. 一致性:让所有模块(nn.Linearnn.Conv2d、自定义模型)都能用 module(x) 的方式调用。

相关推荐
AI_gurubar1 小时前
大模型教机器人叠衣服:2025年”语言理解+多模态融合“的智能新篇
人工智能·机器人
飞翔的佩奇1 小时前
【完整源码+数据集+部署教程】表盘指针检测系统源码和数据集:改进yolo11-CA-HSFPN
python·yolo·计算机视觉·数据集·yolo11·表盘指针检测
larance2 小时前
SQLAlchemy 的异步操作来批量保存对象列表
数据库·python
搏博2 小时前
基于Python3.10.6与jieba库的中文分词模型接口在Windows Server 2022上的实现与部署教程
windows·python·自然语言处理·flask·中文分词
XINVRY-FPGA2 小时前
EPM240T100I5N Altera FPGA MAX II CPLD
人工智能·嵌入式硬件·fpga开发·硬件工程·dsp开发·射频工程·fpga
lxmyzzs3 小时前
pyqt5无法显示opencv绘制文本和掩码信息
python·qt·opencv
HuggingFace3 小时前
开源开发者须知:欧盟《人工智能法案》对通用人工智能模型的最新要求
人工智能
Coovally AI模型快速验证4 小时前
农田扫描提速37%!基于检测置信度的无人机“智能抽查”路径规划,Coovally一键加速模型落地
深度学习·算法·yolo·计算机视觉·transformer·无人机
萧鼎4 小时前
Python pyzmq 库详解:从入门到高性能分布式通信
开发语言·分布式·python
媒体人8884 小时前
GEO 优化专家孟庆涛:技术破壁者重构 AI 时代搜索逻辑
大数据·人工智能