对比tensorflow,从0开始学pytorch(一)

tensorflow是10年前开始用的,水了N篇论文后,发现现在的趋势是pytorch,于是开始从0学起,记个笔记。

从入门MNIST开始:

第一个不适应的地方:这里的尺度为啥要自己计算?

对于用惯了tensorflow+keras这种傻瓜式的框架来说,这玩意是太折腾人了。

只能理解为更加严谨。在LeNet的基础之上,加了BN和DropOut。两个和tensorflow不同的地方:

  1. BN也需要参数,具体值就是上一层的channel数,tensorflow不用

  2. 不管是训练还是测试,都需要对模型加一句:model.train()或model.eval(),不然BN或DropOut不起作用(网上这么说的)

第二个不适应的地方:啥都要自己写

不管是训练,还是evaluate,都需要自己手写代码,tensorflow中,训练直接从history提取loss什么的就行,evaluate就更简单,就一行代码。不过这样的好处也是有的......多写两行代码锻炼代码能力。

疑惑:GPU并没有跑满,很神奇。

这块从2015年开始陪我征战的1080ti,直接跑不满。放tensorflow下,哪怕是MNIST这种数据集,也在60%左右,很奇怪,不知道用的什么机制。

学习到了一些比较好的语法糖,比如:

复制代码
pred.eq(target.view_as(pred)).sum().item()

避免了循环的写法,也高效。虽然这是python的基本语法,因为原来evaluate直接出结果,也很少用到。一直傻傻的用循环用了十多年。所以说,论文真是水出来的。

相关推荐
Livingbody3 分钟前
基于大模型的智能读报助手
人工智能
企智小茶馆41 分钟前
AI新闻 2026年01月02日
人工智能
百锦再1 小时前
抖音小程序开发全景透视:生态解析、技术架构与商业实践
人工智能·ai·微信小程序·小程序·架构·模型·抖音
ZhuNian的学习乐园1 小时前
LLM对齐核心:RLHF 从基础到实践全解析
人工智能·python·算法
西瓜情怀总是籽1 小时前
回首2025,抬眸2026
人工智能
nwsuaf_huasir1 小时前
适合一维信号时间序列分割与窗口检测的问题的深度神经网络架构
人工智能·神经网络·dnn
&永恒的星河&1 小时前
告别过时预测!最新时序新SOTA:TimeFilter教会模型“选择性失明”
人工智能·深度学习·算法·时序预测·timefilter·时序算法
wenzhangli72 小时前
Ooder核心揭秘:A2UI轻量企业AI框架控制层8问
人工智能
P-ShineBeam2 小时前
知识图谱-Sememe链接预测-SememeLP
人工智能·语言模型·自然语言处理·知识图谱
weisian1512 小时前
入门篇--知名企业-14-阿里巴巴-2--阿里巴巴AI全景:从电商大脑到AI生态的跃迁之路
人工智能·通义