技术栈
深度学习
民乐团扒谱机
4 小时前
人工智能
·
深度学习
·
神经网络
·
机器学习
·
cnn
·
卷积神经网络
·
图像识别
【读论文】深度学习中的卷积算术指南 A guide to convolution arithmetic for deep learning
本指南的作者感谢大卫·沃德-法利、纪尧姆·阿兰和贾拉尔·居尔切雷提供的宝贵反馈。同时,也感谢所有通过有益的评论、建设性的批评和代码贡献帮助完善本教程的读者,期待大家继续提出建议!
byzh_rc
5 小时前
网络
·
人工智能
·
深度学习
[深度学习网络从入门到入土] 拓展 - Inception
知乎:https://www.zhihu.com/people/byzh_rcCSDN:https://blog.csdn.net/qq_54636039
摘星编程
6 小时前
人工智能
·
深度学习
·
transformer
解析CANN ops-transformer的FlashAttention算子:注意力机制的内存优化
本文深入解析华为CANN库中ops-transformer组件的FlashAttention算子实现,重点探讨其在注意力机制中的内存优化技术。FlashAttention通过创新的算法设计,将Transformer模型的自注意力计算复杂度从O(N²)降低到O(N),显著减少高带宽内存(HBM)访问次数。文章将剖析该算子的数学原理、硬件适配策略及在昇腾AI处理器上的优化实现,结合Stable Diffusion等实际案例展示其性能优势。适合AI框架开发者、硬件加速工程师和Transformer模型优化人员阅
是小蟹呀^
6 小时前
深度学习
·
分类
·
range loss
【论文阅读7】从 Center Loss 到 Range Loss:破解长尾分布下的特征学习难题
🏗️论文题目:《Range Loss for Deep Face Recognition with Long-Tailed Training Data》
caoz
6 小时前
大数据
·
人工智能
·
深度学习
·
机器学习
·
计算机视觉
AI的春节档
今年1月7日,我在我的读者群里发了一个不靠谱预测,今年的春节,将看到史无前例的AI产品大战,线上到线下,广告,春晚,贺岁片植入,无处不在。现在春晚和贺岁片还没开始,不过这个预测大概率是兑现了。
硅谷秋水
6 小时前
深度学习
·
机器学习
·
计算机视觉
·
语言模型
·
机器人
用于机器人控制的因果世界建模
26年1月来自蚂蚁Robbyant的论文“Causal World Modeling for Robot Control”。
文艺小码农
6 小时前
人工智能
·
深度学习
·
语言模型
·
自然语言处理
·
集成学习
PEFT 库中文本生成LoRA 教程
在本教程中介绍如何使用的 peft 库和 bitsandbytes 来以 8-bits 加载大语言模型,并对其进行高效微调。微调方法使用“低秩适配器”(LoRA)的方法
励ℳ
7 小时前
人工智能
·
pytorch
·
深度学习
【CNN网络入门】基于PyTorch的MNIST手写数字识别:从数据准备到模型部署全流程详解
手写数字识别是计算机视觉领域的经典入门项目,MNIST数据集包含了大量0-9的手写数字图片,是深度学习入门的"Hello World"。本文将详细介绍如何使用PyTorch框架构建一个卷积神经网络(CNN)来识别MNIST手写数字,并展示完整的训练、评估和可视化流程。
香芋Yu
7 小时前
人工智能
·
深度学习
【深度学习教程——05_生成模型(Generative)】25_扩散模型为什么能生成高质量图像?Diffusion数学推导
本章目标:理解 Diffusion Model (扩散模型) 的物理直觉。为什么把一张图慢慢加噪变成雪花点,再反过来去噪,就能生成艺术画?Stable Diffusion 和 Midjourney 背后的魔法到底是什么?
yubo0509
7 小时前
人工智能
·
深度学习
完整的 YOLO26 自定义模块注册 & 训练步骤
✅ 关键:只有加入 base_modules,YOLO 的 parse_model 函数才会识别该模块并自动处理参数;
式516
9 小时前
人工智能
·
深度学习
深度学习常见问题
1.将 100 个大小为 5 x 5 的滤波器应用于 500 x 500 x 3 的图像,输出结果是什么?
liu****
10 小时前
人工智能
·
python
·
rnn
·
深度学习
3.RNN及其变体
【根据RNN内部结构,可以分为哪几类】RNN模型的分类【传统RNN的工作原理是什么】【激活函数tanh的作用是什么】
jay神
11 小时前
人工智能
·
深度学习
·
yolo
·
目标检测
·
计算机视觉
基于 YOLOv11 的人脸表情识别系统
本项目基于 YOLOv11 深度学习模型实现人脸表情的智能识别,提供完整的训练流程与可视化桌面应用。系统支持图片、视频、摄像头三种识别方式,具备用户登录、历史记录、模型管理、指标可视化等功能。
byzh_rc
11 小时前
网络
·
人工智能
·
深度学习
[深度学习网络从入门到入土] 含并行连结的网络GoogLeNet
知乎:https://www.zhihu.com/people/byzh_rcCSDN:https://blog.csdn.net/qq_54636039
码农小韩
12 小时前
人工智能
·
python
·
深度学习
·
agent
·
强化学习
AIAgent应用开发——DeepSeek分析(一)
【项目起源与目标】DeepSeek是中国团队研发的大语言模型项目,旨在打造开源、强大且易用的AI工具,类以ChatGPT或Gemini,寓意通过深度学习探索智能边界。
大模型玩家七七
12 小时前
java
·
前端
·
数据库
·
人工智能
·
深度学习
·
算法
·
oracle
关系记忆不是越完整越好:chunk size 的隐性代价
在做祝福生成、感谢、道歉这类“关系型表达”的 RAG 系统时,很多工程师都会有一个非常自然的直觉:“既然关系重要,那我就把关系写得更完整一点。”
_ziva_
13 小时前
人工智能
·
深度学习
·
机器学习
大模型核心问题全解析:从激活函数到训练实战
随着大语言模型(LLMs)的快速发展,从技术原理到工程实践,一系列核心问题成为学习者与开发者的重点关注方向。本文将针对11个大模型高频问题,逐一拆解原理、补充细节、梳理逻辑,涵盖激活函数、生成问题、长文本处理、模型体系、训练优化等关键维度,帮你构建完整的大模型知识框架。
何伯特
13 小时前
人工智能
·
深度学习
Dropout:深度学习中防止过拟合的“随机失活”艺术
在训练神经网络时,你是否遇到过这样的情况:这就是典型的过拟合——模型把训练数据里的噪声也记住了,导致在新数据上表现不佳。
ccLianLian
13 小时前
深度学习
·
算法
计算机基础·cs336·RLHF
参考文献Prompt:“如何提高学习效率?”当前策略(policy LM):( π θ \pi_\theta πθ) 旧策略: π old \pi_{\text{old}} πold 参考模型: π ref \pi_{\text{ref}} πref 奖励模型: r ϕ ( x , y ) r_\phi(x,y) rϕ(x,y)
jerryinwuhan
14 小时前
人工智能
·
深度学习
·
机器学习
LY模型流程
下面按你这 0–6 张 Task Card 的顺序,把**每一步“为什么要做、做完能证明什么、它在整条链路里起什么作用”**解释清楚(偏论文/工程共同语言)。