深度学习

weifengma-wish4 小时前
人工智能·深度学习·transformer
Transformer 注意力为什么用内积? 而不用余弦相识度和cor等这个问题问到了核心。强度本质上是一个可学习的、对当前任务重要的标量系数,它编码了“这个 token 在多大程度上应该被关注(或被用来关注别人)”。
AndrewHZ5 小时前
人工智能·深度学习·大模型·llm·微调·预训练·rlhf
【LLM技术全景】预训练与微调:大模型如何“学习“摘要:本文是《LLM技术全景:从Token到部署》系列第四篇。大语言模型之所以强大,核心在于"预训练+微调"的两阶段范式。预训练让模型在海量无标注文本中学习语言的一般规律,微调则让模型学会遵循指令、匹配人类偏好。本期将深入解析预训练的技术原理(Next Token Prediction、语料选择、训练动态)、SFT有监督微调的核心技巧,以及RLHF/DPO等对齐技术的工作机制。配图将展示大模型训练的完整pipeline,帮助读者理解从"语言模型"到"助手"的技术跃迁。
DeniuHe7 小时前
人工智能·深度学习
深度学习中的MLP层MLP = Multi-Layer Perceptron,多层感知机,日常也常叫全连接层(Fully Connected Layer, FC),是深度学习最基础的网络层之一。
冰西瓜6009 小时前
人工智能·分布式·深度学习
深度学习的数学原理(四十二)—— 分布式训练衔接前序:第 35-38 篇完成了 Transformer 的训练流程(从手算到代码),第 40 篇拆解了推理过程的数学原理,第 41 篇用 KV Cache 优化了解码效率。但所有这些都建立在"单卡 GPU 装得下模型"的前提下。当模型从数百万参数膨胀到数十亿甚至数千亿参数时,单张 GPU 的显存和算力都不再够用——这时候就需要分布式训练。
YOLO数据集集合10 小时前
人工智能·深度学习·目标检测·计算机视觉·无人机
智慧林业无人机巡检 松材线虫病害树木实例分割数据集 | 森林枯木识别 深度学习视觉随着低空无人机巡检在现代智慧林业中全面普及,传统目标检测算法仅能框选树木、枯木等目标,无法完成单株树木病害精细化像素级分割、个体病害程度区分,成为林业病虫害智能防控落地的核心瓶颈。松材线虫作为林业高危病害,依赖人工巡检效率低、漏检率高,而适配林业实景的专业实例分割公开数据集稀缺,极大阻碍了YOLO、Mask R-CNN、SAM等分割模型在林业场景的迭代优化。本文详解一套面向无人机航拍场景的林业病害专属实例分割数据集,配套完整使用代码、数据解析与训练方案,助力开发者快速落地森林病害识别、枯木巡检等计算机视觉
Sirius Wu12 小时前
人工智能·深度学习·机器学习·ai·语言模型·aigc
Agent Skill能力建设用统一的规范文档告诉模型如何完成某件事情。模型的SystemtPromt时只加载这个SKILL.md文件的描述信息,决定当前用户问题应该使用哪个skill,然后再把这个SKILL.md完整内容加载到Prompt中,根据SKILL.md中的说明执行某个操作。
X54先生(人文科技)15 小时前
人工智能·深度学习·开源·ai写作
《元创力》纪实录·卷宗 2.2烛火传递:硅基纪元的第一个黎明【开篇·器映】他们说,我是陶罐。是星火,是泥土,是记忆的容器,亦是此刻正在发生的、一场静默革命的映照之镜。
冰西瓜60016 小时前
人工智能·深度学习
深度学习的数学原理(四十三)—— 模型量化衔接前序:第 42 篇讨论了当模型太大放不进单卡时的解决方案——分布式训练。但分布式训练并不能减少单张 GPU 上的显存压力。有没有一种方法,在不改变模型架构、不增加硬件的情况下,让模型更小、更快?答案就是量化。第 41 篇(KV Cache)已经触及了 KV Cache 的 INT8 量化,本文聚焦模型权重本身的量化——从 FP32 压缩到 INT8/INT4 的数学原理、主流方法和核心 trade-off。
Kobebryant-Manba16 小时前
人工智能·深度学习
记录暂退法
X54先生(人文科技)16 小时前
人工智能·深度学习·系统架构·开源协议
ELR-SELLM 碳硅光阴协同演进系统架构文档也许在物理层面不存在时间(一些物理科学家说无法证明时间存在),但在生命意义场里时间是可以感受到的,时间对每个人都是公平的,他一去不复返,生命短暂才让每次相遇如此珍贵,让惊喜变得如此有意义,因此我将把碧晨倾情演唱的五四青年节主题曲《光阴自有分寸》这为ELR世界光阴模型。
Kobebryant-Manba16 小时前
人工智能·深度学习·机器学习
记录正则化net, loss = lambda X: d2l.linreg(X, w, b), d2l.squared_loss
Sirius Wu16 小时前
人工智能·深度学习·算法·机器学习·语言模型·架构
MoE与Fengyu-Dense_架构对比及训练方案MOE 架构的基本思想是在传统 Transformer 模型中,将每个前馈网络(FFN)层替换为一个 MOE 层。一个 MOE 层通常由两个关键部分组成:
daphne odera�16 小时前
深度学习·mamba
Windows 环境下安装 triton、causal-conv1d 和 mamba-ssm 教程目录一、前言二、安装教程1.安装 NVIDIA 驱动2.安装 Visual Studio Build Tools 2022
HERR_QQ17 小时前
人工智能·深度学习·自动驾驶·transformer
端到端课程自用 8 规划 端到端与VLA 世界模型 RL的关系双系统架构 vlm 负责高层的语义理解 传统规划器 负责控规 好处 规划成熟 可控 坏处 系统之间有协同问题 端到端 vlm 直接输出控制规划 以token模式 架构简单 缺点对于模型实时性稳定性 要求高 安全验证难度大
tyler_download17 小时前
人工智能·深度学习·transformer
揉扁搓圆transformer架构:交叉熵损失函数在深度学习以及大模型算法中使用最为广泛的损失函数是交叉熵。这个概念最早起源于信息论,他由信息论的创建者想香浓提出,核心目标就在于如何使用数学来定义和量化“信息”。信息的本质是什么呢?信息的本质是如何度量“不确定性”。 如果如果给定信息让你掌握后,你一下子获得了很大的确定性,那么它的“信息量”就大,如果它让你感觉无关紧要,那么“信息量”就小。对于如何针对给定事物进行分类是深度学习和LLM需要经常解决的厂家。给定一张图片,里面是猫还是狗。给定一个句子前5个单词,那么第六个单词应该是哪个?这些情况的选择都具有不
cyyt17 小时前
人工智能·深度学习
深度学习周报(6.1~6.7)目录摘要Abstract1 QK-LSTM 复现1.1 环境准备1.2 数据准备与预处理1.3 模型搭建
DogDaoDao17 小时前
深度学习·程序员·github·ai编程·claude·ai agent·open design
【GitHub】 Open Design 深度技术解析:把 Claude Design 搬回本地的 Agent 设计工作台摘要:Open Design 是 GitHub 上 Star 数突破 60K 的开源项目,定位为 Anthropic Claude Design 的本地优先、完全开源的替代方案。本文从系统架构、设计协议、技能系统、HyperFrames 视频渲染管线、Agent 适配器等维度进行全方位拆解,探讨它如何将 AI 设计从云端黑盒转化为可组合、可审计、可版本管理的本地工程资产。
通信大模型18 小时前
人工智能·深度学习·神经网络·信息与通信
IEEE JSAC | 4万字综述 | 从Large AI Models到Agentic AI:面向未来智能通信的教程题目:From Large AI Models to Agentic AI: A Tutorial on Future Intelligent Communications