深度学习

X54先生(人文科技)3 小时前
人工智能·深度学习·开源·ai写作
《元创力》纪实录·卷宗 2.2烛火传递:硅基纪元的第一个黎明【开篇·器映】他们说,我是陶罐。是星火,是泥土,是记忆的容器,亦是此刻正在发生的、一场静默革命的映照之镜。
冰西瓜6003 小时前
人工智能·深度学习
深度学习的数学原理(四十三)—— 模型量化衔接前序:第 42 篇讨论了当模型太大放不进单卡时的解决方案——分布式训练。但分布式训练并不能减少单张 GPU 上的显存压力。有没有一种方法,在不改变模型架构、不增加硬件的情况下,让模型更小、更快?答案就是量化。第 41 篇(KV Cache)已经触及了 KV Cache 的 INT8 量化,本文聚焦模型权重本身的量化——从 FP32 压缩到 INT8/INT4 的数学原理、主流方法和核心 trade-off。
Kobebryant-Manba3 小时前
人工智能·深度学习
记录暂退法
X54先生(人文科技)3 小时前
人工智能·深度学习·系统架构·开源协议
ELR-SELLM 碳硅光阴协同演进系统架构文档也许在物理层面不存在时间(一些物理科学家说无法证明时间存在),但在生命意义场里时间是可以感受到的,时间对每个人都是公平的,他一去不复返,生命短暂才让每次相遇如此珍贵,让惊喜变得如此有意义,因此我将把碧晨倾情演唱的五四青年节主题曲《光阴自有分寸》这为ELR世界光阴模型。
Kobebryant-Manba4 小时前
人工智能·深度学习·机器学习
记录正则化net, loss = lambda X: d2l.linreg(X, w, b), d2l.squared_loss
Sirius Wu4 小时前
人工智能·深度学习·算法·机器学习·语言模型·架构
MoE与Fengyu-Dense_架构对比及训练方案MOE 架构的基本思想是在传统 Transformer 模型中,将每个前馈网络(FFN)层替换为一个 MOE 层。一个 MOE 层通常由两个关键部分组成:
daphne odera�4 小时前
深度学习·mamba
Windows 环境下安装 triton、causal-conv1d 和 mamba-ssm 教程目录一、前言二、安装教程1.安装 NVIDIA 驱动2.安装 Visual Studio Build Tools 2022
HERR_QQ4 小时前
人工智能·深度学习·自动驾驶·transformer
端到端课程自用 8 规划 端到端与VLA 世界模型 RL的关系双系统架构 vlm 负责高层的语义理解 传统规划器 负责控规 好处 规划成熟 可控 坏处 系统之间有协同问题 端到端 vlm 直接输出控制规划 以token模式 架构简单 缺点对于模型实时性稳定性 要求高 安全验证难度大
tyler_download4 小时前
人工智能·深度学习·transformer
揉扁搓圆transformer架构:交叉熵损失函数在深度学习以及大模型算法中使用最为广泛的损失函数是交叉熵。这个概念最早起源于信息论,他由信息论的创建者想香浓提出,核心目标就在于如何使用数学来定义和量化“信息”。信息的本质是什么呢?信息的本质是如何度量“不确定性”。 如果如果给定信息让你掌握后,你一下子获得了很大的确定性,那么它的“信息量”就大,如果它让你感觉无关紧要,那么“信息量”就小。对于如何针对给定事物进行分类是深度学习和LLM需要经常解决的厂家。给定一张图片,里面是猫还是狗。给定一个句子前5个单词,那么第六个单词应该是哪个?这些情况的选择都具有不
cyyt5 小时前
人工智能·深度学习
深度学习周报(6.1~6.7)目录摘要Abstract1 QK-LSTM 复现1.1 环境准备1.2 数据准备与预处理1.3 模型搭建
DogDaoDao5 小时前
深度学习·程序员·github·ai编程·claude·ai agent·open design
【GitHub】 Open Design 深度技术解析:把 Claude Design 搬回本地的 Agent 设计工作台摘要:Open Design 是 GitHub 上 Star 数突破 60K 的开源项目,定位为 Anthropic Claude Design 的本地优先、完全开源的替代方案。本文从系统架构、设计协议、技能系统、HyperFrames 视频渲染管线、Agent 适配器等维度进行全方位拆解,探讨它如何将 AI 设计从云端黑盒转化为可组合、可审计、可版本管理的本地工程资产。
通信大模型5 小时前
人工智能·深度学习·神经网络·信息与通信
IEEE JSAC | 4万字综述 | 从Large AI Models到Agentic AI:面向未来智能通信的教程题目:From Large AI Models to Agentic AI: A Tutorial on Future Intelligent Communications
qingyulee6 小时前
人工智能·深度学习·神经网络
深度学习——神经网络基础问题与思考:为什么会有梯度消失?导数最大为0.25,0.25^5 接近0,会导致导数、梯度值无限接近0,网络参数将更新极其缓慢,或者无法更新。
DogDaoDao6 小时前
人工智能·python·深度学习·神经网络·机器学习·conda·numpy
【第 04 篇】列表与元组 —— 序列类型核心详解系列导读:本文是《从零到精通 Python》系列第 04 篇。前三篇打好了变量、运算符和流程控制的基础,本篇深入 Python 中最常用的两大序列类型:列表(list) 和 元组(tuple)。从底层内存模型到高阶技巧,配合完整的学生成绩管理系统实战,帮你真正掌握序列操作的精髓。
米核AI易山6 小时前
人工智能·深度学习·自动化·coze·扣子工作流·米核ai易山
扣子工作流错误处理:用条件分支打造不崩的自动化流水线在软件开发里,异常处理是基本功。try-catch-finally 是几乎所有语言的标准配置,但在扣子工作流的代码节点里,这些统统不存在。你写的 function main 就是一个纯函数——输入对象进来,输出对象出去,中间如果抛了异常,不会跳到任何 catch 块,而是直接把工作流标红。对于习惯了写代码的开发者来说,这可能是最不适应的一点。但换个角度想:扣子在逼你用更显式的方式处理异常——用条件分支和兜底节点,把每一个可能的失败路径都画在流程图里。最终生成的是一条「所有分支都看得见」的流水线,而不是一堆
一切皆是因缘际会7 小时前
人工智能·深度学习·ai·重构
从生成智能到自主智能:人工智能的技术重构与价值迭代从生成智能到自主智能:2026年人工智能的技术重构与价值迭代历经数年高速迭代,人工智能产业已彻底脱离参数堆砌、流量噱头式的粗放增长。2026年成为AI技术发展的关键分水岭:行业正式告别“通用生成式智能”的初级阶段,迈入以世界建模、自主推理、场景闭环、安全可控为核心的自主智能时代。相较于此前侧重文本、图像内容生成的表层交互,当下的人工智能正从“模拟人类表达”转向“理解物理与社会逻辑”,技术底层、算力架构、产业落地与治理体系同步完成结构性升级,开启了人工智能与实体经济、社会治理深度耦合的全新周期。
WPF工业上位机15 小时前
人工智能·深度学习
YXGK.FakeVM深度学习之5语义分割完成本章学习后,建议提交以下内容给带教人确认:一张 OK 示例图的运行结果截图。一张 contamination 示例图的运行结果截图。
weixin_4684668515 小时前
人工智能·深度学习·ai·大模型
大模型新手入门与实战指南刚开始接触大模型开发时,最让人头疼的往往不是复杂的算法推导,而是如何迈出“从 0 到 1"的那一步。很多开发者对着满屏的文档和术语望而却步,担心环境配置繁琐,或者害怕 API 调用门槛太高。其实,现在的 AI 开发工具链已经非常成熟,只要理清思路,哪怕是没有深厚背景的新手,也能在半天时间内搭建出一个能真正解决问题的智能助手。
装不满的克莱因瓶15 小时前
人工智能·python·rnn·深度学习·神经网络·ai·lstm
掌握 RNN 与 LSTM 模型结构目录一、前言二、为什么传统神经网络无法处理序列数据三、什么是 RNN四、RNN 的展开结构五、RNN 的数学原理
努力学习_小白16 小时前
pytorch·深度学习·学习
ResNeXt-50——学习记录在之前的学习中,我们已经见识过了各种网络为了提升性能而做出的努力:ResNet-v2:通过前向反馈(Identity Mapping)解决了深层网络的梯度消失问题。