深度学习

cyforkk1 小时前
人工智能·深度学习·机器学习
YAML 配置文件中的常见陷阱:内联字典与块映射混用在编写 YAML 配置文件时,一个常见的误区是混淆 块映射 与 流映射 的使用场景。这种混用虽然有时能被解析器勉强识别,但会严重损害代码的可读性与维护性,甚至引发隐蔽的逻辑错误。
月光有害2 小时前
开发语言·深度学习·batch
深入解析批归一化 (Batch Normalization): 稳定并加速深度学习的基石在深度神经网络(DNN)的演进历程中,批归一化(Batch Normalization, BN)的提出无疑是一个里程碑式的创新。它不仅显著加速了模型的收敛速度,还增强了训练的稳定性,甚至在一定程度上起到了正则化的作用。
Suryxin.2 小时前
人工智能·python·深度学习·ai·vllm
从0开始复现nano-vllm「llm_engine.py」这段代码实现了一个轻量级且高效的大语言模型推理引擎的核心控制器。它的主要作用是充当整个文本生成任务的“总指挥”,对外提供了一个简单易用的批量文本生成接口,对内则完美封装并统筹了所有复杂的底层运行机制——包括文本数据的分词转换、多 GPU 协同的张量并行分布式计算、以及优化系统吞吐量与显存的连续批处理调度,从而驱动庞大的 AI 模型稳定、高效地完成从接收用户请求到最终输出生成文本的完整推理生命周期。
冰西瓜6003 小时前
深度学习·神经网络·学习
深度学习的数学原理(九)—— 神经网络为什么能学习特征?在前面的章节中,我们已经系统掌握了神经网络的核心基础:从单神经元的加权和运算,到多层全连接网络(MLP)的前向传播逻辑;从损失函数的定义(MSE、交叉熵),到反向传播的梯度推导与参数更新(梯度下降、Adam优化器)。
Suryxin.4 小时前
人工智能·pytorch·深度学习·ai·vllm
从0开始复现nano-vllm「model_runner-py」下半篇之核心数据编排与执行引擎调度prepare_prefill 函数的作用,本质上是为大模型推理中的 prefill 阶段做一次完整的数据整理与运行时环境构建,它并不是简单地把多个序列拼接起来,而是在一个支持 block 级 KV cache、prefix cache 复用以及 FlashAttention 的高性能推理框架中,将多个变长、可能部分已缓存的序列,转换成一次可以直接送入 GPU kernel 执行的结构化输入。
Clarence Liu4 小时前
人工智能·rnn·深度学习
用大白话讲解人工智能(8) 循环神经网络(RNN):AI怎么“听懂“语音想象你正在翻译一句话:“I love eating apples”。如果逐词翻译:但如果遇到歧义句:“I saw the man with a telescope”,逐词翻译就会出问题:
冰西瓜60014 小时前
人工智能·深度学习
深度学习的数学原理(七)—— 优化器:从SGD到Adam在本专栏的前六篇内容中,我们已经逐步拆解了深度学习的核心数学基础:从梯度下降的核心逻辑(如何沿着梯度方向寻找损失最小值),到反向传播的链式法则(如何高效计算各层参数的梯度),再到激活函数的非线性本质与梯度特性(如何让深层网络具备拟合复杂数据的能力)。
过期的秋刀鱼!15 小时前
人工智能·深度学习·神经网络
神经网络-代码中的推理介绍,如何使用TensorFlow在代码中的推理,神经网络的一个显著特点就是,相同的算法,可以应用与许多不同的应用,将用烘烤咖啡豆的例子来实现
2401_8288906416 小时前
人工智能·python·深度学习·stable diffusion
实现扩散模型 Stable Diffusion - MNIST 数据集实现变分自编码器 VAE - MNIST 数据集实现时间步调度器loss_train,loss_val
Zzz 小生18 小时前
人工智能·深度学习·机器学习
LangChain models:模型使用完全指南LangChain中的LLM/聊天模型是其核心组件,作为AI智能体的推理引擎,支持文本生成、工具调用、多模态处理等能力,且通过标准化接口实现了不同模型提供商的无缝切换。
码农小韩20 小时前
人工智能·python·深度学习·agent·强化学习·deepseek
AIAgent应用开发——DeepSeek分析(二)【冷启动微调】冷启动微调是DeepSeek训l练的第一步,使用少量高质量数据,引导模型掌握基本推理逻辑。
冰西瓜60020 小时前
人工智能·深度学习
深度学习的数学原理(八)—— 过拟合与正则化在前面的七篇文章中,我们逐步拆解了深度学习的核心数学基石:从梯度下降的迭代逻辑、反向传播的链式求导,到激活函数的非线性转换,再到各种优化器对训练效率的提升。我们一直在努力让模型学得更好——尽可能减小训练数据上的误差,但事实上,学得太好反而可能成为模型的致命问题。本文我们就会讨论深度学习中最常见的困境之一:过拟合,以及解决它的核心方法——正则化。
小李独爱秋20 小时前
人工智能·深度学习·机器学习·分类·cnn·mindspore·模式识别
机器学习与深度学习实验项目3 卷积神经网络实现图片分类1)掌握在MindSpore中构建、训练卷积神经网络的方法2)理解卷积神经网络在图像分类任务中的应用原理
Purple Coder1 天前
人工智能·深度学习·神经网络
神经网络与深度学习BP神经网络使神经网络能够处理非线性映射任务,具备一层隐层的神经网络结构。没有隐藏层 = 只能做线性任务;有隐藏层 = 能解决复杂真实问题
蜡笔羊驼1 天前
开发语言·python·深度学习
LALIC环境安装过程LALIC 按照官方环境installation步骤会报错,以下是建议的修正的安装流程因为这个代码涉及到GPU与CUDA架构的问题,官方模型是在 single NVIDIA GeForce RTX 4090 GPU上训练出来的,我目前只在2080Ti上能够成功运行在A100上按照如下步骤解决完报错后重建图像是错误的,在A40或者H800上甚至没法跑,报错
HyperAI超神经1 天前
人工智能·深度学习·神经网络·机器学习·计算机视觉·机器人
视觉真实之外:清华WorldArena全新评测体系揭示具身世界模型的能力鸿沟当生成式 AI 能够创造出以假乱真的视频,我们是否就离真正的具身智能不远了?答案可能并不乐观。过去几年,视频生成模型取得了令人惊叹的进展。从光影细节到复杂动态场景,许多模型已经可以生成几乎无法用肉眼区分真假的画面。然而,当这些模型被真正放入机器人系统、让它们参与物理世界中的决策与执行时,一个令人尴尬的现实浮现:视觉上的逼真,并未转化为功能上的可靠。
Project_Observer1 天前
数据库·深度学习·机器学习
项目管理中如何跟踪工时?工时表和工时日志在项目管理中至关重要,因为它们能帮助所有人清晰地了解工作时间的分配情况。工时表用于记录员工的总工时,而工时日志则记录每项任务或活动所花费的时间。对于初学者来说,这仅仅意味着记录完成了哪些工作以及花费了多少时间。这样就能更清楚地了解各项任务的耗时是否超出或低于计划。
小lo想吃棒棒糖1 天前
人工智能·深度学习·transformer
思路启发:基于预测编码的Transformer无反向传播训练:局部收敛性与全局最优性分析:作者: 小lo爱吃棒棒糖¹, GLM-5²本文研究基于大脑预测编码假说的Transformer无反向传播训练方法。我们建立了严格的数学框架,证明在特定条件下,最小化层间局部预测误差可以收敛至全局最优解。主要理论贡献包括:(1) 证明在平衡点处,预测编码的参数更新梯度与反向传播梯度完全一致;(2) 给出局部最优解为全局最优解的充分条件;(3) 提出基于梯度一致性的最优性证伪方法;(4) 分析长序列高相似度文本场景下的收敛速率上界。理论分析表明,当满足Lipschitz连续性和强凸性条件时,预测编码可以以O(
2501_926978331 天前
人工智能·经验分享·深度学习·机器学习·agi
重整化群理论:从基础到前沿应用的综述(公式版)---AGI理论系统基础2.2这是一系列的可以构成一套整体的理论体系,单篇文章可以视为一种视角,多篇文章重合以后就视完整的AGI图像。该理论体系和现有主流理论存在部分矛盾,所以对主流理论框架经行了扩展尝试。文章由AI生成,本人只是提出问题对于文章并不能深度理解,文章中如果有不妥之处还请见谅。
程序员徐师兄1 天前
python·深度学习·深度学习的电影评论可视化系统·深度学习评论情感分析
Python 基于深度学习的电影评论可视化系统博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌