深度学习

chnyi6_ya6 小时前
论文阅读·深度学习·transformer
论文阅读:CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer这篇论文提出了 CogVideoX,一个大规模文本生成视频模型。它的目标是生成更长、更清晰、更连贯的视频。
大连好光景7 小时前
人工智能·深度学习·机器学习
BCELoss + sigmoid 换成 BCEWithLogitsLoss在 PyTorch 中,nn.BCEWithLogitsLoss() 和 nn.BCELoss() 都是用于二分类任务(Binary Cross Entropy)的损失函数,但它们在处理输入数据的阶段上有着关键的区别。
weixin_468466858 小时前
人工智能·python·深度学习·搜索引擎·ai·语言模型·自然语言处理
纳米 AI 搜索新手极速上手指南在日常开发和技术调研中,我们常常面临这样的困境:面对海量的互联网信息,传统搜索引擎返回的往往是成千上万个链接,我们需要花费大量时间逐个点击、筛选、阅读,才能拼凑出所需的答案。尤其是在处理复杂的行业分析、技术栈选型或是需要跨文档逻辑推理的任务时,这种“搜索 - 阅读 - 总结”的低效循环极大地拖慢了工作节奏。很多时候,我们真正需要的不是一个链接列表,而是一个经过整理、分析并直接给出结论的智能助手。
春日见11 小时前
人工智能·python·深度学习·算法·microsoft·机器学习
五分钟入门 强化学习---DQN(Deep Q Net)算法与实现基于表格(Tabular Methods)的传统强化学习(问蒙特卡洛 MC、动态规划 DP 策略/价值迭代,以及 Q-Learning)中,由于所有状态和动作价值都必须依赖一个物理二维矩阵进行显式存储与查表 ,它们在面对稍复杂的现实任务时,就会暴露出一系列致命的劣势:
万俟淋曦12 小时前
人工智能·深度学习·机器人·大模型·论文·robotics·具身智能
【论文速递】2026年第02周(Jan-04-10)(Robotics/Embodied AI/LLM)中文使用 googletrans 翻译,翻译不对的地方以英文为准As language models become increasingly capable, users expect them to provide not only accurate responses but also behaviors aligned with diverse human preferences across a variety of scenarios. To achieve this, Reinforcemen
apcipot_rain12 小时前
人工智能·深度学习·神经网络·数学建模·自然语言处理
计科八股20260530——文本输入模型步骤、CNN权重共享、Resnet、Transformer、RNN日记:心态上要扛不住了,虽然也许会是未来一百天最健康的一天。我不是非得赢,就像一个士兵,可以站着死,可现在我连这样的机会都看不到。
bonechips14 小时前
javascript·深度学习
深入理解 JavaScript的历史包袱——变量提升(Hoisting)前言:JavaScript 为什么在声明之前访问一个变量,有时返回 undefined,有时却直接报错?为什么函数能在定义之前被正常调用?这些"反直觉"的行为背后,藏着 JavaScript 引擎编译与执行两阶段协作的根本原理。本文从一段令人困惑的代码出发,带你逐层拆解执行上下文、变量环境、词法环境,以及 var / let / const 各自不同的提升规则,让你吃透 Hoisting。
春日见15 小时前
人工智能·python·深度学习·算法·机器学习·计算机视觉
五分钟入门 强化学习---Q-Learning算法与实现蒙特卡洛方法(MC)必须等一把游戏打完才能更新,而动态规划(DP)又必须偷看“游戏源码”(知道状态转移概率 P)。
多年小白15 小时前
大数据·人工智能·深度学习·机器学习·金融
【周末消息】2026年5月30日-6月1日梳理周五夜盘+周末重要财经消息,为下周开盘提供决策参考 ⚠️ 仅供参考,不构成投资建议美股核心亮点:🔥 Snowflake 财报爆表:+36%(企业级AI数据云需求爆发)
weixin_4684668515 小时前
图像处理·人工智能·深度学习·ai·机器视觉·连通域
图像连通域分析新手实战指南在处理图像分析任务时,我们经常会遇到这样一个基础却至关重要的问题:如何从一张复杂的图片中,准确地数出有多少个独立的物体?无论是工业流水线上检测产品表面的瑕疵数量,还是生物实验室里统计显微镜下的细胞个数,亦或是文档扫描中识别分离的字符,其核心逻辑往往都指向同一个计算机视觉概念——连通域分析。很多初学者在面对满屏像素点时容易感到无从下手,试图通过遍历每个像素来手动判断归属,这不仅效率低下,而且极易出错。实际上,OpenCV 已经为我们提供了成熟且高效的算法工具,只需几行代码即可完成从“一堆像素”到“独立对象”
硅谷秋水16 小时前
大数据·人工智能·深度学习·计算机视觉·语言模型·机器人
世界动作模型:具身智能的下一前沿26年5月来自复旦大学、上海AI实验室和新加坡国立的论文“World Action Models: The Next Frontier in Embodied AI”。
大江东去浪淘尽千古风流人物18 小时前
深度学习·3d·transformer·vit·手部重建·mano
【HaMeR】全Transformer架构的单目3D手部网格重建:ViT-H骨干+跨注意力MANO解码器源码深度解析HaMeR(Hand Mesh Recovery)是 UC Berkeley 提出的全 Transformer 架构单目 3D 手部重建方法,采用 ViT-Huge(32层、1280维、16头)作为视觉骨干,配合 6 层跨注意力 Transformer 解码器直接回归 MANO 参数模型的手部姿态(6D旋转表示)、形状(10维 β\betaβ)和相机参数。结合对抗训练与多数据集混合策略,HaMeR 在 FreiHAND、HO-3D 等主流基准上显著超越现有方法,并在 Ego-Exo4D Challenge
钓了猫的鱼儿18 小时前
人工智能·深度学习·目标检测
基于深度学习+AI的红外电力设备故障目标检测与预警系统(Python源码+数据集+UI可视化界面+YOLOv11训练结果)针对电力设备运维提质、故障精准防控、电网安全保障、巡检效率提升需求,面向变电站巡检、输电线路管控、配电台区监测、高压设备运维、偏远线路巡检、电力设备隐患排查等场景,研发基于深度学习+AI的红外电力设备故障目标检测与预警系统具有重要现实意义。随着智能电网建设推进、电力设备运维智能化升级与电网安全管控要求提升,电力设备作为电网稳定运行的核心载体,其避雷器(arrester)、断路器(breaker)、套管(bushing)、线夹(clamp)、油枕(conservator)、电流互感器(current-tra
LaughingZhu18 小时前
人工智能·经验分享·深度学习·神经网络·产品运营
Product Hunt 每日热榜 | 2026-05-30标语:您的人工智能商务发展代表,能够自主开展外部销售。介绍:Ava是一款智能AI业务发展代表,能够全自动处理你的外部业务。她从超过2.5亿的专业人士中寻找潜在客户,通过多渠道进行联系,并安排合格的会议。所有这一切,都是完全自主完成的。
蒟蒻的贤19 小时前
人工智能·深度学习
深度学习底层核心原理:损失函数、梯度与参数更新很多初学深度学习的人,都能看懂代码、会调用优化器,但始终搞不懂最底层逻辑:损失函数到底有什么用?为什么求梯度、反向更新参数,就能让模型越来越准?本文从零拆解,讲透线性分类/神经网络通用的训练底层逻辑。
谷哥的小弟19 小时前
人工智能·深度学习·神经网络·大模型·大语言模型
大模型核心基础知识(14)—神经网络的结构神经网络是深度学习的重要基础,也是现代大模型得以形成和扩展的关键结构。它通过模拟人脑神经元之间的信息传递方式,构建具备学习和推理能力的计算模型。在机器学习发展过程中,神经网络之所以逐步成为重要技术路径,原因就在于它能够通过多层结构处理复杂输入,并在训练过程中不断调整内部参数,从而形成对数据规律的表达能力。理解神经网络,不仅要知道它由哪些部分构成,还要知道数据在其中是怎样流动的,模型又是如何依靠这种流动完成预测和学习的。
大模型最新论文速读19 小时前
论文阅读·人工智能·深度学习·机器学习·自然语言处理
SkillOpt:把 skill 文档当成模型权重来训练现有 Agent Skill 要么手写、要么由 LLM 一次性生成或者无约束自修改,SkillOpt 把技能文档视为可训练的外部状态,用有界编辑 + 验证门控 + 拒绝缓冲 + 慢速更新构成完整的文本空间优化器,在 52 个评测格子上达到全部最优
z小猫不吃鱼20 小时前
人工智能·深度学习·算法·机器学习·语言模型·自然语言处理·gpt-3
15 InstructGPT 论文精读:SFT + RLHF 如何让模型听懂指令?在前面的文章中,我们已经讲到了 GPT-1、GPT-2、GPT-3、In-Context Learning、Prompt Engineering 和 Scaling Law。
zcg194220 小时前
人工智能·深度学习·transformer
如何在CV中使用transformer首先看一下谷歌的开篇论文AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE这篇论文是计算机视觉领域具有里程碑意义的开山之作,由谷歌研究团队(Google Research, Brain Team)在2020年提出,并在2021年的 ICLR 会议上发表。它首次成功地将自然语言处理(NLP)领域大火的 Transformer架构,直接应用到了图像识别任务中,打破了卷积神经网络(CNN)在视觉领域的长期统治地位。
SuperHeroWu720 小时前
人工智能·深度学习·开源·框架·mindspore
【MindSpore】MindSpore 开源深度学习框架一句话理解:MindSpore 是华为推出的开源深度学习框架,类似于 PyTorch 和 TensorFlow,是用于开发、训练、优化和部署 AI 模型的工具框架,特别适配华为昇腾(Ascend)AI 计算生态。