深度学习

yiyu07167 小时前
人工智能·深度学习
3分钟搞懂深度学习AI:深度学习大爆发github仓库及代码(额外补充,持续更新): yiyu0716/3mins-dl: 专为零基础小白打造的深度学习极简指南。这里没有令人头疼的公式,只有通俗易懂的知识拆解。每天只需 3 分钟,带你利用碎片时间轻松看懂 AI 核心概念,从零开始,毫无压力地跨入人工智能大门。
CoovallyAIHub9 小时前
深度学习·算法·计算机视觉
CVPR 2026 | MixerCSeg:仅2.05 GFLOPs刷新四大裂缝分割基准!解耦Mamba隐式注意力,CNN+Transformer+Mamba三695 GFLOPs vs 2 GFLOPs。同一个裂缝分割任务,精度更高,计算量只有别人的 0.3%。
CoovallyAIHub9 小时前
深度学习·算法·计算机视觉
YOLO26-Pose 深度解读:端到端架构重新设计,姿态估计凭什么跨代领先?2026年1月14日,Ultralytics 正式发布 YOLO26 模型家族。3月9日,官方博客发布对比解析文章,全面拆解其姿态估计能力。本文基于该文,带你看懂 YOLO26-Pose 的核心升级。
CoovallyAIHub10 小时前
深度学习·算法·计算机视觉
化工厂气体泄漏怎么用AI检测?30张图3D重建气体泄漏场景——美国国家实验室NeRF新研究气体泄漏是化工安全的重大隐患,但传统方法只能从单张红外图像逐帧分析。犹他州立大学联合洛斯阿拉莫斯国家实验室,尝试用NeRF把多张红外高光谱图像融合成3D场景,然后从任意新角度检测气体。结果:30张训练图像就能达到AUC 0.821。
yiyu07161 天前
人工智能·深度学习
3分钟搞懂深度学习AI:实操篇:池化层github仓库及代码(额外补充,持续更新): yiyu0716/3mins-dl: 专为零基础小白打造的深度学习极简指南。这里没有令人头疼的公式,只有通俗易懂的知识拆解。每天只需 3 分钟,带你利用碎片时间轻松看懂 AI 核心概念,从零开始,毫无压力地跨入人工智能大门。
CoovallyAIHub1 天前
深度学习·算法·计算机视觉
OpenClaw 近 2000 个 Skills,为什么没有一个好用的视觉检测工具?OpenClaw,212K Star,GitHub 历史第一。中国部署量全球第一。字节、阿里、腾讯争着上线云服务。
CoovallyAIHub1 天前
深度学习·算法·计算机视觉
CVPR 2026 | 用一句话告诉 AI 分割什么——MedCLIPSeg 让医学图像分割不再需要海量标注假设你是一名放射科医生。你面前有一张乳腺超声图像,你需要 AI 帮你标出肿瘤边界。传统方法:你需要先准备几千张标注好的图像来训练模型,换个器官就得从头再来,换个医院的设备可能就不准了。
CoovallyAIHub1 天前
深度学习·算法·计算机视觉
Claude Code 突然变成了 66 个专家?这个 5.8k Star 的开源项目,让我重新理解了什么叫"会用 AI"前两天在 GitHub 上刷到一个项目,看完之后说实话——沉默了大概三秒钟。不是因为技术多炸裂,而是因为它让我意识到:大多数人用 Claude Code,可能只用了它 5% 的能力。
yiyu07162 天前
人工智能·深度学习
3分钟搞懂深度学习AI:实操篇:卷积层github仓库及代码(额外补充,持续更新): yiyu0716/3mins-dl: 专为零基础小白打造的深度学习极简指南。这里没有令人头疼的公式,只有通俗易懂的知识拆解。每天只需 3 分钟,带你利用碎片时间轻松看懂 AI 核心概念,从零开始,毫无压力地跨入人工智能大门。
CoovallyAIHub2 天前
深度学习·算法·计算机视觉
181小时视频丢给GPT-5,准确率只有15%——南大联合NVIDIA等五校发布多模态终身理解数据集南京大学联合NVIDIA、浙江大学、上海交通大学、东京大学发布MM-Lifelong数据集,定义"多模态终身理解"新任务。181.1小时视频横跨三个时间尺度,GPT-5只能采样50帧来处理,准确率14.87%。人类80.4%。作者提出ReMA智能体,通过递归记忆管理将准确率提升至18.62%——目前最高,但与人类差距依然巨大。
CoovallyAIHub2 天前
深度学习·算法·计算机视觉
CVPR 2026 | GS-CLIP:3D几何先验+双流视觉融合,零样本工业缺陷检测新SOTA,四大3D工业数据集全面领先!现有零样本3D异常检测方法将点云投影为2D图像后借助CLIP进行检测,但投影丢失了关键的几何细节,且仅依赖单一视觉模态,检测能力受限。GS-CLIP 提出"几何感知提示学习 + 协同双流视觉表征"两阶段框架:第一阶段从3D点云中提炼全局形状上下文和局部缺陷信息注入文本提示;第二阶段让渲染图和深度图双流并行处理并深度融合。在 MVTec3D-AD、Real3D-AD、Eyecandies、Anomaly-ShapeNet 四大数据集上全面超越 PointAD(NeurIPS'24),O-AUROC 平均提升
数据智能老司机2 天前
pytorch·深度学习
PyTorch 深度学习——使用神经网络来拟合数据本章涵盖以下内容到目前为止,我们已经仔细考察了线性模型是如何学习的,以及如何在 PyTorch 中实现这一过程。我们关注的是一个非常简单的回归问题:使用一个只有单输入、单输出的线性模型。这样一个简单的例子,使我们能够剖析“模型如何学习”的机制,而不会过多被模型本身的实现细节分散注意力。正如我们在图 5.2 的概览图中所看到的那样(此处再次给出为图 6.1),要理解训练模型的高层过程,并不需要关心模型的精确细节。将误差反向传播到参数,再根据损失对参数求梯度并更新参数,这一过程无论底层模型是什么,都是一样的。
数据智能老司机2 天前
pytorch·深度学习
PyTorch 深度学习——用于图像的扩散模型本章涵盖以下内容:在继续我们的生成式 AI 之旅时,我们现在将目光转向图像合成。在上一章中,我们探讨了如何使用 Transformer 进行文本生成。本章中,我们将深入研究利用深度学习技术进行图像生成这一领域。
数据智能老司机2 天前
pytorch·深度学习
PyTorch 深度学习——Transformer 是如何工作的本章涵盖以下内容尽管前面几章已经展示了深度学习在回归和分类任务中的能力,但这项技术真正具有颠覆性的力量,远远不止于分析已有数据。深度学习如今正在进入创造性领域——生成全新的图像、创作原创文本,甚至生成逼真的视频。这些生成能力,过去一度被认为是人类智能的专属领域,而现在却已经成为当前 AI 革命的核心,推动了近年来我们所见证的大部分 AI 热潮与兴奋情绪。
yiyu07163 天前
人工智能·深度学习
3分钟搞懂深度学习AI:环境安装与工具使用CUDA、显卡驱动与 GPU 计算的关系检查 NVIDIA 显卡与安装显卡驱动安装 CUDA 与版本匹配问题
数据智能老司机3 天前
pytorch·深度学习
PyTorch 深度学习——使用张量表示真实世界数据本章涵盖以下内容在上一章中,我们已经学到,张量是 PyTorch 中数据的基本构件。对于 PyTorch 来说,神经网络接收张量作为输入,并产生张量作为输出。事实上,神经网络内部的所有运算,以及优化过程中的所有运算,本质上都是张量与张量之间的运算;而神经网络中的所有参数(例如权重和偏置)也都是张量。对如何操作张量、如何高效地对它们进行索引有良好的感觉,是成功使用 PyTorch 这类工具的核心。现在你已经掌握了张量的基础知识,随着你继续读完这本书,你对张量的熟练度也会不断提高。
数据智能老司机3 天前
pytorch·深度学习
PyTorch 深度学习——它始于一个张量本章涵盖以下内容在上一章中,我们概览了深度学习所能实现的众多应用。这些应用无一例外,都是以某种形式的数据作为输入——例如图像或文本——然后输出另一种形式的数据——例如标签、数值,或者更多的图像与文本。从这个角度来看,深度学习其实就是在构建一个系统,使它能够把数据从一种表示形式转换成另一种表示形式。驱动这种转换的,是系统通过大量样本发现我们想要实现的那种“输入到输出”的对应模式。比如,系统可能会注意到狗的大致轮廓,以及金毛猎犬常见的颜色。把这两种图像属性结合起来之后,系统就可以正确地把具有特定形状和颜色的图
yiyu07164 天前
人工智能·深度学习
3分钟搞懂深度学习AI:自我进化的最简五步法想象一名初学者练习射箭。他射出一箭(尝试),观察箭矢偏离靶心的距离(评估),然后记录下“风向偏左,需向右调整”(找原因),最后在下一次射击时修正了姿势(改进)。然而,如果他每次记录新经验前,都不把旧的矛盾笔记划掉,密密麻麻的信息交织在一起,他最终不仅无法命中,还会彻底迷失。在训练人工智能时,经常会出现“误差不下降、模型原地踏步”的现象,这往往是因为它忘记了“擦去旧笔记”。
yiyu07165 天前
人工智能·深度学习
3分钟搞懂深度学习AI:反向传播:链式法则的归责游戏想象一家高档餐厅端出了一碗极其难喝的咸汤。顾客大发雷霆,餐厅经理面临一个棘手的问题:必须找出错误到底出在哪。是服务员拿错了调料瓶?是大厨手抖多放了盐?还是采购员买错了盐的种类?要让下一碗汤变得美味,经理必须精准查明每一个环节的“责任大小”,并让相关人员挨个改正。
CoovallyAIHub5 天前
深度学习·算法·计算机视觉
语音AI Agent编排框架!Pipecat斩获10K+ Star,60+集成开箱即用,亚秒级对话延迟接近真人反应速度!一个开源框架,用几行Python代码就能搭出能"听"、能"说"、还能"看"的实时对话AI智能体——这就是 Daily.co 团队开源的 Pipecat。