深度学习

技术小黑29 分钟前
pytorch·深度学习·算法·cnn
CNN算法实战系列03 | DenseNet121算法实战与解析相比 ResNet50V2 的优化点:DenseNet121 结构:Dense Block层数输出通道
z小猫不吃鱼1 小时前
人工智能·深度学习·transformer
02 Transformer 基础:Self-Attention 原理详解ViT 的核心不是“把图像切成 patch”这么简单。图像切成 patch 只是第一步。真正让 ViT 能够建模图像全局关系的,是 Transformer Encoder 中的 Self-Attention。在 CNN 中,图像信息通常通过卷积层逐步传播。一个像素或者一个局部区域想要和远处区域发生关系,往往需要经过多层卷积堆叠。而在 Self-Attention 中,所有 token 之间都可以直接计算关系。如果放到 ViT 中理解:
2zcode3 小时前
深度学习·yolo11·输电线路耐张线夹压接
基于YOLO11的输电线路耐张线夹压接缺陷检测系统摘要:输电线路耐张线夹压接质量直接关系到电力系统的安全稳定运行。传统的人工巡检方式效率低、主观性强,难以满足现代电网智能化管理需求。本文提出了一种基于YOLO11深度学习算法的耐张线夹压接缺陷智能检测系统。
数智工坊3 小时前
论文阅读·人工智能·深度学习·计算机视觉·transformer
【BLIP-2论文阅读】:冻结预训练模型的多模态预训练革命想象一下,你想训练一个能看懂图片又能说会道的AI,但发现需要同时训练一个10亿参数的视觉模型和一个70亿参数的语言模型,这得花多少电费?2023年之前的多模态预训练就是这么烧钱——所有模型都要端到端从头训练,算力成本高得离谱,普通实验室根本玩不起。
夫唯不争,故无尤也3 小时前
人工智能·深度学习
深度学习优化器:AdamW与SGD的区别在深度学习的训练中,优化器的核心作用是导航与寻优。它利用损失函数的梯度信息,决定模型参数(权重)更新的方向和步长。如果将训练模型比作“下山”,损失函数是地形,梯度指示了当前最陡峭的下坡方向,那么优化器就是你的“步伐策略”——它决定了你是小步慢走、大步快跑,还是借助惯性冲过平坦的鞍点。
石榴树下的七彩鱼3 小时前
人工智能·深度学习·计算机视觉·超分辨率·石榴智能·ai图像修复
AI图像修复技术深度解析:超分辨率、去模糊与上色原理详解(附论文精读+实践指南)你是否有过这样的经历:翻出十年前的旧照片,人像模糊得像打了马赛克;拍摄证件照时手一抖,整张照片糊成了印象派;翻看黑白老照片,想还原那个年代的色彩却无从下手……这些困扰,如今正在被AI图像修复技术一一破解。
AI视觉网奇4 小时前
人工智能·深度学习
3d 打印拆分零件目录SnapSplitSnapSplit:Blender 附加组件可实现模块化 3D 打印的自动分割和连接
z小猫不吃鱼4 小时前
深度学习·cnn·transformer
01 为什么 Vision Transformer 会出现?从 CNN 到 ViT,理解视觉模型的一次重要转变在很长一段时间里,CNN 几乎是计算机视觉任务的标准答案。图像分类用 CNN,目标检测用 CNN,语义分割也离不开 CNN。从 AlexNet 到 VGG,再到 ResNet,卷积神经网络一步步推动了计算机视觉的发展。对于很多人来说,一提到图像任务,第一反应就是卷积网络。但是从 2020 年开始,一个新的模型逐渐成为视觉领域的核心关键词:Vision Transformer,简称 ViT。
云和数据.ChenGuang5 小时前
人工智能·深度学习·机器学习·数据挖掘·边缘计算
FastText的核心优势FastText的核心优势在于其子词(subword)机制,能够为未登录词生成合理的向量表示[2][4]。若需强制返回全0向量,需结合以下策略实现:
knight_9___5 小时前
人工智能·python·深度学习·算法·面试·agent
大模型project面试4我了解微调之后,首先意识到的是:微调不是首选,而是最后手段。大多数问题先把 Prompt 写好、加 Few-shot 示例,或者用 RAG 接外部知识,基本都能解决。真正需要微调的场景是:模型需要以特定风格持续输出、需要学会稳定的任务格式、或者需要大幅降低成本用小模型替代大模型。方案上,LoRA/QLoRA 是最常用的,因为它只训练一小部分参数,普通 GPU 上就能跑,不需要全量更新所有权重;SFT 是微调的目标形式,让模型从续写模式变成指令回答模式;有偏好对齐需求的话,DPO 比 RLHF 简单得多、效
code_pgf6 小时前
人工智能·深度学习·机器学习
知识蒸馏在 sVLM 中的作用及实现方式Small Vision-Language Model / 小型视觉语言模型,通常由 视觉编码器 + 多模态 projector / adapter + 小型 LLM 组成。LLaVA 类模型证明了“视觉编码器接入 LLM + 视觉指令数据”可以形成通用多模态助手;MobileVLM 则进一步面向移动端,用 CLIP 风格视觉模型、轻量 projector 和 1.4B / 2.7B 级语言模型实现端侧 VLM。([arXiv][1])
keineahnung23457 小时前
人工智能·pytorch·python·深度学习
為什麼要有 eval_is_non_overlapping_and_dense?PyTorch 包裝層與調用端解析前篇 為什麼這個 Tensor 算 dense?PyTorch _eval_is_non_overlapping_and_dense 深入解析 介紹了 _eval_is_non_overlapping_and_dense 函數,該函數位於 torch/fx/experimental/symbolic_shapes.py,實作了判斷張量的記憶體佈局是否「非重疊且稠密」(non-overlapping and dense)的邏輯,是個純 Python 函數。
Hali_Botebie7 小时前
人工智能·深度学习·transformer
【量化】FQ-ViT: Post-Training Quantization for Fully Quantized Vision TransformerFQ-ViT: Post-Training Quantization for Fully Quantized Vision Transformer
狮子座明仔7 小时前
人工智能·深度学习·机器学习·交互
AggAgent:把并行轨迹当环境来交互,智能体聚合的新范式你有没有遇到过这种情况——让一个Agent做深度研究,跑了8次,8条轨迹里其实藏着正确答案,但你怎么把它们"拼"出来?Majority Voting?要是多答案任务,投票直接废了。Best-of-N?模型自己标的confidence在长文本生成任务上根本不准。把8条轨迹全塞进context窗口?每条动辄十万token,8条拼一起直接OOM。
pzx_0017 小时前
论文阅读·人工智能·深度学习·神经网络·ci/cd
【论文阅读】SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integrationhttps://arxiv.org/pdf/2603.03823基于大语言模型(LLM)的智能体已在自动化软件工程任务(如静态缺陷修复)中展现出强大能力,SWE‑bench 等基准测试已充分证明这一点。但在实际场景中,成熟软件的开发通常建立在复杂的需求变更与长期功能迭代之上 —— 这一过程是静态、一次性的修复范式所无法刻画的。为弥补这一差距,我们提出 SWE‑CI,这是首个基于持续集成(CI)流程构建的代码库级基准测试,旨在将代码生成的评估范式从静态、短期的功能正确性转向动态、长期的可维护性。该基准包含
摇落露为霜7 小时前
人工智能·深度学习·transformer·扩散模型·dit
论文笔记DiT:Scalable Diffusion Models with Transformers(含transformer的可扩展扩散模型 )Abstract:论文的核心思想非常直接:用一个标准的 Transformer 架构替换掉扩散模型中常用的 U-Net 主干网络,并证明这种新架构(称为 DiT, Diffusion Transformer)具有出色的可扩展性(Scalability)。
网安INF7 小时前
论文阅读·人工智能·深度学习·计算机视觉
【论文阅读】-《QUERY EFFICIENT DECISION BASED SPARSE ATTACKS AGAINST BLACK-BOX DEEP LEARNING MODELS》尽管我们已竭尽全力,深度学习模型仍然极易受到施加在输入上的微小对抗性扰动的影响。仅从机器学习模型的输出中提取信息来为黑盒模型制作对抗性扰动的能力,是对现实世界系统(如自动驾驶汽车或作为服务暴露的机器学习模型)的实际威胁。其中特别值得关注的是稀疏攻击。在黑盒模型中实现稀疏攻击表明,机器学习模型比我们想象的要更加脆弱。因为,这些攻击旨在最小化误导模型所需的扰动像素数量——以 l0l_0l0 范数衡量——而方法仅仅是观察模型查询返回的决策(预测的标签);即所谓的基于决策的攻击设置。但是,这样的攻击会导致一个 N
那个,我想吃麦麦7 小时前
人工智能·深度学习·神经网络
【论文阅读 | Advanced Engineering Informatics 2026】融合条件扩散与图学习的 EEG 信号重建与认知负荷识别📖 论文信息该论文提出了一个"重建-分类"统一框架:第一阶段使用条件引导去噪扩散概率模型(CG-DDPM)同时修复 6 种伪迹污染的 EEG 信号,第二阶段使用融合 CNN、GCN、KAN 三分支编码器的 EEGGX-Net 对认知负荷进行分级识别。在 STEW 和自采集 iNCog-EEG 两个数据集上,二分类准确率均超过 98%,三分类超过 95%,且均为被试独立评估。
hongjianMa7 小时前
论文阅读·python·深度学习·推荐系统·多模态推荐
【论文阅读】Structured Spectral Reasoning for Frequency-Adaptive Multimodal Recommendation用于频率自适应多模态推荐的结构化谱推理虽然最近的工作探索了频域作为分离稳定信号和噪声信号的透镜,但大多数方法依赖于静态滤波或重新加权,缺乏对频谱结构进行推理或适应特定模态可靠性的能力。
心疼你的一切7 小时前
人工智能·pytorch·深度学习·神经网络·机器学习
PyTorch实战:手写数字识别神经网络人工智能正在深刻改变我们的世界,而神经网络作为AI领域的核心技术之一,其重要性不言而喻。从图像识别到自然语言处理,从语音识别到自动驾驶,神经网络无处不在。本文将深入浅出地介绍神经网络的基础原理,并通过PyTorch框架进行实践演示,帮助读者快速上手神经网络开发。