深度学习

tzc_fly5 小时前
人工智能·深度学习·机器学习
AnisoAlign:各向异性模态对齐这篇论文《Anisotropic Modality Align》(各向异性模态对齐)是一篇深入探讨多模态大语言模型(MLLM)底层表征空间的理论与方法相结合的优秀研究。它打破了以往对“模态鸿沟(Modality Gap)”的粗略认知,从严格的几何视角对其进行了重新定义,并据此提出了一种极其有效且无需配对数据的对齐算法(AnisoAlign),最终实现了仅用纯文本数据就能训练出媲美甚至超越真实图文预训练模型的MLLM。
我没胡说八道6 小时前
人工智能·经验分享·深度学习·考研·aigc·学习方法
2026论文工具选购指南:降重、降AI率、排版一站式筛选当下论文定稿的核心难题,早已不只是重复率超标,AI检测率过高、格式排版繁琐错乱成为更多同学毕业、投稿的阻碍。很多人分别使用降重、降AI、排版三类工具,来回复制粘贴不仅耗时费力,还容易导致文档格式崩坏、原创内容泄露。
初心未改HD6 小时前
人工智能·深度学习·算法
深度学习之MLP与反向传播算法详解多层感知机(Multi-Layer Perceptron,MLP)是深度学习的基础模型,也是理解神经网络工作原理的核心起点。本文从MLP的基本结构出发,详细讲解前向传播的矩阵运算过程,并深入剖析反向传播算法中链式法则的推导与梯度计算。通过使用NumPy从零实现一个完整的MLP网络,并在鸢尾花数据集上完成训练与验证,帮助读者建立对神经网络核心机制的完整认知。文中还涵盖了学习率选择、权重初始化、梯度检查等关键训练技巧,是一篇面向工程实践的MLP入门与进阶指南。
沪漂阿龙6 小时前
人工智能·深度学习·机器学习
面试题:训练-蒸馏详解——知识蒸馏、Teacher-Student、强弱蒸馏、Qwen3 强到弱蒸馏流程全解析1.1 蒸馏解决的不是“能不能训练”,而是“能不能低成本落地”大模型越做越强,但真实落地时会遇到一个很现实的问题:大模型效果好,却不一定适合所有线上场景。它可能推理慢、显存占用高、调用成本贵,也不一定适合端侧部署或高并发服务。
txg6667 小时前
人工智能·深度学习·安全·transformer
HgtJIT:基于异构图 Transformer 的即时漏洞检测框架“ 随着软件系统持续演进,漏洞检测任务从“离线分析”逐步转向“实时监测”。传统图神经网络模型虽然能够捕获程序语法与控制流结构,但在处理多类型节点、跨语义关系以及快速推理需求时仍显不足。
技术小黑8 小时前
pytorch·深度学习·算法·cnn
CNN算法实战系列03 | DenseNet121算法实战与解析相比 ResNet50V2 的优化点:DenseNet121 结构:Dense Block层数输出通道
z小猫不吃鱼8 小时前
人工智能·深度学习·transformer
02 Transformer 基础:Self-Attention 原理详解ViT 的核心不是“把图像切成 patch”这么简单。图像切成 patch 只是第一步。真正让 ViT 能够建模图像全局关系的,是 Transformer Encoder 中的 Self-Attention。在 CNN 中,图像信息通常通过卷积层逐步传播。一个像素或者一个局部区域想要和远处区域发生关系,往往需要经过多层卷积堆叠。而在 Self-Attention 中,所有 token 之间都可以直接计算关系。如果放到 ViT 中理解:
2zcode10 小时前
深度学习·yolo11·输电线路耐张线夹压接
基于YOLO11的输电线路耐张线夹压接缺陷检测系统摘要:输电线路耐张线夹压接质量直接关系到电力系统的安全稳定运行。传统的人工巡检方式效率低、主观性强,难以满足现代电网智能化管理需求。本文提出了一种基于YOLO11深度学习算法的耐张线夹压接缺陷智能检测系统。
数智工坊10 小时前
论文阅读·人工智能·深度学习·计算机视觉·transformer
【BLIP-2论文阅读】:冻结预训练模型的多模态预训练革命想象一下,你想训练一个能看懂图片又能说会道的AI,但发现需要同时训练一个10亿参数的视觉模型和一个70亿参数的语言模型,这得花多少电费?2023年之前的多模态预训练就是这么烧钱——所有模型都要端到端从头训练,算力成本高得离谱,普通实验室根本玩不起。
夫唯不争,故无尤也10 小时前
人工智能·深度学习
深度学习优化器:AdamW与SGD的区别在深度学习的训练中,优化器的核心作用是导航与寻优。它利用损失函数的梯度信息,决定模型参数(权重)更新的方向和步长。如果将训练模型比作“下山”,损失函数是地形,梯度指示了当前最陡峭的下坡方向,那么优化器就是你的“步伐策略”——它决定了你是小步慢走、大步快跑,还是借助惯性冲过平坦的鞍点。
石榴树下的七彩鱼10 小时前
人工智能·深度学习·计算机视觉·超分辨率·石榴智能·ai图像修复
AI图像修复技术深度解析:超分辨率、去模糊与上色原理详解(附论文精读+实践指南)你是否有过这样的经历:翻出十年前的旧照片,人像模糊得像打了马赛克;拍摄证件照时手一抖,整张照片糊成了印象派;翻看黑白老照片,想还原那个年代的色彩却无从下手……这些困扰,如今正在被AI图像修复技术一一破解。
AI视觉网奇12 小时前
人工智能·深度学习
3d 打印拆分零件目录SnapSplitSnapSplit:Blender 附加组件可实现模块化 3D 打印的自动分割和连接
z小猫不吃鱼12 小时前
深度学习·cnn·transformer
01 为什么 Vision Transformer 会出现?从 CNN 到 ViT,理解视觉模型的一次重要转变在很长一段时间里,CNN 几乎是计算机视觉任务的标准答案。图像分类用 CNN,目标检测用 CNN,语义分割也离不开 CNN。从 AlexNet 到 VGG,再到 ResNet,卷积神经网络一步步推动了计算机视觉的发展。对于很多人来说,一提到图像任务,第一反应就是卷积网络。但是从 2020 年开始,一个新的模型逐渐成为视觉领域的核心关键词:Vision Transformer,简称 ViT。
云和数据.ChenGuang12 小时前
人工智能·深度学习·机器学习·数据挖掘·边缘计算
FastText的核心优势FastText的核心优势在于其子词(subword)机制,能够为未登录词生成合理的向量表示[2][4]。若需强制返回全0向量,需结合以下策略实现:
knight_9___13 小时前
人工智能·python·深度学习·算法·面试·agent
大模型project面试4我了解微调之后,首先意识到的是:微调不是首选,而是最后手段。大多数问题先把 Prompt 写好、加 Few-shot 示例,或者用 RAG 接外部知识,基本都能解决。真正需要微调的场景是:模型需要以特定风格持续输出、需要学会稳定的任务格式、或者需要大幅降低成本用小模型替代大模型。方案上,LoRA/QLoRA 是最常用的,因为它只训练一小部分参数,普通 GPU 上就能跑,不需要全量更新所有权重;SFT 是微调的目标形式,让模型从续写模式变成指令回答模式;有偏好对齐需求的话,DPO 比 RLHF 简单得多、效
code_pgf13 小时前
人工智能·深度学习·机器学习
知识蒸馏在 sVLM 中的作用及实现方式Small Vision-Language Model / 小型视觉语言模型,通常由 视觉编码器 + 多模态 projector / adapter + 小型 LLM 组成。LLaVA 类模型证明了“视觉编码器接入 LLM + 视觉指令数据”可以形成通用多模态助手;MobileVLM 则进一步面向移动端,用 CLIP 风格视觉模型、轻量 projector 和 1.4B / 2.7B 级语言模型实现端侧 VLM。([arXiv][1])
keineahnung234514 小时前
人工智能·pytorch·python·深度学习
為什麼要有 eval_is_non_overlapping_and_dense?PyTorch 包裝層與調用端解析前篇 為什麼這個 Tensor 算 dense?PyTorch _eval_is_non_overlapping_and_dense 深入解析 介紹了 _eval_is_non_overlapping_and_dense 函數,該函數位於 torch/fx/experimental/symbolic_shapes.py,實作了判斷張量的記憶體佈局是否「非重疊且稠密」(non-overlapping and dense)的邏輯,是個純 Python 函數。
Hali_Botebie14 小时前
人工智能·深度学习·transformer
【量化】FQ-ViT: Post-Training Quantization for Fully Quantized Vision TransformerFQ-ViT: Post-Training Quantization for Fully Quantized Vision Transformer
狮子座明仔14 小时前
人工智能·深度学习·机器学习·交互
AggAgent:把并行轨迹当环境来交互,智能体聚合的新范式你有没有遇到过这种情况——让一个Agent做深度研究,跑了8次,8条轨迹里其实藏着正确答案,但你怎么把它们"拼"出来?Majority Voting?要是多答案任务,投票直接废了。Best-of-N?模型自己标的confidence在长文本生成任务上根本不准。把8条轨迹全塞进context窗口?每条动辄十万token,8条拼一起直接OOM。