计算机视觉

数智工坊5 小时前
论文阅读·人工智能·深度学习·计算机视觉·transformer
【DINOv2论文阅读】:无需监督的通用视觉特征提取器——机器人VLA模型的“眼睛“基石如果你最近在搞具身智能或者VLA(视觉-语言-动作)模型,那你一定绕不开DINOv2。这个来自Meta AI的视觉编码器,几乎成了所有开源VLA模型的标配——OpenVLA用它,Octo用它,小米的Xiaomi-Robotics-0也用它。为什么大家都这么爱DINOv2?因为它做到了一件前无古人的事:完全不需要任何标注,只靠看图片,就能学到和弱监督CLIP相当甚至更好的通用视觉特征。而且这些特征拿过来就能用,不需要微调,简直是视觉界的"万能钥匙"。今天我们就来深度拆解这篇神作,看看DINOv2到底是怎么炼
ZPC82106 小时前
人工智能·算法·计算机视觉·机器人
Open3D 与yolo-3d 那个更适合生成物体3d 包围盒双目 + 深度图做物体 3D 包围盒,90% 工程场景优先用 Open3D;需要实时、多物体、AI 分类时再上 YOLO‑3D。
yong999010 小时前
c++·算法·计算机视觉
基于VC++的图像匹配金字塔算法基于VC++的图像匹配金字塔算法(图像金字塔算法)参考代码 基于VC++的图像匹配的金字塔算法 www.youwenfan.com/contentcsv/70316.html
Ricky055311 小时前
人工智能·计算机视觉·目标跟踪
BiFPN-YOLO:一种集成双向特征金字塔网络的一阶段目标检测方法(英国爱尔兰2025年联合研究)摘要:目标检测是计算机视觉研究的关键组成部分,能够使系统确定给定场景中物体的位置与类型。YOLOv5是一款现代目标检测模型,它在保留原始YOLO实现优势的同时,完全采用Python语言从零构建。本文提出的BiFPNYOLO模型相较现有YOLOv5系列目标检测模型实现了显著改进:不仅用性能更优的双向特征金字塔网络(BiFPN)取代了传统的路径聚合网络(PANet),需对其原始实现进行复杂适配才能与YOLOv5兼容;还通过对比多种激活函数性能,探索了替代标准Swish激活函数的新方案。该模型在德国交通标志检测
数智工坊12 小时前
论文阅读·人工智能·算法·计算机视觉·语言模型
【SigLIP论文阅读】:重新定义视觉-语言预训练的损失函数——VLA模型的“语言理解“基石如果你正在研究具身智能或者VLA(视觉-语言-动作)模型,你会发现一个有趣的现象:几乎所有最新的开源VLA模型都不约而同地放弃了曾经的王者CLIP,转而使用SigLIP作为它们的视觉-语言编码器。OpenVLA用它,Octo用它,小米的Xiaomi-Robotics-0也用它。为什么SigLIP能在短短一年内就取代CLIP的地位?因为它用一个简单到不能再简单的改动——把softmax换成sigmoid——就解决了CLIP几乎所有的痛点:小批量性能差、内存占用高、训练不稳定。今天我们就来深度拆解这篇来自Go
兴通物联科技12 小时前
大数据·物联网·计算机视觉·计算机外设·硬件架构
工业手持终端 PDA 键盘化设计与现场作业效率优化 —— 以 XT8001D 为例在仓储物流、智能制造等工业场景中,手持终端 PDA 作为数据采集与作业执行的核心设备,其输入交互方式直接影响作业效率。本文以深圳市兴通物联科技有限公司 XT8001D 手持 PDA 为研究对象,从硬件设计、性能配置、场景适配三个维度,分析实体键盘在工业级 PDA 中的技术价值与应用优势,为工业现场数据采集设备选型提供技术参考。 一、引言 工业现场作业常面临单据量大、数据变更频繁、环境复杂等问题。传统触屏 PDA 在戴手套操作、强光环境、高频数据录入等场景中存在操作不便、误触率高、效率低下等痛点。深圳市兴通
深度学习lover12 小时前
人工智能·python·yolo·目标检测·计算机视觉·易拉罐识别
<数据集>yolo 易拉罐识别<目标检测>数据集下载链接https://download.csdn.net/download/qq_53332949/92882375数据集格式:VOC+YOLO格式
断眉的派大星12 小时前
人工智能·目标检测·计算机视觉
两阶段目标检测——RoI Pooling与RoIAlign特征提取详解下面详细讲 RoI Pooling / RoIAlign 是如何提取候选框特征的。它们解决的核心问题是:
数智工坊13 小时前
论文阅读·人工智能·深度学习·计算机视觉·transformer
【GPT-4V全面评估】:大语言多模态模型的黎明时代当AI还在为"看图说话"磕磕绊绊时,GPT-4V已经悄悄解锁了"看懂世界"的超能力。它不仅能识别图片里的物体,还能理解梗图的笑点、解数学题、读X光片、甚至帮你操作电脑完成网购。今天我们就来深度拆解这篇来自微软研究院的重磅测评论文,看看GPT-4V到底有多强,又有哪些"软肋"。
ZPC821013 小时前
人工智能·数码相机·算法·yolo·计算机视觉
双目相机 深度图和点云生成物体3D包围盒 生成抓取姿态基于 Python+Open3D的完整实现方案,专门适配双目相机输出的深度图 + 点云,流程包含:点云预处理 → 物体分割 → 3D 包围盒计算 → 抓取姿态生成 → 可视化验证。
AI人工智能+13 小时前
深度学习·计算机视觉·自然语言处理·ocr·机动车登记证识别
机动车登记证识别技术通过计算机视觉与深度学习实现证件信息自动化提取,显著提升车辆管理效率随着智能交通系统和车辆管理数字化的推进,机动车登记证(俗称“大绿本”)的自动化识别成为提升业务效率的关键环节。传统的证件审核依赖人工录入,不仅耗时费力,且容易因疲劳导致错误。机动车登记证识别技术(Vehicle Registration Certificate Recognition, VR-CR)利用计算机视觉与深度学习算法,实现了证件信息的自动提取与校验,为车辆交易、保险理赔、违章处理等场景提供了高效的技术支撑。
listhi52016 小时前
人工智能·opencv·计算机视觉
Harris算子特征点提取、匹配和提纯的程序实现参考代码 Harris算子提取特征点、匹配、提粗匹配程序 www.youwenfan.com/contentcsu/70332.html
一个王同学1 天前
人工智能·深度学习·机器学习·计算机视觉·改行学it
从零到一 | CV转多模态大模型 | week09 | Minillava Refactor结合手搓和llava源码深入理解多模态大模型原理文中代码: https://github.com/wz940216/From0to1-MLLM-StudyLog.git 上一篇手搓了minillava模型,并从零开始训练,让qwen1.5具备了多模态能力。
Adios7941 天前
论文阅读·计算机视觉
Optimal Transport Aggregation for Visual Place Recognition VPR论文阅读论文:[2311.15937] Optimal Transport Aggregation for Visual Place Recognition (arxiv.org)
a flying bird1 天前
人工智能·计算机视觉
【 LPIPS + 颜色保真 + 像素级相似度 + 生成逼真度的超分 / 图像增强】直接可用、带完整训练 / 测试 demo、同时用到 LPIPS + 颜色保真 + 像素级相似度 + 生成逼真度的超分 / 图像增强 Git 仓库
ʜᴇɴʀʏ1 天前
人工智能·目标检测·计算机视觉
AAAI 2025 | DiffCorr:基于可靠伪标签引导的无监督点云形状对应AAAI 2025 | DiffCorr:基于可靠伪标签引导的无监督点云形状对应论文题目:DiffCorr: Conditional Diffusion Model with Reliable Pseudo-Label Guidance for Unsupervised Point Cloud Shape Correspondence
STLearner1 天前
论文阅读·人工智能·深度学习·神经网络·机器学习·计算机视觉·数据挖掘
CVPR 2026 | 时空时序论文总结(天气预报,交通模拟,域自适应等)CVPR 2026将在2026年6月5日至7日于美国科罗拉多会议中心(Colorado Convention Center)举行。
长桥夜波1 天前
人工智能·计算机视觉
【第四十周】VLN在过去的一周中,我围绕老师推荐的几篇文献,重点研读了与三维语义建图、可学习记忆机制、语义导航决策相关的核心论文,包括但不限于:M3-Spatial(导航Demo)、CUS-GS(紧凑语义3D高斯地图)、EPM(可学习文本记忆模块)、GSMem(基于VLM的语义导航与空间回忆)等。在此基础上,我结合自己的理解,提出了若干初步的研究思路与技术整合方案,试图在现有工作的基础上,探索更具动态适应能力、更高效、更智能的机器人语义导航系统。
深度学习lover1 天前
人工智能·python·yolo·目标检测·计算机视觉·缆绳识别
<数据集>yolo 缆绳识别<目标检测>点击下载数据集https://download.csdn.net/download/qq_53332949/92879807数据集格式:VOC+YOLO格式
深度学习lover2 天前
人工智能·python·yolo·目标检测·计算机视觉·瓜果蔬菜识别
<数据集>yolo 瓜果蔬菜识别<目标检测>数据集格式:VOC+YOLO格式图片数量:3250张标注数量(xml文件个数):3250标注数量(txt文件个数):3250