计算机视觉

YOLO + DeepSort 的视频目标检测与跟踪全解析在看过一些“能识别视频中每一个物体并持续跟踪”的演示视频后，你可能会以为背后是一套极其复杂的系统。其实，利用 YOLO 模型配合 DeepSort 算法，就能实现无缝的目标检测与跟踪。

哈基米喜欢哈哈哈

计算机视觉(CV)——卷积神经网络基础各参数含义各参数含义

基于YOLOv10-MHSA的“三北”工程内蒙古地区植树位点精准检测研究【导读】在“三北”工程的内蒙古植树造林中，植树位点（树坑）常被复杂背景“淹没”，让无人机检测频频漏检、错检。本文提出的 YOLOv10-MHSA 模型，通过小目标检测层、多头自注意力机制、可变卷积核等多项改进，让检测精度提升至 96.1%，准确率达到 92.1%，为无人机在复杂环境下的实时精准识别提供了新方案。

【完整源码+数据集+部署教程】植物生长阶段检测系统源码和数据集：改进yolo11-rmt在全球人口持续增长与耕地资源日益紧张的双重压力下，保障粮食安全、提升农业生产效率已成为农业领域的关键任务。传统农业模式下，农民主要依靠经验判断植物生长阶段，进而决定灌溉、施肥、病虫害防治等农事操作。然而，这种经验式判断存在主观性强、准确性低的问题，难以满足现代农业精细化、智能化管理的要求。植物生长阶段检测系统能够实时、准确地监测植物生长状态，为精准农业提供科学依据，有助于优化资源配置、减少资源浪费、提高农作物产量和质量，推动农业向现代化、智能化方向转型升级。

pytorch+tensorboard+可视化CNN数据预处理：改变了尺寸、归一化加载数据集：定义网络结构并实例化效果展示： output = torch.reshape(output,(-1,3,111,111)) 这个地方是池化之后是这样的池化之前是 output = torch.reshape(output,(-1,3,222,222))

哈基米喜欢哈哈哈

计算机视觉(CV)——图像相关基本概念图像平滑是指用于突出图像的宽大区域、低频成分、主干部分或抑制图像噪声和干扰高频成分的图像处理方法，使图像亮度平缓渐变，减小突变梯度，改善图像质量。

雾天、夜晚都能识别？MEIWVD数据集+MSG-Net攻克内河航道检测三大难关【导读】内河航道识别难在哪？光照复杂、雾气频发、船型多样。本文构建MEIWVD数据集，覆盖多种极端环境，并提出MSG-Net算法，从图像增强、几何感知到多尺度融合，全面提升检测效果。为智能航运注入新突破！

乔公子搬砖

计算机视觉全景指南：从OpenCV预处理到YOLOv8实战，解锁多模态AI时代（第五章）在上一章中，我们探讨了自然语言处理（NLP），了解了机器如何理解和生成人类语言。本章将聚焦于计算机视觉（Computer Vision, CV），一个让机器“看到”并理解图像和视频的人工智能领域。从自动驾驶汽车的障碍物检测到医疗影像的疾病诊断，计算机视觉正在改变我们与世界的交互方式。

Track Any Anomalous Object: A Granular Video Anomaly Detection Pipeline标题：跟踪任何异常对象：一种细粒度的视频异常检测流水线原文链接：https://openaccess.thecvf.com/content/CVPR2025/papers/Huang_Track_Any_Anomalous_ObjectA_Granular_Video_Anomaly_Detection_Pipeline_CVPR_2025_paper.pdf 发表：CVPR-2025

智慧城管复杂人流场景下识别准确率↑32%：陌讯多模态感知引擎实战解析本文为原创技术解析，引用来源：陌讯技术白皮书在城市化进程加速的背景下，智慧城管系统面临着日益复杂的场景挑战。根据行业调研数据显示，某一线城市核心商圈的城管监控系统在早晚高峰时段，对流动摊贩、违规停车等事件的识别准确率不足 60%，其中复杂人流干扰是主要诱因 [7]。

驾驶场景玩手机识别准确率↑32%：陌讯动态特征融合算法实战解析本文为原创技术解析文章，核心技术参数与架构设计参考自《陌讯技术白皮书》，转载请注明出处。根据交通运输部道路运输司发布的《驾驶员不安全行为研究报告》显示，驾驶过程中使用手机导致的交通事故占比达 23.6%，而现有识别系统在复杂场景下的误报率普遍超过 35%。具体难点体现在：

EQ_雪梨蛋花汤

【话题讨论】AI与XR融合的未来：大模型如何重塑AR/VR/MR产业应用与开发模式摘要：本文探讨了AI与XR（AR/VR/MR）的深度融合，涵盖智能编码、大模型驱动的多模态生成、语音交互与动作识别等关键技术，结合教育、工业、文旅等行业案例，展示AI如何全面重塑XR开发流程与应用场景，推动效率与创新双重升级。

如何板端编译OpenCV并搭建应用--基于瑞芯微米尔RK3576开发板本文将介绍基于米尔电子MYD-LR3576开发板（米尔基于瑞芯微 RK3576开发板）的板端编译OpenCV及环境搭建方案的开发测试。

OpenCV cv2.flip() 函数详解与示例本文介绍了 OpenCV 中 cv2.flip() 函数的用法，该函数可实现图像的水平、垂直及双向翻转。通过设置 flipCode 参数为 0、1 或 -1，用户可分别获得上下颠倒、左右镜像或 180° 旋转的效果。文中提供了详细的参数说明、示例代码以及三种翻转模式的效果对比，方便在图像处理、视频镜像等应用中灵活使用。

爱思德学术

中国计算机学会（CCF）推荐学术会议-A（计算机图形学与多媒体）：VR 2026VR 2026The IEEE Conference on Virtual Reality and 3D User Interfaces (IEEE VR) is the premier international event for the presentation of research results in the broad area of virtual, augmented, and mixed reality (VR/AR/MR).

音视频牛哥

从 AI 到实时视频通道：基于模块化架构的低延迟直播全链路实践在“所有人都在 All in AI”的浪潮中，行业的注意力几乎被算法、算力和模型参数的迭代所占据。但在工程落地层面，有一个被反复忽视的前提——任何实时 AI 应用，无论是检测、跟踪、识别还是控制，都必须依赖一条稳定、低延迟、可控且可运维的视频通道。这条通道的质量，直接决定了 AI 的价值能否在线、及时地兑现。

建筑物实例分割数据集-9,700 张图片城市规划与发展灾害评估与应急响应房地产市场分析智慧城市管理地理信息系统(GIS) 环境影响评估📌 每篇文章附带模型指标、训练思路与推理部署建议，欢迎点赞收藏支持~本项目是专注于建筑物实例分割的计算机视觉数据集，共包含约 9,700 张图像，主要用于训练深度学习模型在航拍影像、卫星图像等场景下精准识别和分割每个独立建筑物的轮廓与位置。

图像处理中卷积究竟是什么？卷积，一个让cv新手又爱又恨的东西。爱的是他的效果真的很好，恨的是他到底在卷什么呢？今天三水儿就从数学原理，到传统视觉，到卷积神经网络带你看看这个他到底在卷点什么。

强光干扰下误报率↓82%！陌讯多模态算法在睡岗检测的落地优化根据《2024智慧工厂安全生产白皮书》统计，制造业场景中夜间误报率高达35%以上，主要痛点包括：陌讯视觉算法采用环境感知→目标分析→动态决策三阶流程，核心创新点如下：