端侧YOLO + 端侧CLIP + 云端CLIP(AI Mission Cloud):云-边-端协同语义感知与任务系统架构

端侧YOLO + 端侧CLIP + 云端CLIP(AI Mission Cloud):云-边-端协同语义感知与任务系统架构

通过端侧 YOLO 的实时感知与 CLIP 的语义编码,将复杂视频流转化为结构化语义数据;AI Mission Cloud 在云端完成跨设备、跨时间的语义推理与任务编排,让无人系统具备可扩展、可协作、可演进的 AI 能力。

数据流拆解

🔁 数据流分为 两条平行通道

① 控制面(云 → 端)【低频】

特点:

  • 不实时

  • 可热更新

  • 不依赖视频流

  • 决定"你关心什么"

② 数据面(端 → 云)【高频 / 但已过滤】

复制代码

特点:

  • 实时

  • 强过滤

  • 降带宽

  • 降误报

YOLO / CLIP / Cloud 的边界

模块 只做什么 不做什么
YOLO 看见目标 不理解语义
CLIP 语义相似度 不做规则
Cloud 定义语义与任务 不跑实时视频
复制代码
  • 云端 CLIP 的核心职责之一,就是"文本 → 语义向量"的统一语义定义中心

  • 端侧如果做语义过滤,必须使用"已经在云端定义好的文本向量"

  • 端侧一般不"自由理解语义",而是做"向量相似度判断"

  • 端侧不做语义筛选,并不是"不能算",而是"不可控、不稳定、不可演化"

语义"定义权"在云端,语义"执行权"可以在端侧

CLIP 本质

把「图像」和「文本」映射到同一个语义向量空间

两个 Encoder:

模块 输入 输出
Image Encoder 图片 / ROI 图像向量(Embedding)
Text Encoder 文本 prompt 文本向量(Embedding)

目标只有一个:

"相关的图文 → 向量距离近,不相关 → 距离远"

云端 CLIP 的核心职责

1️⃣ 语义词表的"向量化定义中心"

云端 CLIP 负责

复制代码

这一步建议在云端完成

原因:

  • 文本 prompt 的措辞极其敏感

  • "person / worker / staff / pedestrian"向量差异很大

  • 需要不断调整、试验、验证

所以云端负责:

  • 设计 prompt

  • 调优 prompt

  • 训练 LoRA(如果需要)

  • 产出 "标准文本语义向量"

2️⃣ 复杂语义组合 & 策略逻辑

云端可以做的,而端侧不适合做的:

  • 语义组合

    • person AND railway

    • vehicle BUT NOT authorized

  • 规则版本管理

  • 多模型 ensemble

  • 历史统计 / 误报分析

云端是"语义决策层"

3️⃣ LoRA 训练与语义扩展

"CLIP 对某个行业语义不稳定 / 不敏感"

例如:

  • 穿工装的矿工

  • 港口地勤

  • 军用特种车辆

云端负责:

  • 采集数据

  • 基于 CLIP 做 LoRA 轻量微调

  • 生成 行业增强版 CLIP

去重(Deduplication)与 CLIP 的关系

去重的三种层级

① 目标级(Bounding Box)-YOLO 层面
  • IoU

  • Track ID

  • SORT / ByteTrack


② 外观级(Embedding 去重)-端侧CLIP
复制代码

同一人反复出现?

同一车辆不同角度?

  • 计算 CLIP image embedding

  • cosine similarity > 阈值 → 认为是同一实体


③ 语义级(事件去重)-云端CLIP
复制代码

同一人多次进入危险区

  • 时间窗口

  • 语义标签

  • 空间关系

事件层去重,云端完成

NPU-6T(YOLO)+26T(CLIP)

相关推荐
微效电子几秒前
辉芒微代理商-FMD辉芒微MCU-8位、32位微控制器芯片代理商-深圳市微效电子有限公司
人工智能
梦想的颜色6 分钟前
Claude Code 桌面端 vs CLI 全面安装指南与对比:2026 最新版,选哪个?
人工智能·架构·claude code
Omics Pro11 分钟前
基因泰克:检测级虚拟细胞基准!大语言模型+智能体
大数据·数据库·人工智能·机器学习·语言模型·自然语言处理·r语言
z小猫不吃鱼17 分钟前
15 InstructGPT 论文精读:SFT + RLHF 如何让模型听懂指令?
人工智能·深度学习·算法·机器学习·语言模型·自然语言处理·gpt-3
我爱cope19 分钟前
【Agent智能体12 | 反思设计模式-使用外部反馈】
人工智能·设计模式·语言模型·职场和发展
2601_9594796324 分钟前
ZFX山海证券:“美股新高映射盈利支撑”
人工智能
weixin_4462608526 分钟前
VideoFDB 深度分析:全双工视听对话智能体评估基准
人工智能
新加坡内哥谈技术26 分钟前
Claude Code 中动态工作流(Dynamic Workflows)
人工智能
救救孩子把27 分钟前
78-机器学习与大模型开发数学教程-7-6 自注意力机制的计算复杂度分析
人工智能·机器学习
XMAIPC_Robot27 分钟前
基于RK3588 ARM+FPGA电火花数控机床控制系统设计,兼顾ethercat软硬件实时
linux·arm开发·人工智能·嵌入式硬件·fpga开发