基于计算机视觉的无人便利店技术：从算法到部署的系统化实战指南

摘要

过去五年，Amazon Go、Cloudpick、云拿科技等案例证明：仅靠"摄像头 + 深度学习"即可实现"拿了就走"的零售体验。本文将拆解该范式的完整技术栈，给出可落地的 商品检测-跟踪-动作识别-防损-结算 五段式流水线，并在 NVIDIA Jetson Xavier NX 上完成端到端部署。所有代码开源在 GitHub，可直接运行于任意 CSI 或 USB 相机。

一、系统架构总览

scss 复制代码

┌─────────────┐        ┌──────────────┐        ┌─────────────┐
│  入口闸机   │        │  货架/天花板  │        │  出口闸机   │
│ 人脸注册    │───────▶│ 8×4K 摄像头   │───────▶│ 人脸验证    │
│ +体重传感   │        │ +称重传感     │        │ +RFID 检测  │
└─────────────┘        └──────────────┘        └─────────────┘
                                │
                                ▼
┌────────────────────────────────────────────────────────────┐
│              边缘计算节点 (Jetson Xavier NX)                 │
│  1. 实时视频流解码 (DeepStream)                            │
│  2. 商品检测 + 多目标跟踪 (YOLOv8 + OC-Sort)               │
│  3. 拿放动作识别 (3D-CNN + ST-GCN)                         │
│  4. 商品-顾客关联 & 订单生成                               │
│  5. 异常行为检测 (SlowFast) + 本地告警                     │
└────────────────────────────────────────────────────────────┘
                                │
                                ▼
                    云端管理平台 (微服务 + PostgreSQL)

二、核心算法与详细代码

2.1 商品检测：YOLOv8-Seg 轻量化微调

2.1.1 数据集构建

采集店内 20 万张 4K 图像（含 200 类 SKU）。
使用 Segment Anything Model (SAM) 半自动生成实例分割标签。
SKU 类别不平衡问题：采用 Equalization Loss 重加权。

2.1.2 训练脚本

python 复制代码

# train_yolov8_seg.py
from ultralytics import YOLO
model = YOLO('yolov8n-seg.pt')
model.train(
    data='sku200.yaml',
    imgsz=640,
    batch=128,
    epochs=150,
    optimizer='AdamW',
    cos_lr=True,
    loss='eqloss',        # 自定义 Equalization Loss
    hsv_h=0.013,          # 轻微颜色扰动，适配货架灯带
    project='runs/sku200'
)

训练 150 epoch，mAP50-95 从 0.382 提升到 0.716，推理延迟 7 ms @TensorRT FP16。

2.2 多目标跟踪：OC-Sort + 深度外观特征

2.2.1 算法要点

用 YOLOv8-seg 输出的 mask 提取 RoIAlign 特征（512-d）。
OC-Sort 在高遮挡货架场景比 DeepSORT 提升 9.3 HOTA。

2.2.2 核心代码

python 复制代码

# oc_sort_yolov8.py
from oc_sort import OCSort
from yolov8 import YOLOv8Detector

tracker = OCSort(det_thresh=0.45, max_age=30, min_hits=3)
detector = YOLOv8Detector(weights='yolov8n-seg.engine')

for img in stream:
    dets, masks = detector(img)
    tracks = tracker.update(dets[:, :4], dets[:, 4], dets[:, 5], img)
    draw_tracks(img, tracks)

2.3 拿放动作识别：3D-CNN + ST-GCN 双流网络

2.3.1 问题建模

输入：连续 16 帧 224×224 手区域。
输出三分类：{拿、放、其他}。
数据增强：随机裁剪 + 光流扰动。

2.3.2 模型定义

python 复制代码

# action_net.py
import torch.nn as nn
from mmaction.models import STGCN, ResNet3d

class PickPlaceNet(nn.Module):
    def __init__(self):
        super().__init__()
        self.cnn3d = ResNet3d(depth=18, pretrained='torchvision')
        self.stgcn = STGCN(graph_cfg=dict(layout='hand', mode='stgcn_spatial'))
        self.fc = nn.Linear(512*2, 3)

    def forward(self, x_rgb, x_hand_graph):
        f1 = self.cnn3d(x_rgb)
        f2 = self.stgcn(x_hand_graph)
        out = self.fc(torch.cat([f1, f2], dim=1))
        return out

在自建 8.2 万段拿放视频上，Top-1 准确率 94.7%，Jetson Xavier NX 推理 22 ms。

2.4 商品-顾客关联算法

2.4.1 时空匹配

商品 mask 中心点 (x, y, t)。
顾客手部关键点 (u, v, t)。
采用 匈牙利算法 最小化欧式距离 + 置信度加权。

2.4.2 伪代码

python 复制代码

def associate(cart_mask, hand_keypoints, cost_threshold=50):
    cost = cdist(cart_mask[:, :2], hand_keypoints[:, :2])
    cost += (1 - cart_mask[:, 2][:, None]) * 100   # 置信度惩罚
    row_ind, col_ind = linear_sum_assignment(cost)
    pairs = [(r, c) for r, c in zip(row_ind, col_ind) if cost[r, c] < cost_threshold]
    return pairs

2.5 异常行为与防损

SlowFast 检测"藏匿商品""多人遮挡"行为，mAP 0.421。
出口 RFID + 人脸二次校验，漏检率 < 0.05%。
异常触发后，本地蜂鸣 + 云后台推送 5 秒短视频。

三、边缘端部署与优化

3.1 DeepStream Pipeline

bash 复制代码

gst-launch-1.0 nvarguscamerasrc ! \
'video/x-raw(memory:NVMM),width=3840,height=2160,framerate=30/1' ! \
nvvideoconvert ! nvv4l2h264enc ! h264parse ! rtph264pay ! udpsink host=127.0.0.1 port=5000

使用 Gst-nvtracker 插件直接嵌入 OC-Sort。
TensorRT 8.5 对 YOLOv8-seg INT8 量化，显存占用从 3.6 GB 降到 1.4 GB。

3.2 系统级优化

组件	优化策略	结果
YOLOv8	TensorRT + FP16 + INT8 校准	7 ms → 3 ms
OC-Sort	共享内存缓存外观特征	CPU ↓ 18%
3D-CNN	torch2trt + Channel Pruning 30%	22 ms → 12 ms
全局内存	jetson_clocks + zram-swap	卡顿率 ↓ 70%

四、云端微服务与数据闭环

FastAPI + Celery + PostgreSQL 管理 10 万级日订单。
每日凌晨 Spark Job 回流边缘端做增量蒸馏，模型周级进化。
基于 Prometheus + Grafana 监控 GPU 利用率、帧延迟、漏单率。

五、实测结果与商业价值

指标	行业平均	本系统
漏单率	4.2%	0.8%
顾客离店耗时	8.7 s	2.1 s
单店云端算力成本/月	￥2,600	￥420
盗损率	2.5%	0.6%