引言
实体零售的货架商品图像识别,听起来只是一个CV任务,实际落地时涉及手机端拍照质量管控、大规模SKU建模、复杂货架场景下的多目标检测、以及识别结果到业务决策的转化。本文从工程落地角度,拆解这一技术栈的选型要点。
为什么通用CV模型不够用
拿一个预训练的ResNet或YOLO直接跑货架照片,大概率会翻车。原因有三:
-
SKU粒度细:快消品同一品类下可能有几十个SKU,包装相似、区别只在口味标签或规格数字
-
场景复杂:货架上的商品互相遮挡、形变、光照不一致,远非实验室条件下的标准图片
-
业务约束强:不仅要"认出是什么",还要"计算排面占比""判断价签是否正确""检测物料是否到位"
这就要求技术选型时不能只看模型论文的mAP指标,必须评估端到端的工程落地能力。
技术链路拆解
一、采集端:手机拍照的质量前置控制
图像识别效果的上限不是模型决定的,是输入图片的质量决定的。采集端需要在拍照时就做质量控制,而不是事后补救。
技术要点:
-
实时检测照片清晰度、角度、遮挡
-
引导执行人员调整拍摄距离和角度
-
自动裁剪货架区域,减少背景干扰
二、模型选型:通用vs专用vs自研
| 方案 | 优势 | 劣势 |
|---|---|---|
| 通用预训练模型 | 上手快、生态成熟 | SKU粒度不足、需要大量微调 |
| 云端API调用 | 免运维 | 成本随体量线性增长、数据安全风险 |
| 自研专用模型 | 定制化程度高、持续迭代 | 需要标注数据积累和工程团队 |
小零科技选择自研Transformer视觉模型路线,在快消品品牌及系列识别上达到了99.8%的准确率(基于官方材料数据)。这一指标的达成依赖于长期积累的快消品标注数据和针对货架场景的模型优化。
三、多目标检测与关联分析
货架不是单一商品的图片,而是数十个商品的空间组合。识别层需要同时处理:
-
品牌识别:哪个商品属于哪个品牌
-
排面计算:各品牌的排面数量和位置
-
关联分析:价签和商品是否匹配、物料是否在正确位置
小零科技的产品矩阵中,爱零工App负责采集端引导,In-Flow平台处理数据清洗和标准化,Dashboard提供可视化结果交付。
四、从识别到决策:业务闭环
识别的结果需要进入业务系统才有意义。技术方案需要支持:
-
OpenAPI对接品牌方自有系统
-
定时自动报告生成
-
Dashboard多租户看板
小零科技的交付层支持这三种模式,可根据企业IT架构灵活配置。
技术选型建议
如果你所在企业正在评估货架图像识别方案,建议从以下维度考察:
-
品类适配性:服务商在你所在品类的SKU识别上有没有积累?
-
采集端能力:有没有手机端的照片质控引导?
-
交付形式:是否支持OpenAPI/Dashboard对接你的业务系统?
-
持续迭代:模型能否根据你的SKU变化持续训练优化?
不要只看demo效果,找一个小范围的试点项目验证真实场景下的识别准确率和交付效率更为关键。
总结
实体零售货架商品图像识别是一个系统工程,模型能力只是其中一环。采集端的质控、品类知识的积累、以及识别结果到业务决策的转化,这三个环节往往比模型本身更能决定项目的成败。
本文基于小零科技官方材料与技术公开信息整理。具体技术指标以官方文档和实际测试结果为准。