我做工业视觉检测10年,用过的工具能堆满一个工位。
之前写过一版工具清单,这次我把调研升级了------覆盖YOLO26/SAM3到国产相机市场。不是百科搬运,是踩过坑之后的实战选型。
收藏就对了。

一、工业相机:国产占比首次突破55%
先说个大变化。
根据GGII和行业展会数据,2026年中国工业相机市场里,国产品牌出货量占比首次突破55%。海康+华睿两家在2D相机市场出货量合计超过70%,3D引导类相机国产品牌份额更是到了85%。
具体怎么选:
| 品牌定位 | 代表厂商 | 适合场景 |
|---|---|---|
| 国产主流 | 海康机器人、华睿科技、奥普特 | 2D/3D通用检测,性价比最高 |
| 国产中低端 | 度申、埃科、康视达 | 成本敏感型项目 |
| 国外高端 | Basler、Allied Vision、LMI | 极端环境/超高精度 |
| 智能相机 | 海康智查、华睿AI相机 | 需要边缘推理的场景 |
2026年的接口变化:2.5G和5G GigE Vision已成主流。Vision China 2026展会上,Basler展示了5GBASE-T接口------810万像素单色图像66fps。千兆网在高端市场正在退出。
3D相机增速是2D的三倍。中国2D工业相机市场40.15亿元(+5.94%),3D工业相机28.15亿元(+19.20%)。如果你在评估新项目,3D视觉引导值得认真考虑。
避坑提醒(重要程度排第一):
光源比相机重要。 这句话我说了10年,今天再说最后一次。90%的项目失败不是因为相机不够好,是因为光源没选对。先定光源方案,再选相机,这个顺序不能反。
二、标注工具:SAM3改变了标注方式
2026年的标注工具格局有一个关键变量------所有主流标注工具都在集成SAM3的自动预标注。
这是什么意思?以前标注一个缺陷轮廓,需要手工描几十个点。现在用SAM3,输入"找到所有裂缝",模型自动把所有裂缝分割出来。你再微调一下边界就行。效率提升5-10倍不是吹的。
工具对比:
| 工具 | 类型 | 核心优势 | 我的用法 |
|---|---|---|---|
| Label Studio | 开源 | 50+标签类型,API灵活 | 日常主力,标注+QA一条龙 |
| CVAT | 开源 | 生产级规模,AI辅助标注强 | 大团队/大批量标注 |
| Roboflow | 商业(有免费) | 标注+训练+部署一体化 | 数据增强+快速验证 |
| Labelme | 开源 | pip install即用 | 快速标注几十张图片 |
| V7 Labs | 商业 | 医疗/工业高精度场景 | 大企业预算充足时选 |
| Supervisely | 商业 | CV生态最丰富 | 多模型框架集成 |
趋势判断:标注工具的竞争已经从"标注效率"转向"上下游集成度"。Roboflow是最激进的------自研了RF-DETR模型(ICLR 2026),把标注→训练→部署串成一个闭环。
新手建议:Label Studio起步,够用了。等数据量大了再考虑CVAT或Roboflow。
三、AI模型框架:YOLO26是今年最大的变化
目标检测(缺陷定位)
| 框架 | 2026年版本 | 适合场景 | 评价 |
|---|---|---|---|
| YOLO26 | NMS-free端到端 | 产线检测默认选择 | 去掉传统后处理,推理更快更简单 |
| YOLO11 | 稳定维护 | 通用检测 | 成熟稳定,社区资源最多 |
| RT-DETRv4 | 2025.11发布 | 密集遮挡/复杂场景 | 华为出品,精度高但部署门槛高 |
| RF-DETR | ICLR 2026 | 需快速微调新场景 | Roboflow出品,基于DINOv2 |
| YOLO-OBB | 稳定维护 | 旋转框检测 | 电池、药片等有方向性的缺陷 |
YOLO26值得认真说。 这次的架构变化不是小修小补,是端到端NMS-free------去掉了传统目标检测的后处理步骤(非极大值抑制)。结果就是:推理更快、代码更简单、边缘设备更好部署。
Ultralytics官方的数据:YOLO26在边缘设备上的速度和精度平衡做到了新高度。
RT-DETRv4和RF-DETR是两个值得关注的新玩家。 Transformer架构的检测模型在精度上开始追平YOLO,但部署门槛仍然较高。建议持续关注,暂不作为产线首选。
分割模型(缺陷轮廓)
| 框架 | 2026年版本 | 核心变化 |
|---|---|---|
| SAM 3 | 持续进化 | 支持文本提示+视频追踪,标注方式革命 |
| SAM 3.1 | 2026版 | 实时视频检测分割,更快更轻 |
| U-Net | 经典 | 小数据集稳定,精度够用 |
SAM 3是2025-2026年视觉领域最大的变化之一。 以前用SAM需要手动点击标注,现在直接输入文字("找到所有裂纹")或给一张示例图,模型自动识别并分割所有同类目标。Ultralytics已经将SAM 3集成到生态中,可以作为YOLO26的前处理步骤。
分类模型(良品/不良品)
这个领域变化不大:
- MobileNetV3:工控机CPU推理首选
- EfficientNet-V2:精度优先时选
- ResNet50:永远不踩坑的基线
四、训练与实验管理:W&B正在成为事实标准
模型训练
| 工具 | 评价 |
|---|---|
| Ultralytics | pip install ultralytics直接用,支持YOLO全家族+SAM3 |
| PyTorch Lightning | 标准化训练流程,代码可复现 |
实验追踪
| 工具 | 2026年趋势 | 评价 |
|---|---|---|
| Weights & Biases | 大量团队从MLflow迁移 | 事实标准,免费版够用 |
| MLflow | 开源替代 | 自部署友好,但体验不如W&B |
| Neptune | 商业 | 两者之间的折中 |
为什么W&B赢了? 三个原因:云端托管免运维、UI比MLflow友好太多、实验追踪+超参调优+可视化一体化。2026年多篇独立评测都指向同一个结论:如果你不在乎成本,选W&B。
GPU租赁
- AutoDL:3090约1.5元/小时,比阿里云便宜5倍+
- 恒源云:备选
五、模型部署:三足鼎立,格局稳定
| 工具 | 硬件 | 适合场景 |
|---|---|---|
| ONNX Runtime | 跨平台 | 产线部署默认选择,兼容性最好 |
| TensorRT | NVIDIA GPU | GPU服务器/边缘盒子,速度最快 |
| OpenVINO 2026.1 | Intel CPU/集显 | 工控机首选,CPU推理提速2-3倍 |
格局稳定,2026年没有新玩家打破这个三分天下的局面。
部署策略:
- 有GPU → TensorRT
- 工控机(Intel CPU)→ OpenVINO
- 不确定或需要跨平台 → ONNX Runtime
API服务:新项目直接用FastAPI,比Flask快3-5倍。老项目维护用Flask也行。
六、数据管理:FiftyOne+W&B组合拳
| 工具 | 核心功能 | 2026年变化 |
|---|---|---|
| FiftyOne 1.15 | 数据集可视化分析 | 深度集成albumentations,增强效果可视化测试 |
| DVC | 数据集版本管理 | Git for Data,简单有效 |
| albumentations | 图像数据增强 | 最全面的Python增强库 |
| cleanlab | 标注质量检测 | 自动发现标注错误 |
实战建议:FiftyOne做数据集质量检查(发现标注错误、数据分布问题)+ W&B做实验追踪,这两个组合能覆盖80%的数据管理需求。
七、商业视觉软件:什么时候该选HALCON?
| 维度 | HALCON 2026 | 开源方案 |
|---|---|---|
| 授权费 | 贵(按节点) | 免费 |
| 算法覆盖 | 3000+算子,最全面 | 依赖社区,有缺口 |
| 传统视觉 | 测量/定位/识别最强 | OpenCV覆盖核心,但不够全 |
| AI检测 | 深度学习模块加强 | YOLO/SAM生态更强 |
| 无代码部署 | MERLIC 26.03 | 无直接替代 |
我的判断:纯AI检测项目,开源方案成本更低灵活性更高。需要传统视觉算法(精密测量、代码识别、特殊定位)+ 无代码部署的场景,HALCON仍有不可替代性。
HALCON 2026新版本5月20日发布,MERLIC 26.03新增了审计追踪功能。NVIDIA Metropolis则升级为"视觉AI Agent"平台。
八、其他实用工具
| 工具 | 用途 |
|---|---|
| FFmpeg | 视频抽帧/处理 |
| ImageMagick | 批量图像处理 |
| Tesseract 5.x | OCR文字识别 |
| ZBar / ZXing | 条码/二维码 |
| h5py / LMDB | 高效数据存储 |
没什么好说的,装上就行。
九、推荐工作流(2026实战版)
基于调研结论,这是我推荐的工作流:
需求确认 → 光源设计(先选光源!)→ 相机选型(GigE 2.5G+)
↓
数据采集(厂商SDK)
↓
SAM3自动预标注 + Label Studio人工精修
↓
数据质检(FiftyOne + cleanlab)+ 增强(albumentations)
↓
模型训练(Ultralytics YOLO26)
↓
实验追踪(W&B)
↓
导出ONNX → 部署(OpenVINO/TensorRT/ONNX Runtime)
↓
产线上线 → 数据回流 → 持续优化
最后几句
第一,工具一体化不可逆。 Ultralytics和Roboflow都在建一站式平台。但工业场景的多样性决定了没有一家能覆盖所有需求,组合拳仍将是主流。
第二,开源已经够强了。 10年前做视觉检测,HALCON几乎是唯一选择。现在开源方案(OpenCV + YOLO + SAM + ONNX)在AI检测场景已经追平甚至超越商业软件。独立开发者和小团队的机会窗口从未这么大。
第三,真正的壁垒不在工具,在数据+场景。 Roboflow基于20万个项目的报告揭示了一个残酷事实:"实验室98%精度,产线只有75%精度"是行业常态。 通用工具越来越强,但每个工厂的光照、产品、节拍都不同。这些"非标"的经验才是值钱的东西。
第四,3D视觉是增量市场。 增速是2D的三倍,国产份额85%,是未来两三年的机会方向。
第五,别在工具选择上花太多时间。 Ultralytics + Label Studio + W&B + ONNX Runtime,这四个组合能覆盖90%的场景。把时间花在理解客户需求和打磨数据上,ROI远高于追最新模型。
我是头帕王子,10年工业视觉老兵,现创业做智能检测。
在工厂产线、烟草物流、工艺品检测现场踩过无数坑。
写我们怎么把AI真正落地到生产线上,也写落地过程中踩过的那些坑。
需要工业视觉方案?私信我聊聊。