2025计算机视觉新技术

CLIP / BLIP-3 类「视觉-语言大模型」

• 是什么：让网络自己学会"看图说话"，zero-shot 就能分类、检测、检索。

• 能干什么：不写训练代码，直接一句中文 prompt 就把商品图分成 500 类。

• 落地难度：★☆☆（pip install open_clip_torch，CPU 也能跑）

• 入口：https://github.com/mlfoundations/open_clip
Segment Anything Model 2 (SAM-2)

• 是什么：Meta 刚开源的"万能分割"，视频里点一下即可追踪目标。

• 能干什么：直播换背景、工业缺陷区域一键抠出，不用逐帧标注。

• 落地难度：★☆☆（PyTorch 权重直接推理，1080Ti 可跑 720p）

• 入口：https://github.com/facebookresearch/segment-anything-2
YOLO-World / YOLOv9-Universal「开放词汇检测」

• 是什么：YOLO 也能 zero-shot，输入"红色安全帽"就能检测没见过的东西。

• 能干什么：工地摄像头今天想查"未戴绝缘手套"，改行文本即可，不用重训。

• 落地难度：★★☆（需 GPU 转 ONNX，边缘用 RKNN 量化）

• 入口：https://github.com/AILab-CVC/YOLO-World
自监督 + 少样本工业缺陷检测（Diffusion + Memory Bank）

• 是什么：用 5 张 OK 图就能学出"异常"，无需缺陷样本。

• 能干什么：手机背板划痕、布料脏点实时检，省掉千级人工标注。

• 落地难度：★★☆（开源模型 + 10 行微调代码）

• 入口：https://github.com/openvinotoolkit/anomalib
单目深度估计「Depth Anything V2」

• 是什么：一张普通照片就生成 0-10 m 稠密深度图，误差 < 5%。

• 能干什么：给 AR 导览、机器人避障当"廉价 LiDAR"，成本 0 元。

• 落地难度：★☆☆（pip install depth-anything，ONNX 仅 30 MB）

• 入口：https://github.com/DepthAnything/Depth-Anything-V2
高光谱「伪」实时分析（RGB → 512-band 重建）

• 是什么：AI 把普通相机 RGB 插值成 512 波段"超光谱"，能看水分、糖分、药残。

• 能干什么：果园无人机飞一圈，立刻出"糖度分布热图"，无需 30 万高光谱相机。

• 落地难度：★★★（需标定一次+GPU 推理，但硬件 0 额外成本）

• 入口：https://github.com/StaRainJ/HyperRecon

好！