基于视频识别的大模型项目实战心得

基于视频识别的大模型项目实战心得：从流媒体、模型调用到系统环境的完整经验总结

最近我们接到一个基于视频识别的 AI 项目，核心目标是：对实时视频画面进行描述分析，用于实现一个可交互的展示效果。
这类项目本身并不稀奇，但将"流媒体处理 + 大模型视觉理解 + 基础图像识别 + 展示框架"串成完整链路后，确实值得做一些经验总结:

项目整体我拆成三部分：

实时视频通常采用抽帧方式进行处理：

分析模块订阅抽帧队列，对每一帧调用视觉大模型，生成描述信息。
分析结果再写入"展示队列"，供前端交互环境消费。

只负责消费结果队列，展示画面与结构化信息，实现现场可交互效果。
这套流程最大的优点就是解耦：
流媒体、模型推理、展示互不阻塞，性能与稳定性更好。

这次我们用的是 Qwen3-VL 7B 模型，运行在 4090 24G 显卡 上。
它确实能理解画面，但实际落地时，我们总结了几个非常关键的注意点。

提示词不是"一劳永逸"的，它本质是告诉大模型"我到底想让你怎么理解"。
在不同场景下，需要不断迭代优化。
因此：
提示词必须做成动态配置，而不是写死在代码里。

幻觉不是缺陷，而是模型机制本身决定的。
比如：

这一点特别重要。
即便是 4090 + Qwen3-VL-7B，有些任务大模型仍不可靠：

我们在项目中采用了组合拳：

现在大模型部署普遍采用 vLLM 的 OpenAI API 模式，用起来确实方便。不过，我们在 Ubuntu 和 Windows 上都试过，经验很明确：

Linux 对 GPU 驱动、vLLM、Pytorch 的兼容是业界事实标准，问题最少，性能最佳。
强烈推荐生产环境一律上 Ubuntu。

如果你非要在 Windows 上跑大模型，那以下几点特别重要：

主要表现为：

即便你在 docker run 中写了：
--gpus '"device=1"'
在多数 Windows + WSL 环境下，这个配置会不生效。
最终表现就是：

大模型不是万能的，它像一个聪明的大脑，但眼睛未必够好。
要在视频 AI 项目中做出可靠效果，通常需要三种力量协同：