NVIDIA VSS

Video Search and Summarization

视频搜索与摘要蓝图

详尽使用说明与技术报告

版本：VSS 2.4（最新版）日期：2026年4月

一、产品概述

NVIDIA VSS（Video Search and Summarization，视频搜索与摘要）是 NVIDIA Metropolis 平台旗下的 AI Blueprint（AI 蓝图），专为大规模视频数据的智能分析而设计。它融合了生成式 AI、视觉语言模型（VLM）、大语言模型（LLM）、检索增强生成（RAG）和媒体管理技术，使企业能够对海量实时及归档视频进行搜索、摘要、问答和告警。

1.1 核心价值

速度优势：视频摘要速度比人工观看快 100 倍，1 小时视频可在 1 分钟内完成文字摘要。
规模处理：可同时处理数百路实时视频流或突发式视频片段。
自然语言交互：通过自然语言指令即可完成视频搜索、问答、摘要等复杂操作。
灵活部署：支持从边缘端到云端的多种硬件和部署拓扑。
行业落地：已在智慧城市、仓储物流、制造业、机场运营、广告安全等多个行业成功应用。

1.2 核心技术组成

|----------------|------------------------------------------|
| 技术组件 | 说明 |
| VLM（视觉语言模型） | Cosmos Reason2、Qwen3-VL 等，理解视频帧内容并生成文字描述 |
| LLM（大语言模型） | Llama 3.1/Llama Nemotron，用于摘要生成、工具调用、问答 |
| RAG（检索增强生成） | CA-RAG 模块，结合向量数据库（Milvus）和图数据库进行精准检索 |
| NVIDIA NIM 微服务 | 封装 VLM/LLM/Embedding/Reranker 的微服务，即开即用 |
| DeepStream SDK | 实时目标检测与跟踪（RT-DETR、Grounding DINO 等） |
| Cosmos-Embed1 | 视频语义嵌入，支持视频相似性搜索 |
| MCP 协议 | Model Context Protocol，Agent 统一工具调用接口 |

二、系统架构

VSS 采用分层微服务架构，分为三大核心层次：实时视频智能层、下游分析层和 Agent 离线处理层。

2.1 实时视频智能层（Real-Time Video Intelligence）

该层负责从存储或实时流视频中提取视觉特征，将结果发布至消息代理，供下游分析和 Agent 工作流使用。包含三个核心微服务：

2.1.1 RT-CV（实时计算机视觉）

利用 NVIDIA DeepStream SDK，集成 RT-DETR、Grounding DINO、Sparse4D 等模型，执行实时目标检测、分类和多目标跟踪，支持单路或多路摄像头流。

2.1.2 RT-Embedding（实时语义嵌入）

使用 Cosmos-Embed1 模型，为视频帧、图像和实时 RTSP 流生成语义嵌入向量，支持高效视频搜索和相似性匹配。

2.1.3 RT-VLM（实时视觉语言模型）

应用 Cosmos Reason1/2、Qwen3-VL 等 VLM，对视频流进行自然语言描述生成（dense captions）、事件检测和异常识别。

2.2 下游分析层（Downstream Analytics）

处理并丰富由实时视频智能微服务生成的元数据流，将原始检测结果转化为可操作的洞察和经验证的告警。核心组件如下：

Alert Verification Service（告警验证服务）：接收来自上游分析或计算机视觉管道的告警和事件，根据告警时间戳检索对应视频片段，使用 VLM 验证告警真实性，输出已确认/已拒绝/未验证三类结果，并存入 Elasticsearch，可选发布至 Kafka 供下游消费。
Video Surveillance Tracker（VST）：处理多摄像头目标跟踪数据，生成跨摄像头的目标轨迹和统计信息。

2.3 Agent 与离线处理层（Agentic and Offline Processing）

提供一个协调多种视觉工具的 Agent，利用 MCP（Model Context Protocol）统一工具接口，访问视频分析数据、事件记录和视觉处理能力。集成以下工具：

Video Understanding：通过 VLM 进行视频内容理解
Semantic Video Search：基于嵌入的语义视频搜索
Long Video Summarization：长视频的扩展片段分析与摘要
Video Snapshot/Clip Retrieval：视频快照和片段检索

2.4 数据处理管道

2.4.1 摄取管道（Ingestion Pipeline）

视频文件被分割为小块（chunk），每块通常为数秒至数分钟（根据模型和用例配置）。各 chunk 并行分布在多个 GPU 上处理。每个 chunk 的帧被采样（例如 30 秒 chunk 中采样 8 帧），通过 VLM 生成密集描述（dense captions）。同时为采样帧生成视频嵌入向量。

2.4.2 检索管道（Retrieval Pipeline，CA-RAG）

Context-Aware RAG（CA-RAG）是检索管道的核心，负责处理摄取管道的输出，用于摘要、长视频分析和问答。VLM 描述、音频转录（若启用）及元数据被处理并存入向量数据库（Milvus）和图数据库（Neo4J/ArangoDB）。NeMo Retriever Embedding NIM 用于加速文本嵌入，LLM 用于工具调用、解析 VLM 描述、填充知识图谱。

三、硬件要求与部署前提

3.1 支持的 GPU 配置

|--------------|-------------------------------------------------|------------------------|
| 部署规模 | 最低 GPU 要求 | 说明 |
| 单 GPU 部署 | 1x A100 (80GB) / H100 / H200 / B200 | 适合小规模工作负载，不支持 CV 和音频功能 |
| 单 GPU 边缘部署 | 1x RTX Pro 6000 WS/SE / DGX Spark / Jetson Thor | 边缘场景，含 ARM 架构支持 |
| 标准多 GPU 部署 | 4x H100 (推荐) / 8x A100 / 8x L40s | 生产级部署，支持全功能 |
| VLM 最低要求 | 1x L40s（Cosmos Reason2 VLM） | VLM 模型单独 GPU 需求 |
| 远程模型部署 | 现代 GPU ≥8GB VRAM | 所有模型通过 API 远程调用 |

3.2 系统软件要求

操作系统：Ubuntu Linux（x86_64 或 ARM64）
NVIDIA 驱动：535.161.08（最低推荐），H200 需 570.86.15，B200 需 570.133.20
CUDA 版本：12.2 及以上
Docker 及 Docker Compose（已安装并可无 sudo 运行）
NGC API Key（访问 NVIDIA 容器注册表 nvcr.io）
NVIDIA AI Enterprise 开发者许可证（本地托管 NVIDIA NIM 所需）
存储空间：/tmp/ 目录下推荐 >10GB 可用空间

3.3 DGX Spark / ARM 平台额外要求

NVIDIA DGX OS 7.2.3
驱动版本 580.95.05 或更高
CUDA 13.0
运行系统缓存清理脚本：sudo sh deploy/scripts/sys_cache_cleaner.sh

四、部署方式

VSS 提供两种主要部署方式：Docker Compose 和 Helm（Kubernetes），以及云端一键部署选项。

4.1 快速上手：NVIDIA Brev Launchable（云端一键部署）

无需自备计算资源，即可在 AWS 云端（2x RTX PRO 6000 SE 实例）快速体验 VSS。

适合人群：不希望关心硬件和软件配置的初学者
步骤 1：访问 build.nvidia.com，找到 VSS Blueprint
步骤 2：点击 Launchable，按照文档和 Jupyter Notebook（scripts/deploy_vss_launchable.ipynb）完成所有前提条件
步骤 3：部署完成后，通过浏览器访问 Web UI 并使用 VSS REST API

4.2 Docker Compose 部署（本地/裸机）

4.2.1 克隆代码库

git clone https://github.com/NVIDIA-AI-Blueprints/video-search-and-summarization.git

cd video-search-and-summarization/deploy/docker

4.2.2 登录 NGC 容器仓库

docker login nvcr.io

Username: $oauthtoken

Password: <YOUR_NGC_API_KEY>

4.2.3 配置环境变量

编辑部署目录中的 .env 文件，填写必要的 API Key 和配置项：

NVIDIA_API_KEY=<YOUR_NVIDIA_API_KEY>

OPENAI_API_KEY=<YOUR_OPENAI_API_KEY> # 使用远程 VLM 时需要

NVIDIA_VISIBLE_DEVICES=0,1,2,3 # 指定使用的 GPU

4.2.4 三种部署配置

|--------------|------------------------------|-----------------------------|----------------------------------------------|
| 部署类型 | 目录 | GPU 要求 | 说明 |
| 远程 VLM 部署 | remote_vlm_deployment/ | ≥8GB VRAM | VLM/LLM/Embedding/Reranker 全部使用远程 API，最低硬件要求 |
| 本地完整部署 | local_deployment/ | 4x H100 / 8x A100 / 8x L40s | 所有模型本地运行，最高性能 |
| 单 GPU 部署 | local_deployment_single_gpu/ | 1x H100/H200/A100/B200 | 单 GPU 低内存模式，不支持 CV 和音频 |

4.2.5 启动服务

cd <deployment_folder>

docker compose up -d

启动完成后：

Web UI 访问地址：http://<HOST_IP>:9100
REST API 端点：http://<HOST_IP>:8100

4.2.6 停止服务

docker compose down

4.3 Helm（Kubernetes）部署

适合生产环境和多节点部署，Helm Chart 会自动启动所有组件（VSS Engine、LLM、Embedding、Reranker 等）。

4.3.1 安装 MicroK8s（单节点示例）

sudo snap install microk8s --classic

sudo microk8s enable nvidia

sudo microk8s enable hostpath-storage

4.3.2 多节点集群扩展

在控制平面节点执行，获取加入命令

sudo microk8s add-node

在工作节点执行

sudo microk8s join <JOIN_STRING>

4.3.3 部署 VSS Blueprint

参考官方文档中的 Helm 部署指南，通过 helm install 命令启动 VSS，UI 节点端口通过 NODE_PORT 访问：

http://<NODE_IP>:<UI_NODE_PORT>

4.4 云端部署

|-----------------------------|---------------------------------|
| 云平台 | 说明 |
| Amazon Web Services (AWS) | 支持 EC2 实例部署，提供专用 Launchable 笔记本 |
| Google Cloud Platform (GCP) | 支持 GCP 实例部署 |
| NVIDIA Brev Launchable | 最简单的云端一键体验 |

五、模型配置

5.1 VLM（视觉语言模型）配置

VSS 支持内置 VLM 和外部 OpenAI 兼容 VLM。内置 VLM 与视频解码管道紧密集成，延迟更低、吞吐量更高。

5.1.1 内置 VLM

在 .env 文件中设置：

VLM_MODEL_TO_USE=nvila # 使用 NVILA 模型

VLM_MODEL_TO_USE=cosmos-reason2 # 使用 Cosmos Reason2（默认）

接受 Hugging Face 上 Cosmos-Reason2 8B 模型条款后，VSS 会自动拉取 VLM 并构建优化的 TensorRT 引擎。

5.1.2 远程/自定义 VLM

任何 OpenAI 兼容的 VLM 均可与 VSS 集成，包括云端私有 VLM 或通过 vLLM/SGLang 本地启动的模型。

5.2 LLM（大语言模型）配置

VSS 可连接任何 OpenAI 兼容的 LLM。推荐配置如下：

|--------------|----------------------------|----------------|
| 场景 | 推荐模型 | 说明 |
| 摘要专用（轻量） | Llama 3.1 8B | 小型模型即可满足摘要需求 |
| 交互式问答（标准） | Llama 3.1 70B | 推荐，更好的图数据库交互能力 |
| 高精度问答 | Llama Nemotron 系列 | 更强的推理能力 |
| ARM/单 GPU 场景 | Llama 3.1 8B（DGX Spark 专用） | 低内存优化版本 |

5.2.1 本地启动 LLM NIM（示例）

export NGC_API_KEY=<YOUR_API_KEY>

export LOCAL_NIM_CACHE=~/.cache/nim

mkdir -p "$LOCAL_NIM_CACHE"

docker run -d -u $(id -u) -it \

--gpus '"device=1,2"' --shm-size=16GB \

-e NGC_API_KEY -v "$LOCAL_NIM_CACHE:/opt/nim/.cache" \

-p 8000:8000 \

nvcr.io/nim/meta/llama-3.1-8b-instruct:1.8.5

5.2.2 验证 LLM 是否正常运行

curl -X 'POST' 'http://0.0.0.0:8000/v1/chat/completions' \

-H 'Content-Type: application/json' \

-d '{"model": "meta/llama-3.1-8b-instruct", \

"messages": [{"role":"user","content":"Hello"}], \

"max_tokens": 64}'

5.3 Embedding 与 Reranker 模型

默认 Embedding 模型：nvidia/llama-3_2-nv-embedqa-1b-v2（通过 NeMo Retriever Embedding NIM 加速）
查询时检索 Top-5 最相似 chunk，经 Reranker NIM 重排后送入 LLM 生成最终答案
模型端点可在 CA-RAG 配置文件中修改

六、Agent 工作流与功能模块

VSS 包含多个端到端的 Agent 工作流，定义了 VSS Agent 如何处理请求并协调微服务。

6.1 视频摘要工作流（Summarization）

核心工作流，支持离线文件摘要和实时流摘要。

工作流步骤：

步骤 1：用户选择视频文件并提供提示词，配置 chunk 大小（如 30 秒）
步骤 2：Agent 将视频分割为小块，并行调用 VLM 管道生成每块的密集描述
步骤 3：LLM 递归汇总所有密集描述，生成整个视频的最终摘要
步骤 4：摘要结果展示给用户，VLM 描述同时存入向量/图数据库供后续问答

关键参数：

|------------------------------|----------------|----------------|
| 参数 | 说明 | 默认/示例值 |
| chunk_duration | 每个处理块的时长（秒） | 30 秒 |
| chunk_overlap_duration | 相邻 chunk 的重叠时长 | 0-5 秒 |
| summary_duration | 实时流摘要周期（秒） | 可配置 |
| summarize_batch_size | LLM 摘要批处理大小 | 可配置 |
| summarize_max_tokens | 摘要最大 Token 数 | 可配置 |
| caption_summarization_prompt | VLM 描述摘要提示词 | 可自定义 |
| summary_aggregation_prompt | 摘要聚合提示词 | 可自定义 |

6.2 视频搜索工作流（Search）

通过自然语言查询，在视频档案中定位特定事件、对象或动作。

工作原理：使用多嵌入摄取、检索和结果融合
流程：识别高相关结果后，Agent 根据用户查询对视频片段进行评判（critique），再给出最终响应
技术支撑：Cosmos-Embed1 语义嵌入 + Milvus 向量数据库

6.3 告警工作流（Alerts）

6.3.1 告警验证（Alert Verification）

使用 VLM 分析与计算机视觉（CV）系统生成告警对应的视频片段，验证告警的真实性，过滤误报。输出格式示例：

Alert Name: incident

Detected Events: accident on the road

Time: 80 seconds

Details: 2025-03-15 12:07:39 PM: A red sedan and a yellow sedan are involved in a collision...

6.3.2 实时告警（Real-Time Alerting）

VLM 持续处理来自视频源（如摄像头）的片段，按用户配置的时间间隔周期性生成告警，适用于安防、工业监控等场景。

6.4 长视频摘要（Long Video Summarization，LVS）

专门处理超长视频录像，通过 chunk 分割和描述聚合实现扩展片段分析。CA-RAG 提供两种摘要方式：

Batch 方式：先将文档分批摘要，再聚合批次摘要，适合长视频
流式聚合：对实时流，每隔 summary_duration 秒生成一次阶段摘要

6.5 问答（Q&A）功能

基于 CA-RAG 模块，支持对已摄取视频的开放性问答。

CA-RAG 两种检索模式：

|--------------|-----------------------------|----------------|
| 模式 | 特点 | 适用场景 |
| GraphRAG（默认） | 基于知识图谱检索，精度更高，LLM 负载更大，延迟较高 | 需要跨摄像头理解、高精度问答 |
| VectorRAG | 基于向量数据库检索，速度快，LLM 负载低 | 单流、快速查询场景 |

Q&A 相关配置参数：

enable_chat：是否启用对话功能
rag_batch_size：RAG 批处理大小
rag_top_k：检索 Top-K 结果数
chat_max_tokens：问答最大 Token 数
chat_temperature / chat_top_p：LLM 采样参数

6.6 CV 管道（Computer Vision Pipeline）

基于 NVIDIA DeepStream，提供目标检测与追踪功能，为视频分析提供结构化元数据，可与 VLM 结合使用（Set of Marks 提示优化）。

支持：人员检测/追踪、车辆检测/追踪、叉车检测（仓储场景）
SOM 预处理：生成 Set of Marks 提示，提升 VLM 描述准确性

6.7 音频处理（Audio Processing）

支持视频音频轨道的转录，音频转录与 VLM 描述共同输入 LLM 生成综合摘要，提升多模态理解精度。

6.8 VSS 事件审核器（VSS Event Reviewer）

新增功能（VSS 2.4），允许将 VSS 作为计算机视觉管道的智能插件，实现低延迟告警处理和视频片段上的直接 VLM 问答，适合 NVIDIA Jetson Thor、RTX Pro 6000 等边缘平台部署。

七、API 使用指南

7.1 REST API 概览

VSS 后端 REST API 运行于端口 8100，提供完整的视频管理和分析接口。

|----------------|------------|------------------|
| API 端点 | 方法 | 功能 |
| /summarize | POST | 启动视频摄取与摘要（最核心接口） |
| /alerts | POST | 启动实时流告警检测 |
| /alerts/recent | GET | 获取所有实时流的最新告警 |
| /chat | POST | 对已摄取视频进行问答 |
| /stream | DELETE | 删除实时流 |

7.2 /summarize 接口详解

这是 VSS 最重要的接口，用于配置视频摄取参数并启动摘要流程：

POST http://<HOST>:8100/summarize

{

"source": "path/to/video.mp4", // 视频文件路径或 RTSP 流地址

"chunk_duration": 30, // chunk 时长（秒）

"chunk_overlap_duration": 0, // chunk 重叠时长

"enable_chat": true, // 是否启用问答

"summary_duration": 300, // 摘要周期（实时流）

"caption_summarization_prompt": "...", // 自定义 VLM 提示词

"summary_aggregation_prompt": "...", // 自定义摘要聚合提示词

"rag_top_k": 5, // 检索 Top-K

"chat_max_tokens": 1024 // 问答最大 Token

}

7.3 Python CLI 客户端

VSS 提供参考 Python CLI 客户端，适合开发者快速测试：

摘要命令示例

python vss_client.py summarize \

--source video.mp4 \

--chunk-duration 30 \

--enable-chat

7.4 VLM 描述生成（独立使用）

可单独使用 VLM 描述生成功能，无需完整摘要和问答管道，适合只需要原始描述的场景。对实时流，描述通过 Server-Sent Events（SSE）流式推送。

八、用户界面（UI）说明

8.1 Web UI

VSS 提供基于 Next.js 的 Web 前端，端口 9100 访问，包含两个主要应用：

nemo-agent-toolkit-ui：Agent 工具包界面，面向 Agent 工作流交互
nv-metropolis-bp-vss-ui：VSS Blueprint 主界面，用于视频管理和分析

8.2 主要 UI 操作

8.2.1 视频摘要流程

步骤 1：在 UI 中选择示例视频文件（或上传自定义视频）
步骤 2：设置 Chunk Size（如 30 秒）
步骤 3：配置 Parameters 对话框（提示词、LLM 参数等）
步骤 4：点击开始，等待摘要结果展示

8.2.2 Gradio UI 特性

Enable Chat / Enable Chat History 复选框：控制问答功能
Parameters 对话框：配置摘要时长、LLM 采样参数、RAG 参数等
SUMMARY DURATION 输入：仅实时流可用
Delete Live Stream 按钮：删除实时流（若按钮无响应，改用 REST API）

8.3 已知 UI 限制

多会话问答暂不支持，建议每次只对单个文件或实时流进行问答
同一浏览器中加载多个 Gradio 会话可能导致卡顿
UI 偶尔无响应，可使用 REST API 作为替代

九、开发者配置（Developer Profiles）

开发者配置是 Docker Compose 部署方式，用于演示各 VSS 微服务的组合，作为开发者测试和实验的起点。

|--------------------|---------------------------------------|----------------------|
| 配置名称 | 目录 | 说明 |
| dev-profile-base | developer-workflow/dev-profile-base | 基础 Agent 部署，测试核心摘要功能 |
| dev-profile-search | developer-workflow/dev-profile-search | 添加语义搜索工作流 |
| dev-profile-alerts | developer-workflow/dev-profile-alerts | 添加告警工作流 |
| dev-profile-lvs | developer-workflow/dev-profile-lvs | 长视频摘要工作流 |

建议开发者从 dev-profile-base 开始，逐步叠加其他工作流，理解各组件协作方式。

十、行业应用蓝图

10.1 智慧城市蓝图（Smart City Blueprint）

利用 VSS 构建城市管理 AI Agent，支持：

人员与车辆检测/追踪
碰撞事件检测与验证
交通流量分析
案例：马来西亚 ITMAX 为吉隆坡市建设视觉 AI Agent，提升城市管理水平，缩短事件响应时间

10.2 仓储操作蓝图（Warehouse Operations Blueprint）

利用 VSS 实现仓储安全与效率监控，支持：

人员与叉车检测/追踪
Near-Miss 事件（险情）检测与验证
标准操作程序（SOP）合规性验证
案例：Pegatron 使用 VSS 监控 PCB 装配流程，将劳动力成本降低 7%，缺陷率降低 67%

10.3 其他行业案例

|---------------|------------------------------------|-------------------|
| 行业/公司 | 应用场景 | 效果 |
| Siemens（制造） | 工业副驾驶（Industrial Copilot），视频分析设备运行 | 生产力提升 30%，潜力达 50% |
| Superb AI（航空） | 仁川机场旅客等候时间优化 | 数周内完成部署 |
| PYLER（广告） | 品牌安全（AiD）和广告定向（AiM） | 数周内集成完成 |
| Shimizu（建筑） | 工地视频流实时监控、安全合规检测 | 自动化进度监控 |
| Cloudian（林业） | 植被过度生长和入侵物种检测，结合 RAG 检索政策文档 | 跨域知识融合 |

十一、定制与优化

11.1 自定义提示词

VSS 的摘要和问答质量高度依赖提示词的设计。可通过 /summarize API 的以下参数自定义：

caption_summarization_prompt：指导 VLM 生成什么类型的描述（如「你是一个智能交通系统，请记录所有交通相关事件，每句话以时间戳开头和结尾」）
summary_aggregation_prompt：指导 LLM 如何聚合多批次描述（如「根据可用信息，生成按时间顺序组织的交通报告」）

11.2 模型替换

VLM：支持 Cosmos Reason1/2、Qwen3-VL、NVILA 等，通过 config.yaml 切换
LLM：支持任何 OpenAI 兼容接口，vLLM/SGLang 皆可
Embedding：默认 nvidia/llama-3_2-nv-embedqa-1b-v2，可在 CA-RAG 配置中修改
图数据库后端：支持 Neo4J 和 ArangoDB

11.3 性能调优

多流并发：通过 Multi-stream 和 Burst Mode 并发处理数百路视频流
GPU 分配：通过 Helm 的 Configuring GPU Allocation 或 Docker Compose 的 NVIDIA_VISIBLE_DEVICES 配置
内存模式：单 GPU 部署支持非默认低内存模式
Guardrails：单 GPU 部署默认禁用（llama-3.1-8b-instruct 精度问题），可通过移除 .env 中的 DISABLE_GUARDRAILS 启用

11.4 VSS Observability（可观测性）

VSS 提供可观测性支持，监控系统性能，帮助开发者发现瓶颈，进行拓扑优化（Optimal Topology）。

十二、性能参考

12.1 基准数据

|---------------|---------------|
| 指标 | 数据 |
| 视频摘要速度 | 比实时观看快 100 倍 |
| 1 小时视频摘要时间 | < 1 分钟 |
| 并发处理能力 | 数百路实时视频流或突发片段 |
| Q&A RAG 延迟占比 | 约 10%（相对整体管道） |
| 摘要+RAG 额外延迟 | 约 1%（相对纯摘要） |

12.2 精度说明

摘要精度高度依赖 VLM 精度，默认配置针对仓储场景调优
时间戳有时不完全精准
GraphRAG 精度优于 VectorRAG，但延迟较高
使用更大的 LLM（如 70B vs 8B）可显著提升交互式问答精度

十三、常见问题与已知限制

|--------------------|-----------------------------------------------------|
| 问题 | 解决方案 |
| CA-RAG 摘要响应被截断 | 增加 CA-RAG 配置文件中的 max_tokens 值 |
| Helm 部署 VSS pod 失败 | 即使 init container 已等待 LLM pod，VSS 仍可能异常启动，重启 pod 即可 |
| 多会话 Q&A 结果不准确 | 不支持多会话问答，每次只对单个文件或流进行 Q&A |
| Gradio UI 无响应 | 改用 REST API 执行对应操作 |
| 实时流无法删除 | 使用 REST API /stream DELETE 接口 |
| sudo 运行 Docker 命令 | 所有 Docker 命令必须在无 sudo 下运行，否则破坏环境变量传递 |
| 单 GPU 部署无 CV/音频功能 | CV 和音频功能在单 GPU 部署中暂不支持 |
| VLM 时间戳不准确 | 时间戳精度受模型限制，是已知问题 |

十四、版本历史与最新特性

VSS 2.4（最新版）

集成 Cosmos Reason 推理 VLM，提升物理世界理解和场景推理能力
知识图谱增强：实体去重（entity deduplication）和基于 Agent 的图遍历
支持多图数据库后端：Neo4J 和 ArangoDB
新增 VSS Event Reviewer：低延迟告警处理，适合边缘部署
扩展硬件支持：Jetson Thor、RTX Pro 6000、DGX Spark

VSS 2.3.x（GA 版本）

单 GPU 部署支持（A100、H100、H200）
多实时流和 Burst Mode 并发处理
可定制化 CV 管道
音频转录支持
Set of Marks（SOM）提示预处理，提升 VLM 精度
新增 /alerts/recent API

VSS 2.2.x（工程版本）

GraphRAG 性能提升
NVILA 研究模型支持
更多 /summarize API 运行时参数

本报告基于 NVIDIA VSS 官方文档（docs.nvidia.com/vss/latest）及 GitHub 仓库整理，截至 2026 年 4 月。如需最新信息，请访问官方文档。

NVIDIA VSSVideo Search and Summarization视频搜索与摘要蓝图详尽使用说明与技术报告版本