【UniVA】1：统一的视频agent：智能体系统，专门用于处理复杂的视频生成、编辑和理解任务

看目标高大上啊

论文标题：UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist👉

📄 论文地址： https://arxiv.org/abs/2511.08521

💻 GitHub： https://github.com/univa-agent/univa

🚩 Benchmark: https://huggingface.co/datasets/UniVA-Agent/UniVA-Bench

🎯 Overview 🎯 概述

UniVA (Universal Video Agent) is an open-source, next-generation video generalist system that enables you to plan, compose, and produce videos through natural language instructions. UniVA acts as your intelligent video director, iterating shots and stories with you through an agentic, proactive workflow.

UniVA（通用视频代理）是一个开源的下一代视频通用系统，它通过自然语言指令使您能够规划、编排和制作视频。UniVA 作为您的智能视频导演，通过主动的、代理式的工作流程与您迭代镜头和故事。

✨ Key Features ✨ 主要功能

🎬 Agentic Creation 🎬 代理式创作

Multi-round co-creation: Talk like a director; UniVA iterates shots & stories with you

多轮共同创作：像导演一样交谈；UniVA 与您迭代镜头和故事

Deep memory & context: Global + user memory keep preferences, lore, and styles consistent

深度记忆与上下文：全局+用户记忆保持偏好、背景故事和风格的一致性

Implicit intent reading: Understands vague & evolving instructions; less prompt hacking

隐式意图理解：理解模糊和变化的指令；减少提示词攻击

Proactive agent: Auto plans, checks, and suggests better shots & stories, not just obeys

主动型代理：自动规划、检查并建议更好的镜头和故事，而不仅仅是服从

End-to-end workspace: UniVA plans, calls tools, and delivers full videos

端到端工作空间：UniVA 规划、调用工具并交付完整视频

🎥 Omnipotent Video Production Engine

🎥 无所不能的视频制作引擎

Universal video fabric: Text / Image / Entity / Video → controllable video in one framework

通用视频平台：文本/图像/实体/视频 → 在单一框架中生成可控视频

Any-conditioned pipeline: Supports super HD & consistent, cinematic quality with stable identity & objects

任意条件下的流程：支持超高清及一致的电影级质量，保持稳定身份与对象

Complex narratives: Multi-scene, multi-role, multi-shot stories under structured control

复杂叙事：在结构化控制下，多场景、多角色、多镜头的故事

Ultra-long & fine-grained editing: From long-form cuts to per-shot/per-object refinement

超长与细粒度编辑：从长片段剪辑到每镜头/每对象精细调整

Grounded by understanding: Long-video comprehension & segmentation guide generation & edits

基于理解：长视频理解与分割引导生成与编辑

🔧 Extensibility 🔧 可扩展性

MCP-native: Modular design, easy to extend with new models & tools

MCP 原生：模块化设计，易于通过新模型与工具扩展

Industrial quality: Production-ready video generation capabilities

工业级品质：生产就绪的视频生成能力

基于大语言模型（LLM）的智能体系统，专门用于处理复杂的视频生成、编辑和理解任务

Read [](file:///f%3A/13_vimax/univa/univa/config/config.py#1-1), lines 1 to 100

Read [](file:///f%3A/13_vimax/univa/univa/univa_server.py#1-1), lines 1 to 100

基于您提供的文件结构和代码内容，该项目 UniVA (Unified Video Agent) 是一个基于大语言模型（LLM）的智能体系统，专门用于处理复杂的视频生成、编辑和理解任务。

其核心架构采用了 Plan-Act（规划-执行） 模式，并通过 MCP (Model Context Protocol) 协议来集成各种底层工具。

以下是各个主要功能模块及其作用的详细分析：

1. 核心智能体模块 (univa_agent.py)

这是系统的大脑，负责协调规划与执行。

PlanActSystem (指挥官) :
- 作用 : 整个任务流的管家。它管理着 PlanAgent 和 ActAgent 的生命周期，并负责初始化与 MCP 工具服务的连接。
- 流程: 它接收用户请求 -> 让 PlanAgent 生成计划 -> 让 ActAgent 执行计划 -> 收集结果反馈 -> 将结果注回 PlanAgent 以便进行下一轮规划。
PlanAgent (规划师) :
- 作用: 负责"思考"。接收用户的高层指令（如"制作一个关于猫的视频"），利用 LLM 和提示词（plan.txt）将任务拆解为包含具体步骤、工具和参数的结构化 JSON 计划。
- 记忆 : 它会维护 Session 中的 execution_history，根据之前步骤的成功或失败来调整后续计划。
ActAgent (执行者) :
- 作用: 负责"行动"。它遍历 PlanAgent 生成的计划步骤，根据步骤描述调用相应的底层工具（通过 MCP）。
- 反馈: 它会判断工具调用的结果（成功/失败），并更新计划状态。

2. 服务端与 API 模块 (univa_server.py)

这是系统的对外接口，支持 HTTP 访问。

作用: 构建了一个 FastAPI 服务，允许前端或其他客户端与 UniVA 进行交互。
特性 :
- 流式响应 (execute_task_stream): 支持 Server-Sent Events (SSE) 或类似的流式输出，实时向用户反馈"正在生成计划"、"正在执行步骤1"、"工具调用完成"等状态。
- 鉴权 (AuthMiddleware): 集成了简单的认证机制，保护 API 接口。
- 多会话管理 : 通过 session_id 区分不同用户的对话上下文。

3. 配置管理模块 (config)

负责系统的灵活性和可配置性。

config.py : 统一管理所有配置项。
- LLM 配置: 定义 Plan 和 Act 智能体分别使用什么模型（如 GPT-4, GPT-5）、API Key、Base URL 等。
- 路径配置: 指向提示词目录、MCP 工具目录等。
- 环境加载 : 从 .env 文件读取敏感信息（密钥）。
mcp_configs.json & config.yaml: 专门用于配置 MCP 服务器的启动命令、参数和环境变量。

4. 工具集成层 (MCP Tools)

这是系统的"手和脚"，负责实际干活。

目录: mcp_tools (根据 univa_agent.py 中的引用推测)。
作用: 通过 MCP 协议将各种 Python 脚本或模型封装成标准工具，供 ActAgent 调用。
功能分类 (从 prompts 中推测):
- Video Generation : text2video, image2video 等。
- Video Editing : style_transfer (风格迁移), repainting (重绘) 等。
- Video Understanding : vision2text, video_caption 等。

5. 提示词工程 (prompts)

定义了智能体的行为准则。

plan.txt: 定义了 PlanAgent 的人设（Univideo）、可用工具列表、规划逻辑和输出 JSON 格式。
generation/ 子目录: 包含用于具体生成任务（如写分镜脚本、优化提示词）的 Prompt。

总结流程图：

PlanAct Loop
HTTP 请求
Session ID
用户请求
加载 plan.txt
生成 JSON 计划
JSON 计划
调用工具
执行结果
更新状态
底层能力
流式反馈
用户
univa_server.py
PlanActSystem
PlanAgent
Prompts
ActAgent
MCP Tools Interface
mcp_tools/*.py