引言
"12 条生产流水线、52 个工具、500+ Agent Skill------把你的 AI 编程助手变成完整的视频制作工作室。"
这是"每日一个开源项目"系列的第138篇文章 。今天的主角是 OpenMontage------一个开源的 Agentic 视频生产系统,用 Claude Code、Cursor 或 Codex 作为驱动引擎,把自然语言提示变成完整制作的视频。
大多数 AI 视频工具的输出是单个片段:输入提示,生成一段 5 秒的视频。OpenMontage 的设计目标不同------它模拟的是一个完整的视频制作团队:研究员、编剧、分镜师、素材制作、剪辑、合成、质量审核,每个阶段都有对应的 Agent Skill 在驱动。
起点是一句自然语言描述,终点是经过质量验证的完整视频文件。全程在你的 AI 编程助手里运行,不需要切换工具。
你将学到什么
- OpenMontage 的三层知识体系架构:Tools / Skills / Pipeline Defs 如何协同
- 12 条制作流水线的覆盖范围:从动画解说到纪录片蒙太奇
- 零付费路径:不花一分钱能做出什么
- 质量治理设计:预合成验证、滑动风险评分、预算控制
- 7 维度提供商评分系统:AI 如何选择用哪个视频生成服务
- 参考视频分析:输入 YouTube 链接后发生了什么
前置知识
- 使用过 Claude Code、Cursor 或类似 AI 编程工具
- 了解视频制作的基本流程(脚本、镜头、配音、剪辑)
- Python 基础使用经验
项目背景
项目简介
OpenMontage 是一个 Agentic 视频生产系统,定位是"把 AI 编程助手变成完整的视频制作工作室"。
它解决的不是"用 AI 生成一段视频"的问题,而是"从零到发布的完整视频制作流程"的问题。研究内容、写脚本、规划分镜、生成素材、剪辑、合成、质量检查------这些步骤在传统视频制作里分属不同的人,在 OpenMontage 里对应不同的 Agent Skill,由 AI 编程助手按流水线顺序执行。
另一个设计重点是解决"动态假图"问题:大多数 AI 视频工具生成的是静态图片帧的动画效果,不是真正有运动的视频素材。OpenMontage 可以从 Pexels、Pixabay、Archive.org、NASA、维基共享资源等免费来源获取真实运动素材,再做蒙太奇剪辑。
作者介绍
- 作者: calesthio
- 社区: GitHub Discussions(展示、想法、Q&A 分类)
- License: AGPL-3.0
- 视频频道 : @OpenMontage on YouTube
项目数据
- ⭐ GitHub Stars: 9,000+
- 🍴 Forks: 1,300+
- 🛠 制作工具: 52 个
- 🎬 流水线: 12 条
- 📚 Agent Skill: 500+
- 📄 License: AGPL-3.0
主要功能
核心作用
css
传统 AI 视频工具:
提示词 → 生成单个视频片段 → 用户手动拼接
OpenMontage:
"制作一个关于量子计算的 3 分钟科普视频"
↓
[研究] → 收集背景信息和事实
↓
[提案] → 生成制作方案,包含预估费用
↓
[脚本] → 完整旁白文本
↓
[分镜] → 每个场景的视觉规划
↓
[素材] → 生成/获取视频、图片、配音、音乐
↓
[剪辑] → 组装时间线
↓
[合成] → 渲染最终视频
↓
[质量审核] → 帧验证 + 音频分析 + 交付检查
↓
完整视频文件
12 条制作流水线
| 流水线 | 输出 |
|---|---|
| Animated Explainer | 研究支撑的教育类动画视频 |
| Documentary Montage | 真实素材剪辑的纪录片风格视频 |
| Cinematic | 预告片、概念片、氛围短片 |
| Clip Factory | 把长内容批量切成短视频 |
| Talking Head | 主播/主持人视频 |
| Avatar Spokesperson | 数字人发言人视频 |
| Localization & Dub | 多语言翻译配音版本 |
| Screen Demo | 软件操作演示录屏 |
| Podcast Repurpose | 播客音频→视频剪辑集锦 |
| Hybrid | 现有素材 + AI 生成内容混合 |
| Animation | 动态图形、动态排版 |
零付费路径
不需要任何付费 API,可以完整跑通一个视频:
| 组件 | 零付费方案 |
|---|---|
| 配音/TTS | Piper(离线,免费) |
| 视频素材 | Pexels、Pixabay、Archive.org、NASA、维基共享资源 |
| 图像生成 | Stable Diffusion(本地运行) |
| 视频生成 | WAN 2.1、Hunyuan、LTX-Video(本地 GPU) |
| 合成/渲染 | Remotion(React)、HyperFrames(HTML/GSAP) |
| 后期处理 | FFmpeg |
有付费 API 时的成本参考(来自 README):
- Ghibli 风格动画(12 张 FLUX 图 + 音乐):$0.15
- Pixar 风格动画短片(6 段 Kling 视频 + 配音):$1.33
- 产品广告(仅 OpenAI):$0.69
快速开始
安装:
bash
git clone https://github.com/calesthio/OpenMontage.git
cd OpenMontage
make setup
在 Claude Code 中使用:
bash
cd OpenMontage
claude # 打开 Claude Code
然后直接用自然语言描述:
制作一个 2 分钟的视频,介绍阿尔茨海默症的早期预警信号,
面向 40-60 岁的普通观众,科学严谨但不生硬,
使用真实医疗素材,不需要任何 AI 生成的人脸。
Agent 会先生成制作方案和费用估算,确认后才开始执行。
项目详细剖析
三层知识体系
OpenMontage 的架构把能力和知识分成三层:
bash
Layer 1: 执行层
tools/ ← 52 个 Python 工具
pipeline_defs/ ← 12 条 YAML 流水线定义
schemas/ ← 15 个 JSON Schema(输入输出验证)
└── 作用:定义"可以做什么"和"按什么顺序做"
Layer 2: 使用规范层
skills/ ← OpenMontage 自身的使用约定
└── 作用:告诉 Agent 如何正确使用这套工具
Layer 3: 外部技术知识层
.agents/skills/ ← 深度的外部技术知识
└── 作用:关于 FFmpeg、Remotion、各提供商 API 的专业知识
500+ Agent Skill 分布在后两层,相当于把视频制作领域的专家知识打包给了 AI 编程助手。每个 Skill 是一个 Markdown 文件,包含这个步骤的专业知识、常见错误和判断标准。
渲染引擎:Remotion vs HyperFrames
OpenMontage 支持两种合成渲染引擎,各有适用场景:
Remotion(React 渲染):
- 用 React 组件描述视频帧
- 适合需要精确时间控制的内容:字幕、标题、数据可视化
- 输出质量稳定,开发者可以用 React 语法定制
HyperFrames(HTML/GSAP 渲染):
- 用 HTML + GSAP 动画描述视频
- 适合动态排版、品牌内容、Web 风格的视觉设计
- 自定义灵活度高
两者都通过 Node.js 在本地渲染,不依赖外部服务。
质量治理机制
这是 OpenMontage 里工程设计含量最高的部分:
预合成验证门禁:在开始渲染之前,系统检查生产承诺是否满足。如果检测到以下情况,拒绝继续执行:
- 计划输出与脚本内容不匹配
- 场景覆盖率低于阈值
- 素材质量不满足目标规格
幻灯片风险评分(Slideshow Risk Score): 6 个维度评估视频是否过于"静态化"------把一堆图片拼一起假装是视频:
- 场景平均时长
- 运动素材占比
- 摄像机运动检测
- 场景切换频率
- 音频动态范围
- 视觉变化密度
评分超过阈值,Agent 会主动寻找更多动态素材或重新规划场景方案,而不是直接输出一个幻灯片。
预算控制:
bash
默认配置:
- 单次操作超过 $0.50 需要确认
- 总预算上限 $10
- 任何执行前先给出费用估算
调整方式:
在对话中说 "set budget cap to $5"
或者修改配置文件
渲染后自审:
- FFprobe 验证:分辨率、帧率、码率是否符合规格
- 关键帧提取:人工抽检视觉质量
- 音频分析:音量、静音检测、同步验证
7 维度提供商评分系统
当同一个任务有多个可选的视频/图像生成提供商时,系统用 7 个维度打分选择:
| 维度 | 权重 | 说明 |
|---|---|---|
| 任务匹配度 | 30% | 这个提供商对当前类型任务的专长 |
| 输出质量 | 20% | 历史评测的质量分数 |
| 可控性 | 15% | 支持多少参数精细控制 |
| 可靠性 | 15% | API 稳定性和成功率 |
| 成本效率 | 10% | 单位输出的费用 |
| 延迟 | 5% | 生成速度 |
| 连续性 | 5% | 跨场景风格一致性能力 |
所有选择都写入决策审计日志,包含推理过程。出了问题可以回溯"AI 为什么选了这个提供商"。
参考视频分析功能
一个很实用的功能:提供一个 YouTube / TikTok / Reels 链接作为参考:
ini
帮我做一个类似这个风格的视频:https://youtube.com/watch?v=xxx
主题换成量子计算,时长 2 分钟,但是面向中国观众
Agent 会分析参考视频的:
- 旁白文本和节奏
- 场景切换频率和节拍
- 视觉风格类型
- 钩子结构(前 5 秒的设计)
然后生成差异化的制作方案(不复制原视频,而是学习风格),并附上费用估算,等待确认后才开始执行。
项目地址与资源
官方资源
- 🌟 GitHub : calesthio/OpenMontage
- 📺 YouTube 频道 : @OpenMontage(示例视频)
- 💬 GitHub Discussions: 展示作品、提问、提想法
技术栈参考
- Remotion : remotion.dev
- GSAP : greensock.com/gsap
- Piper TTS: 开源离线 TTS
总结
OpenMontage 把视频制作这件事从"要会用十几个专业软件"变成了"在 AI 编程助手里描述你想要什么"。
12 条流水线覆盖了从科普动画到产品广告的主要视频类型;52 个工具对接了视频/图像/TTS/音乐/素材的完整供应链;质量治理机制在防止 AI 交付一个幻灯片风格的劣质输出;预算控制机制让成本可预期。
零付费路径意义在于:即使完全没有 API 预算,也能跑通整个流程理解系统是怎么工作的,再按需接入付费服务。
9k Stars 对于一个功能如此复杂的项目来说增长速度很快,说明"AI 辅助视频制作"这个方向有真实需求。
探索 PrimeSkills ------ 精选 AI Agent 与技能的市场,每一个都经过真实企业工作流验证,去掉浮夸,留下真正有用的。
欢迎访问我的个人主页,发现更多有价值的见解和有趣的产品。