video-use:用「对话」剪辑视频——browser-use 团队开源的 AI 视频编辑神器

🎬 video-use:用「对话」剪辑视频------browser-use 团队开源的 AI 视频编辑神器

💡 把素材丢进文件夹,告诉 Claude Code "剪成一个发布视频",然后等着拿 final.mp4。这就是 video-use 在做的事。

📌 目录

  • [1. 它是什么?](#1. 它是什么?)
  • [2. 核心设计理念](#2. 核心设计理念)
  • [3. 双层读取系统:LLM 如何"看"视频](#3. 双层读取系统:LLM 如何"看"视频)
  • [4. 完整工作流程](#4. 完整工作流程)
  • [5. 12 条硬性规则(制作正确性)](#5. 12 条硬性规则(制作正确性))
  • [6. 剪辑工艺详解](#6. 剪辑工艺详解)
  • [7. 动画系统](#7. 动画系统)
  • [8. 安装与使用](#8. 安装与使用)
  • [9. 适用场景与优缺点](#9. 适用场景与优缺点)
  • [10. 总结](#10. 总结)

1. 它是什么?

video-use 是由 browser-use 团队(没错,就是那个做 AI 浏览器自动化的明星团队)开源的 AI 视频编辑工具。

它的核心理念极其简洁:

🎯 对话式视频编辑------用自然语言指挥 AI 完成专业级剪辑

工作流程:

复制代码
原始素材 → 放入文件夹 → 启动 Claude Code → 说"剪成发布视频" → AI 自动完成转录/剪辑/调色/字幕/动画 → 输出 final.mp4

一句话定位: 视频编辑界的"AI 副驾驶"------你负责创意决策,AI 负责技术执行。


2. 核心设计理念

video-use 不是简单的"自动剪辑",而是一套基于对话的专业视频制作工作流

原则 说明
📝 文本 + 按需视觉 LLM 主要阅读转录文本(12KB),只在决策点查看视觉合成图
🎙️ 音频主导,视觉跟随 剪辑候选来自语音边界和静默间隙
询问 → 确认 → 执行 → 迭代 → 持久化 绝不未经用户确认就动剪刀
🎨 艺术自由是默认 除硬性规则外,一切风格、字体、颜色、技术都可自由发挥
🔍 自我验证 在展示给用户前,AI 先自我检查渲染输出

核心功能一览

功能 说明
✂️ 智能剪辑 自动去除填充词(umm, uh)和无效片段间的死寂
🎨 自动调色 温暖电影感、中性增强,或自定义 ffmpeg 滤镜链
🔊 音频处理 每处剪辑点 30ms 淡入淡出,消除爆音
📝 字幕烧录 默认两词大写块,完全可定制样式
动画生成 通过 Manim/Remotion/PIL 生成叠加动画,并行子代理加速
🧠 会话记忆 project.md 中持久化,下次会话无缝衔接
🔍 自我评估 在每个剪辑边界检查视觉/音频问题,最多 3 轮修复

3. 双层读取系统:LLM 如何"看"视频

video-use 的精髓在于让 LLM 高效"阅读"视频,而非盲目处理每一帧。

Layer 1:音频转录(始终加载)

使用 ElevenLabs Scribe 进行单次调用,获取:

  • 词级时间戳(word-level timestamps)
  • 说话人分离(speaker diarization)
  • 音频事件标记(laughter), (applause), (sigh)

所有素材打包成单个约 12KB 的 takes_packed.md------这就是 LLM 的主要阅读视图。

markdown 复制代码
## C0103  (duration: 43.0s, 8 phrases)
  [002.52-005.36] S0 Ninety percent of what a web agent does is completely wasted.
  [006.08-006.74] S0 We fixed this.

Layer 2:视觉合成(按需调用)

timeline_view 生成胶片条 + 波形 + 词标签的 PNG,仅在决策点调用:

  • 模糊停顿处
  • 重拍对比时
  • 剪辑点合理性检查

💡 对比:

  • 朴素方法:30,000 帧 × 1,500 tokens = 4500 万 tokens 的噪声
  • video-use:12KB 文本 + 少量 PNG

这和 browser-use 给 LLM 结构化 DOM 而非截图是同一个思路------用结构化数据代替原始像素


4. 完整工作流程

复制代码
转录(Transcribe) → 打包(Pack) → LLM 推理 → EDL → 渲染(Render) → 自我评估(Self-Eval)
                                                    ↑___________________________|
                                                    发现问题则修复重渲染(最多3轮)

8 步标准流程

步骤 动作 输出
1️⃣ 清点 ffprobe 每个源,批量转录,生成 takes_packed.md 转录文本
2️⃣ 预扫描 标记口误、明显错误 问题清单
3️⃣ 对话 描述所见,提问收集需求 需求文档
4️⃣ 提出策略 4-8 句话描述剪辑方案 策略确认
5️⃣ 执行 生成 EDL,并行动画,分段调色,渲染 preview.mp4
6️⃣ 预览 生成 720p 快速预览 preview.mp4
7️⃣ 自评估 在渲染输出上运行 timeline_view 检查剪辑边界 质检报告
8️⃣ 迭代+持久化 根据反馈调整,追加到 project.md final.mp4

目录结构

复制代码
<videos_dir>/
├── <原始素材文件, untouched>
└── edit/
    ├── project.md              ← 会话记忆,每次追加
    ├── takes_packed.md         ← 短语级转录本(LLM 主阅读视图)
    ├── edl.json                ← 剪辑决策
    ├── transcripts/            ← 缓存的原始 Scribe JSON
    ├── animations/slot_<id>/   ← 每个动画的源/渲染/推理
    ├── clips_graded/           ← 分段提取(含调色+淡入淡出)
    ├── master.srt              ← 输出时间线字幕
    ├── downloads/              ← yt-dlp 下载
    ├── verify/                 ← 调试图/时间线 PNG
    ├── preview.mp4
    └── final.mp4

5. 12 条硬性规则(制作正确性)

这些不是风格偏好,而是技术正确性------违反会导致静默失败或损坏输出。

# 规则 原因
1 字幕在滤镜链最后应用 否则叠加层会遮挡字幕
2 分段提取 → 无损 -c copy 拼接 避免叠加层时的双重编码
3 每段边界 30ms 音频淡入淡出 消除剪辑点爆音
4 叠加层使用 setpts=PTS-STARTPTS+T/TB 将叠加层帧 0 对齐窗口起始
5 主 SRT 使用输出时间线偏移 否则拼接后字幕错位
6 绝不在词中间剪辑 必须对齐词边界
7 每处剪辑边缘填充 30-200ms 吸收 Scribe 50-100ms 时间戳漂移
8 仅词级逐字 ASR SRT/短语模式会丢失亚秒级间隙数据
9 缓存每个源的转录 源文件不变则不重新转录
10 多个动画并行子代理 绝不顺序执行
11 执行前策略确认 未经用户确认不动剪刀
12 所有输出在 <videos_dir>/edit/ 绝不写入项目目录

6. 剪辑工艺详解

音频优先的剪辑逻辑

  • 剪辑候选来自: 词边界和静默间隙
  • 保留峰值: 笑声、包袱、强调节拍------延伸到反应之后
  • 说话人交接: 话语间留气,常用 400-600ms
  • 静默间隙是剪辑候选: ≥400ms 通常最干净,150-400ms 需视觉检查,<150ms 不安全

示例剪辑填充(实际发布的 launch video)

  • 第一个保留词前 50ms
  • 最后一个词后 80ms
  • 快节奏更紧,纪录片更松
  • 保持在 30-200ms 工作窗口内

调色系统

基于 ASC CDL 模型:out = (in * slope + offset) ** power

预设 效果
warm_cinematic 复古/技术感,微妙青橙分离,去饱和
neutral_punch 最小校正:对比度提升 + 温和 S 曲线
none 直出,用户未要求时的默认

💡 可自定义任意 ffmpeg 滤镜链:grade.py --filter '<raw ffmpeg>'

字幕系统

维度 选项
分块 1/2/3 词每行,或整句
大小写 UPPERCASE / Title / Natural
位置 底部边距(MarginV)

bold-overlay(短视频/快节奏社交):

  • 2 词块,大写
  • 标点处断行
  • Helvetica 18 粗体,白字黑边
  • MarginV=35

natural-sentence(叙事/纪录片/教育):

  • 4-7 词块,句首大写
  • 自然停顿处断行
  • MarginV=60-80,更大字体

7. 动画系统

video-use 支持三种动画工具,按需选择:

工具 适用场景 特点
PIL + PNG 序列 简单叠加卡:计数器、打字机文本、条形揭示 快速迭代,任意美学
Manim 正式图表、状态机、方程推导、图形变换 数学/技术可视化
Remotion 字体排版、品牌对齐、Web 风格布局 React/CSS 驱动

动画设计原则

时长规则(情境依赖):

类型 时长 说明
同步旁白解释 3s 地板,典型 5-7s,复杂图表 8-14s 观众需以 1× 速度理解
节拍同步点缀 0.5-2s 音乐视频/快剪,视觉点缀而非信息
最终帧保持 ≥ 1s 剪辑前必须保持
旁白叠加 narration_length + 1s 确保内容完整展示

缓动函数(绝不用 linear):

python 复制代码
def ease_out_cubic(t):    # 单揭示用------慢着陆
    return 1 - (1 - t) ** 3

def ease_in_out_cubic(t): # 连续绘制用
    if t < 0.5: return 4 * t ** 3
    return 1 - (-2 * t + 2) ** 3 / 2

并行生成:

每个动画是一个独立子代理,通过 Agent 工具并行生成------总耗时 ≈ 最慢的那个。

示例调色板(launch video 风格)

python 复制代码
background = (10, 10, 10)      # 近黑
accent = (255, 90, 0)          # 橙色 #FF5A00
labels = (110, 110, 110)       # 暗灰
font = "/System/Library/Fonts/Menlo.ttc"  # index 1
# ≤2 种强调色,~40% 留白,最小装饰
# 结果:终端/复古技术感

💡 这只是示例。如果品牌是温暖衬线体,就用那个;如果是多彩活泼,就用那个。无默认假设。


8. 安装与使用

快速安装(一键复制给 Agent)

text 复制代码
Set up https://github.com/browser-use/video-use for me.

Read install.md first to install this repo, wire up ffmpeg, register the skill 
with whichever agent you're running under, and set up the ElevenLabs API key --- 
ask me to paste it when you need it. Then read SKILL.md for daily usage, and 
always read helpers/ because that's where the editing scripts live. After install, 
don't transcribe anything on your own --- just tell me it's ready and wait for me 
to drop footage into a folder.

手动安装

bash 复制代码
# 1. 克隆并注册到 Agent 技能目录
git clone https://github.com/browser-use/video-use ~/Developer/video-use
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use        # Claude Code
# ln -sfn ~/Developer/video-use ~/.codex/skills/video-use       # Codex

# 2. 安装依赖
cd ~/Developer/video-use
uv sync                         # 或 pip install -e .
brew install ffmpeg             # 必需
brew install yt-dlp             # 可选,下载在线源

# 3. 配置 ElevenLabs API key
cp .env.example .env
# 编辑 .env: ELEVENLABS_API_KEY=your_key_here

日常使用

bash 复制代码
cd /path/to/your/videos
claude    # 或 codex, hermes, openclaw 等

在会话中:

复制代码
> edit these into a launch video

Agent 会:

  1. 清点素材
  2. 提出剪辑策略
  3. 等待你确认
  4. 执行剪辑、调色、动画、字幕
  5. 自我评估
  6. 输出 edit/final.mp4

9. 适用场景与优缺点

典型使用场景

场景 说明
🚀 产品发布视频 多段拍摄素材,选出最佳 take,剪辑成 launch video
🎓 教程/知识分享 去除口误和停顿,添加字幕和代码动画
🎤 访谈/播客 多机位/多 take 选择,说话人分离,节奏优化
✈️ 旅行/Vlog 素材整理,高光片段提取,添加转场和字幕
🎵 音乐/表演 节拍同步剪辑,视觉点缀动画
📊 技术演示 Manim 动画 + 代码高亮 + 字幕

客观评价

维度 ✅ 优势 ⚠️ 注意
交互方式 对话式剪辑,自然语言指挥,无需学习复杂软件 需要 ElevenLabs API key(有成本)
剪辑质量 专业级工艺:词级精度、音频淡入淡出、自我验证 不适合需要复杂时间轴操作的项目
动画能力 Manim/Remotion/PIL 三选一,并行生成,缓动专业 动画风格需要用户明确指导或确认
调色系统 ffmpeg 滤镜链完全可控,可自定义任意风格 无预设 LUT 库,需要懂基础调色原理
字幕系统 样式完全可定制,硬性规则确保正确性 中文支持需验证(当前示例为英文)
工作流 8 步标准流程,project.md 持久化,可迭代 每次会话需要重新启动 Agent
生态兼容 支持 Claude Code、Codex、Hermes、Openclaw 需要 Agent 支持 skills 目录或系统提示导入
成本 开源免费,仅 ElevenLabs Scribe 按量计费 长视频转录成本需预估

不适合的场景

  • ❌ 需要复杂多轨道混音的音乐制作
  • ❌ 需要精细关键帧动画的特效合成
  • ❌ 实时直播/流媒体剪辑
  • ❌ 完全不懂视频基础概念的用户(需要理解剪辑、调色、字幕等基本概念)

10. 总结

video-use 代表了 AI 视频编辑的一个新方向:不是让 AI 替代剪辑师,而是让 AI 成为剪辑师的智能助手

它的核心创新在于:

  1. 双层读取系统------让 LLM 高效"阅读"视频而非盲目处理像素
  2. 12 条硬性规则------确保技术正确性,避免静默失败
  3. 对话驱动工作流------策略确认 → 执行 → 自评估 → 迭代
  4. 专业级工艺------词级剪辑精度、30ms 音频淡入淡出、ASC CDL 调色

对于需要批量处理访谈、教程、产品视频 的创作者来说,这是一个能显著提效的工具。它不是 Premiere Pro 的替代品,而是和 Premiere Pro 互补的 AI 预处理层------让 AI 完成粗剪、调色、字幕的 dirty work,人类专注于创意决策。

推荐指数:⭐⭐⭐⭐⭐(对于目标用户群)

适合人群:

  • 需要批量剪辑访谈/教程/产品视频的内容创作者
  • 懂基础视频概念、愿意和 AI 协作的技术型创作者
  • 已经在使用 Claude Code/Codex 等 Agent 工具的开发者

不适合人群:

  • 完全不懂视频剪辑的小白
  • 需要复杂特效和精细时间轴控制的专业后期

🔥 项目地址:https://github.com/browser-use/video-use

🏠 团队主页:https://github.com/browser-use(browser-use 团队)

📄 SKILL.mdhttps://github.com/browser-use/video-use/blob/main/SKILL.md

📄 install.mdhttps://github.com/browser-use/video-use/blob/main/install.md

🎙️ ElevenLabs:https://elevenlabs.io/app/settings/api-keys


标签:#AI视频剪辑 #browser-use #ClaudeCode #视频编辑 #对话式AI #Manim #Remotion #video-use

相关推荐
老陈聊架构3 个月前
『AI视频创作』Remotion Skills 完全指南:用自然语言创作视频的革命
人工智能·音视频·skill·remotion