前作汇总:
- AI视频创作工具汇总:MoneyPrinterTurbo、KrillinAI、NarratoAI、ViMax
- 视频创作平台:waoowa00、Moyin Creator、Pixelle-Video、YumCut、FastMovieAI、Krea.ai、NemoVideo、VideoLingo、YouTu
本文汇总整理网络资源,介绍几款工具,注:缺乏实战经验。
OpenCut
官网,和Figma→Penpot、Photoshop→GIMP的开源路径类似,CapCut的开源(GitHub,55.1K Star,6K Fork)替代品,视频编辑器,主打无水印、隐私第一,支持Web/桌面/移动端(当前以Web为主),完全本地处理视频。
类似项目:DaVinci Resolve
技术栈:Next.js+TypeScript+Bun+Docker
功能:
- 时间线多轨道编辑:支持视频、音频、文字等多轨道叠加
- 实时预览:编辑即所见,流畅度依赖本地设备性能
- 基本剪辑工具:裁剪、分割、速度调整、简单过渡
- 跨平台:Web版浏览器直接跑(WebAssembly加速),自托管后可本地桌面使用;移动端支持宣称中,但暂未见完整App
AI特效、关键帧系统、复杂滤镜等高级功能仍在开发。
优点:
- 彻底免费无水印,解决CapCut免费版痛点
- 隐私安全:零云上传,适合企业/敏感内容创作者
- 开源生态:46.7k星证明社区认可,可自定义
- 性能潜力:浏览器+WebAssembly,本地跑比云端更快(无网络延迟)
局限:
- 功能不全:高级效果、关键帧、模板库暂缺;导出还在重构,偶尔失败
- 稳定性:早期项目,偶尔hydration错误或端口冲突(YouTube教程有修复方法)
- 学习曲线:对新手友好,但不如CapCut生态(素材库、AI一键)丰富
- 平台支持:当前主力仍是Web
实战
使用方式:
- 在线体验
- 源码
bash
git clone https://github.com/OpenCut-app/OpenCut.git
cp apps/web/.env.example apps/web/.env.local
docker compose up -d db redis serverless-redis-http
bun install && bun dev:web
浏览器打开http://localhost:3000开始体验。
编辑界面:
- 左侧资源库:导入素材
- 中间时间线:拖拽多轨道、剪辑、添加文字/过渡
- 右侧属性面板:调整速度、音量、位置
- 实时预览窗口:边改边看
HeyGen HyperFrames
HeyGen开源(GitHub,26K Star,2.4K Fork)的视频渲染框架HyperFrames,核心理念:Write HTML. Render video. Built for agents.
定位:给开发者和Agent用的程序化视频生产引擎。
程序化生成视频主要有两条路:
- Remotion为代表的React-based方案:用React组件写视频,逻辑清晰,生态也不错。让CC写一段Remotion代码,它经常需要查文档、试报错,效率并不理想。
- 云端API:直接把文案丢给某个视频生成接口,等结果返回。优点是简单,缺点是黑盒、不可控、按量付费,而且没法做高度定制化的动画和视觉风格。
HyperFrames走第三条路:用AI已经精通的技术(HTML+CSS+JS),在本地完成高质量、可复现、完全可控的视频生产。
优势
- Agent友好:HTML是AI的母语,代码生成准确率高
- 本地渲染:不需要云账号、API Key或按秒付费
- 确定性输出:同样输入永远得到同样MP4,适合自动化
- 框架无关:动画引擎可替换,不被单一技术栈绑架
源码解读
- hyperframes(CLI):用户直接打交道的一层。除
init、preview、render,还内置lint(检查构图合法性)、doctor(环境诊断)、transcribe(语音转字幕)、tts(文字转语音)、benchmark(渲染性能基准测试)等命令。 - @hyperframes/core:类型系统、HTML解析器、代码生成器、linter、运行时和 frame adapter。负责把用户HTML翻译成引擎能理解的时序和渲染指令。
- @hyperframes/engine:录像机,基于Puppeteer启动无头浏览器,用Chrome DevTools Protocol的
Page.startScreencast或HeadlessExperimental.beginFrame精确捕获每一帧画面,再通过FFmpeg编码成视频。支持可跳转的seek协议,意味着你可以像控制视频播放器一样,精确跳到任意时间点截图或渲染。 - @hyperframes/producer:完整的生产流水线,把engine捕获的画面、音频混合、并行Worker调度、编码拼接全部串起来。
- @hyperframes/studio:一个浏览器端的可视化编辑器,支持拖拽素材、调整时间轴。
- @hyperframes/player:可嵌入网页的
<hyperframes-player>Web Component,让视频作品能直接在浏览器里播放和交互。
可以用GSAP、Lottie、CSS Animation、Three.js做动画。
Agent原生:自带5套skills,安装后可在CC里调用:
/hyperframes:教AI如何写正确的HTML构图、字幕、TTS、音画同步动画/hyperframes-cli:教AI使用各种CLI命令/hyperframes-registry:教AI安装和管理预设组件库/gsap:教AI写GSAP动画代码/website-to-hyperframes:直接把一个网页抓取并转成视频
组件市场(Catalog),自带50+预设块:
bash
npx hyperframes add instagram-follow
npx hyperframes add data-chart
npx hyperframes add flash-through-white
涵盖:社交媒体叠加层、数据可视化图表,到WebGL shader转场特效。
基于带data-*属性的HTML:
html
<div id="stage" data-composition-id="my-video" data-start="0" data-width="1920" data-height="1080">
<video id="clip-1" data-start="0" data-duration="5" data-track-index="0" src="intro.mp4" muted></video>
<img id="overlay" data-start="2" data-duration="3" data-track-index="1" src="logo.png" />
<audio id="bg-music" data-start="0" data-duration="9" data-track-index="2" data-volume="0.5" src="music.wav"></audio>
</div>
解读:定义一个 1920x1080 的画布,包含一段视频、一个图片叠加层、一段背景音乐,以及它们各自的出现时间和持续时长。
执行命令:
bash
npx hyperframes preview # 浏览器实时预览
npx hyperframes render # 导出MP4
social-auto-upload
官网,开源(GitHub,12.4K Star,2.2K Fork)一键多平台视频分发工具,提供CLI+Skill+Agent工作流,官方文档。
解决痛点:
- 重复上传是高频但低价值的劳动。视频剪完之后,真正耗人的常常不是创作,而是一遍遍点开后台、填标题、传封面、设时间。
- 同一套内容在不同平台要走不同流程。抖音、小红书、快手、B站,参数和交互都不一样,很难靠单一脚本长期维护。
- Agent看得懂网页,不代表适合做重复执行。让Agent每次都临场识别页面、截图理解、重新判断按钮位置,成本高,稳定性也未必够。
- 创作者和运营更需要的是可验证、可复用、可定时、可切账号的工作流。
功能:
- 自动化上传视频到多个社交媒体平台:抖音、Bilibili、小红书、快手、视频号、百家号、TikTok
- CLI:
- 形式:视频、图文
- 考虑Agent
OpenStoryline
一款将复杂视频创作转化为自然、直观对话式操作的AI视频开源(GitHub,2.9K Star,336 Fork)创作工具。该工具兼顾易用性与企业级可靠性,旨在降低视频创作门槛,让初学者和创意爱好者都能轻松开展视频创作工作。在线体验
整体架构围绕对话式创作核心,打通从媒体资源获取、脚本生成、音视频适配到编辑优化的全流程,各模块协同工作,实现从自然语言指令到成品视频的端到端转化,同时支持编辑流程的标准化、可复用(技能归档)。

核心功能
- 智能媒体搜索与整理:自动在线搜索并下载符合需求的图片、视频素材;基于主题对素材进行片段分割与内容理解,提升素材管理效率。
- 智能脚本生成:结合用户主题、视觉理解与情感识别,自动构建故事线和上下文感知的旁白;内置少样本风格迁移能力,可通过参考文本定义文案风格(如产品测评、休闲vlog),精准复刻语气、节奏与句式。
- 智能音乐、配音与字体推荐:支持导入个人播放列表,基于内容和情绪自动推荐背景音乐并实现智能卡点;仅需描述期望风格(如克制、抒情、纪录片),即可匹配适配的配音与字体,保障视觉风格统一。
- 对话式精细化编辑:通过自然语言指令快速完成视频片段的剪切、替换、重排;支持脚本编辑、视觉细节微调(色彩、字体、描边、位置等),指令下达后即时呈现效果。
- 编辑技能归档:将完整编辑流程保存为自定义技能,替换媒体素材后应用对应技能,可一键复刻创作风格,实现批量高效创作。
适用于多种视频创作类型,包括但不限于:种草风格视频、幽默风格视频、产品推荐视频、艺术感视频、开箱视频、萌宠拟人视频、旅行vlog、年度总结视频等。
技术栈:
- Python 3.11
- Web服务:FastAPI(对应文件
agent/_fastapi.py) - 配置管理:
config.toml - 容器化部署:Dockerfile
- 命令行交互:自定义CLI工具
cli.py - 前端相关:HTML(
web/index.html)、静态资源管理(web/static) - 脚本任务管理:自定义脚本(
scripts/llm_script_template/_label.py)、omni_bgm/_label.py等) - 依赖管理:
requirements.txt统一管理Python依赖
实战
基于源码部署:
bash
git clone https://github.com/FireRedTeam/FireRed-OpenStoryline.git
cd FireRed-OpenStoryline
./build_env.sh
# 或
pip install -r requirements.txt
# 或基于Docker
docker build -t firered-openstoryline:latest .
docker run -p 8000:8000 firered-openstoryline:latest
# 脚本
python cli.py
./run.sh
./hf_space.sh
ArcReel
官网,开源(GitHub,2.5K Star,551 Fork)的AI视频生成工作台,把一篇小说变成可发布的短视频,全程由Agent自动驱动。
从一篇完整小说到一个有人物、有剧情、有连贯画面的短视频,中间需要大量人工编排------拆剧本、设计角色、保持画面一致性、拼接视频。用多智能体架构把这些步骤串起来,自动完成整条流水线。
特性:
- 完整流水线---上传小说→AI拆分剧本→生成人物设计图→生成分镜图片→生成视频片段→FFmpeg合成成片,一次对话搞定
- 多智能体协作:基于Claude Agent SDK,编排Skill检测项目状态,自动派遣专职Subagent(角色提取、剧本生成、资产生成),每个Subagent只干一件事后返回摘要
- 多供应商可切换:图片支持Gemini、Seedream、Grok,视频支持Veo 3.1、Seedance、Grok,不锁定单一供应商
- 角色一致性:AI先生成人物设计图,后续所有分镜和视频均参考该设计,跨镜头保持角色外观统一
- 剪映草稿导出:按集导出为剪映ZIP,在剪映桌面版里二次编辑(调节奏、加字幕、配音)
- Docker一键部署:
docker compose up -d即可使用
技术栈:React 19 + FastAPI + Claude Agent SDK + Gemini / Seedream / Grok + SQLAlchemy 2.0 + FFmpeg