太强了!NarratoAI:一键 AI 影视解说+自动剪辑,10分钟视频成本仅0.1元
💡 你是否还在手动写解说文案、逐帧剪辑视频、一条一条加字幕?今天介绍一个 GitHub 爆款开源项目,它用大模型+自动化剪辑,把影视解说从几小时压缩到几分钟!

📌 先看效果
NarratoAI 提供了基于 Streamlit 的 WebUI 界面,操作直观简单:
- 上传视频素材 → AI 自动分析画面内容
- 一键生成解说文案 → 自动配音 + 字幕
- 自动剪辑合成 → 输出成品视频
🎯 它能做什么?
| 特性 | 说明 |
|---|---|
| 🎬 AI 影视解说 | 基于 LLM 自动撰写解说文案,支持纪录片、短剧等多种类型 |
| ✂️ 自动化剪辑 | 根据文案智能匹配视频片段,自动剪辑合成 |
| 🗣️ 多引擎 TTS 配音 | 支持 Edge TTS、Azure、腾讯云、SoulVoice、通义千问、豆包语音等 6+ 引擎 |
| 🎙️ 语音克隆 | 支持 IndexTTS2 零样本语音克隆,克隆你喜欢的声音 |
| 📝 自动字幕生成 | Fun-ASR 一键转录字幕,告别手动打轴 |
| 🤖 视觉理解 | 支持 Qwen2-VL、GPT-4o 等视觉大模型理解视频画面 |
| 🎞️ 短剧混剪 | 一键合并素材、一键转录、一键清理缓存 |
| 📤 剪映草稿导出 | 导出为剪映草稿,方便二次精修 |
| ☁️ 云端托管版 | 提供 NarratoAI.cn 云端版,免部署即用 |
🚀 5 分钟快速上手
环境要求
- CPU 4核+,内存 8G+(显卡非必须)
- Windows 10/11 或 macOS 11.0+
- Python 3.12+
方式一:本地运行(推荐开发者)
bash
# 第一步:克隆项目
git clone https://github.com/linyqh/NarratoAI.git
cd NarratoAI
# 第二步:安装依赖
pip install -r requirements.txt
# 第三步:复制配置文件
cp config.example.toml config.toml
# 第四步:编辑 config.toml,填入你的 API Key
# 支持 OpenAI、DeepSeek、Gemini、Qwen、SiliconFlow 等主流大模型
# 第五步:启动应用
streamlit run webui.py --server.maxUploadSize=2048
# 浏览器打开 http://localhost:8501 即可使用
方式二:Docker 一键部署(macOS 推荐)
bash
# 克隆 + 一键启动
git clone https://github.com/linyqh/NarratoAI.git
cd NarratoAI
docker compose up -d
# 访问 http://localhost:8501
方式三:Windows 整合包
🔍 核心原理揭秘
NarratoAI 的工作流程可以拆解为 "看 → 写 → 读 → 剪" 四个核心环节:
1. 看:视觉模型理解视频
python
# 关键帧提取配置(config.toml)
[frames]
frame_interval_input = 3 # 每3秒提取一帧关键画面
vision_batch_size = 10 # 大模型单次处理10帧
vision_max_concurrency = 2 # 最大并发批次数
NarratoAI 会对视频进行定时抽帧,将关键帧发送给视觉大模型(如 Qwen2-VL、GPT-4o),让 AI "看懂"视频内容,为后续文案撰写提供画面理解基础。
2. 写:LLM 自动生成解说文案
基于视觉模型返回的画面描述,文本大模型(如 DeepSeek、GLM-5 等)自动生成符合影视解说风格的文案,包括:
- 剧情梳理与节奏把控
- 悬念设置与情绪渲染
- 旁白文案的口语化表达
python
# 文本模型配置示例(config.toml)
text_llm_provider = "openai"
text_openai_model_name = "Pro/zai-org/GLM-5"
text_openai_api_key = "your-api-key"
text_openai_base_url = "https://api.siliconflow.cn/v1"
3. 读:多引擎 TTS 配音
生成的文案通过 TTS 引擎转为语音,支持 6 种以上引擎:
| 引擎 | 特点 | 是否免费 |
|---|---|---|
| Edge TTS | 微软免费TTS,音色丰富 | ✅ 免费 |
| Azure Speech | 高品质商用TTS | 💰 付费 |
| 腾讯云 TTS | 中文效果优秀 | 💰 付费 |
| SoulVoice | 情感化语音 | 💰 付费 |
| 通义千问 TTS | 阿里云端TTS | 💰 付费 |
| IndexTTS2 | 开源语音克隆 | ✅ 免费(需自部署) |
4. 剪:自动化视频剪辑
基于 MoviePy 实现的剪辑引擎,自动完成:
- 根据文案时间轴匹配视频片段
- 叠加配音音轨
- 渲染字幕(基于 pysrt)
- 合成输出最终视频
⚖️ 优缺点分析
| 维度 | 评分 | 说明 |
|---|---|---|
| 🎯 易用性 | ⭐⭐⭐⭐⭐ | Streamlit WebUI + 整合包,上手零门槛 |
| 🤖 AI 能力 | ⭐⭐⭐⭐ | 支持多模型切换,视觉+文本双模态驱动 |
| 🗣️ 配音质量 | ⭐⭐⭐⭐ | 6+ TTS 引擎 + 语音克隆,覆盖主流需求 |
| ✂️ 剪辑灵活度 | ⭐⭐⭐ | 自动剪辑为主,精细调整需导出剪映二次编辑 |
| 💰 使用成本 | ⭐⭐⭐⭐⭐ | 基础功能完全免费,API 调用费用极低(硅基流动 10分钟视频约0.1元) |
| 🔄 更新频率 | ⭐⭐⭐⭐ | 持续迭代,2024.11 至今已发布 10+ 版本 |
| 🌐 部署便捷度 | ⭐⭐⭐⭐ | Docker/整合包/源码三种方式,覆盖各平台 |
适合人群
✅ 自媒体创作者:影视解说、短剧混剪等批量内容生产
✅ 短视频运营:快速产出视频内容,降低制作成本
✅ AI 爱好者:学习 LLM + 视觉模型 + TTS 的工程实践
局限性
⚠️ 高度依赖大模型 API,纯离线使用受限
⚠️ 自动剪辑精度有限,复杂场景仍需人工调整
⚠️ 项目仅供学习研究,商用需联系作者授权
📚 总结
NarratoAI 是目前 GitHub 上少有的 AI 影视解说+自动化剪辑一站式工具,它将视觉理解、文案生成、TTS 配音、自动剪辑四大环节串联成完整流水线,让影视解说从"手工活"变成"流水线"。
对于想要快速批量产出影视解说内容的朋友来说,NarratoAI 绝对值得一试。搭配硅基流动等低成本 API 平台,一条 10 分钟的解说视频成本可能还不到一毛钱。
🔥 推荐指数:⭐⭐⭐⭐(4/5)
扣一分是因为自动剪辑精细度还有提升空间,但整体完成度和更新节奏在同类项目中表现优秀。
标签:#NarratoAI #AI影视解说 #自动剪辑 #TTS #LLM