太强了！NarratoAI：一键 AI 影视解说+自动剪辑，10分钟视频成本仅0.1元

💡 你是否还在手动写解说文案、逐帧剪辑视频、一条一条加字幕？今天介绍一个 GitHub 爆款开源项目，它用大模型+自动化剪辑，把影视解说从几小时压缩到几分钟！

📌 先看效果

NarratoAI 提供了基于 Streamlit 的 WebUI 界面，操作直观简单：

上传视频素材 → AI 自动分析画面内容
一键生成解说文案 → 自动配音 + 字幕
自动剪辑合成 → 输出成品视频

🎯 它能做什么？

特性	说明
🎬 AI 影视解说	基于 LLM 自动撰写解说文案，支持纪录片、短剧等多种类型
✂️ 自动化剪辑	根据文案智能匹配视频片段，自动剪辑合成
🗣️ 多引擎 TTS 配音	支持 Edge TTS、Azure、腾讯云、SoulVoice、通义千问、豆包语音等 6+ 引擎
🎙️ 语音克隆	支持 IndexTTS2 零样本语音克隆，克隆你喜欢的声音
📝 自动字幕生成	Fun-ASR 一键转录字幕，告别手动打轴
🤖 视觉理解	支持 Qwen2-VL、GPT-4o 等视觉大模型理解视频画面
🎞️ 短剧混剪	一键合并素材、一键转录、一键清理缓存
📤 剪映草稿导出	导出为剪映草稿，方便二次精修
☁️ 云端托管版	提供 NarratoAI.cn 云端版，免部署即用

🚀 5 分钟快速上手

环境要求

CPU 4核+，内存 8G+（显卡非必须）
Windows 10/11 或 macOS 11.0+
Python 3.12+

方式一：本地运行（推荐开发者）

bash 复制代码

# 第一步：克隆项目
git clone https://github.com/linyqh/NarratoAI.git
cd NarratoAI

# 第二步：安装依赖
pip install -r requirements.txt

# 第三步：复制配置文件
cp config.example.toml config.toml

# 第四步：编辑 config.toml，填入你的 API Key
# 支持 OpenAI、DeepSeek、Gemini、Qwen、SiliconFlow 等主流大模型

# 第五步：启动应用
streamlit run webui.py --server.maxUploadSize=2048

# 浏览器打开 http://localhost:8501 即可使用

方式二：Docker 一键部署（macOS 推荐）

bash 复制代码

# 克隆 + 一键启动
git clone https://github.com/linyqh/NarratoAI.git
cd NarratoAI
docker compose up -d

# 访问 http://localhost:8501

方式三：Windows 整合包

🔍 核心原理揭秘

NarratoAI 的工作流程可以拆解为 "看 → 写 → 读 → 剪" 四个核心环节：

1. 看：视觉模型理解视频

python 复制代码

# 关键帧提取配置（config.toml）
[frames]
frame_interval_input = 3       # 每3秒提取一帧关键画面
vision_batch_size = 10         # 大模型单次处理10帧
vision_max_concurrency = 2     # 最大并发批次数

NarratoAI 会对视频进行定时抽帧，将关键帧发送给视觉大模型（如 Qwen2-VL、GPT-4o），让 AI "看懂"视频内容，为后续文案撰写提供画面理解基础。

2. 写：LLM 自动生成解说文案

基于视觉模型返回的画面描述，文本大模型（如 DeepSeek、GLM-5 等）自动生成符合影视解说风格的文案，包括：

剧情梳理与节奏把控
悬念设置与情绪渲染
旁白文案的口语化表达

python 复制代码

# 文本模型配置示例（config.toml）
text_llm_provider = "openai"
text_openai_model_name = "Pro/zai-org/GLM-5"
text_openai_api_key = "your-api-key"
text_openai_base_url = "https://api.siliconflow.cn/v1"

3. 读：多引擎 TTS 配音

生成的文案通过 TTS 引擎转为语音，支持 6 种以上引擎：

引擎	特点	是否免费
Edge TTS	微软免费TTS，音色丰富	✅ 免费
Azure Speech	高品质商用TTS	💰 付费
腾讯云 TTS	中文效果优秀	💰 付费
SoulVoice	情感化语音	💰 付费
通义千问 TTS	阿里云端TTS	💰 付费
IndexTTS2	开源语音克隆	✅ 免费（需自部署）

4. 剪：自动化视频剪辑

基于 MoviePy 实现的剪辑引擎，自动完成：

根据文案时间轴匹配视频片段
叠加配音音轨
渲染字幕（基于 pysrt）
合成输出最终视频

⚖️ 优缺点分析

维度	评分	说明
🎯 易用性	⭐⭐⭐⭐⭐	Streamlit WebUI + 整合包，上手零门槛
🤖 AI 能力	⭐⭐⭐⭐	支持多模型切换，视觉+文本双模态驱动
🗣️ 配音质量	⭐⭐⭐⭐	6+ TTS 引擎 + 语音克隆，覆盖主流需求
✂️ 剪辑灵活度	⭐⭐⭐	自动剪辑为主，精细调整需导出剪映二次编辑
💰 使用成本	⭐⭐⭐⭐⭐	基础功能完全免费，API 调用费用极低（硅基流动 10分钟视频约0.1元）
🔄 更新频率	⭐⭐⭐⭐	持续迭代，2024.11 至今已发布 10+ 版本
🌐 部署便捷度	⭐⭐⭐⭐	Docker/整合包/源码三种方式，覆盖各平台

适合人群

✅ 自媒体创作者：影视解说、短剧混剪等批量内容生产

✅ 短视频运营：快速产出视频内容，降低制作成本

✅ AI 爱好者：学习 LLM + 视觉模型 + TTS 的工程实践

局限性

⚠️ 高度依赖大模型 API，纯离线使用受限

⚠️ 自动剪辑精度有限，复杂场景仍需人工调整

⚠️ 项目仅供学习研究，商用需联系作者授权

📚 总结

NarratoAI 是目前 GitHub 上少有的 AI 影视解说+自动化剪辑一站式工具，它将视觉理解、文案生成、TTS 配音、自动剪辑四大环节串联成完整流水线，让影视解说从"手工活"变成"流水线"。

对于想要快速批量产出影视解说内容的朋友来说，NarratoAI 绝对值得一试。搭配硅基流动等低成本 API 平台，一条 10 分钟的解说视频成本可能还不到一毛钱。

🔥 推荐指数：⭐⭐⭐⭐（4/5）

扣一分是因为自动剪辑精细度还有提升空间，但整体完成度和更新节奏在同类项目中表现优秀。

📢 原文链接：https://github.com/linyqh/NarratoAI

标签：#NarratoAI #AI影视解说 #自动剪辑 #TTS #LLM