AI视频创作工具汇总:MoneyPrinterTurbo、KrillinAI、NarratoAI、ViMax

概述

在AI、大模型火热后,视频创作工具也如雨后春笋呈现井喷模式。本文汇总一些开源项目。

视频创作是一门有着不低门槛的技能(职业),如镜头、机位、分镜......,限于个人能力,并没有太多实战经验分享。

MoneyPrinterTurbo

开源(GitHub,47.5K Star,6.6K Fork)视频创作工具,只需提供视频主题或关键词,就可全自动生成视频文案、视频素材、视频字幕、视频背景音乐,然后合成一个高清的短视频。

技术栈:ImageMagick+MoviePy+FFmpeg

功能特性

  • 完整的MVC架构,代码结构清晰,易于维护,支持API和Web界面
  • 支持视频文案AI自动生成,也支持自定义文案
  • 支持多种高清视频尺寸
  • 竖屏9:16,1080x1920
  • 横屏16:9,1920x1080
  • 支持批量生成视频,然后选择一个最满意的
  • 支持视频片段时长设置,方便调节素材切换频率
  • 支持中文和英文视频文案
  • 支持多种语音合成,可实时试听效果
  • 支持字幕生成,可调整字体、位置、颜色、大小,同时支持字幕描边设置
  • 支持背景音乐,随机或者指定音乐文件,可设置背景音乐音量
  • 视频素材来源高清+无版权,也可使用本地素材
  • 支持OpenAI、Moonshot、Azure、gpt4free、one-api、通义千问、Google Gemini、Ollama、DeepSeek、文心一言,Pollinations等多种模型接入

实战

官方提供多种使用方式:

bash 复制代码
git clone https://github.com/harry0703/MoneyPrinterTurbo.git
cd MoneyPrinterTurbo
docker compose up -d
# 或
pip install -r requirements.txt
python main.py
./webui.bat # 或./webui.sh

浏览器打开http://0.0.0.0:8501开始体验。

浏览器访问http://0.0.0.0:8080/docshttp://0.0.0.0:8080/redoc查看API文档。

MoneyPrinter

开源(GitHub,12.3K Star,1.6K Fork)

KrillinAI

官网,开源(GitHub,8.8K Star,723 Fork)跨平台AI视频翻译配音工具,100种语言双向翻译,一键部署全流程,支持:抖音,小红书,哔哩哔哩,视频号,TikTok,Youtube等。

特性

  • 本地化部署:所有数据都在你的设备上处理,完全保护隐私安全
  • 多模型支持:兼容多种开源AI模型,可以根据需求灵活切换
  • GUI:提供简洁直观的Web界面,操作简单易上手
  • 高度可定制:支持自定义配置,可根据不同场景进行优化
  • API接口:提供标准的API接口,方便集成到其他应用中
  • 资源优化:针对本地运行进行优化,即使是普通配置的电脑也能流畅使用

安装

bash 复制代码
git clone https://github.com/krillinai/KrillinAI.git
cd KrillinAI
pip install -r requirements.txt
python main.py
# 或
docker build -t krillinai .
docker run -p 8080:8080 -v ./data:/app/data krillinai

浏览器打开http://localhost:8080开始体验。

NarratoAI

一个开源(GitHub,7K Star,880 Fork)自动化影视解说工具,基于LLM实现文案撰写、自动化视频剪辑、配音和字幕生成的一站式流程,助力高效内容创作。
官方文档

安装

bash 复制代码
git clone https://github.com/linyqh/NarratoAI.git
cd NarratoAI
docker compose up -d
# 或
pip install -r requirements.txt
cp config.example.toml config.toml
vim config.toml
streamlit run webui.py --server.maxUploadSize=2048

浏览器打开http://localhost:8501

MoneyPrinterPlus

开源(GitHub,5.2K Star,977 Fork)AI视频生成、混剪、合并和自动发布的项目,无论是横屏、竖屏还是方形视频,无论是知识科普、产品介绍还是情感鸡汤,它都能在几分钟内帮你生成专业级的视频内容。

功能:

  • AI视频批量生成:输入一个或多个关键词,系统就会自动生成视频文案、匹配素材、添加配音和字幕,最终合成短视频。支持多种视频尺寸和布局,满足不同平台的需求。还能添加背景音乐和30多种转场特效,让视频更加专业生动;
  • 批量视频混剪:可准备多个视频片段和对应文案,系统会自动组合生成海量不重复的视频;
  • 视频合并:添加多个视频片段,系统自动进行视频合并,生成一个或多个不同的视频;
  • 自动发布:支持自动发布到B站等主流平台。只需要提前登录好账号,设置好标题前缀、标签等信息,系统就能自动完成上传发布;
  • LLM模型支持:OpenAI,Moonshot,DeepSeek,Ollama等;
  • 语音服务支持:本地语音、Azure、阿里云、腾讯云语音服务;
  • 素材资源库支持:Pexels、Pixabay、StableDiffusion、ComfyUI。

部署

bash 复制代码
git clone https://github.com/ddean2009/MoneyPrinterPlus.git
cd MoneyPrinterPlus
pip install -r requirements.txt
setup.bat/setup.sh
# 启动
streamlit run gui.py
# 或
start.bat/start.sh

浏览器访问:http://localhost:8501

ViMax

HKUDS(港大实验室)开源(GitHub,594 Star,87 Fork)视频生成流水线。

一个多智能体视频生成框架,支持自动化多镜头视频生成,并确保角色与场景的一致性。系统能将你的创意无缝转化为对应视频,让你专注于讲故事,而非技术实现。

端到端视频创作引擎,面临的挑战包括但不限于:

  • 参考图像:获取、整理并精准对齐能准确表达角色、物体、位置与环境的参考帧,耗时费力;
  • 一致性校验:即使提供了正确的角色、位置、环境参考图与提示词,图像生成器有时仍会产出不可用图像;
  • 剧本生成:专业高质量视频需要高信息密度与结构化设计;
  • 分镜设计:将故事转化为视觉叙事,需要摄影、构图与视觉叙事的专业知识,而大多数创作者并不具备;
  • 镜头设计:在复杂场景中保持叙事连贯性的同时,设计合理的镜头角度、转场与节奏;
  • 风格一致性:在长视频中确保数百个镜头的角色外观、环境与艺术风格保持一致;
  • 制作效率:传统视频制作依赖多个专业人员与冗长流程,阻碍了独立创作者与快速原型开发;
  • AI视频扩展性:AI生成视频通常仅几秒,而分钟级甚至小时级的高质量长视频需要复杂的跨场景连续性与多分镜协同处理能力。

ViMAX通过自动化从叙事输入到最终视频输出的完整流程,彻底消除上述制作瓶颈。

核心特性:

  • 创意到视频:从灵感到银幕,Idea2Video

通过智能多智能体工作流,将原始创意自动转化为完整视频故事,涵盖叙事构建、角色设计与视频制作全流程。

  • 小说到视频:智能文学改编引擎,Novel2Video

将完整小说智能压缩并转化为分集视频内容,实现角色追踪、叙事压缩与逐场景视觉化改编。

  • 剧本到视频:无限剧本视频创作,Script2Video

自由创作任意剧本,从个人故事到史诗冒险,全面掌控视觉叙事的每个细节。

  • 智能客串:用照片生成视频,AutoCameo

创建属于你的客串视频,将自己融入无限创意剧本、影级镜头与互动剧情中,成为故事中的明星角色。

技术能力:

  • 智能长剧本生成:基于RAG的长剧本引擎,可智能分析小说级长文本,并自动切分为多场景剧本格式,精准保留关键情节与角色对话;
  • 表现力分镜设计:基于用户需求与目标受众,运用电影语言生成富有表现力的镜头级分镜,为后续视频生成奠定叙事节奏;
  • 多机位拍摄模拟:模拟多机位拍摄,提供沉浸式观看体验,同时确保同一场景内角色位置与背景的一致性;
  • 智能参考图选择:智能选取当前视频首帧所需的参考图(包括前序时间线中的分镜),确保视频越长,多角色与环境元素越准确;
  • 自动化图像生成:基于所选参考图与前序时间线的视觉逻辑,自动生成图像生成器提示词,合理安排角色与环境的空间交互位置;
  • 图像生成一致性校验:并行生成多张图像,并通过MLLM/VLM选择最一致的图像作为首帧,模拟人类创作者的工作流程;
  • 高效并行镜头生成:对同一机位拍摄的连续镜头进行并行处理,极大提升视频生产效率。

多智能体视频生成流水线

实战

安装:

bash 复制代码
git clone https://github.com/HKUDS/ViMax.git
cd ViMax
uv sync

gollmagent

开源(GitHub,70 Star,21 Fork),小demo项目,基于GO+LLM+FFmpeg,其中音频处理能力包括ASR和TTS,基于腾讯API。

音视频处理功能:

  • 将多媒体文件提取音频, 转换为m4a格式
  • 将多媒体文件转换为mp4格式, 主要为视频文件,并显示进度
  • 合并多个多媒体文件为一个带有视频和音频的mp4文件
  • 合并多个多媒体文件的音频为一个纯音频的m4a文件
  • 给视频添加图片水印
  • 给视频添加文字水印
  • 给视频添加字幕,支持SRT文件
  • 基于视频的I帧生成图片
  • 在指定时刻截取视频帧

支持的视频分辨率:480p、720p、1080p、1440p、2160p(4K)

API

即可用工具

工具名称 功能描述 参数
get_ffmpeg_version 获取当前FFmpeg版本
get_m4a_from_media_file 提取音频为M4A格式 input_file
transcode_with_progress 转换为MP4并显示进度 input_file,video_resolution
concat_media_files 合并媒体文件(视频+音频) input_files[]
concat_media_audio_files 仅合并音频轨道 input_files[]
image_watermark_to_video 添加图片水印 input_file,watermark_file,position
text_watermark_to_video 添加文字水印 input_file,watermark_text,position,color
srt_to_video 添加字幕 input_file,srt_file
gen_pictures_from_video 提取I帧图片 input_file
screenshot_at_moment 指定时刻截图 input_file,moment

安装

bash 复制代码
git clone https://github.com/runner365/gollmagent.git
cd gollmagent
go mod download
go build -o gollmagent .
./gollmagent

系统启动一个对话命令行,可以与AI大模型继续聊天,来完成音视频处理任务:

bash 复制代码
请转码视频文件为360p,文件地址:D:\movies\src\1.mp4
合并多个视频文件,文件列表为: D:\movies\src\1.mp4, D:\movies\src\2.mp4
对视频D:\movies\src\2.mp4,在00:00:15截图
对视频D:\movies\src\1.mp4的所有iframe截图
对视频文件D:\movies\src\1.mp4添加水印:D:\movies\src\media_talk_Logo.png, 位置左上角

拓展

MoviePy

ImageMagick

官网,一款开源套件,用于编辑和处理数字图像。可用于创建、编辑、合成、转换图像,并支持多种文件格式,如JPEG、PNG、GIF、TIFF和Ultra HDR。

实战

以Windows为例,从官网下载,几个步骤:

  • 先选择操作系统的位数,现在基本上都是64位,选择x64
  • 然后选择免安装版,如ImageMagick-7.1.2-8-portable-Q16-x64.7z,解压缩得到8个可执行文件,需通过命令行使用:
  • 然后选择像素位数,官方提供三类,如Q8、Q16、Q16-HDRI,Q8表示每像素8位,Q16表示每像素16位,Q16-HDRI表示每像素16位+HDRI(High Dynamic Range Imaging,高动态范围成像)。三者依次提供更高的精度,相应地需要的计算资源也越高。
  • 至于静态库版本,如ImageMagick-7.1.2-8-Q16-x64-static.exe,和DLL库版本,如ImageMagick-7.1.2-8-Q16-x64-dll.exe,个人实测下来,暂时没有发现区别在哪里。都有两个exe文件,启动程序(下面这个)大小不一样,但是两种版本,双击exe文件都是一闪而过,并不能打开一个GUI应用程序;需要提供命令行来使用。

当然Windows平台也支持通过命令行下载:

bash 复制代码
# WinGet
winget install ImageMagick.Q16-HDRI
winget install ImageMagick.Q16
winget install ImageMagick.Q8
scoop install main/imagemagick
choco install imagemagick

对WinGet不熟悉的,可参考Windows程序包管理器WinGet实战

其他平台:

bash 复制代码
# MacOS
brew install imagemagick
# Ubuntu
sudo apt-get install imagemagick
# CentOS
sudo yum install ImageMagick

FFmpeg

谈到视频创建、编辑、剪辑,自然离不开FFmpeg。之前简单玩过,参考获取在线URL视频时长和生成视频缩略图(Java)

深入掌握FFmpeg,没有个把月根本不敢说精通甚至熟悉。

bash 复制代码
bash 复制代码
bash 复制代码
相关推荐
Coovally AI模型快速验证3 小时前
当视觉语言模型接收到相互矛盾的信息时,它会相信哪个信号?
人工智能·深度学习·算法·机器学习·目标跟踪·语言模型
居7然3 小时前
Attention注意力机制:原理、实现与优化全解析
人工智能·深度学习·大模型·transformer·embedding
Scabbards_3 小时前
KGGEN: 用语言模型从纯文本中提取知识图
人工智能·语言模型·自然语言处理
LeonDL1683 小时前
【通用视觉框架】基于C#+Winform+OpencvSharp开发的视觉框架软件,全套源码,开箱即用
人工智能·c#·winform·opencvsharp·机器视觉软件框架·通用视觉框架·机器视觉框架
AI纪元故事会3 小时前
《目标检测全解析:从R-CNN到DETR,六大经典模型深度对比与实战指南》
人工智能·yolo·目标检测·r语言·cnn
Shang180989357264 小时前
T41LQ 一款高性能、低功耗的系统级芯片(SoC) 适用于各种AIoT应用智能安防、智能家居方案优选T41L
人工智能·驱动开发·嵌入式硬件·fpga开发·信息与通信·信号处理·t41lq
Bony-4 小时前
用于糖尿病视网膜病变图像生成的GAN
人工智能·神经网络·生成对抗网络
罗西的思考4 小时前
【Agent】 ACE(Agentic Context Engineering)源码阅读笔记---(3)关键创新
人工智能·算法
Elastic 中国社区官方博客4 小时前
通过混合搜索重排序提升多语言嵌入模型的相关性
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索