阿里开源项目Pixelle-Video 详解：开源AI全自动短视频引擎，零门槛一键生成成片

摘要

在短视频创作日益普及的今天，剪辑门槛高、创作效率低、专业技能不足等问题，成为很多人及中小团队入局短视频赛道的绊脚石。Pixelle-Video 作为一款开源的AI全自动短视频引擎，凭借"输入一个主题，一键生成完整视频"的核心能力，完美解决这一痛点。本文将从项目概况、核心功能、技术架构、部署教程、使用指南、常见问题等维度，全方位拆解 Pixelle-Video，帮助开发者、自媒体人、新手小白快速掌握这款工具，实现零剪辑经验也能高效产出高质量短视频。

关键词：Pixelle-Video；AI短视频；全自动视频生成；开源工具；ComfyUI；TTS配音；文生图

前言

随着短视频平台的爆发式增长，无论是个人自媒体、知识科普博主，还是中小企业的营销推广，都需要大量优质短视频内容来吸引流量、传递信息。但传统短视频创作流程繁琐，从文案撰写、素材拍摄、配音合成，到剪辑排版、添加BGM，每一步都需要专业技能和大量时间投入，普通人很难快速上手，中小团队也难以承担高额的创作成本。

为解决这一行业痛点，AIDC-AI 团队开源了 Pixelle-Video------一款端到端的AI全自动短视频引擎，于2025年11月正式发布，截至2026年1月已更新至 v0.1.11 版本，迭代速度快，功能持续完善。该工具基于 Apache-2.0 开源协议，完全免费可商用，只需输入一个主题关键词，就能自动完成文案撰写、AI配图/视频生成、语音解说合成、背景音乐添加、视频整合剪辑等全流程操作，真正实现"一句话出成片"，让短视频创作变得零门槛、高效率。

本文将结合 Pixelle-Video 官方GitHub源码信息，从项目基础信息、核心功能亮点、技术架构、详细部署步骤、完整使用教程、常见问题解答等方面，进行全面、细致的解析，帮助不同需求的用户快速上手这款强大的开源工具。

一、项目基础信息概览

1. 项目基本信息

Pixelle-Video 是由 AIDC-AI 团队开发并开源的 AI 全自动短视频引擎，核心定位是"零门槛、全自动化、高灵活度"的短视频创作工具，面向所有需要快速生成短视频的用户，涵盖自媒体、知识科普、营销推广、个人记录等多种场景。

项目关键信息如下：

项目名称：Pixelle-Video
开源机构：AIDC-AI
开源协议：Apache-2.0 许可证（完全开源，可商用，无需担心版权问题）
发布时间：2025年11月7日（首次提交）
最新版本：v0.1.11（2025年12月28日发布，Windows一键整合包最新版）
项目地址：https://github.com/AIDC-AI/Pixelle-Video
官方文档：https://aidc-ai.github.io/Pixelle-Video/zh
技术栈：Python、Streamlit（Web界面）、ComfyUI（工作流管理）、FFmpeg（视频处理）、各类AI大模型（LLM、文生图、TTS等）

2. 项目更新日志（核心迭代亮点）

Pixelle-Video 自发布以来，迭代速度较快，持续优化功能体验、修复问题、扩展兼容性，核心更新日志如下（按时间倒序）：

2026-01-06：新增 RunningHub 48G 显存机器调用支持，提升云端图像/视频生成速度，适配更高规格的算力需求。
2025-12-28：支持 RunningHub 并发限制可配置，优化 LLM 返回结构化数据的逻辑，减少文案生成报错概率，提升稳定性。
2025-12-17：支持 ComfyUI API Key 配置，支持 Nano Banana 模型调用，API 接口支持模板自定义参数，灵活度进一步提升。
2025-12-10：侧边栏内置 FAQ，方便用户快速解决使用中的常见问题；锁定 edge-tts 版本，修复 TTS 服务不稳定、配音卡顿或无声音的问题。
2025-12-08：支持固定脚本多种分割方式（段落/行/句子），适配不同文案格式；优化模板选择交互逻辑，支持直接预览模板效果，无需生成后再调整。
2025-12-06：修复视频生成 API 返回 URL 路径处理异常的问题，提升跨平台兼容性，确保 Windows、macOS、Linux 系统都能正常生成并保存视频。
2025-12-05：新增 Windows 一键整合包下载，无需手动安装 Python、uv、ffmpeg 等依赖，开箱即用；优化图片与视频反推工作流，提升素材生成的精准度。
2025-12-04：新增「自定义素材」功能，支持用户上传自己的照片和视频，AI 会智能分析素材内容，生成匹配的文案和剪辑逻辑，满足个性化创作需求。
2025-11-18：优化 RunningHub 服务调用支持并行处理，提升多任务生成效率；新增历史记录页面，支持批量创建视频任务，方便用户管理多个创作项目。

3. 项目核心优势

相较于市面上其他短视频生成工具，Pixelle-Video 凭借开源免费、全自动化、高灵活度、低成本等优势，在同类工具中脱颖而出，核心优势主要体现在以下4点：

零门槛上手：无需剪辑经验、无需编程基础，只需输入主题，就能自动完成全流程创作，小白也能快速产出成片。
完全开源免费：基于 Apache-2.0 协议，源码完全开放，可自由修改、二次开发，无任何隐藏收费，本地部署可实现0成本使用。
灵活度极高：支持自定义文案、配音、BGM、视觉风格、视频模板，可替换 AI 模型和工作流，满足不同场景的个性化创作需求。
跨平台兼容：支持 Windows、macOS、Linux 系统，部署方式多样（一键整合包、源码部署、Docker 部署），适配不同用户的使用环境。

二、核心功能详细解析

Pixelle-Video 的核心功能是"全自动短视频生成"，但背后涵盖了文案生成、AI 素材生成、配音合成、视频剪辑等多个模块，每个模块都支持灵活定制，以下是详细拆解：

1. 全流程自动化创作（核心功能）

这是 Pixelle-Video 最核心的亮点，无需用户手动干预，输入一个主题关键词，系统就能自动完成从文案到成片的全流程操作，具体流程如下：

输入主题 → AI 生成文案（解说词）→ 文案分割为分镜 → AI 为每个分镜生成配图/视频 → 合成语音解说 → 添加背景音乐 → 按模板整合剪辑 → 输出完整 MP4 视频。

整个流程耗时取决于分镜数量、网络状况和 AI 推理速度，通常几分钟内即可完成，极大提升了短视频创作效率。例如，输入主题"如何提升自己"，系统会自动生成关于自我提升的文案，分割为10个左右的分镜，为每个分镜生成匹配的插图，合成专业配音，添加合适的 BGM，最终生成一段1-3分钟的竖屏短视频，可直接用于小红书、抖音等平台。

2. 文案生成模块

文案是短视频的核心，Pixelle-Video 提供两种文案生成模式，适配不同用户的需求：

AI 生成内容：用户只需输入一个主题关键词（如"为什么要养成阅读习惯""副业赚钱方法"），系统会调用配置好的 LLM 大模型（如 GPT、通义千问、DeepSeek、Ollama 等），自动创作出符合主题的视频解说词，文案逻辑清晰、语言流畅，适配短视频的节奏。
固定文案内容：如果用户已有现成的文案（如提前写好的知识科普脚本、营销文案），可以直接粘贴到输入框，跳过 AI 创作步骤，直接进入素材生成和剪辑环节，适合有明确文案需求的用户。

此外，文案支持多种分割方式（段落/行/句子），用户可根据视频节奏调整分镜数量，分割后的每一段文案对应一个视频分镜，确保文案与画面同步。

3. AI 素材生成模块（配图/视频）

素材是短视频的视觉核心，Pixelle-Video 支持 AI 自动生成配图和视频，适配不同的视觉风格，具体功能如下：

AI 配图生成：支持通过 ComfyUI 调用各类文生图模型（如 FLUX、Qwen 等），为每个分镜生成匹配的插图。用户可设置图像尺寸（默认 1024x1024，可自定义）、提示词前缀（控制画面风格，如"极简黑白火柴人风格、线条简洁"），点击"预览风格"可提前查看配图效果，避免生成不符合预期的素材。
AI 视频生成：支持调用 WAN 2.1 等文生视频模型，生成动态视频内容，替代静态插图，让视频更具观赏性。用户可根据需求选择"配图模式"或"视频模式"，灵活适配不同的视频风格。
自定义素材上传：用户可上传自己的照片、视频素材，系统会智能分析素材内容，匹配对应的文案和剪辑逻辑，实现"自定义素材+AI 辅助剪辑"的创作模式，满足个性化需求。

素材生成支持本地部署（ComfyUI 本地运行）和云端部署（RunningHub 云端算力），本地部署可实现0成本，云端部署无需配置本地环境，适合没有高性能显卡的用户。

4. 语音合成模块（TTS）

语音解说是短视频的重要组成部分，Pixelle-Video 支持多种 TTS 方案，音质清晰、自然，可灵活定制，具体功能如下：

多 TTS 工作流支持：内置 Edge-TTS、Index-TTS、Chat-TTS 等多种主流 TTS 方案，用户可根据需求选择，系统会自动扫描 workflows 文件夹中的 TTS 工作流，无需手动配置。
声音克隆功能：支持上传参考音频文件（MP3/WAV/FLAC 等格式），通过 Index-TTS 等支持声音克隆的工作流，克隆参考音频的音色，让配音更具个性化（如克隆自己的声音、明星声音等）。
语音预览与调整：用户可输入测试文本，点击"预览语音"试听配音效果，可调整语速（如 1.2x、1.5x）、音色（如男声-专业、女声-温柔），确保配音与视频节奏匹配。

其中，Edge-TTS 无需额外配置，开箱即用，只需确保网络环境可用，适合新手用户；Index-TTS、Chat-TTS 等需要简单配置，音质和灵活性更优，适合对配音有更高要求的用户。

5. 背景音乐与视频模板模块

背景音乐和视频模板决定了短视频的整体风格和氛围，Pixelle-Video 提供丰富的选项，支持灵活定制：

背景音乐（BGM）：支持三种模式------无 BGM（纯人声解说）、内置音乐（系统预置 default.mp3 等背景音乐，点击可试听）、自定义音乐（用户将 MP3/WAV 等格式的音乐文件放到 bgm 文件夹，即可在系统中选择使用）。背景音乐音量可自动适配，避免盖过人声解说。
视频模板：提供多种模板，按类型可分为静态模板（static_*.html，纯文字样式，无需 AI 生成媒体）、图片模板（image_*.html，使用 AI 生成的图片作为背景）、视频模板（video_*.html，使用 AI 生成的视频作为背景）；按尺寸可分为竖屏、横屏、方形，适配抖音、小红书、视频号、B站等不同平台的需求。
模板自定义：如果用户懂 HTML，可在 templates 文件夹中创建自己的视频模板，自定义画面布局、文字样式、转场效果等，实现更具个性化的视频风格。

6. 其他实用功能

批量任务创建：支持同时创建多个视频任务，并行处理，提升创作效率，适合需要批量产出短视频的用户（如自媒体矩阵运营）。
历史记录管理：新增历史记录页面，记录所有生成的视频任务，可查看视频预览、生成时间、文件路径等信息，方便用户后续查找和管理。
多模型兼容：支持 GPT、通义千问、DeepSeek、Ollama 等多种 LLM 模型，支持 FLUX、Qwen 等多种生图模型，用户可根据自己的 API 资源和需求选择合适的模型。
Web 可视化操作：采用三栏布局（系统配置、内容输入与设置、生成视频），界面简洁直观，所有操作都可在浏览器中完成，无需安装额外客户端。

三、技术架构与部署教程

Pixelle-Video 采用模块化设计，基于 Python 开发，核心依赖 ComfyUI 进行工作流管理，FFmpeg 进行视频处理，Streamlit 搭建 Web 界面，整体架构清晰，部署方式多样，适合不同技术水平的用户。

1. 核心技术架构

Pixelle-Video 的架构分为四层，从下到上依次为：依赖层、核心功能层、Web 交互层、用户层，各层职责清晰，协同工作：

依赖层：包括 Python 环境、uv 包管理器、FFmpeg 视频处理工具、ComfyUI 工作流引擎，以及各类 AI 模型（LLM、TTS、文生图/文生视频），是整个系统运行的基础。
核心功能层：涵盖文案生成模块、素材生成模块、语音合成模块、视频合成模块、任务管理模块，负责处理短视频生成的全流程逻辑，各模块可独立调用、灵活组合。
Web 交互层：基于 Streamlit 开发，提供可视化操作界面，负责接收用户输入、展示配置选项、显示生成进度、预览视频效果，是用户与系统交互的桥梁。
用户层：包括新手用户、自媒体人、开发者、中小团队等不同群体，通过 Web 界面即可完成所有操作，无需关注底层技术细节。

这种模块化架构的优势在于，可灵活替换各模块的实现（如替换生图模型、TTS 方案），也可基于源码进行二次开发，扩展新的功能（如新增视频转场效果、支持更多平台导出）。

2. 部署方式（三种方案，按需选择）

Pixelle-Video 提供三种部署方式，分别适配 Windows 新手用户、macOS/Linux 用户、开发者及需要批量部署的用户，部署流程简单，无需复杂的技术操作。

方案一：Windows 一键整合包（推荐新手，开箱即用）

该方案无需安装 Python、uv、ffmpeg 等任何依赖，解压后即可运行，适合 Windows 系统的新手用户，具体步骤如下：

下载整合包：访问 Pixelle-Video GitHub 项目页面，找到"Windows 一键整合包"下载链接（最新版本为 v0.1.11），点击下载并解压到本地（建议解压到非中文路径，避免出现路径错误）。
启动系统：双击解压文件夹中的 start.bat 文件，系统会自动启动 Web 服务，无需手动配置。
访问界面：启动成功后，浏览器会自动打开 http://localhost:8501，进入 Pixelle-Video 的 Web 操作界面。
配置初始化：首次使用时，展开左侧"⚙️ 系统配置"面板，填写 LLM 配置和图像配置（具体配置方法见下文"使用指南"），保存配置后即可开始生成视频。

提示：整合包已包含所有依赖和预置模型，首次启动可能需要几分钟时间加载资源，耐心等待即可。

方案二：源码部署（适合 macOS/Linux 用户或需要自定义的用户）

该方案需要手动安装依赖环境，适合有一定技术基础的用户，可自定义配置和二次开发，具体步骤如下：

第一步：安装前置依赖

需要先安装 Python 包管理器 uv 和视频处理工具 ffmpeg，不同系统的安装方法如下：

安装 uv：访问 uv 官方文档（https://docs.astral.sh/uv/），根据自己的系统选择对应的安装方法，安装完成后，在终端中运行 uv --version，显示版本号即安装成功。
安装 ffmpeg：
- macOS：使用 Homebrew 安装，终端运行 brew install ffmpeg。
- Ubuntu/Debian：终端运行 sudo apt update && sudo apt install ffmpeg。
- Windows：下载 ffmpeg 安装包（https://ffmpeg.org/download.html），解压后将 bin 目录添加到系统环境变量 PATH 中，终端运行 ffmpeg -version 验证安装成功。

第二步：下载项目源码

终端运行以下命令，下载 Pixelle-Video 源码并进入项目目录：

git clone https://github.com/AIDC-AI/Pixelle-Video.git

cd Pixelle-Video

第三步：启动 Web 界面

使用 uv 运行 Streamlit Web 服务，终端运行以下命令：

uv run streamlit run web/app.py

启动成功后，浏览器会自动打开 http://localhost:8501，进入 Web 操作界面，后续配置与 Windows 整合包一致。

方案三：Docker 部署（适合批量部署、服务器部署）

该方案适合需要在服务器上部署、批量运行的用户，利用 Docker 容器化部署，可避免环境冲突，简化部署流程，具体步骤如下：

安装 Docker 和 Docker Compose：确保服务器已安装 Docker 和 Docker Compose，具体安装方法参考官方文档。
下载项目源码：同方案二，克隆 Pixelle-Video 源码到服务器本地。
启动 Docker 容器：终端进入项目目录，运行 docker-compose up -d，Docker 会自动构建镜像并启动容器。
访问界面：容器启动成功后，在浏览器中访问 http://服务器IP:8501，即可进入操作界面，配置完成后即可使用。

提示：Docker 部署时，需提前在 docker-compose.yml 中配置好 LLM 和图像服务的相关参数，避免出现配置异常。

四、完整使用指南（从零开始生成第一个短视频）

无论采用哪种部署方式，启动 Web 界面后，使用流程都是一致的，以下是详细的使用步骤，帮助新手快速生成第一个 AI 全自动短视频：

第一步：系统配置（首次使用必填）

首次使用时，必须先配置 LLM 大模型和图像生成服务，否则无法生成文案和素材，具体配置方法如下：

展开 Web 界面左侧的"⚙️ 系统配置"面板，分为 LLM 配置和图像配置两部分。
LLM 配置（用于生成文案）：
1. 快速选择预设：从下拉菜单中选择预设的 LLM 模型（如通义千问、GPT-4o、DeepSeek 等），选择后系统会自动填充 base_url 和 model 信息。
2. 获取 API Key：点击"🔑 获取 API Key"链接，跳转到对应模型的官方网站，注册并获取 API Key（如通义千问需要注册阿里云账号，GPT 需要注册 OpenAI 账号）。
3. 手动配置（可选）：如果预设中没有需要的模型，可手动填写 API Key、Base URL、Model 名称，完成自定义配置。
图像配置（用于生成配图/视频）：
1. 本地部署（推荐，0成本）：填写本地 ComfyUI 服务地址（默认 http://127.0.0.1:8188），点击"测试连接"，确认服务可用即可（需提前启动本地 ComfyUI）。
2. 云端部署（无需本地环境）：填写 RunningHub API Key，配置完成后即可使用云端算力生成素材（需注册 RunningHub 账号并获取 API Key）。
配置完成后，点击"保存配置"，系统会自动保存配置信息，后续使用无需重复配置。

第二步：内容输入（左侧栏）

在左侧"内容输入"面板，选择生成模式并输入相关内容：

选择生成模式：
1. AI 生成内容：适合没有现成文案的用户，在输入框中填写主题关键词（如"如何增加被动收入""养生知识科普"），系统会自动生成文案。
2. 固定文案内容：适合已有现成文案的用户，直接将文案粘贴到输入框中，可选择文案分割方式（段落/行/句子），调整分镜数量。
选择背景音乐（BGM）：
1. 无 BGM：生成纯人声解说的视频。
2. 内置音乐：从下拉菜单中选择系统预置的背景音乐，点击"试听 BGM"预览效果。
3. 自定义音乐：将自己的音乐文件放到项目的 bgm 文件夹中，刷新页面后即可在下拉菜单中选择。

第三步：语音与视觉设置（中间栏）

在中间面板，配置配音和视觉风格，确保视频效果符合预期：

语音设置（TTS）：
1. 选择 TTS 工作流：从下拉菜单中选择合适的 TTS 方案（如 Edge-TTS、Index-TTS）。
2. 声音克隆（可选）：上传参考音频文件，用于克隆音色（仅支持部分 TTS 工作流）。
3. 预览语音：输入测试文本，点击"预览语音"，调整语速和音色，直到满意为止。
视觉设置：
1. 选择图像生成工作流：从下拉菜单中选择 ComfyUI 工作流（支持本地和云端），默认使用 image_flux.json。
2. 设置图像尺寸：根据视频平台需求，设置图像宽度和高度（如竖屏 1080x1920，横屏 1920x1080）。
3. 设置提示词前缀：输入英文提示词，控制配图风格（如"Minimalist black-and-white matchstick figure style illustration, clean lines, simple sketch style"），点击"预览风格"查看效果。
4. 选择视频模板：从下拉菜单中选择合适的模板（按尺寸分组），点击"预览模板"查看布局效果，可根据需求选择静态、图片或视频模板。

第四步：生成视频（右侧栏）

所有配置完成后，即可启动视频生成流程：

点击右侧"🎬 生成视频"按钮，系统会开始自动执行全流程操作，实时显示生成进度（如"生成文案 → 分镜 3/5 - 生成插图 → 合成语音 → 合成视频"）。
生成完成后，系统会自动显示视频预览，同时显示视频时长、文件大小、分镜数等信息。
视频文件默认保存在项目的 output 文件夹中，用户可直接打开文件夹，将视频导出到本地，用于后续发布或编辑。

第五步：后续管理（可选）

生成视频后，用户可在"历史记录"页面查看所有生成的任务，可重新预览、删除或重新生成视频；如果对视频效果不满意，可调整配置（如更换模板、调整配音、修改提示词），重新生成。

五、常见问题解答（FAQ）

在使用 Pixelle-Video 的过程中，新手用户可能会遇到一些常见问题，以下是官方整理的高频问题及解决方案，帮助大家快速避坑：

Q1：第一次使用需要多久才能生成视频？

A：生成时长取决于三个因素：分镜数量（分镜越多，耗时越长）、网络状况（云端部署受网络影响较大）、AI 推理速度（本地部署取决于显卡性能，云端部署取决于算力规格）。通常情况下，10个分镜的视频，几分钟内即可完成生成。

Q2：生成的视频效果不满意，该如何调整？

A：可从以下4个方面调整，提升视频效果：

更换 LLM 模型：不同模型的文案风格不同，可尝试更换通义千问、GPT 等模型，生成更符合预期的文案。
调整视觉设置：修改图像尺寸和提示词前缀，改变配图风格；更换视频模板，调整画面布局。
优化配音效果：更换 TTS 工作流，调整语速和音色；上传参考音频，使用声音克隆功能，让配音更个性化。
调整文案：如果 AI 生成的文案不符合需求，可手动修改文案，或更换主题关键词，重新生成文案。

Q3：使用 Pixelle-Video 需要付费吗？

A：Pixelle-Video 本身完全免费，基于 Apache-2.0 协议开源，无任何隐藏收费。但使用过程中，AI 模型调用可能会产生费用，具体分为三种方案：

完全免费方案：LLM 使用 Ollama（本地运行）+ ComfyUI 本地部署，无需调用云端 API，0 成本使用。
高性价比方案：LLM 使用通义千问（API 调用成本极低）+ ComfyUI 本地部署，适合没有高性能显卡但想控制成本的用户。
云端方案：LLM 使用 OpenAI + 图像使用 RunningHub，费用较高，但无需配置本地环境，适合没有本地显卡的用户。

Q4：Windows 系统启动 start.bat 后，浏览器无法打开 Web 界面怎么办？

A：可尝试以下解决方案：

检查解压路径：确保解压路径无中文、无特殊字符（如空格、符号），重新解压到纯英文路径后，再次启动。
手动访问地址：如果浏览器未自动打开，手动在浏览器中输入 http://localhost:8501，查看是否能访问。
检查端口占用：如果提示端口被占用，可修改 streamlit 配置，更换端口后重新启动。

Q5：能否二次开发 Pixelle-Video，添加自己需要的功能？

A：可以。Pixelle-Video 是完全开源的项目，源码开放，基于 Apache-2.0 协议，用户可自由修改源码、添加新功能（如新增 TTS 方案、扩展视频模板、支持更多平台导出等）。同时，项目支持自定义工作流，懂 ComfyUI 和 Python 的用户，可轻松扩展系统能力。

六、项目总结与展望

Pixelle-Video 作为一款开源的 AI 全自动短视频引擎，凭借零门槛、全自动化、高灵活度、免费开源等优势，为短视频创作提供了一种高效、低成本的解决方案，完美解决了普通人剪辑技能不足、创作效率低的痛点，同时也为开发者提供了二次开发的基础，适配自媒体、知识科普、营销推广等多种场景。

从项目迭代来看，AIDC-AI 团队持续优化功能，不断扩展兼容性和灵活性，后续有望添加更多 AI 模型支持、更多视频模板、更丰富的剪辑功能，进一步提升用户体验。对于新手用户，Windows 一键整合包让上手变得极其简单，无需任何技术基础就能快速生成成片；对于开发者和中小团队，开源源码和模块化架构提供了充足的定制空间，可根据自身需求进行二次开发，实现个性化的短视频创作流程。

如果你经常需要生成短视频，却苦于剪辑门槛高、效率低，不妨尝试 Pixelle-Video，只需一句话，就能让 AI 帮你完成所有创作工作，节省大量时间和精力。同时，也欢迎大家给项目点个 Star，支持开源项目的发展，参与到项目的贡献中，一起完善这款强大的短视频生成工具。

补充：项目核心信息与资源

GitHub 项目地址：https://github.com/AIDC-AI/Pixelle-Video
官方文档地址：https://aidc-ai.github.io/Pixelle-Video/zh
最新版本：v0.1.11（Windows 一键整合包）
开源协议：Apache-2.0
社区交流：可通过 GitHub Issue 提交问题和功能建议，也可扫描项目 README 中的二维码加入社区，获取最新动态和技术支持。