Pixelle-Video:AI全自动短视频引擎 接入API教程

输入一个主题,从文案到配音到配图到合成,全自动出片。Pixelle-Video 是一个开源的 AI 短视频全自动生成引擎,GitHub 7.3k Stars,支持竖屏、横屏、数字人口播、图生视频、动作迁移等多种模式。

一、项目概述

我在GitHub上发现了一个很有意思的开源项目------Pixelle-Video。 它是一个开源的 AI 全自动短视频生成引擎,GitHub 已获得 7.3k Stars。它实现了从主题输入到视频输出的全流程自动化,支持多种生成模式和自定义配置,为内容创作者和开发者提供了强大的视频生产解决方案。

项目地址:https://github.com/AIDC-AI/Pixelle-Video

开源协议:Apache-2.0

技术栈:Python + ComfyUI + Streamlit

只需输入一个 主题,Pixelle-Video 就能自动完成:

  • ✍️ 撰写视频文案
  • 🎨 生成 AI 配图/视频
  • 🗣️ 合成语音解说
  • 🎵 添加背景音乐
  • 🎬 一键合成视频

让视频创作成为一句话的事!效果十分不错,我们只需要接入自己模型的API,就可以很好的使用这个项目进行创作视频。

下面我将按照技术架构、第三方 API 接入、官方效果展示来展示这个开源项目效果。

二、技术架构

整个视频生成流程采用模块化设计,每个环节可独立替换模型和引擎:

底层基于 ComfyUI 构建,模块可独立替换:

  • 文案生成( LLM :支持 GPT、通义千问、DeepSeek、Ollama 等,OpenAI 兼容格式

  • 图片生成:本地 ComfyUI 或 RunningHub 云端调用,支持 FLUX 等模型

  • 视频生成:支持 WAN 2.1 等 AI 视频模型(通过 ComfyUI 工作流)

  • 语音合成 TTS :Edge-TTS(免费)、Index-TTS 等,支持音色克隆

三、API 接入

Pixelle-Video 的 LLM 配置支持 OpenAI 兼容格式的 API,可以直接使用魔芋的 API 中转服务来驱动文案生成。以下是各模块的接入方式:

随着现在越来越多不正规的第三方API平台的跑路,封禁,选择一个安全稳定,价格合适很重要,

通过对比价格,稳定性,速度,三方面后,我决定选择的第三方魔芋api平台来获取API key。

大家可以参考我选择的第三方魔芋api平台来获取API key。

点击链接前往api平台注册👉https://www.moyu.info/register?aff=g2d7

1、使用手机号码进行账号注册

2、注册成功后进入【令牌管理】

3、模型广场上复制要使用的模型ID

(模型广场没有完全显示的可以添加魔芋客服进行开白权限)

获取到信息后可以开始模型接入Pixelle-Video

文本模型接入(推荐)

这是最简单也最直接的接入方式。Pixelle-Video 的文案生成、脚本创作都依赖 LLM,魔芋提供的高质量文本模型完全覆盖这个需求。

操作步骤

  1. 根据前面步骤注册魔芋AI获取到体验额度

  2. 创建 API 令牌(API Key)

  3. 打开 Pixelle-Video 的「⚙️ 系统配置」面板

  4. 在「LLM 配置」中填写:

    1. API Key:填入魔芋的 API Key

    2. Base URL:填入魔芋的 API 地址

    3. Model:填写模型名称

推荐模型搭配

用途 推荐模型 说明
文案生成 gpt-5.5 中文文案质量高,响应快
深度脚本 claude-sonnet-4.6 长文本逻辑强,适合有深度的内容
高性价比 deepseek-v4 成本低,中文能力优秀
多语言 gemini-3.1-pro 多语言支持好,适合海外内容

配置示例

复制代码
API Key:  sk-xxxxxxxxxxxxxxxx
Base URL: https://www.moyu.info/v1
Model:    gpt-5.5

💡 魔芋的 API 完全兼容 OpenAI 格式,Pixelle-Video 的预设模型中选"手动配置",填入魔芋的信息即可。无需修改任何代码。

图片生成接入

Pixelle-Video 的图片生成依赖 ComfyUI 工作流,不走标准的 OpenAI 图片 API 格式。接入方式有两种:

方式一:通过 RunningHub 云端(推荐小白用户)

  • 在「图像配置」中选择 RunningHub

  • 填入 RunningHub API Key

  • RunningHub 云端运行 ComfyUI 工作流,不需要本地 GPU

方式二:本地部署 ComfyUI

  • 本地安装 ComfyUI(需要 NVIDIA GPU)

  • 在「图像配置」中填写本地 ComfyUI 地址(默认 http://127.0.0.1:8188

  • 可以自由替换生图模型为 FLUX、SD3 等

视频生成接入

视频生成同样基于 ComfyUI 工作流,接入方式与图片生成一致:

  • 通过 RunningHub 云端调用(推荐,支持 WAN 2.1 等视频模型)

  • 或本地部署 ComfyUI(需要大显存,建议 48G 以上)

语音合成接入

TTS 是独立的模块,不依赖魔芋 API:

  • Edge-TTS:免费,内置支持,开箱即用,多语种多音色

  • Index-TTS:支持音色克隆,上传一段参考音频即可克隆音色

  • ChatTTS:更自然的语音风格

四、官方界面与工作流

核心能力

全链路自动出片:输入主题后,AI 自动完成脚本撰写、配图/视频生成、语音合成、背景音乐匹配、最终视频合成。支持竖屏(9:16)和横屏(16:9),多种视觉模板可选。

数字人口播:支持生成多语言数字人口播视频,适合做口播类内容。

图生视频:上传一张图片,AI 自动生成动态视频内容。

动作迁移:上传参考视频和图片,AI 学习动作并迁移到新图上。

自定义素材:可以上传自己的照片和视频,AI 智能分析后生成配套脚本和视频。

相关推荐
冬奇Lab5 小时前
每日一个开源项目(第140篇):AgentScope 2.0 - 阿里开源的生产级 Agent 框架
人工智能·开源·agent
冬奇Lab5 小时前
Skill 系列(04):Skill 指标体系——L1/L2/L3 三层监控,让质量下降有据可查
人工智能·开源·llm
IT_陈寒7 小时前
Vite的静态资源打包让我熬夜到三点,这坑千万别跳
前端·人工智能·后端
玩转AI不是事7 小时前
用IndexedDB做AI对话离线缓存实战
人工智能
Asize8 小时前
多模态生图:从 Vite 工程化到前端调用 Qwen Image
javascript·人工智能·后端
MobotStone8 小时前
AI项目越多,为什么越容易失控
人工智能·aigc
十有八七8 小时前
AI时代的置身X内
前端·人工智能
Lkstar8 小时前
A2A协议深度解析|Agent2Agent通信标准,智能体互联网的"HTTP"
人工智能·llm
百度Geek说8 小时前
当代码越来越便宜,什么在变贵?
人工智能
橘子星8 小时前
LLM 无状态架构实践:从原理到代码落地
前端·javascript·人工智能