一天一个开源项目（第103篇）：Open-Generative-AI - 开源 AI 视频与图像创作中心

引言

"Creative freedom belongs to everyone, unfiltered and unconstrained."

这是"一天一个开源项目"系列的第103篇文章。今天带你了解的项目是 Open-Generative-AI。

在 AI 视频和图像生成领域，虽然出现了 Kling、Sora、Midjourney 等强大平台，但闭源生态、订阅费用以及严格的内容审查（Guardrails）限制了许多创作者的发挥。Open-Generative-AI 作为这些平台的开源替代品，通过集成超过 200 个先进模型，为用户提供了一个无过滤、可定制、支持自托管的创作环境。

你将学到什么

核心概念：如何构建一个统一的多模型 AI 创作中心。
主要功能：涵盖文生图、图生图、文生视频、图生视频、音频驱动对口型等全方位能力。
技术亮点：支持 Electron 桌面端本地推理（sd.cpp 与 Wan2GP）及远程 GPU 卸载。
应用场景：从个人艺术创作到自动化媒体管线构建。
对比优势：无内容过滤、零订阅费用、完全的私有化部署。

前置知识

对生成式 AI（Diffusion Models, Video Generation）有基本了解。
熟悉 JavaScript/TypeScript 开发环境。
基本的 Docker/Node.js 部署知识。

项目背景

项目简介

Open-Generative-AI 是一个免费开源的 AI 图像、视频、电影及对口型工作室。它的核心价值在于"无限预算（Infinite Budget）"的电影工作流理念，让创作者能够摆脱昂贵的订阅服务，在本地或自托管服务器上利用 Flux、Kling、Wan 2.2 等顶级模型进行创作。它不仅提供 Web 界面，还拥有强大的桌面客户端，甚至可以作为 AI 编码代理（如 Claude Code）的后端技能库。

作者/团队介绍

作者：Anil-matcha
背景：活跃的开源开发者，专注于 AI 工具链和媒体处理。
项目创建时间：2024年（持续高速更新中）

项目数据

⭐ GitHub Stars: 14.5k+
🍴 Forks: 2.5k+
📦 版本: v1.0.9 (Latest)
📄 License: MIT
🌐 官网: muapi.ai/open-genera...

主要功能

核心作用

Open-Generative-AI 提供了一个高度集成的 UI 界面，允许用户通过简单的配置（如 API Key 或本地模型路径）调用各种 AI 生成模型，实现从创意构思到成品渲染的完整流程。

使用场景

短视频/电影创作
- 使用 Cinema Studio 的专业相机控制（焦距、光圈）生成高质量镜头。
播客/营销视频制作
- 利用 Lip Sync Studio 让静态人像根据音频说话，制作口播视频。
私密/无过滤创作
- 摆脱商业平台的安全顾虑，在本地机器上运行无过滤模型。
自动化 AI 媒体流水线
- 通过集成技能库，让 AI 代理自动执行"提示词生成 -> 生成 -> 编辑 -> 拼接"的任务。

快速开始

可以通过两种方式快速体验：

1. 浏览器在线使用 访问 muapi.ai 直接体验四种工作室模式。

2. 本地部署（源码安装）

bash 复制代码

# 克隆仓库
git clone https://github.com/Anil-matcha/Open-Generative-AI.git
cd Open-Generative-AI

# 安装依赖
pnpm install

# 启动开发服务器
pnpm dev

# 构建桌面端 (Electron)
npm run electron:build

核心特性

图像工作室（Image Studio）
- 支持 50+ 文生图模型及 55+ 图生图模型。
视频工作室（Video Studio）
- 覆盖 40+ 文生视频模型及 60+ 图生视频模型，智能切换生成模式。
对口型工作室（Lip Sync Studio）
- 9 个专用模型，支持从人像图片或现有视频生成对口型视频。
电影工作室（Cinema Studio）
- 为电影级画质设计的界面，具备专业的相机控制功能。
本地推理引擎（Local Inference）
- 内置 sd.cpp 支持 Apple Silicon（Metal）及 CUDA/ROCm；支持 Wan2GP 远程 GPU 服务器。
多图片输入（Multi-Image Input）
- 允许向特定编辑模型上传多达 14 张参考图片。
自动化工作流（Workflow Studio）
- 基于节点的编辑器，可视觉化构建和运行多步 AI 管线。

项目优势

对比项	Open-Generative-AI	商业 AI 平台 (Sora/Midjourney)	同类传统开源 UI (Automatic1111)
模型数量	200+ (跨厂商集成)	仅单一厂商模型	主要为 Stable Diffusion
内容过滤	无 (由用户控制)	极其严格	无
部署方式	Web/桌面端/自托管	仅云端	复杂本地安装
集成能力	极强 (API + SDK + CLI)	封闭	插件驱动

项目详细剖析

架构设计：两套本地推理引擎

Open-Generative-AI 桌面端的灵活性在于它处理本地算力的方式。

1. 内置 sd.cpp (Bundled)

这是基于 stable-diffusion.cpp 的 C++ 引擎，直接打包在应用内。

优势：开箱即用，支持 Mac M 系列芯片的 Metal 加速。不仅支持 SD 1.5/SDXL，还支持 Z-Image 等新型模型。
技术细节 ：通过调用 sd-cli 驱动，不依赖复杂的 Python 环境。

2. Wan2GP (Remote Engine)

对于像 Wan 2.2、Hunyuan Video 等需要高性能 NVIDIA GPU 的模型，由于这些运行时通常基于 CUDA，无法在 Mac 上直接以高性能运行。

方案：用户可以在有 GPU 的 Linux 机上运行 Wan2GP 服务器，Open-Generative-AI 作为客户端通过 URL 连接。
意义：实现了跨平台算力调度，让 Mac 用户也能驾驭顶尖视频模型。

关键实现：智能工作流切换

项目在 UI 交互上做了深度优化。当用户进入 Image 或 Video Studio 时，系统会实时监测用户是否上传了参考图。

如果没有上传，模型列表会自动切换至 Text-to-Image/Video 模型集合。
一旦用户上传图片，列表会立即切换至 Image-to-Image/Video 模型（如 Kling i2v, LTX Video i2v）。

这种基于状态的智能路由极大地降低了用户的操作复杂度。

项目地址与资源

官方资源

🌟 GitHub : Anil-matcha/Open-Generative-AI
📚 文档 : Medium Guide
💬 社区 : Discord / Reddit
🐛 Issue Tracker : GitHub Issues

适用人群

数字艺术家 & 影视创作者：寻找低成本、无限制的创作工具。
AI 开发者：希望快速集成多模型能力的工程人员。
开源爱好者：倾向于私有化部署和自托管应用。

欢迎来我的个人主页找到更多有用的知识和有趣的产品