一天一个开源项目(第103篇):Open-Generative-AI - 开源 AI 视频与图像创作中心

引言

"Creative freedom belongs to everyone, unfiltered and unconstrained."

这是"一天一个开源项目"系列的第103篇文章。今天带你了解的项目是 Open-Generative-AI

在 AI 视频和图像生成领域,虽然出现了 Kling、Sora、Midjourney 等强大平台,但闭源生态、订阅费用以及严格的内容审查(Guardrails)限制了许多创作者的发挥。Open-Generative-AI 作为这些平台的开源替代品,通过集成超过 200 个先进模型,为用户提供了一个无过滤、可定制、支持自托管的创作环境。

你将学到什么

  • 核心概念:如何构建一个统一的多模型 AI 创作中心。
  • 主要功能:涵盖文生图、图生图、文生视频、图生视频、音频驱动对口型等全方位能力。
  • 技术亮点:支持 Electron 桌面端本地推理(sd.cpp 与 Wan2GP)及远程 GPU 卸载。
  • 应用场景:从个人艺术创作到自动化媒体管线构建。
  • 对比优势:无内容过滤、零订阅费用、完全的私有化部署。

前置知识

  • 对生成式 AI(Diffusion Models, Video Generation)有基本了解。
  • 熟悉 JavaScript/TypeScript 开发环境。
  • 基本的 Docker/Node.js 部署知识。

项目背景

项目简介

Open-Generative-AI 是一个免费开源的 AI 图像、视频、电影及对口型工作室。它的核心价值在于"无限预算(Infinite Budget)"的电影工作流理念,让创作者能够摆脱昂贵的订阅服务,在本地或自托管服务器上利用 Flux、Kling、Wan 2.2 等顶级模型进行创作。它不仅提供 Web 界面,还拥有强大的桌面客户端,甚至可以作为 AI 编码代理(如 Claude Code)的后端技能库。

作者/团队介绍

  • 作者:Anil-matcha
  • 背景:活跃的开源开发者,专注于 AI 工具链和媒体处理。
  • 项目创建时间:2024年(持续高速更新中)

项目数据

  • ⭐ GitHub Stars: 14.5k+
  • 🍴 Forks: 2.5k+
  • 📦 版本: v1.0.9 (Latest)
  • 📄 License: MIT
  • 🌐 官网: muapi.ai/open-genera...

主要功能

核心作用

Open-Generative-AI 提供了一个高度集成的 UI 界面,允许用户通过简单的配置(如 API Key 或本地模型路径)调用各种 AI 生成模型,实现从创意构思到成品渲染的完整流程。

使用场景

  1. 短视频/电影创作
    • 使用 Cinema Studio 的专业相机控制(焦距、光圈)生成高质量镜头。
  2. 播客/营销视频制作
    • 利用 Lip Sync Studio 让静态人像根据音频说话,制作口播视频。
  3. 私密/无过滤创作
    • 摆脱商业平台的安全顾虑,在本地机器上运行无过滤模型。
  4. 自动化 AI 媒体流水线
    • 通过集成技能库,让 AI 代理自动执行"提示词生成 -> 生成 -> 编辑 -> 拼接"的任务。

快速开始

可以通过两种方式快速体验:

1. 浏览器在线使用 访问 muapi.ai 直接体验四种工作室模式。

2. 本地部署(源码安装)

bash 复制代码
# 克隆仓库
git clone https://github.com/Anil-matcha/Open-Generative-AI.git
cd Open-Generative-AI

# 安装依赖
pnpm install

# 启动开发服务器
pnpm dev

# 构建桌面端 (Electron)
npm run electron:build

核心特性

  1. 图像工作室(Image Studio)
    • 支持 50+ 文生图模型及 55+ 图生图模型。
  2. 视频工作室(Video Studio)
    • 覆盖 40+ 文生视频模型及 60+ 图生视频模型,智能切换生成模式。
  3. 对口型工作室(Lip Sync Studio)
    • 9 个专用模型,支持从人像图片或现有视频生成对口型视频。
  4. 电影工作室(Cinema Studio)
    • 为电影级画质设计的界面,具备专业的相机控制功能。
  5. 本地推理引擎(Local Inference)
    • 内置 sd.cpp 支持 Apple Silicon(Metal)及 CUDA/ROCm;支持 Wan2GP 远程 GPU 服务器。
  6. 多图片输入(Multi-Image Input)
    • 允许向特定编辑模型上传多达 14 张参考图片。
  7. 自动化工作流(Workflow Studio)
    • 基于节点的编辑器,可视觉化构建和运行多步 AI 管线。

项目优势

对比项 Open-Generative-AI 商业 AI 平台 (Sora/Midjourney) 同类传统开源 UI (Automatic1111)
模型数量 200+ (跨厂商集成) 仅单一厂商模型 主要为 Stable Diffusion
内容过滤 无 (由用户控制) 极其严格
部署方式 Web/桌面端/自托管 仅云端 复杂本地安装
集成能力 极强 (API + SDK + CLI) 封闭 插件驱动

项目详细剖析

架构设计:两套本地推理引擎

Open-Generative-AI 桌面端的灵活性在于它处理本地算力的方式。

1. 内置 sd.cpp (Bundled)

这是基于 stable-diffusion.cpp 的 C++ 引擎,直接打包在应用内。

  • 优势:开箱即用,支持 Mac M 系列芯片的 Metal 加速。不仅支持 SD 1.5/SDXL,还支持 Z-Image 等新型模型。
  • 技术细节 :通过调用 sd-cli 驱动,不依赖复杂的 Python 环境。

2. Wan2GP (Remote Engine)

对于像 Wan 2.2、Hunyuan Video 等需要高性能 NVIDIA GPU 的模型,由于这些运行时通常基于 CUDA,无法在 Mac 上直接以高性能运行。

  • 方案:用户可以在有 GPU 的 Linux 机上运行 Wan2GP 服务器,Open-Generative-AI 作为客户端通过 URL 连接。
  • 意义:实现了跨平台算力调度,让 Mac 用户也能驾驭顶尖视频模型。

关键实现:智能工作流切换

项目在 UI 交互上做了深度优化。当用户进入 Image 或 Video Studio 时,系统会实时监测用户是否上传了参考图。

  • 如果没有上传,模型列表会自动切换至 Text-to-Image/Video 模型集合。
  • 一旦用户上传图片,列表会立即切换至 Image-to-Image/Video 模型(如 Kling i2v, LTX Video i2v)。

这种基于状态的智能路由极大地降低了用户的操作复杂度。


项目地址与资源

官方资源

相关资源

适用人群

  • 数字艺术家 & 影视创作者:寻找低成本、无限制的创作工具。
  • AI 开发者:希望快速集成多模型能力的工程人员。
  • 开源爱好者:倾向于私有化部署和自托管应用。

欢迎来我的个人主页找到更多有用的知识和有趣的产品

相关推荐
耕烟煮云2 小时前
从Prompt到Context Engineering再到Harness,AI工程的演进
人工智能·prompt
user29876982706542 小时前
一、扩展 Claude Code:开篇
人工智能
user29876982706542 小时前
二、Skills 基础:编写第一个自定义技能
人工智能
大拿爱科技2 小时前
视频里的字幕和文案怎么批量提取?从ASR到内容复用的工具拆解
aigc·音视频·语音识别
JavaAgent架构师2 小时前
前端AI工程化(三):异步编程与并发控制
前端·人工智能
VALENIAN瓦伦尼安教学设备2 小时前
填补国内空白!瓦伦尼安发布首台船机机械故障诊断振动实验台
大数据·人工智能·嵌入式硬件
小郭哥x2 小时前
AI Agent实现CODESYS自动化编程
人工智能·ai·自动化·codesys·工业自动化·ai agent·mcp服务器
吃好睡好便好2 小时前
Matlab中三种三维图的对比
开发语言·人工智能·学习·算法·matlab·信息可视化
程序员cxuan2 小时前
对姚顺宇的4小时访谈整理
人工智能