ltx2.3 最强开源视频生成模型,支持图生视频、文生视频、消费级显卡可本地部署,一键整合包


LTX‑2.3 是一个开源的音视频生成模型,支持从文字、图片和音频生成带有画面和声音的视频。这个模型由 Lightricks 发布,完整模型权重和代码可以开源使用,也可以在本地显卡上部署生成视频。它在 2026 年发布后在社区里引起了较多讨论,很多人用于短视频制作、模型实验和工作流程集成。(LTX1)


LTX2.3 是什么

LTX‑2.3 是 Lightricks 发布的开源视频生成基础模型。它基于一种叫 Diffusion Transformer(DiT) 的架构,有大约 220 亿个参数,可以一次性生成视频和音频,不需要先生成画面再后处理配音。模型支持多种输入方式,包括:

  • 文本生成视频(text‑to‑video)
  • 图片生成视频(image‑to‑video)
  • 音频驱动生成视频(audio‑to‑video)

模型可以输出最高 4K 分辨率的视频片段,并支持横屏和原生竖屏(9:16)格式,可用于适配手机端短视频平台。(LTX1)

模型在同一次推理过程中处理画面和音频,所以输出的视频和声音是一致的,不需要后期再混合,减少了制作步骤。(Cinevva2)


软件特点

以下是 LTX‑2.3 的一些核心特点,整理了官方说明和社区讨论:

多模态输入输出

LTX‑2.3 支持三种主要输入模式:

  • 文本到视频:用户写一段描述语句,模型根据提示生成视频内容。
  • 图片到视频:用户提供一张或多张图片作为参考序列,生成连续画面。
  • 音频到视频:输入音频片段,生成画面并保持与声音同步。(AI工具集3)

这种多模态支持让制作流程更灵活,不局限于单一方式。(LTX1)

原生音视频同步

和很多旧版本或一些开源模型不同,LTX‑2.3 在生成过程中就已经把音频和画面放在一起输出,不需要单独配音或对齐步骤。(Cinevva2)

支持竖屏格式

模型原生支持 9:16 竖屏输出,这是很多短视频平台需要的格式,不需要裁剪或后期调整。(LTX1)

改进的细节和提示词处理

相比前一代 LTX‑2,LTX‑2.3 在细节表现、提示词理解、纹理表现等方面有明显提升,提示词更容易被模型准确理解。(ChooseAI4)

生成时长和帧率

单次生成视频时长最多约 20 秒,支持不同帧率选项,例如 24、25、48、50 帧每秒,适应不同的视觉需求。(Cinevva2)


LTX2.3 需要的硬件条件(本地部署)

在社区讨论中,有人分享了不同 VRAM 下的运行情况,说明实现本地生成视频的硬件需求并不是统一的固定标准,而是会根据分辨率和模型版本不同而变化。

建议硬件配置

  • 显卡:RTX 4090 是理想选择,可在较高分辨率下运行;也有人在 3060 系列显卡上测试过,但需要调整参数、降低分辨率或拆分生成步骤。(Reddit5)
  • 显存:至少 12GB 以上显存才可能稳定运行完整 1080p 输出;更低显存需要使用量化模型或分步生成流程。(Reddit5)
  • CPU、内存等:现代多核 CPU 和 32GB 以上内存可以提升整体处理性能。社区用户常见组合是如 Ryzen 9 + 64GB 内存等配置。(Reddit6)

模型版本

官方开源仓库提供不同版本的模型权重,包括原始、量化(如 FP8)和精简版本,可以针对不同硬件选择更合适的模型。(LTX1)


与其它开源视频生成模型对比

下面是 LTX‑2.3 和其他开源视频生成模型的一些对比,主要整理社区讨论和模型参数:

特征 LTX‑2.3 Wan 2.2 其他开源模型
核心架构 DiT(Diffusion Transformer) 类似扩散架构 不同扩散/变换架构
参数量 约 220 亿 一般较少 依具体模型
音视频同步 支持(同一次生成) 通常需要后处理 大部分不支持
本地部署 支持 支持 多数可本地运行
竖屏原生支持 多数不支持或需要裁剪
多输入支持 文/图/音 文生、图生部分支持 多数只支持文本或图片
最高分辨率 最高可到 4K 多数低于 有些可扩展
模型开放 开源权重 部分模型开源 各不相同

这是基于社区整理和用户反馈整理的对比表,不同模型在具体使用体验上可能还有差异。社区普遍认为 Wan 2.2 在某些清晰度指标上表现强,但 LTX‑2.3 在音视频同步、竖屏支持等方面具有独特优势。(Reddit7)


下载安装包

本文配套的 一键整合包下载链接 可以从百度网盘获取:

链接地址:
https://pan.baidu.com/s/1y6kfxkE0ivA1Rw5o44i-Aw?pwd=lijj

请按页面提示输入提取码后下载。里面大多包含模型权重、ComfyUI 工作流和一键启动脚本。根据不同显卡和系统选择合适的版本。


安装与配置步骤(教程式)

下面是一个简单的安装和部署流程示例,假设你使用的是 Windows 环境。

1. 准备环境

  • 在显卡驱动和 CUDA 驱动上先确保安装 NVIDIA 官方最新驱动。
  • 安装 Python(建议 Python 3.10+)。
  • 确保环境变量设置正确,以便直接在命令行调用 Python。

2. 解压一键整合包

把整合包解压到合适的文件夹,例如:

复制代码
D:\AI\LTX2.3\

3. 安装依赖

打开命令行终端,定位到模型主目录,运行:

bash 复制代码
pip install -r requirements.txt

确保依赖顺利安装。通常会包括 PyTorch、Transformers、ComfyUI 或其他需要的库。


4. 模型权重放置

把下载的模型权重文件放置到指定文件夹,例如:

复制代码
models/ltx2.3/

按照文档指引确认权重路径正确。


5. 启动生成界面或脚本

如果是一键启动配置:

复制代码
python run_server.py

或者打开 ComfyUI 界面并加载 LTX‑2.3 的节点,选择对应流程(文本/图片/音频生成模板),然后输入提示词开始生成。


6. 调整输出参数

在生成过程中可以调整:

  • 输出分辨率
  • 帧率
  • 生成时长
  • 模式选择(fast、pro)

根据硬件性能选择合适设置。


社区实践经验

从一些用户反馈看,LTX‑2.3 在高显存显卡上生成视频质量平衡较好,也有人在低显存上尝试使用量化模型。权衡点在于:

  • 在低显存条件下可以降低分辨率、拆分生成阶段。(Reddit5)
  • 使用提示词技巧可以提高生成稳定性和符合度。(Reddit8)
  • 某些复杂人物场景可能出现细节偏差或不稳定,需要多次尝试调整。(Reddit9)

相关推荐
星辰AI2 小时前
多模态记忆:让 AI Agent 记忆各种类型的信息
人工智能·ai·语言模型
瑶总迷弟2 小时前
使用 mis-tei 在昇腾310P上部署 bge-m3模型
pytorch·python·华为·语言模型·自然语言处理·cnn·unix
海兰3 小时前
【文字三国志:第六篇】天命重构,UI组件设计细节
人工智能·ui·语言模型·小程序
风萧萧19994 小时前
基于Java实现文档章节结构智能提取方案
语言模型
YueJoy.AI4 小时前
创业公司如何实现持续增长
人工智能·ai·语言模型
我爱cope6 小时前
【Agent智能体13 | 工具使用-什么是工具?】
人工智能·语言模型·职场和发展
CCC:CarCrazeCurator6 小时前
Diffusion Transformer(DiT):原理、与 U-Net 对比及在视频生成中的深度应用
人工智能·音视频·transformer
tzc_fly6 小时前
ELF:连续扩散语言模型
人工智能·语言模型·自然语言处理
海兰9 小时前
【文字三国志:第五篇】天命重构,游戏前端UI设计
前端·人工智能·游戏·语言模型
山楂树の9 小时前
Video核心术语
学习·音视频