ltx2.3 最强开源视频生成模型，支持图生视频、文生视频、消费级显卡可本地部署，一键整合包

LTX‑2.3 是一个开源的音视频生成模型，支持从文字、图片和音频生成带有画面和声音的视频。这个模型由 Lightricks 发布，完整模型权重和代码可以开源使用，也可以在本地显卡上部署生成视频。它在 2026 年发布后在社区里引起了较多讨论，很多人用于短视频制作、模型实验和工作流程集成。( $LTX$ $1$ )

LTX2.3 是什么

LTX‑2.3 是 Lightricks 发布的开源视频生成基础模型。它基于一种叫 Diffusion Transformer（DiT） 的架构，有大约 220 亿个参数，可以一次性生成视频和音频，不需要先生成画面再后处理配音。模型支持多种输入方式，包括：

文本生成视频（text‑to‑video）
图片生成视频（image‑to‑video）
音频驱动生成视频（audio‑to‑video）

模型可以输出最高 4K 分辨率的视频片段，并支持横屏和原生竖屏（9:16）格式，可用于适配手机端短视频平台。( $LTX$ $1$ )

模型在同一次推理过程中处理画面和音频，所以输出的视频和声音是一致的，不需要后期再混合，减少了制作步骤。( $Cinevva$ $2$ )

软件特点

以下是 LTX‑2.3 的一些核心特点，整理了官方说明和社区讨论：

多模态输入输出

LTX‑2.3 支持三种主要输入模式：

文本到视频：用户写一段描述语句，模型根据提示生成视频内容。
图片到视频：用户提供一张或多张图片作为参考序列，生成连续画面。
音频到视频：输入音频片段，生成画面并保持与声音同步。( $AI工具集$ $3$ )

这种多模态支持让制作流程更灵活，不局限于单一方式。( $LTX$ $1$ )

原生音视频同步

和很多旧版本或一些开源模型不同，LTX‑2.3 在生成过程中就已经把音频和画面放在一起输出，不需要单独配音或对齐步骤。( $Cinevva$ $2$ )

支持竖屏格式

模型原生支持 9:16 竖屏输出，这是很多短视频平台需要的格式，不需要裁剪或后期调整。( $LTX$ $1$ )

改进的细节和提示词处理

相比前一代 LTX‑2，LTX‑2.3 在细节表现、提示词理解、纹理表现等方面有明显提升，提示词更容易被模型准确理解。( $ChooseAI$ $4$ )

生成时长和帧率

单次生成视频时长最多约 20 秒，支持不同帧率选项，例如 24、25、48、50 帧每秒，适应不同的视觉需求。( $Cinevva$ $2$ )

LTX2.3 需要的硬件条件（本地部署）

在社区讨论中，有人分享了不同 VRAM 下的运行情况，说明实现本地生成视频的硬件需求并不是统一的固定标准，而是会根据分辨率和模型版本不同而变化。

建议硬件配置

显卡：RTX 4090 是理想选择，可在较高分辨率下运行；也有人在 3060 系列显卡上测试过，但需要调整参数、降低分辨率或拆分生成步骤。( $Reddit$ $5$ )
显存：至少 12GB 以上显存才可能稳定运行完整 1080p 输出；更低显存需要使用量化模型或分步生成流程。( $Reddit$ $5$ )
CPU、内存等：现代多核 CPU 和 32GB 以上内存可以提升整体处理性能。社区用户常见组合是如 Ryzen 9 + 64GB 内存等配置。( $Reddit$ $6$ )

模型版本

官方开源仓库提供不同版本的模型权重，包括原始、量化（如 FP8）和精简版本，可以针对不同硬件选择更合适的模型。( $LTX$ $1$ )

与其它开源视频生成模型对比

下面是 LTX‑2.3 和其他开源视频生成模型的一些对比，主要整理社区讨论和模型参数：

特征	LTX‑2.3	Wan 2.2	其他开源模型
核心架构	DiT（Diffusion Transformer）	类似扩散架构	不同扩散/变换架构
参数量	约 220 亿	一般较少	依具体模型
音视频同步	支持（同一次生成）	通常需要后处理	大部分不支持
本地部署	支持	支持	多数可本地运行
竖屏原生支持	有	少	多数不支持或需要裁剪
多输入支持	文/图/音	文生、图生部分支持	多数只支持文本或图片
最高分辨率	最高可到 4K	多数低于	有些可扩展
模型开放	开源权重	部分模型开源	各不相同

这是基于社区整理和用户反馈整理的对比表，不同模型在具体使用体验上可能还有差异。社区普遍认为 Wan 2.2 在某些清晰度指标上表现强，但 LTX‑2.3 在音视频同步、竖屏支持等方面具有独特优势。( $Reddit$ $7$ )

下载安装包

本文配套的 一键整合包下载链接 可以从百度网盘获取：

链接地址：
https://pan.baidu.com/s/1y6kfxkE0ivA1Rw5o44i-Aw?pwd=lijj

请按页面提示输入提取码后下载。里面大多包含模型权重、ComfyUI 工作流和一键启动脚本。根据不同显卡和系统选择合适的版本。

安装与配置步骤（教程式）

下面是一个简单的安装和部署流程示例，假设你使用的是 Windows 环境。

1. 准备环境

在显卡驱动和 CUDA 驱动上先确保安装 NVIDIA 官方最新驱动。
安装 Python（建议 Python 3.10+）。
确保环境变量设置正确，以便直接在命令行调用 Python。

2. 解压一键整合包

把整合包解压到合适的文件夹，例如：

复制代码

D:\AI\LTX2.3\

3. 安装依赖

打开命令行终端，定位到模型主目录，运行：

bash 复制代码

pip install -r requirements.txt

确保依赖顺利安装。通常会包括 PyTorch、Transformers、ComfyUI 或其他需要的库。

4. 模型权重放置

把下载的模型权重文件放置到指定文件夹，例如：

复制代码

models/ltx2.3/

按照文档指引确认权重路径正确。

5. 启动生成界面或脚本

如果是一键启动配置：

复制代码

python run_server.py

或者打开 ComfyUI 界面并加载 LTX‑2.3 的节点，选择对应流程（文本/图片/音频生成模板），然后输入提示词开始生成。

6. 调整输出参数

在生成过程中可以调整：

输出分辨率
帧率
生成时长
模式选择（fast、pro）

根据硬件性能选择合适设置。

社区实践经验

从一些用户反馈看，LTX‑2.3 在高显存显卡上生成视频质量平衡较好，也有人在低显存上尝试使用量化模型。权衡点在于：

在低显存条件下可以降低分辨率、拆分生成阶段。( $Reddit$ $5$ )
使用提示词技巧可以提高生成稳定性和符合度。( $Reddit$ $8$ )
某些复杂人物场景可能出现细节偏差或不稳定，需要多次尝试调整。( $Reddit$ $9$ )