LTX-2 - 一键生成音视频,创作更轻松 支持50系显卡 ComfyUI工作流 一键整合包

LTX-2 是由 Lightricks 推出的开源音视频生成模型,它的最大特点是能在同一个模型里同时生成"画面"和"声音",让视频和音频自然同步。它支持文本、图片甚至音频作为输入,能快速生成对应的视频或音频内容。

下载地址点此下载

模型特点

音视频一体化:不像传统模型只做视频或音频,LTX-2 可以在一个框架里同时生成两者,保证画面和声音的协调。

多模态输入:支持文字转视频、图片转视频、文字转音频、音频转视频等多种组合方式。

开源可训练:提供完整代码和权重,用户可以在本地训练或微调,甚至用 LoRA 技术快速定制风格。

高效推理:有精简版(distilled)和量化版(fp8、fp4),在不同硬件环境下都能运行。

分辨率与帧率提升:配套的空间和时间"upscaler"可以让视频更清晰、帧率更高。

兼容生态:支持 PyTorch、Diffusers 库,也能在 ComfyUI 里直接调用。

应用领域

创意视频制作:输入文字或图片,快速生成短视频,用于广告、社交媒体或艺术创作。

教育与培训:老师可以用文字提示生成教学视频,配合音频讲解。

游戏与虚拟世界:为角色或场景生成动态视频和音效,提升沉浸感。

多媒体内容创作:播客、短片、音乐视频,都可以用 LTX-2 来自动生成或辅助制作。

个性化定制:通过微调模型,快速生成符合特定风格或品牌需求的内容。

使用教程: (建议N卡,显存16G起,支持50系显卡)

整合包包含所需所有节点,下载主程序和模型(ComfyUI文件夹),解压主程序一键包,将ComfyUI文件夹移动到主程序目录下即可。

双击启动ComfyUI,进入页面,点击左侧工作流,加载工作流。

支持文生视频和图生视频,进入对应的工作流,输入提示词/上传图像输入提示词,设置宽高等参数,运行即可。

因19B模型参数量较大,虽然都是使用量化的fp8规格,但对硬件要求还是很高,建议显存16G起体验,看到有12G显存+64G运存也可以跑,但速度略慢。后期有更好的方案,再做更新。

显卡不好的用户,可以优先使用最新的 Wan2GP V36 ,支持8G显存运行LTX-2,蒸馏版速度更快。

官方提示词使用技巧:

在撰写写作提示时,应着重于对动作与场景的详细、按时间顺序的描述。需包含具体的动作、外貌特征、镜头角度以及环境细节------所有这些内容都应整合在一段流畅的段落中。直接从动作开始描述,保持描述的客观性与精确性。可以想象自己是一名电影摄影师,在为拍摄清单撰写详细说明。字数控制在200字以内。为获得最佳效果,请按照以下结构来撰写提示:

  1. 用一句话概括核心动作;

  2. 添加关于动作与姿势的具体细节;

  3. 准确描述人物/物体的外貌特征;

  4. 描述背景与环境细节;

  5. 指明镜头角度与拍摄方式;

  6. 描述光影与色彩效果;

  7. 注意任何可能发生的变化或突发事件。

默认帧率是24/FPS,设置帧数应该是总帧数+1,比如要生成5秒的视频,总帧数应该是 24*5+1=121

相关推荐
peterfei10 分钟前
若爱 IfAI v0.4.2 发布:技能市场上线,重新定义 AI 编辑器的可扩展性
人工智能·开源
Hommy8811 分钟前
【开源剪映小助手】视频生成流程
开源·github·音视频·剪映小助手
阿杰学AI17 分钟前
AI核心知识129—大语言模型之 向量数据库(简洁且通俗易懂版)
数据库·人工智能·ai·语言模型·自然语言处理·向量数据库·vector database
PILIPALAPENG23 分钟前
第3周 Day 2:Function Calling —— 让 Agent 听懂人话,自己干活
前端·人工智能·python
阿里云大数据AI技术34 分钟前
PAI Physical AI Notebook详解8:Isaac Lab Arena 全身机器人机动+操控工作流
人工智能
高木木的博客1 小时前
数字架构智能化测试平台(1)--总纲
人工智能·python·nginx·架构
Olivia051405141 小时前
Voohu:音频变压器在广播级信号传输中的阻抗匹配与失真控制
音视频
wanghowie1 小时前
11. AI 客服系统架构设计:不是调 API,而是系统工程
人工智能·系统架构
袋鼠云数栈UED团队1 小时前
基于 OpenSpec 实现规范驱动开发
前端·人工智能
Raink老师1 小时前
【AI面试临阵磨枪】什么是 Tokenization?子词分词(Subword)的优缺点?
人工智能·ai 面试