图生视频还带声音?我把LTX 2.3塞进了自己的显卡里

图生视频还带声音?我把LTX 2.3塞进了自己的显卡里

上周三深夜,我在折腾一个视频生成项目。

用的是国内某平台的图生视频接口,上传了一张图,写好提示词,等了三十多秒------

"生成失败,请检查内容是否符合平台规范。"

我看了半天,也不知道哪里违规了。图就是一个普通的人物摆拍,提示词也没写什么过分的东西。重新提交,又失败。

我当时就在想:为什么我生成个视频还要看别人脸色?


就在那天,有人在群里丢了一个链接,说LTX 2.3出了GGUF量化版,能在普通显卡上跑。

我盯着那条消息看了三秒。

"图生视频+生成音频,一起的。"

又看了三秒。

然后关掉了那个一直报错的网页,开始下模型。


先说说LTX 2.3是什么来头

LTX-Video是以色列公司Lightricks搞出来的开源视频生成模型,这家公司在图像处理领域有年头了,你可能用过他们的某款修图App。

2.3这个版本比之前有几个重要升级:

  • 原生音频生成:不是后期配乐,是模型在生成视频的同时同步生成音频,口型、环境音、甚至背景音乐都是一起出来的
  • 新VAE架构:细节更锐利,头发丝、衣服纹理这些之前模糊的地方有了明显改善
  • 图生视频质量大幅提升:给它一张图,它知道这张图里的人或物"接下来应该怎么动"
  • 支持4K、50帧:虽然量化版跑不到那么高,但原始模型能力在那里

整个模型参数量是19B级别,按理说要跑起来需要巨大的VRAM。

但GGUF量化把它压下来了。


GGUF量化是什么意思?

不绕圈子,说人话。

原始模型用BF16精度存储,每个参数占2个字节。19B个参数,大概需要38GB显存------普通显卡直接劝退。

GGUF把这些参数压缩成4bit精度,体积缩小到原来的1/4到1/5。

我用的是Q4_K_S这个版本,模型文件大概10GB多一点。显卡是RTX 3080(10GB VRAM),加上文字编码器会超出,所以文字编码器走CPU,主模型走GPU------

生成一条5秒的960×544视频,大概两三分钟。有音频的那种。

说实话,第一次看到生成结果的时候,我愣了一下。

不是因为多惊艳,是因为它真的有声音


真实上手体验

我做的是一个美女唱歌的图生视频测试。

原图是一张正脸人像。

提示词我就写了一句:美女唱歌视频

负面提示词加了一些通用的:模糊、低质量、静止帧、水印。

然后等了大概两分半钟。
您的浏览器不支持视频播放。

视频里的人物有了自然的嘴型动作,背景有了轻微的焦距变化,配上音频之后......你看完就明白那种感觉了。

再来一条不同输入的:
您的浏览器不支持视频播放。

质量不是那种"哇塞完美无瑕"的级别,但是在我自己电脑上、完全离线跑出来的,这件事本身就已经让我想多想想了。


为什么选择本地跑,而不是用云端接口?

这个问题我被问过几次,每次我都觉得有点奇怪------这不应该很显然吗?

第一,隐私。

你上传到云端平台的每一张图、每一条提示词,都是别人的服务器上的数据。你不知道他们存多久,拿去做什么。

本地跑就不一样了。模型在你硬盘上,运行在你显卡里,生成的视频在你的输出文件夹。整个过程,没有任何东西离开你的电脑。

第二,没有审核。

不是说一定要做什么"违规"的事情------我说的是,你的创作自由不应该被一个不知道在哪里的算法审核员卡着。

你想让视频里的角色做什么动作,是你的事。

第三,长期来看更省钱。

云端接口按量付费,用多了费用不低。本地一次性把模型下载下来,电费而已。


如果你也想跑起来

硬件要求:

  • 最低:RTX 3080 10GB / RTX 4070 12GB,文字编码器走CPU
  • 推荐:RTX 4080/4090 16GB+,全程GPU,速度快一倍以上
  • 内存:32GB RAM(文字编码器Gemma 3 12B走CPU时需要)
  • 硬盘:至少30GB空间(模型+环境)

模型文件:

  • 主模型:LTX-2.3-distilled-Q4_K_S.gguf(~10.7GB)
  • CLIP:Gemma 3 12B fp4 + LTX文字投影层
  • VAE(视频)+ VAE(音频)各一个

我打包了一个一键启动版本,包含:

  • 完整的ComfyUI环境(已配置好所有自定义节点)
  • 预设好的工作流
  • 双击01-run.bat直接启动,浏览器打开就能用

下载地址:https://xueshu.fun/7251



最后说一句

我折腾这些东西折腾了几年了,从最早的Stable Diffusion开始,一路到现在的视频+音频同步生成。

每次有新的能力解锁,我都会有一种类似的感觉:

科技应该是让人更自由的,不是更受限的。

一个能在你自己电脑上运行、不需要向任何人申请、不受任何内容政策约束的本地AI------这东西存在的本身,就有它的意义。

至于你打算拿它来做什么,那是你自己的事了。

相关推荐
王家视频教程图书馆2 小时前
测试开源视频播放器在RN webview中的运行方式
开源·音视频
奔跑吧 android2 小时前
【车载audio】【AudioService 01】【Android 音频子系统分析:按键音(Sound Effects)开启与关闭机制深度解析】
android·音视频·audioflinger·audioservice·audiohal
Cxiaomu2 小时前
深入解析 WebSocket 语音交互:状态流转、表情联动与音频上下行处理实践
websocket·音视频·交互
却道天凉_好个秋3 小时前
WebRTC(十四):Candidate
音视频·webrtc·candidate
REDcker13 天前
WebCodecs VideoDecoder 的 hardwareAcceleration 使用
前端·音视频·实时音视频·直播·webcodecs·videodecoder
gihigo199813 天前
基于TCP协议实现视频采集与通信
网络协议·tcp/ip·音视频
山河君13 天前
四麦克风声源定位实战:基于 GCC-PHAT + 最小二乘法实现 DOA
算法·音视频·语音识别·信号处理·最小二乘法·tdoa
音视频牛哥14 天前
Android平台RTMP/RTSP超低延迟直播播放器开发详解——基于SmartMediaKit深度实践
android·人工智能·计算机视觉·音视频·rtmp播放器·安卓rtmp播放器·rtmp直播播放器
qq_4162764214 天前
通用音频表征的对比学习
学习·音视频