文生视频

星朗智能语音——文生视频最近接了几个短视频和自媒体商单，甲方要那种“赛博朋克风的城市穿梭”或者“超现实的微观世界”空镜头。自己搭实景拍根本不可能，找素材库又千篇一律，很容易撞车侵权。

v1-5-pruned-emaonly.safetensors 搭配mm_sd_v15_v2.ckpt 生成视频，具体操作步骤注：本文使用RTX5060 8G显存的环境结果：出现该面板即可滚动页面找到 AnimateDiff 面板，按如下顺序设置：

LTX2.3 最强开源视频生成模型｜文生图 / 图生视频 / 音频驱动｜消费级显卡本地部署｜一键整合包LTX2.3 是 Lightricks 推出的开源音视频生成模型，支持文生视频、图生视频、音频驱动生成视频，原生音画同步、支持 4K / 竖屏，消费级显卡可本地部署，一键整合包开箱即用。

Seedance 2.0 API 文生视频 |支持100并发 | [灵龙AI API]这一篇我们一起来看看在Seedance 2.0中如何使用文生视频的API，先来一个视频：一、文生视频：发起任务

阿钱真强道

17 ComfyUI AnimateDiff 新手教程：最小文生视频工作流搭建与原理解析刚接触 ComfyUI 和 AnimateDiff 时，最常见的两个问题通常是：很多教程一上来就堆很多插件和节点，结果还没跑通就先被劝退了。这篇文章只做一件事：

文生视频的大模型都有哪些？Grok:截至2026年1月底，文生视频（Text-to-Video）领域已经形成比较清晰的第一梯队和第二梯队格局。以下是当前主流且公认能力最强/使用最广泛的文生视频大模型（按综合实力大致排序，非严格排名，因为不同榜单/使用场景侧重点不同）： As of the end of January 2026, the text-to-video (TTV) field has formed a relatively clear first-tier and second-tier structure. Belo

从几秒走向几分钟：长视频生成进入 LongCat 时刻在短短一年里，AI 视频生成已经从「炫技几秒」进化到「真的能讲故事」。而真正能撑起国内开源长视频创作的一员猛将，也终于登场了——来自美团的 LongCat-Video。它的能力很好概括：一句话？给你拍成一段剧情；一张图？它能让画面自己动起来；视频断在一半？它立刻替你续拍下去。 LongCat-Video 基于 136 亿参数的视频生成大模型，同时支持文字转视频、图片转视频和视频续写，让创意能够持续往前推进。它不是只会做几秒炫酷短片，而是从训练阶段就融入了长时序逻辑，让光影不飘、角色不丢、剧情不突兀

人工智能研究所

视频与音频碰撞，谷歌 Veo 3.1，生成“有声电影”，人物对话超震撼还记得 Veo 3.0 吗？这个是谷歌发布的文生视频大模型，其效果与质量简直惊人，它能生成令人惊叹的无声画面，但总感觉缺了点灵魂。

【论文精读】InstanceCap：通过实例感知提升文本到视频生成效果原文标题：InstanceCap: Improving Text-to-Video Generation via Instance-aware Captioning 论文链接：https://arxiv.org/abs/2412.09283v1

大模型实战：通义万相2.1-文生视频-1.3B通义万相2.1-文生视频-1.3B-480P效果演示通义万相2.1是阿里巴巴达摩院推出的多模态AI模型，专注于文本到视频（Text-to-Video）生成任务。1.3B版本是其参数规模为13亿的轻量级模型，旨在高效生成符合文本描述的短视频片段。

爱分享的飘哥

第三十九章：AI导演的“魔法时间轴”：文生视频与Video Latent扩散结构我们已经学会了如何用Stable Diffusion生成精美的图片，甚至用AnimateDiff让它们动起来。但那更像是在静态画卷上“注入”运动，每一帧依然由图像模型负责。

华为昇腾NPU卡文生视频[T2V]大模型WAN2.1模型推理使用先看效果：output_videooutput_video是之前使用910B系列 NPU，Wan2.1-T2V-1.3B模型生成的，效果没有我之前用的Wan2.1-T2V-14B生成的质量好。（参考链接：https://www.mindspore.cn/news/detail?id=3632）

阿里开源通义万相Wan2.1-VACE-14B：用于视频创建和编辑的一体化模型Wan2.1是一个全面且开放的视频基础模型套件，旨在突破视频生成的边界。该模型在多个基准测试中持续超越现有的开源模型和商业解决方案的性能。Wan2.1支持多种任务，包括文本到视频、图像到视频、视频编辑、文本到图像和视频到音频，推动了视频生成领域的发展。此外，Wan2.1还具备生成中英文文本的能力，极大增强了其实际应用价值。

HunyuanCustom：文生视频框架论文速读本文提出了 HunyuanCustom，这是一个基于多模态驱动的定制化视频生成框架。该框架旨在解决现有视频生成模型在身份一致性（identity consistency）和输入模态多样性方面的不足。HunyuanCustom 支持图像、音频、视频和文本等多种条件输入，能够生成具有特定主题身份的视频，广泛应用于虚拟人广告、虚拟试穿、唱歌头像和视频编辑等领域。

才华横溢caozy

编写文生视频提示词，制作抖音爆款视频随着短视频平台的迅猛发展，视频内容创作已经逐渐成为了越来越多人表达自己创意和分享故事的方式。尤其在抖音（TikTok）等短视频平台上，创作者们利用高效、创意十足的短视频内容吸引观众的注意力，进而获得更多的点赞和粉丝。而在这其中，文生视频提示词（即Text-to-Video Prompts）作为一种创新的内容创作工具，已经逐渐成为内容创作者的新宠。本文将详细介绍文生视频提示词的定义、功能及其组成部分，帮助你更好地理解如何使用提示词来创作出抖音等平台上的爆款视频。

正在走向自律

通义万相2.1：开启视频生成新时代文章摘要：通义万相 2.1 是一款在人工智能视频生成领域具有里程碑意义的工具，它通过核心技术的升级和创新，为创作者提供了更强大、更智能的创作能力。本文详细介绍了通义万相 2.1 的背景、核心技术、功能特性、性能评测、用户反馈以及应用场景，并提供了上手教程和未来展望，帮助读者全面了解这一先进的视频生成工具。

AIGC专栏18——EasyAnimateV5.1版本详解应用Qwen2 VL作为文本编码器，支持轨迹控制与相机镜头控制在EasyAnimateV5中，我们将模型规模扩大到了12B，并使用了MMDiT结构。参考最新的一些文生图与文生视频算法，我发现我们还有很多比较重要的tricks还没有使用，比如Flow采样器，比如使用大语言模型作为文本编码器，比如使用奖励模型等，我们将这些技巧都进行了应用，实现了EasyAnimateV5.1，性能相比之前也有比较大幅度的提升。

【AIGC】SYNCAMMASTER：多视角多像机的视频生成标题：SYNCAMMASTER: SYNCHRONIZING MULTI-CAMERA VIDEO GENERATION FROM DIVERSE VIEWPOINTS 主页：https://jianhongbai.github.io/SynCamMaster/ 代码：https://github.com/KwaiVGI/SynCamMaster

AIGC专栏17——EasyAnimate V5版本详解应用MMDIT结构，拓展模型规模到12B 支持不同控制输入的控制模型前段时间开源了CogVideoX-Fun，学习了很多CogVideoX的代码与思想理念，发现EasyAnimate之前的版本存在非常多不合理的地方，比如说embedding的添加方式、模型规模等。在这个基础上我们开发了EasyAnimateV5，提升了EasyAnimate系列的模型生成能力。

文生视频、图生视频 AI 大模型开源项目介绍【持续更新】