本文章统计可以生成视频的大模型产品,并列出各产品的使用入口、使用效果、收费情况、核心能力等;搜集并整理各大模型的具体情况,本文信息来源于网络。

一. 主流视频生成大模型
国外国内都有多种能生成视频的大模型,可以实现不同规格及不同时长的视频生成,有商用,也有开源产品,以下是具体的产品信息:
1.1 国际主流视频生成大模型
| 模型名称 | 开发公司 | 核心能力 | 访问方式 | 状态 |
|---|---|---|---|---|
| Grok-Imagine-Video | xAI(埃隆·马斯克旗下) | 深度集成于Grok聊天机器人,支持文本/图像生成带音效短视频,强调语义理解与对话联动 | 仅限X平台(Twitter)Premium+订阅用户 | 已上线 |
| Veo 2 | 720p/8秒视频生成,支持图像转视频(Whisk Animate)、MP4下载与SynthID水印,集成于Gemini Advanced | Gemini Advanced订阅用户 | 已上线 | |
| Runway Gen-4.5 | Runway ML | 支持多镜头叙事、原生音频融合、角色一致性优化,最高生成4K分辨率,工业级工作流支持 | Web端订阅服务(免费/专业/企业) | 已上线 |
| Stable Video Diffusion (SVD) | Stability AI | 基于Stable Diffusion的开源图生视频模型,支持单图生成4秒高清视频,Apache 2.0协议可商用 | Hugging Face、ModelScope开源 | 已开源 |
| Pika Labs v1.0 | Pika Labs | 文本/图像输入生成3秒短视频,Discord平台操作,社区活跃度高 | Discord机器人 | 已上线 |
1.2 中国主流视频生成大模型
| 模型名称 | 开发公司 | 核心能力 | 访问方式 | 状态 |
|---|---|---|---|---|
| Wan2.7-Video | 阿里巴巴(通义万相) | 4K/60fps、120秒长视频,支持"思考模式"叙事规划,文生视频/图生视频/参考生视频/视频编辑四模块 | 通义APP、通义万相官网 | 已上线 |
| Seedance 2.0 | 字节跳动 | 双分支扩散变换器架构,支持文本/图像/音频/视频四模态输入,人物动作与表情自然度领先 | 剪映App、CapCut、即梦AI网页端 | 已上线 |
| Kling 3.0 Omni | 快手 | 专业级长视频生成,物理模拟与运动连贯性行业领先,支持1080P/60fps | 可灵AI官网、App及API | 已上线 |
| HunyuanVideo | 腾讯 | 130亿参数,原生切镜、导演级运镜、电影级风格切换,擅长长序列连续动作 | 官网开放试用 | 已开源 |
| HappyHorse-1.0 | 阿里巴巴(ATH) | 全球首个原生音视频联合生成开源模型,登顶Artificial Analysis榜首 | 阿里云百炼平台API(2026年4月27日开放测试) | 即将商用 |
| 一镜流影 | 百度(文心一言4.0+) | 文字→视频自动转换,支持方言配音、背景音乐自动生成、无版权素材输出 | 文心一言App/网页端插件 | 已上线 |
| 海螺视频(Hailuo AI) | MiniMax | 采用NCR架构,支持原生1080p/6s视频生成,Artificial Analysis榜单排名第二 | 海螺AI App、Web端、API | 已上线 |
| Vimi | 商汤科技 | 面向C端的可控人物视频生成模型,支持分钟级高质量人物视频,表情与肢体动作精细控制 | 商汤数字空间平台 | 已上线 |
| Seko AI | 商汤科技 | 接入Seedance 2.0,支持AI漫剧全流程生成:剧本理解→资产生成→多集一致性管理 | 商汤Seko平台 | 已上线 |
| NEXGROW汽车AIGC平台 | 新阔科技 | 专为汽车营销定制,100%还原车型车身、车漆、内饰细节,适配200+营销场景 | 官网B端服务 | 已上线 |
| MOVA | 创智学院 & 模思智能 | 中国首个开源音视频同步生成模型,支持口型精准匹配、多人对话、声画同步 | GitHub开源 | 已开源 |
1.3 中国主流与新兴视频生成大模型
| 模型名称 | 开发公司 | 核心能力 | 访问方式 | 状态 |
|---|---|---|---|---|
| Wan2.7-Video | 阿里巴巴(通义万相) | 4K/60fps、120秒长视频,支持"思考模式"叙事规划,文生视频/图生视频/参考生视频/视频编辑四模块 | 通义APP、通义万相官网 | 已上线 |
| Seedance 2.0 | 字节跳动 | 双分支扩散变换器架构,支持文本/图像/音频/视频四模态输入,人物动作与表情自然度领先 | 剪映App、CapCut、即梦AI网页端 | 已上线 |
| Kling 3.0 Omni | 快手 | 专业级长视频生成,物理模拟与运动连贯性行业领先,支持1080P/60fps | 可灵AI官网、App及API | 已上线 |
| HunyuanVideo | 腾讯 | 130亿参数,原生切镜、导演级运镜、电影级风格切换,擅长长序列连续动作 | 官网开放试用 | 已开源 |
| HappyHorse-1.0 | 阿里巴巴(ATH) | 全球首个原生音视频联合生成开源模型,登顶Artificial Analysis榜首 | 阿里云百炼平台API(2026年4月27日开放测试) | 即将商用 |
| 一镜流影 | 百度(文心一言4.0+) | 文字→视频自动转换,支持方言配音、背景音乐自动生成、无版权素材输出 | 文心一言App/网页端插件 | 已上线 |
| 海螺视频(Hailuo AI) | MiniMax | 采用NCR架构,支持原生1080p/6s视频生成,Artificial Analysis榜单排名第二 | 海螺AI App、Web端、API | 已上线 |
| Vimi | 商汤科技 | 面向C端的可控人物视频生成模型,支持分钟级高质量人物视频,表情与肢体动作精细控制 | 商汤数字空间平台 | 已上线 |
| Seko AI | 商汤科技 | 接入Seedance 2.0,支持AI漫剧全流程生成:剧本理解→资产生成→多集一致性管理 | 商汤Seko平台 | 已上线 |
| NEXGROW汽车AIGC平台 | 新阔科技 | 专为汽车营销定制,100%还原车型车身、车漆、内饰细节,适配200+营销场景 | 官网B端服务 | 已上线 |
| MOVA | 创智学院 & 模思智能 | 中国首个开源音视频同步生成模型,支持口型精准匹配、多人对话、声画同步 | GitHub开源 | 已开源 |
1.4 开源与社区驱动模型
| 模型名称 | 开发方 | 核心能力 | 技术优势 | 状态 |
|---|---|---|---|---|
| LTX-2 AI | 开源社区 | 支持4K/50FPS,音画同步,基于Apache 2.0协议 | 画质超越Sora 2,适配ComfyUI节点 | 2025年发布,2026年广泛采用 |
| LongCat-Video | 美团 | 全球首个开源5分钟长视频模型(136亿参数),支持文生视频、图生视频与续写 | 解决传统模型"断片"问题 | 2026年4月开源 |
| Stable Video Diffusion (SVD) | Stability AI | 图生视频,4秒/576×1024,开源生态完善 | 社区微调版本超百种 | 已开源 |
| OneStory | Meta & 哥本哈根大学 | 多镜头连贯叙事视频生成,基于自适应记忆机制 | 支持image-to-multi-shot与text-to-multi-shot | CVPR 2026论文,开源代码 |
1.5 各大模型能力指标对比
| 维度 | 领先模型 | 说明 |
|---|---|---|
| 最高分辨率 | Wan2.7-Video、LTX-2 AI | 均支持4K输出,为当前行业天花板 |
| 最长视频时长 | LongCat-Video(5分钟)> Wan2.7-Video(120秒) | LongCat为开源唯一突破5分钟的模型 |
| 动态流畅度 | Seedance 2.0 > HunyuanVideo > Kling 3.0 | Seedance在表情与动作自然度上优势显著 |
| 中文语境适配 | 一镜流影、海螺视频、Wan2.7 | 支持方言配音、中文提示词优化、本地化界面 |
| 开源开放性 | LTX-2 AI、LongCat-Video、SVD、MOVA | 可本地部署,适合开发者与研究者 |
| 商业落地成熟度 | Kling 3.0、海螺视频、NEXGROW | 已在影视、广告、汽车营销等场景规模化应用 |
二.各模型访问方式及费用
2.1 国际主流视频生成大模型
| 模型名称 | 开发公司 | 官方网址 | 收费结构 |
|---|---|---|---|
| Grok-Imagine-Video | xAI | https://imagine-grok.com/ | 0.05/秒 (按生成时长计费) 或 4.20/分钟(含音频)仅限X平台Premium+订阅用户 |
| Veo 2 | https://gemini.google.com/ | 20/月 (Gemini Advanced订阅,含Veo 2与Whisk Animate) 或 0.50/秒(独立调用) | |
| Runway Gen-4.5 | Runway ML | https://runwayml.com/product | 15/月 (标准版) **35/月(专业版)企业版定制,API按token计费(单价未公开) |
| Stable Video Diffusion (SVD) | Stability AI | https://huggingface.co/stabilityai/stable-video-diffusion | 完全免费(非商业用途)商用需联系Stability AI获取授权,费用未公开 |
| Pika Labs v1.0 | Pika Labs | https://pika.art/ | 免费版:每日限额,含水印**10/月****(标准版) **60/月(专业版,无积分限制、高清无水印) |
2.2 中国主流与新兴视频生成大模型
| 模型名称 | 开发公司 | 官方网址 | 收费结构 |
|---|---|---|---|
| Wan2.7-Video | 阿里巴巴(通义万相) | https://wanxiang.aliyun.com/ | APP内免费体验(720p--1080p)API按量计费,单价未公开 |
| Seedance 2.0 | 字节跳动 | https://seedance22.com/zh-cn/ | 46元/百万tokens (纯文本/图像输入)28元/百万tokens (含视频输入)≈1元/秒(15秒视频约30.888万tokens) |
| Kling 3.0 Omni | 快手 | https://www.kling3ai.net/ | 黄金会员:58元/月 (次月起)铂金会员:234元/月 (次月起)首月优惠:19元起(享660点灵感值、无水印、高清增强) |
| HunyuanVideo | 腾讯 | https://github.com/Tencent/HunyuanVideo | 免费试用:开通即赠1年资源包开源版本:Apache 2.0协议,可商用,无费用 |
| HappyHorse-1.0 | 阿里巴巴(ATH) | https://bailian.aliyun.com/ | 尚未公布(2026年4月27日开放测试,5月正式商用) |
| 一镜流影 | 百度(文心一言) | https://wenxin.baidu.com/ | 完全免费(2026年4月1日起全面开放,无需会员) |
| 海螺视频(Hailuo AI) | MiniMax | https://hailuoai.video/ | 基础版免费(768p/6s)至臻版:10,788元/年(专业影视团队适用) |
| Vimi | 商汤科技 | https://www.sensetime.com/ai-video | 企业定制报价(无公开定价,面向数字人视频生成) |
| Seko AI | 商汤科技 | https://seko.sensetime.com/ | 企业定制方案(AI漫剧全流程服务,仅B端合作) |
| NEXGROW汽车AIGC平台 | 新阔科技 | https://inexgrow.com/ | 企业定制报价(专为汽车营销设计,100%车型还原) |
| MOVA | 创智学院 & 模思智能 | https://github.com/OpenMOSS/MOVA | 完全免费(开源,无商业授权限制,支持音视频同步) |
2.3 开源与社区驱动模型
| 模型名称 | 开发方 | 官方网址 | 收费结构 |
|---|---|---|---|
| LTX-2 AI | Lightricks | https://github.com/Lightricks/LTX-2 | 完全免费(Apache 2.0协议,可商用) |
| LongCat-Video | 美团 | https://github.com/meituan-longcat/LongCat-Video | 完全免费(无商业授权限制,支持5分钟长视频) |
| OneStory | Meta & 哥本哈根大学 | https://github.com/facebookresearch/onestory | 完全免费(MIT许可证,允许无限制商用,仅需署名) |
三.各模型核心能力及优缺点
3.1 核心能力对比
| 模型名称 | 文本能力 | 多模态能力 | 视频生成能力 | 上下文长度 | 语言支持 | 推理与逻辑 |
|---|---|---|---|---|---|---|
| GPT-4o | 顶级写作、逻辑推演、代码生成,响应速度极快 | 图像理解强,视频理解弱 | 不支持原生视频生成 | 128K tokens | 50+语言 | 数学题准确率85.2%,行业领先 |
| Claude 3.5 | 长文本结构化输出、技术文档总结能力突出 | 图文理解稳定,支持PDF/表格 | 不支持 | 200K tokens | 30+语言 | 逻辑连贯性最优,幻觉率低(<10%) |
| Gemini 1.5 Pro | 多轮对话稳定,适合信息整合 | 最强多模态:支持图像、视频、音频、文档混合输入 | 不支持原生生成 | 1M tokens | 40+语言 | 多模态推理能力顶尖,适合复杂分析 |
| 通义千问 Qwen2-VL | 中文语义理解全球领先,支持119种语言 | 支持视频上传与内容解析(20分钟+) | 支持基础视频生成(企业宣传类) | 1M tokens | 119种 | 电商、金融场景分析能力突出 |
| 文心一言(一镜流影) | 中文创作流畅,知识图谱深度整合 | 支持图文输入生成视频 | 支持30秒内视频生成,支持场景控制(城市/山水/高原) | 128K tokens | 中文为主 | 适合日常内容创作,逻辑深度中等 |
| Kling 3.0 Omni | 支持指令驱动创作 | 支持图像+文本输入 | 1080p/30fps,单次最长2分钟,支持多镜头叙事 | 64K tokens | 中英双语 | AI导演系统自动调度镜头,运镜控制精准 |
| Stable Video Diffusion | 无文本生成能力 | 仅支持图像→视频 | 开源最强视频生成,支持物理模拟(液体、布料) | 无 | 无 | 依赖本地部署,生成稳定但需高算力 |
| 豆包(字节跳动) | 中文对话自然,情感理解"断层领先" | 支持图像、视频、语音全模态输入 | 支持1080p/10秒视频生成 | 256K tokens | 中文优化 | 幻觉率仅4%,行业最低,适合社交互动 |
3.2 优缺点分析
| 维度 | 优势 | 劣势 |
|---|---|---|
| 幻觉与准确性 | Claude 3.5、豆包幻觉率低于10%;文心一言、通义千问在中文场景下准确率高 | GPT-4o幻觉率约21%;部分模型在专业领域(如医疗、法律)易生成"看似合理但错误"的内容 |
| 算力与部署 | 开源模型(Llama 3.1、SVD、MOVA)可本地部署,无授权费 | 商业模型(Veo 2、Runway Gen-4.5)需云端调用,延迟高;SVD生成4K/60fps需A100/H100级GPU |
| 伦理与偏见 | 多数模型已加入内容过滤机制 | 训练数据偏差导致性别、种族识别错误(如人脸识别误识率深肤色高10倍) |
| 开源与商用 | Apache 2.0(SVD)、MIT(OneStory)、LTX-2 允许无限制商用 | 商业模型(如Kling、Veo)禁止逆向工程,API调用受配额限制 |
| 长文本处理 | 通义千问、豆包支持百万token,可解析整本小说或财报 | 多数模型在超长上下文下出现"注意力衰减",关键信息丢失 |
3.3 典型适用场景与行业落地
| 场景类别 | 推荐模型 | 应用说明 |
|---|---|---|
| 短视频内容创作 | Kling 3.0 Omni、文心一言(一镜流影)、豆包 | 快速生成15--30秒短视频脚本+画面,支持口型同步、运镜控制,适合抖音、快手创作者 |
| 企业级报告与分析 | Claude 3.5、通义千问 | 自动总结财报、合同、会议纪要,支持多文档交叉分析,输出结构化PPT大纲 |
| 教育与智能辅导 | 文心一言、豆包 | 中文问答精准,支持个性化学习路径推荐,适配K12与语言学习场景 |
| 影视与广告预演 | Veo 2、Kling 3.0 Omni | 用于前期分镜设计、概念片制作,替代传统实拍脚本测试 |
| 医疗与科研辅助 | 通义千问、Gemini 1.5 | 解析医学影像报告、文献综述、临床数据,支持多模态输入(CT+文本) |
| 开源开发者与研究 | Stable Video Diffusion、LTX-2 AI、MOVA | 可本地部署,支持二次训练,用于学术实验与算法创新 |
| 汽车与工业AIGC | NEXGROW平台、Seko AI | 生成100%还原车型的营销视频,支持动态参数修改(颜色、灯光、内饰) |
3.4 中国模型专项优势:本土化与生态协同
- 文心一言:深度整合百度搜索与知识图谱,中文语境理解、政策解读、本地生活推荐能力远超国际模型。
- 通义千问:依托阿里云生态,可无缝对接钉钉、淘宝、菜鸟等业务系统,实现"AI+企业流程"闭环。
- Kling 3.0 Omni:与快手APP深度绑定,支持一键发布至快手平台,创作者生态成熟。
- 豆包:字节跳动内容推荐算法加持,生成内容更贴合短视频平台用户偏好,爆款内容生成率高。
