【人工智能/AI】项目实战二:AI视频生成产品汇总(非完全)

本文章统计可以生成视频的大模型产品,并列出各产品的使用入口、使用效果、收费情况、核心能力等;搜集并整理各大模型的具体情况,本文信息来源于网络。

一. ‌主流视频生成大模型

国外国内都有多种能生成视频的大模型,可以实现不同规格及不同时长的视频生成,有商用,也有开源产品,以下是具体的产品信息:

1.1 ‌国际主流视频生成大模型

模型名称 开发公司 核心能力 访问方式 状态
‌Grok-Imagine-Video‌ xAI(埃隆·马斯克旗下) 深度集成于Grok聊天机器人,支持文本/图像生成带音效短视频,强调语义理解与对话联动 仅限X平台(Twitter)Premium+订阅用户 已上线
‌Veo 2‌ Google 720p/8秒视频生成,支持图像转视频(Whisk Animate)、MP4下载与SynthID水印,集成于Gemini Advanced Gemini Advanced订阅用户 已上线
‌Runway Gen-4.5‌ Runway ML 支持多镜头叙事、原生音频融合、角色一致性优化,最高生成4K分辨率,工业级工作流支持 Web端订阅服务(免费/专业/企业) 已上线
‌Stable Video Diffusion (SVD)‌ Stability AI 基于Stable Diffusion的开源图生视频模型,支持单图生成4秒高清视频,Apache 2.0协议可商用 Hugging Face、ModelScope开源 已开源
‌Pika Labs v1.0‌ Pika Labs 文本/图像输入生成3秒短视频,Discord平台操作,社区活跃度高 Discord机器人 已上线

1.2 ‌中国主流视频生成大模型

模型名称 开发公司 核心能力 访问方式 状态
‌Wan2.7-Video‌ 阿里巴巴(通义万相) 4K/60fps、120秒长视频,支持"思考模式"叙事规划,文生视频/图生视频/参考生视频/视频编辑四模块 通义APP、通义万相官网 已上线
‌Seedance 2.0‌ 字节跳动 双分支扩散变换器架构,支持文本/图像/音频/视频四模态输入,人物动作与表情自然度领先 剪映App、CapCut、即梦AI网页端 已上线
‌Kling 3.0 Omni‌ 快手 专业级长视频生成,物理模拟与运动连贯性行业领先,支持1080P/60fps 可灵AI官网、App及API 已上线
‌HunyuanVideo‌ 腾讯 130亿参数,原生切镜、导演级运镜、电影级风格切换,擅长长序列连续动作 官网开放试用 已开源
‌HappyHorse-1.0‌ 阿里巴巴(ATH) 全球首个原生音视频联合生成开源模型,登顶Artificial Analysis榜首 阿里云百炼平台API(2026年4月27日开放测试) 即将商用
‌一镜流影‌ 百度(文心一言4.0+) 文字→视频自动转换,支持方言配音、背景音乐自动生成、无版权素材输出 文心一言App/网页端插件 已上线
‌海螺视频(Hailuo AI)‌ MiniMax 采用NCR架构,支持原生1080p/6s视频生成,Artificial Analysis榜单排名第二 海螺AI App、Web端、API 已上线
‌Vimi‌ 商汤科技 面向C端的可控人物视频生成模型,支持分钟级高质量人物视频,表情与肢体动作精细控制 商汤数字空间平台 已上线
‌Seko AI‌ 商汤科技 接入Seedance 2.0,支持AI漫剧全流程生成:剧本理解→资产生成→多集一致性管理 商汤Seko平台 已上线
‌NEXGROW汽车AIGC平台‌ 新阔科技 专为汽车营销定制,100%还原车型车身、车漆、内饰细节,适配200+营销场景 官网B端服务 已上线
‌MOVA‌ 创智学院 & 模思智能 中国首个开源音视频同步生成模型,支持口型精准匹配、多人对话、声画同步 GitHub开源 已开源

1.3 ‌中国主流与新兴视频生成大模型

模型名称 开发公司 核心能力 访问方式 状态
‌Wan2.7-Video‌ 阿里巴巴(通义万相) 4K/60fps、120秒长视频,支持"思考模式"叙事规划,文生视频/图生视频/参考生视频/视频编辑四模块 通义APP、通义万相官网 已上线
‌Seedance 2.0‌ 字节跳动 双分支扩散变换器架构,支持文本/图像/音频/视频四模态输入,人物动作与表情自然度领先 剪映App、CapCut、即梦AI网页端 已上线
‌Kling 3.0 Omni‌ 快手 专业级长视频生成,物理模拟与运动连贯性行业领先,支持1080P/60fps 可灵AI官网、App及API 已上线
‌HunyuanVideo‌ 腾讯 130亿参数,原生切镜、导演级运镜、电影级风格切换,擅长长序列连续动作 官网开放试用 已开源
‌HappyHorse-1.0‌ 阿里巴巴(ATH) 全球首个原生音视频联合生成开源模型,登顶Artificial Analysis榜首 阿里云百炼平台API(2026年4月27日开放测试) 即将商用
‌一镜流影‌ 百度(文心一言4.0+) 文字→视频自动转换,支持方言配音、背景音乐自动生成、无版权素材输出 文心一言App/网页端插件 已上线
‌海螺视频(Hailuo AI)‌ MiniMax 采用NCR架构,支持原生1080p/6s视频生成,Artificial Analysis榜单排名第二 海螺AI App、Web端、API 已上线
‌Vimi‌ 商汤科技 面向C端的可控人物视频生成模型,支持分钟级高质量人物视频,表情与肢体动作精细控制 商汤数字空间平台 已上线
‌Seko AI‌ 商汤科技 接入Seedance 2.0,支持AI漫剧全流程生成:剧本理解→资产生成→多集一致性管理 商汤Seko平台 已上线
‌NEXGROW汽车AIGC平台‌ 新阔科技 专为汽车营销定制,100%还原车型车身、车漆、内饰细节,适配200+营销场景 官网B端服务 已上线
‌MOVA‌ 创智学院 & 模思智能 中国首个开源音视频同步生成模型,支持口型精准匹配、多人对话、声画同步 GitHub开源 已开源

1.4 开源与社区驱动模型

模型名称 开发方 核心能力 技术优势 状态
‌LTX-2 AI‌ 开源社区 支持4K/50FPS,音画同步,基于Apache 2.0协议 画质超越Sora 2,适配ComfyUI节点 2025年发布,2026年广泛采用
‌LongCat-Video‌ 美团 全球首个开源5分钟长视频模型(136亿参数),支持文生视频、图生视频与续写 解决传统模型"断片"问题 2026年4月开源
‌Stable Video Diffusion (SVD)‌ Stability AI 图生视频,4秒/576×1024,开源生态完善 社区微调版本超百种 已开源
‌OneStory‌ Meta & 哥本哈根大学 多镜头连贯叙事视频生成,基于自适应记忆机制 支持image-to-multi-shot与text-to-multi-shot CVPR 2026论文,开源代码

1.5 ‌各大模型能力指标对比

维度 领先模型 说明
‌最高分辨率‌ ‌Wan2.7-Video‌、‌LTX-2 AI‌ 均支持4K输出,为当前行业天花板
‌最长视频时长‌ ‌LongCat-Video‌(5分钟)> ‌Wan2.7-Video‌(120秒) LongCat为开源唯一突破5分钟的模型
‌动态流畅度‌ ‌Seedance 2.0‌ > ‌HunyuanVideo‌ > ‌Kling 3.0‌ Seedance在表情与动作自然度上优势显著
‌中文语境适配‌ ‌一镜流影‌、‌海螺视频‌、‌Wan2.7‌ 支持方言配音、中文提示词优化、本地化界面
‌开源开放性‌ ‌LTX-2 AI‌、‌LongCat-Video‌、‌SVD‌、‌MOVA‌ 可本地部署,适合开发者与研究者
‌商业落地成熟度‌ ‌Kling 3.0‌、‌海螺视频‌、‌NEXGROW‌ 已在影视、广告、汽车营销等场景规模化应用

二.‌各模型访问方式及费用

2.1 ‌国际主流视频生成大模型

模型名称 开发公司 官方网址 收费结构
‌Grok-Imagine-Video‌ xAI https://imagine-grok.com/ 0.05/秒 ‌(按生成时长计费) 或 ‌4.20/分钟‌(含音频)仅限X平台Premium+订阅用户
‌Veo 2‌ Google https://gemini.google.com/ 20/月 ‌(Gemini Advanced订阅,含Veo 2与Whisk Animate) 或 ‌0.50/秒‌(独立调用)
‌Runway Gen-4.5‌ Runway ML https://runwayml.com/product 15/月 ‌(标准版) ‌**35/月‌(专业版)企业版定制,API按token计费(单价未公开)
‌Stable Video Diffusion (SVD)‌ Stability AI https://huggingface.co/stabilityai/stable-video-diffusion ‌完全免费‌(非商业用途)商用需联系Stability AI获取授权,费用未公开
‌Pika Labs v1.0‌ Pika Labs https://pika.art/ ‌免费版‌:每日限额,含水印‌**10/月****‌(标准版) ‌**60/月‌(专业版,无积分限制、高清无水印)

2.2 ‌中国主流与新兴视频生成大模型

模型名称 开发公司 官方网址 收费结构
‌Wan2.7-Video‌ 阿里巴巴(通义万相) https://wanxiang.aliyun.com/ APP内免费体验(720p--1080p)API按量计费,单价未公开
‌Seedance 2.0‌ 字节跳动 https://seedance22.com/zh-cn/ 46元/百万tokens‌ (纯文本/图像输入)‌28元/百万tokens‌ (含视频输入)≈‌1元/秒‌(15秒视频约30.888万tokens)
‌Kling 3.0 Omni‌ 快手 https://www.kling3ai.net/ ‌黄金会员:58元/月‌ (次月起)‌铂金会员:234元/月‌ (次月起)‌首月优惠:19元起‌(享660点灵感值、无水印、高清增强)
‌HunyuanVideo‌ 腾讯 https://github.com/Tencent/HunyuanVideo ‌免费试用‌:开通即赠1年资源包‌开源版本‌:Apache 2.0协议,可商用,无费用
‌HappyHorse-1.0‌ 阿里巴巴(ATH) https://bailian.aliyun.com/ ‌尚未公布‌(2026年4月27日开放测试,5月正式商用)
‌一镜流影‌ 百度(文心一言) https://wenxin.baidu.com/ ‌完全免费‌(2026年4月1日起全面开放,无需会员)
‌海螺视频(Hailuo AI)‌ MiniMax https://hailuoai.video/ ‌基础版免费‌(768p/6s)‌至臻版:10,788元/年‌(专业影视团队适用)
‌Vimi‌ 商汤科技 https://www.sensetime.com/ai-video ‌企业定制报价‌(无公开定价,面向数字人视频生成)
‌Seko AI‌ 商汤科技 https://seko.sensetime.com/ ‌企业定制方案‌(AI漫剧全流程服务,仅B端合作)
‌NEXGROW汽车AIGC平台‌ 新阔科技 https://inexgrow.com/ ‌企业定制报价‌(专为汽车营销设计,100%车型还原)
‌MOVA‌ 创智学院 & 模思智能 https://github.com/OpenMOSS/MOVA ‌完全免费‌(开源,无商业授权限制,支持音视频同步)

2.3 ‌开源与社区驱动模型

模型名称 开发方 官方网址 收费结构
‌LTX-2 AI‌ Lightricks https://github.com/Lightricks/LTX-2 ‌完全免费‌(Apache 2.0协议,可商用)
‌LongCat-Video‌ 美团 https://github.com/meituan-longcat/LongCat-Video ‌完全免费‌(无商业授权限制,支持5分钟长视频)
‌OneStory‌ Meta & 哥本哈根大学 https://github.com/facebookresearch/onestory ‌完全免费‌(MIT许可证,允许无限制商用,仅需署名)

三.各模型核心能力及优缺点

3.1 ‌核心能力对比

模型名称 文本能力 多模态能力 视频生成能力 上下文长度 语言支持 推理与逻辑
‌GPT-4o‌ 顶级写作、逻辑推演、代码生成,响应速度极快 图像理解强,视频理解弱 不支持原生视频生成 128K tokens 50+语言 数学题准确率85.2%,行业领先
‌Claude 3.5‌ 长文本结构化输出、技术文档总结能力突出 图文理解稳定,支持PDF/表格 不支持 200K tokens 30+语言 逻辑连贯性最优,幻觉率低(<10%)
‌Gemini 1.5 Pro‌ 多轮对话稳定,适合信息整合 ‌最强多模态‌:支持图像、视频、音频、文档混合输入 不支持原生生成 1M tokens 40+语言 多模态推理能力顶尖,适合复杂分析
‌通义千问 Qwen2-VL‌ 中文语义理解全球领先,支持119种语言 支持视频上传与内容解析(20分钟+) 支持基础视频生成(企业宣传类) 1M tokens 119种 电商、金融场景分析能力突出
‌文心一言(一镜流影)‌ 中文创作流畅,知识图谱深度整合 支持图文输入生成视频 ‌支持30秒内视频生成‌,支持场景控制(城市/山水/高原) 128K tokens 中文为主 适合日常内容创作,逻辑深度中等
‌Kling 3.0 Omni‌ 支持指令驱动创作 支持图像+文本输入 ‌1080p/30fps,单次最长2分钟,支持多镜头叙事‌ 64K tokens 中英双语 AI导演系统自动调度镜头,运镜控制精准
‌Stable Video Diffusion‌ 无文本生成能力 仅支持图像→视频 ‌开源最强视频生成‌,支持物理模拟(液体、布料) 依赖本地部署,生成稳定但需高算力
‌豆包(字节跳动)‌ 中文对话自然,情感理解"断层领先" 支持图像、视频、语音全模态输入 支持1080p/10秒视频生成 256K tokens 中文优化 幻觉率仅4%,行业最低,适合社交互动

3.2 ‌优缺点分析

维度 优势 劣势
‌幻觉与准确性‌ Claude 3.5、豆包幻觉率低于10%;文心一言、通义千问在中文场景下准确率高 GPT-4o幻觉率约21%;部分模型在专业领域(如医疗、法律)易生成"看似合理但错误"的内容
‌算力与部署‌ 开源模型(Llama 3.1、SVD、MOVA)可本地部署,无授权费 商业模型(Veo 2、Runway Gen-4.5)需云端调用,延迟高;SVD生成4K/60fps需A100/H100级GPU
‌伦理与偏见‌ 多数模型已加入内容过滤机制 训练数据偏差导致性别、种族识别错误(如人脸识别误识率深肤色高10倍)
‌开源与商用‌ Apache 2.0(SVD)、MIT(OneStory)、LTX-2 允许无限制商用 商业模型(如Kling、Veo)禁止逆向工程,API调用受配额限制
‌长文本处理‌ 通义千问、豆包支持百万token,可解析整本小说或财报 多数模型在超长上下文下出现"注意力衰减",关键信息丢失

3.3 ‌典型适用场景与行业落地

场景类别 推荐模型 应用说明
‌短视频内容创作‌ ‌Kling 3.0 Omni‌、‌文心一言(一镜流影)‌、‌豆包‌ 快速生成15--30秒短视频脚本+画面,支持口型同步、运镜控制,适合抖音、快手创作者
‌企业级报告与分析‌ ‌Claude 3.5‌、‌通义千问‌ 自动总结财报、合同、会议纪要,支持多文档交叉分析,输出结构化PPT大纲
‌教育与智能辅导‌ ‌文心一言‌、‌豆包‌ 中文问答精准,支持个性化学习路径推荐,适配K12与语言学习场景
‌影视与广告预演‌ ‌Veo 2‌、‌Kling 3.0 Omni‌ 用于前期分镜设计、概念片制作,替代传统实拍脚本测试
‌医疗与科研辅助‌ ‌通义千问‌、‌Gemini 1.5‌ 解析医学影像报告、文献综述、临床数据,支持多模态输入(CT+文本)
‌开源开发者与研究‌ ‌Stable Video Diffusion‌、‌LTX-2 AI‌、‌MOVA‌ 可本地部署,支持二次训练,用于学术实验与算法创新
‌汽车与工业AIGC‌ ‌NEXGROW平台‌、‌Seko AI‌ 生成100%还原车型的营销视频,支持动态参数修改(颜色、灯光、内饰)

3.4 ‌中国模型专项优势:本土化与生态协同

  • 文心一言‌:深度整合百度搜索与知识图谱,中文语境理解、政策解读、本地生活推荐能力远超国际模型。
  • ‌通义千问‌:依托阿里云生态,可无缝对接钉钉、淘宝、菜鸟等业务系统,实现"AI+企业流程"闭环。
  • ‌Kling 3.0 Omni‌:与快手APP深度绑定,支持一键发布至快手平台,创作者生态成熟。
  • ‌豆包‌:字节跳动内容推荐算法加持,生成内容更贴合短视频平台用户偏好,爆款内容生成率高
相关推荐
一休哥※2 小时前
YOLOv11改进系列 | 引入EMO ICCV2023的C3k2_iRMB模块,轻量注意力残差混合块增强C3k2,多尺度分割更稳更准
深度学习·yolo·计算机视觉
新缸中之脑2 小时前
gemini 3.1 TTS全部30 种语音实测
人工智能·语音识别
35岁程序员的自救之路2 小时前
2026年社区系统选型指南:拒绝“缝合怪”,拥抱“AI原生”一体化方案
大数据·人工智能·ai-native
医学AI望远镜2 小时前
公开数据集整理:心脏CMR分割、心肌瘢痕、肋骨骨折、骨关节炎等
人工智能·数据集·医学图像分割
白活了2 小时前
Claude Code 安装并配置 Coding Plan
前端·人工智能·后端
懂AI的老郑2 小时前
智能体演变路径预测:AI未来行为的核心解码
人工智能
wayz112 小时前
Day 7:第一周复习与模型综合比较
人工智能·算法·机器学习·量化交易
小超同学你好2 小时前
Transformer 27. Vision Transformer(ViT):把图像当作「词序列」的编码器
人工智能·深度学习·transformer
登山人在路上2 小时前
RAGAS 中的已知偏差详解
人工智能·全文检索·ai编程