1. 快速结论
- 视频生成第一梯队:OpenAI Sora 2、Google Veo 3.1、Runway Gen-4 系列、Kuaishou Kling、ByteDance Seedance、MiniMax Hailuo 02、Luma Ray、Vidu、Alibaba Wan、Tencent HunyuanVideo。它们的差异主要体现在:可控性、镜头运动稳定性、角色一致性、音频/对白能力、API 可用性、成本与区域可访问性。
- 图像生成第一梯队:OpenAI GPT Image、Google Nano Banana/Gemini Flash Image、ByteDance Seedream、Midjourney、Adobe Firefly、Black Forest Labs FLUX、Ideogram、Recraft、Stability AI、Leonardo。图像产品已从"出图质量"竞争转向"编辑、文字渲染、角色一致性、品牌安全、商业授权、工作流集成"竞争。
- 平台/Agent 工具:即梦、Lovart、Adobe Firefly、Canva Magic Studio、Krea、Freepik、Leonardo、Dreamina 更适合非工程用户做完整创意工作流;它们通常封装多模型能力,重点不在单模型极限性能,而在模板、编辑器、素材库、团队协作、发布链路。
- API 友好度:OpenAI、Google Gemini API、BytePlus/Volcengine ModelArk、Runway、Vidu、MiniMax、Luma、Stability、BFL、Ideogram、Leonardo 的开发者文档更明确;Midjourney、即梦、小云雀、HappyHorse 等更偏产品或新发布形态,公开 API/官方文档不一定完整。
- 需要单独标注的名称 :
- gemini banana :市场俗称,官方名称通常归入 Google Nano Banana / Gemini Flash Image 系列。
- GPT Image :OpenAI 图像生成系列,开发侧以
gpt-image-*模型和 Images API/Responses API 为主。 - HappyHorse:公开资料多指 Alibaba/ATH 相关新视频模型,但截至本报告未核验到稳定官方官网/API 文档入口,应作为"待官方确认"项。
- 小云雀:公开入口和 API 文档不稳定,应标注为"产品入口待确认",不建议把第三方介绍页写成官网。
2. 分类框架
| 类别 | 代表产品 | 核心能力 | 典型使用者 | 关键采购/选型指标 |
|---|---|---|---|---|
| 文生/图生视频模型 | Sora、Veo、Runway、Kling、Seedance、Vidu、Hailuo、Luma、Wan、HunyuanVideo | 生成短片、镜头运动、角色一致、部分音频/对白 | 视频创作者、广告团队、自动化内容系统 | 画面稳定性、运动一致性、时长、分辨率、API、成本、审查与合规 |
| 图像生成/编辑模型 | GPT Image、Nano Banana、Seedream、Midjourney、Firefly、FLUX、Ideogram、Recraft、Stable Image | 文生图、图生图、局部编辑、产品图、海报、文字渲染 | 设计师、电商、营销、产品团队 | 编辑可控性、文字准确率、风格一致、商用授权、批量 API |
| 创意 Agent/工作流平台 | Lovart、即梦/Dreamina、Adobe Firefly、Canva、Krea、Freepik、Leonardo | 多步骤创意生成、设计稿、素材管理、编辑发布 | 非工程创意团队、运营、品牌市场 | 端到端效率、模板、协作、资产管理、版权、团队权限 |
| 开源/可私有化模型 | Wan、HunyuanVideo、CogVideoX、Stable Diffusion/SDXL/SD3.5、FLUX 开源权重 | 本地部署、微调、私有化推理 | 技术团队、数据敏感企业 | 许可证、显存成本、推理速度、生态插件、微调难度 |
3. 核心视频模型/平台对比
| 产品/模型 | 国家/公司 | 定位 | 主要优势 | 主要短板/风险 | API/文档成熟度 | 适合场景 |
|---|---|---|---|---|---|---|
| OpenAI Sora 2 | 美国 / OpenAI | 文生视频、图生视频、音频/视频生成 | 指令理解强,叙事与物理一致性好,适合与 ChatGPT/Responses API 串联 | 区域、额度、内容策略和成本需评估;Sora 消费端与 API 能力边界需区分 | 高 | 叙事短片、广告分镜、自动化视频生成 |
| Google Veo 3.1 | 美国 / Google DeepMind | 高质量视频生成 | 与 Gemini、Flow、Vertex AI/Gemini API 生态结合;音视频和镜头控制能力强 | Google 生态绑定较深,地区与企业账号要求需确认 | 高 | 品牌视频、影视预览、企业级视频生成 |
| Runway Gen-4 系列 | 美国 / Runway | 专业创意视频平台/API | 视频编辑和创意工具链成熟,创作者生态强,API 明确 | 成本较高;复杂工业级批处理需看配额 | 高 | 创意短片、广告视频、视频编辑工作流 |
| Kling / 可灵 | 中国 / 快手 | 视频/图像生成平台与 API | 国内视频生成头部,运动、角色、镜头控制和中文生态优势明显 | 海外/国内版本、计费和模型版本存在差异;文档页面有时需要登录 | 中高 | 短视频、电商视频、中文场景内容 |
| Seedance | 中国 / 字节跳动 | 视频生成基础模型/API | 与即梦、剪映、BytePlus/火山方舟生态联动;中文提示和消费级工具链强 | 国内外文档体系分散;需区分 Seedance、Seedream、即梦/Dreamina | 中高 | 中文短视频、营销素材、平台化集成 |
| MiniMax Hailuo 02 | 中国 / MiniMax | 消费级与 API 视频生成 | 海螺平台传播度高,模型迭代快,适合快速生成短视频 | 长视频、复杂多镜头一致性仍需实测 | 中高 | 社媒短片、创意验证、视频素材生成 |
| Vidu | 中国 / 生数科技/清华系 | 视频生成模型/API | 国内专业视频生成代表,API 文档清晰,适合工程接入 | 生态工具链较 Runway/Adobe 弱 | 高 | 图生视频、短片生成、API 批量生成 |
| Luma Ray / Dream Machine | 美国 / Luma AI | 视频生成平台/API | 图生视频、镜头运动和创意风格表现强,API 可用 | 长期一致性和企业协作能力需按项目验证 | 高 | 创意视频、产品动效、动态图像 |
| Pika | 美国 / Pika | 消费级视频生成平台 | 社媒传播、趣味模板和快速生成体验强 | 官方开发者 API 入口相对不稳定,部分 API 依赖第三方平台 | 低中 | 社媒创意、轻量视频生成 |
| Alibaba Wan | 中国 / 阿里巴巴 | 开源/云 API 视频模型 | 开源生态强,适合私有化、二开和云上推理 | 商业版、开源版、云 API 能力需分别评估 | 中高 | 私有化视频生成、技术团队研究和部署 |
| Tencent HunyuanVideo | 中国 / 腾讯 | 开源视频生成模型 | 开源权重和研究生态活跃,适合本地部署和微调 | 产品化工具链弱于闭源平台 | 中 | 私有化、研究、企业内部视频生成 |
| HappyHorse | 中国 / Alibaba ATH 相关公开报道 | 新兴视频模型 | 据公开报道强调高分辨率、长时长、音视频同步 | 未核验到稳定官方官网/API 文档,不宜作为可采购 API 直接引用 | 低 | 先作为技术观察项 |
4. 核心图像模型/平台对比
| 产品/模型 | 国家/公司 | 定位 | 主要优势 | 主要短板/风险 | API/文档成熟度 | 适合场景 |
|---|---|---|---|---|---|---|
| OpenAI GPT Image | 美国 / OpenAI | 图像生成与编辑 API | 指令理解、编辑一致性、多轮上下文和开发者生态强 | 成本、配额、内容策略需按业务确认 | 高 | 产品图、营销图、应用内图片生成/编辑 |
| Google Nano Banana / Gemini Flash Image | 美国 / Google | 图像生成/编辑 | 多模态上下文、角色一致性和 Gemini 生态强 | 模型命名变化快,需要按官方 docs 确认当前可用模型 ID | 高 | 多轮图像编辑、视觉理解+生成一体化应用 |
| Seedream | 中国 / 字节跳动 | 图像生成/编辑模型/API | 中文提示、海报、电商图、消费级工具链强;与即梦/剪映生态联动 | 国内外产品名和 API 版本需区分 | 中高 | 中文营销图、电商素材、批量图像生成 |
| Midjourney | 美国 / Midjourney | 高审美图像生成平台 | 艺术性、审美稳定性和社区生态强 | 官方 API 能力有限,自动化和企业系统接入不如 API 型产品 | 中 | 概念设计、视觉探索、品牌风格方向 |
| Adobe Firefly | 美国 / Adobe | 商业安全图像/视频/设计平台 | Adobe 全家桶集成、版权和品牌安全叙事强,企业采用友好 | 极限创意效果不一定领先 Midjourney/FLUX | 高 | 品牌营销、企业设计、Adobe 工作流 |
| Black Forest Labs FLUX | 德国 / BFL | 高质量图像生成/API | 写实、人像、构图、开源/商业生态强 | 不同模型许可证和商用条款需核对 | 高 | 高质量图像、私有化、开发者集成 |
| Stability AI Stable Image / Stable Diffusion | 英国/美国 / Stability AI | 图像基础模型与 API | 开源生态、插件和本地部署能力强 | 闭源 API 产品与开源模型差异较大;审美一致性需工作流调优 | 高 | 私有化、图像生产流水线、插件生态 |
| Ideogram | 加拿大 / Ideogram | 图像生成/API | 文字渲染、海报和标识类图像强 | 视频和复杂编辑生态弱于综合平台 | 高 | 海报、Logo 草案、带文字图片 |
| Recraft | 英国/美国 / Recraft | 设计向图像生成/API | 矢量、品牌视觉、图标、风格一致性强 | 泛娱乐审美和视频能力不是主场 | 中高 | 品牌资产、图标、插画、设计系统 |
| Leonardo AI | 澳大利亚/Canva | 图像生成与创作平台/API | 游戏资产、角色、产品图和平台工作流成熟 | 作为平台封装能力多,底层模型透明度有限 | 高 | 游戏素材、电商图、批量视觉资产 |
| Qwen-Image / Wan 图像能力 | 中国 / 阿里巴巴 | 图像生成/编辑、开源/云 API | 中文文字渲染和开源生态值得关注 | 模型线较多,云 API、开源权重、消费产品需分开评估 | 中高 | 中文海报、私有化图像生成 |
| HunyuanImage / 腾讯混元图像 | 中国 / 腾讯 | 图像生成/编辑 | 腾讯云/混元生态和中文场景支持 | 海外生态和第三方插件弱于 Stable/FLUX | 中 | 中文企业内容、云上集成 |
5. 智能体工具平台与创意工作流对比
| 平台 | 国家/公司 | 类型 | 主要价值 | 与单模型的区别 | 官方文档状态 |
|---|---|---|---|---|---|
| 即梦 AI / Dreamina | 中国 / 字节跳动 | 图像/视频创作平台 | 面向普通创作者的一站式生成、编辑和发布素材 | 更像产品工作台,底层可关联 Seedream/Seedance 等模型能力 | 产品官网明确,公开 API 文档不独立 |
| Lovart | 海外团队 | 设计 Agent/创意工作流 | 从需求到视觉方案、海报、品牌素材的多步骤生成 | 强调 Agent 编排,不只是单次出图 | 官网/API 入口存在,完整开发者文档有限 |
| Adobe Firefly | 美国 / Adobe | 企业设计平台 | 与 Photoshop、Illustrator、Express、Firefly Services 集成 | 企业版权、团队协作和设计工具链更强 | 文档成熟 |
| Canva Magic Studio | 澳大利亚/Canva | 设计平台 | 模板、协作、发布和多模型生成能力 | 适合非设计师和营销团队 | 开发者平台成熟,但生成模型细节不完全开放 |
| Krea AI | 美国/欧洲 | 实时图像/视频创意平台 | 实时生成、风格探索、视频/图像混合工作流 | 强交互创意工具,弱 API 化 | API/企业入口相对有限 |
| Freepik AI Suite | 西班牙 / Freepik | 素材平台+生成工具 | 素材库、设计资源和生成能力结合 | 适合内容团队快速产出商业素材 | API 以 Freepik 开发者平台为主 |
| Leonardo AI | Canva 旗下 | 图像生成平台/API | 游戏、电商、角色资产生产链路成熟 | 平台和 API 兼具 | 文档成熟 |
| 小云雀 | 中国 / 公开入口待确认 | 图像/视频创作或智能体工具 | 公开资料显示为中文创作工具,但入口和主体需二次核验 | 不建议与 Seedance/即梦等官方模型线混写 | 暂未核验到稳定公开官方文档 |
6. 官网与官方文档地址总表
7. 竞品补充清单
视频方向
| 产品 | 补充理由 | 官网/文档 |
|---|---|---|
| PixVerse | 中文/海外用户都较多的消费级视频生成平台 | https://pixverse.ai/ |
| Higgsfield | 角色、运镜、社媒模板方向活跃 | https://higgsfield.ai/ |
| Haiper | 消费级短视频生成平台 | https://haiper.ai/ |
| Kaiber | 音乐视觉、风格化视频工具 | https://kaiber.ai/ |
| LTX Studio / LTX Video | 故事板、视频工作流和开源模型方向 | https://www.lightricks.com/ltx-studio |
图像/设计方向
| 产品 | 补充理由 | 官网/文档 |
|---|---|---|
| Freepik AI | 素材库+生成能力,适合营销素材生产 | https://www.freepik.com/ai |
| Krea | 实时图像/视频创意体验强 | https://www.krea.ai/ |
| Playground / Mixed model tools | 面向创作者的多模型图像平台 | https://playground.com/ |
| Civitai | 开源模型社区和 LoRA 生态 | https://civitai.com/ |
| ComfyUI | 节点式本地工作流事实标准之一 | https://github.com/comfyanonymous/ComfyUI |
8. 选型建议
工程/API 集成优先
优先看 OpenAI、Google Gemini/Veo、BytePlus/ModelArk、Runway、Vidu、MiniMax、Luma、BFL、Stability、Ideogram、Leonardo。它们的文档、鉴权、计费、模型 ID、错误码和示例相对清晰,更适合做业务系统集成。
中文内容与国内生态优先
优先看 Seedance/Seedream/即梦、Kling、Vidu、Hailuo、Wan、HunyuanVideo、Qwen-Image。它们对中文提示、中文视觉元素、短视频生态、电商营销素材更友好;如果涉及私有化或合规部署,Wan、HunyuanVideo、Qwen-Image、CogVideoX、Stable Diffusion/FLUX 开源路线更值得评估。
专业创意与审美优先
图像优先看 Midjourney、FLUX、GPT Image、Nano Banana、Firefly、Ideogram、Recraft;视频优先看 Runway、Veo、Sora、Kling、Luma。品牌设计团队还应同时评估 Firefly、Canva、Recraft、Leonardo 的协作和版权能力。
Agent/完整工作流优先
优先看 Lovart、即梦/Dreamina、Adobe Firefly、Canva、Krea、Freepik、Leonardo。这类产品适合"从 brief 到多张图、多段视频、海报、品牌视觉、社媒发布素材"的连续流程;但如果要嵌入自有系统,必须先确认是否有稳定 API。