国内外视频/图像大模型与智能体工具平台竞品对比

1. 快速结论

视频生成第一梯队：OpenAI Sora 2、Google Veo 3.1、Runway Gen-4 系列、Kuaishou Kling、ByteDance Seedance、MiniMax Hailuo 02、Luma Ray、Vidu、Alibaba Wan、Tencent HunyuanVideo。它们的差异主要体现在：可控性、镜头运动稳定性、角色一致性、音频/对白能力、API 可用性、成本与区域可访问性。
图像生成第一梯队：OpenAI GPT Image、Google Nano Banana/Gemini Flash Image、ByteDance Seedream、Midjourney、Adobe Firefly、Black Forest Labs FLUX、Ideogram、Recraft、Stability AI、Leonardo。图像产品已从"出图质量"竞争转向"编辑、文字渲染、角色一致性、品牌安全、商业授权、工作流集成"竞争。
平台/Agent 工具：即梦、Lovart、Adobe Firefly、Canva Magic Studio、Krea、Freepik、Leonardo、Dreamina 更适合非工程用户做完整创意工作流；它们通常封装多模型能力，重点不在单模型极限性能，而在模板、编辑器、素材库、团队协作、发布链路。
API 友好度：OpenAI、Google Gemini API、BytePlus/Volcengine ModelArk、Runway、Vidu、MiniMax、Luma、Stability、BFL、Ideogram、Leonardo 的开发者文档更明确；Midjourney、即梦、小云雀、HappyHorse 等更偏产品或新发布形态，公开 API/官方文档不一定完整。
需要单独标注的名称 ：
- gemini banana ：市场俗称，官方名称通常归入 Google Nano Banana / Gemini Flash Image 系列。
- GPT Image ：OpenAI 图像生成系列，开发侧以 gpt-image-* 模型和 Images API/Responses API 为主。
- HappyHorse：公开资料多指 Alibaba/ATH 相关新视频模型，但截至本报告未核验到稳定官方官网/API 文档入口，应作为"待官方确认"项。
- 小云雀：公开入口和 API 文档不稳定，应标注为"产品入口待确认"，不建议把第三方介绍页写成官网。

2. 分类框架

类别	代表产品	核心能力	典型使用者	关键采购/选型指标
文生/图生视频模型	Sora、Veo、Runway、Kling、Seedance、Vidu、Hailuo、Luma、Wan、HunyuanVideo	生成短片、镜头运动、角色一致、部分音频/对白	视频创作者、广告团队、自动化内容系统	画面稳定性、运动一致性、时长、分辨率、API、成本、审查与合规
图像生成/编辑模型	GPT Image、Nano Banana、Seedream、Midjourney、Firefly、FLUX、Ideogram、Recraft、Stable Image	文生图、图生图、局部编辑、产品图、海报、文字渲染	设计师、电商、营销、产品团队	编辑可控性、文字准确率、风格一致、商用授权、批量 API
创意 Agent/工作流平台	Lovart、即梦/Dreamina、Adobe Firefly、Canva、Krea、Freepik、Leonardo	多步骤创意生成、设计稿、素材管理、编辑发布	非工程创意团队、运营、品牌市场	端到端效率、模板、协作、资产管理、版权、团队权限
开源/可私有化模型	Wan、HunyuanVideo、CogVideoX、Stable Diffusion/SDXL/SD3.5、FLUX 开源权重	本地部署、微调、私有化推理	技术团队、数据敏感企业	许可证、显存成本、推理速度、生态插件、微调难度

3. 核心视频模型/平台对比

产品/模型	国家/公司	定位	主要优势	主要短板/风险	API/文档成熟度	适合场景
OpenAI Sora 2	美国 / OpenAI	文生视频、图生视频、音频/视频生成	指令理解强，叙事与物理一致性好，适合与 ChatGPT/Responses API 串联	区域、额度、内容策略和成本需评估；Sora 消费端与 API 能力边界需区分	高	叙事短片、广告分镜、自动化视频生成
Google Veo 3.1	美国 / Google DeepMind	高质量视频生成	与 Gemini、Flow、Vertex AI/Gemini API 生态结合；音视频和镜头控制能力强	Google 生态绑定较深，地区与企业账号要求需确认	高	品牌视频、影视预览、企业级视频生成
Runway Gen-4 系列	美国 / Runway	专业创意视频平台/API	视频编辑和创意工具链成熟，创作者生态强，API 明确	成本较高；复杂工业级批处理需看配额	高	创意短片、广告视频、视频编辑工作流
Kling / 可灵	中国 / 快手	视频/图像生成平台与 API	国内视频生成头部，运动、角色、镜头控制和中文生态优势明显	海外/国内版本、计费和模型版本存在差异；文档页面有时需要登录	中高	短视频、电商视频、中文场景内容
Seedance	中国 / 字节跳动	视频生成基础模型/API	与即梦、剪映、BytePlus/火山方舟生态联动；中文提示和消费级工具链强	国内外文档体系分散；需区分 Seedance、Seedream、即梦/Dreamina	中高	中文短视频、营销素材、平台化集成
MiniMax Hailuo 02	中国 / MiniMax	消费级与 API 视频生成	海螺平台传播度高，模型迭代快，适合快速生成短视频	长视频、复杂多镜头一致性仍需实测	中高	社媒短片、创意验证、视频素材生成
Vidu	中国 / 生数科技/清华系	视频生成模型/API	国内专业视频生成代表，API 文档清晰，适合工程接入	生态工具链较 Runway/Adobe 弱	高	图生视频、短片生成、API 批量生成
Luma Ray / Dream Machine	美国 / Luma AI	视频生成平台/API	图生视频、镜头运动和创意风格表现强，API 可用	长期一致性和企业协作能力需按项目验证	高	创意视频、产品动效、动态图像
Pika	美国 / Pika	消费级视频生成平台	社媒传播、趣味模板和快速生成体验强	官方开发者 API 入口相对不稳定，部分 API 依赖第三方平台	低中	社媒创意、轻量视频生成
Alibaba Wan	中国 / 阿里巴巴	开源/云 API 视频模型	开源生态强，适合私有化、二开和云上推理	商业版、开源版、云 API 能力需分别评估	中高	私有化视频生成、技术团队研究和部署
Tencent HunyuanVideo	中国 / 腾讯	开源视频生成模型	开源权重和研究生态活跃，适合本地部署和微调	产品化工具链弱于闭源平台	中	私有化、研究、企业内部视频生成
HappyHorse	中国 / Alibaba ATH 相关公开报道	新兴视频模型	据公开报道强调高分辨率、长时长、音视频同步	未核验到稳定官方官网/API 文档，不宜作为可采购 API 直接引用	低	先作为技术观察项

4. 核心图像模型/平台对比

产品/模型	国家/公司	定位	主要优势	主要短板/风险	API/文档成熟度	适合场景
OpenAI GPT Image	美国 / OpenAI	图像生成与编辑 API	指令理解、编辑一致性、多轮上下文和开发者生态强	成本、配额、内容策略需按业务确认	高	产品图、营销图、应用内图片生成/编辑
Google Nano Banana / Gemini Flash Image	美国 / Google	图像生成/编辑	多模态上下文、角色一致性和 Gemini 生态强	模型命名变化快，需要按官方 docs 确认当前可用模型 ID	高	多轮图像编辑、视觉理解+生成一体化应用
Seedream	中国 / 字节跳动	图像生成/编辑模型/API	中文提示、海报、电商图、消费级工具链强；与即梦/剪映生态联动	国内外产品名和 API 版本需区分	中高	中文营销图、电商素材、批量图像生成
Midjourney	美国 / Midjourney	高审美图像生成平台	艺术性、审美稳定性和社区生态强	官方 API 能力有限，自动化和企业系统接入不如 API 型产品	中	概念设计、视觉探索、品牌风格方向
Adobe Firefly	美国 / Adobe	商业安全图像/视频/设计平台	Adobe 全家桶集成、版权和品牌安全叙事强，企业采用友好	极限创意效果不一定领先 Midjourney/FLUX	高	品牌营销、企业设计、Adobe 工作流
Black Forest Labs FLUX	德国 / BFL	高质量图像生成/API	写实、人像、构图、开源/商业生态强	不同模型许可证和商用条款需核对	高	高质量图像、私有化、开发者集成
Stability AI Stable Image / Stable Diffusion	英国/美国 / Stability AI	图像基础模型与 API	开源生态、插件和本地部署能力强	闭源 API 产品与开源模型差异较大；审美一致性需工作流调优	高	私有化、图像生产流水线、插件生态
Ideogram	加拿大 / Ideogram	图像生成/API	文字渲染、海报和标识类图像强	视频和复杂编辑生态弱于综合平台	高	海报、Logo 草案、带文字图片
Recraft	英国/美国 / Recraft	设计向图像生成/API	矢量、品牌视觉、图标、风格一致性强	泛娱乐审美和视频能力不是主场	中高	品牌资产、图标、插画、设计系统
Leonardo AI	澳大利亚/Canva	图像生成与创作平台/API	游戏资产、角色、产品图和平台工作流成熟	作为平台封装能力多，底层模型透明度有限	高	游戏素材、电商图、批量视觉资产
Qwen-Image / Wan 图像能力	中国 / 阿里巴巴	图像生成/编辑、开源/云 API	中文文字渲染和开源生态值得关注	模型线较多，云 API、开源权重、消费产品需分开评估	中高	中文海报、私有化图像生成
HunyuanImage / 腾讯混元图像	中国 / 腾讯	图像生成/编辑	腾讯云/混元生态和中文场景支持	海外生态和第三方插件弱于 Stable/FLUX	中	中文企业内容、云上集成

5. 智能体工具平台与创意工作流对比

平台	国家/公司	类型	主要价值	与单模型的区别	官方文档状态
即梦 AI / Dreamina	中国 / 字节跳动	图像/视频创作平台	面向普通创作者的一站式生成、编辑和发布素材	更像产品工作台，底层可关联 Seedream/Seedance 等模型能力	产品官网明确，公开 API 文档不独立
Lovart	海外团队	设计 Agent/创意工作流	从需求到视觉方案、海报、品牌素材的多步骤生成	强调 Agent 编排，不只是单次出图	官网/API 入口存在，完整开发者文档有限
Adobe Firefly	美国 / Adobe	企业设计平台	与 Photoshop、Illustrator、Express、Firefly Services 集成	企业版权、团队协作和设计工具链更强	文档成熟
Canva Magic Studio	澳大利亚/Canva	设计平台	模板、协作、发布和多模型生成能力	适合非设计师和营销团队	开发者平台成熟，但生成模型细节不完全开放
Krea AI	美国/欧洲	实时图像/视频创意平台	实时生成、风格探索、视频/图像混合工作流	强交互创意工具，弱 API 化	API/企业入口相对有限
Freepik AI Suite	西班牙 / Freepik	素材平台+生成工具	素材库、设计资源和生成能力结合	适合内容团队快速产出商业素材	API 以 Freepik 开发者平台为主
Leonardo AI	Canva 旗下	图像生成平台/API	游戏、电商、角色资产生产链路成熟	平台和 API 兼具	文档成熟
小云雀	中国 / 公开入口待确认	图像/视频创作或智能体工具	公开资料显示为中文创作工具，但入口和主体需二次核验	不建议与 Seedance/即梦等官方模型线混写	暂未核验到稳定公开官方文档

6. 官网与官方文档地址总表

产品/模型/平台	官网	官方文档/API/帮助中心	备注
OpenAI GPT Image	https://openai.com/	https://platform.openai.com/docs/guides/images/image-generation	图像生成/编辑 API；模型页见 `gpt-image-*`
OpenAI Sora / Sora 2 API	https://openai.com/sora/	https://platform.openai.com/docs/guides/video-generation/	开发接入以 OpenAI Platform 文档为准
Google Gemini / Nano Banana	https://gemini.google/	https://ai.google.dev/gemini-api/docs/image-generation	"gemini banana"通常指 Nano Banana/Gemini 图像系列
Google Veo	https://deepmind.google/technologies/veo/	https://ai.google.dev/gemini-api/docs/video	也可通过 Vertex AI/Flow 生态使用
Runway	https://runwayml.com/	https://docs.dev.runwayml.com/	Gen 系列视频模型与 API
Kling / 可灵	https://klingai.com/	https://app.klingai.com/global/dev/document-api/	文档可能需要登录或从开发者中心进入
Seedance / Seedream / ModelArk	https://www.byteplus.com/en/product/modelark	https://docs.byteplus.com/en/docs/ModelArk	BytePlus 国际文档；国内对应火山引擎方舟
即梦 AI	https://jimeng.jianying.com/	无独立公开 API 文档；模型 API 参考 BytePlus/火山方舟	消费级创作平台
Dreamina	https://dreamina.capcut.com/	无独立公开 API 文档	即梦海外/CapCut 生态入口
Vidu	https://www.vidu.com/	https://platform.vidu.com/docs/introduction	生数科技视频生成平台/API
MiniMax Hailuo AI	https://hailuoai.video/	https://platform.minimax.io/docs/api-reference/video-generation	MiniMax 视频生成 API
Luma Dream Machine / Ray	https://lumalabs.ai/dream-machine	https://docs.lumalabs.ai/docs/video-generation	Luma API 文档
Pika	https://pika.art/	https://pika.art/api	官方 API 入口会引导到合作 API 平台，需按当前页面确认
Midjourney	https://www.midjourney.com/	https://docs.midjourney.com/	官方文档偏产品使用，公开 API 能力有限
Adobe Firefly	https://www.adobe.com/firefly	https://developer.adobe.com/firefly-services/docs/	Firefly Services 面向企业和开发者
Black Forest Labs FLUX	https://bfl.ai/	https://docs.bfl.ai/	FLUX 图像模型/API
Stability AI	https://stability.ai/	https://platform.stability.ai/docs/api-reference	Stable Image/Stable Diffusion 生态
Ideogram	https://ideogram.ai/	https://developer.ideogram.ai/	图像生成 API，文字渲染强项
Recraft	https://www.recraft.ai/	https://www.recraft.ai/docs	设计资产、矢量、图标方向
Leonardo AI	https://leonardo.ai/	https://docs.leonardo.ai/	图像/资产生成平台与 API
Alibaba Wan	https://wan.video/	https://github.com/Wan-Video/Wan2.1	开源仓库和阿里云 Model Studio 文档需结合看
Alibaba Cloud Model Studio	https://www.alibabacloud.com/product/modelstudio	https://www.alibabacloud.com/help/en/model-studio/	通义/百炼/模型工作室相关 API 文档
Qwen-Image	https://qwenlm.github.io/	https://github.com/QwenLM/Qwen-Image	开源图像模型线
Tencent HunyuanVideo	https://github.com/Tencent-Hunyuan/HunyuanVideo	https://github.com/Tencent-Hunyuan/HunyuanVideo	官方 GitHub 即主要文档
Zhipu CogVideoX	https://github.com/THUDM/CogVideo	https://github.com/THUDM/CogVideo	开源视频模型；商业 API 需看智谱开放平台
Lovart	https://www.lovart.ai/	https://www.lovart.ai/api	创意 Agent/设计平台；完整 API 文档有限
Canva Magic Studio	https://www.canva.com/magic/	https://www.canva.dev/docs/	设计平台，生成模型细节不完全开放
Krea AI	https://www.krea.ai/	https://www.krea.ai/api	以实时创意工具为主
Freepik AI Suite	https://www.freepik.com/ai	https://www.freepik.com/developers	素材平台+AI 工具
HappyHorse	暂未核验到稳定官方官网	暂未核验到官方 API/文档	不建议引用第三方聚合页作为官网
小云雀	暂未核验到稳定官方官网	暂未核验到官方 API/文档	建议以后续官方账号、App 内入口或主体备案为准

7. 竞品补充清单

视频方向

产品	补充理由	官网/文档
PixVerse	中文/海外用户都较多的消费级视频生成平台	https://pixverse.ai/
Higgsfield	角色、运镜、社媒模板方向活跃	https://higgsfield.ai/
Haiper	消费级短视频生成平台	https://haiper.ai/
Kaiber	音乐视觉、风格化视频工具	https://kaiber.ai/
LTX Studio / LTX Video	故事板、视频工作流和开源模型方向	https://www.lightricks.com/ltx-studio

图像/设计方向

产品	补充理由	官网/文档
Freepik AI	素材库+生成能力，适合营销素材生产	https://www.freepik.com/ai
Krea	实时图像/视频创意体验强	https://www.krea.ai/
Playground / Mixed model tools	面向创作者的多模型图像平台	https://playground.com/
Civitai	开源模型社区和 LoRA 生态	https://civitai.com/
ComfyUI	节点式本地工作流事实标准之一	https://github.com/comfyanonymous/ComfyUI

8. 选型建议

工程/API 集成优先

优先看 OpenAI、Google Gemini/Veo、BytePlus/ModelArk、Runway、Vidu、MiniMax、Luma、BFL、Stability、Ideogram、Leonardo。它们的文档、鉴权、计费、模型 ID、错误码和示例相对清晰，更适合做业务系统集成。

中文内容与国内生态优先

优先看 Seedance/Seedream/即梦、Kling、Vidu、Hailuo、Wan、HunyuanVideo、Qwen-Image。它们对中文提示、中文视觉元素、短视频生态、电商营销素材更友好；如果涉及私有化或合规部署，Wan、HunyuanVideo、Qwen-Image、CogVideoX、Stable Diffusion/FLUX 开源路线更值得评估。

专业创意与审美优先

图像优先看 Midjourney、FLUX、GPT Image、Nano Banana、Firefly、Ideogram、Recraft；视频优先看 Runway、Veo、Sora、Kling、Luma。品牌设计团队还应同时评估 Firefly、Canva、Recraft、Leonardo 的协作和版权能力。

Agent/完整工作流优先

优先看 Lovart、即梦/Dreamina、Adobe Firefly、Canva、Krea、Freepik、Leonardo。这类产品适合"从 brief 到多张图、多段视频、海报、品牌视觉、社媒发布素材"的连续流程；但如果要嵌入自有系统，必须先确认是否有稳定 API。