文生视频
请先欣赏一下,这个是MiniMax-Hailuo-02生成的视频,提示词比较简单,如图所示:请给我生成一个布偶猫在灿烂星空降落祝福开工大吉的视频。
【核心结论前置】 30秒生成、1080P画质、物理级真实感------MiniMax-Hailuo-02的速度和画面确实惊艳。但当我用DeepSeek优化了3遍提示词,它依然把"开工大吉"四个大字吃了个干净。这场测试暴露了当前AI视频赛道的残酷真相:快和真,不等于准。
一、测试背景:被"开工"催更的AI视频初体验
春节返工第一天,老板在群里发了红包,附言:"做个开工祝福视频,要有猫,要星空,要吉利。"
作为被AI"惯坏"的打工人,我第一反应不是打开剪映,而是打开了MiniMax的海螺AI。毕竟这是2025年6月刚发布的Hailuo-02模型,号称在Artificial Analysis视频竞技场榜单排全球第二,仅次于字节跳动的Seedance。
原始提示词(现在看确实草率):
"请给我生成一个布偶猫在灿烂星空降落祝福开工大吉的视频"
生成结果 :5秒,无音频,画质惊艳,但"开工大吉"变成了画面里几个像符咒又像涂鸦的不可名状符号。

二、深度测试:从"随便试试"到"专业Prompt工程"
Round 1:基础版 ------ 速度与真实感的胜利
实测数据:
-
生成耗时:约30秒(从点击到出片)
-
分辨率:768P(默认档位)
-
物理真实度:★★★★☆
-
布偶猫的丝质长毛、重点色面部、蓝眼睛特征准确
-
星空背景有银河层次感和色彩渐变,非单一黑色
-
猫咪降落时的重力感和毛发飘动符合物理逻辑
-
致命伤:文字生成失败。画面中央浮现的像是被水晕开的墨迹,既非中文也非英文,更像AI在"假装识字"。
Round 2:DeepSeek优化版 ------ 结构化Prompt的尝试
意识到问题可能在于提示词太"人类口语化",我请DeepSeek编写了一段专业级提示词:
运镜指令 :[推进,下降] ------ 先推进镜头,同时镜头下降跟随猫的降落
核心动作 :猫从画面上方缓缓降落,落在中央,眨眼看向镜头
主体细节 :布偶猫的特征------丝质长毛、蓝眼睛、重点色
场景氛围 :灿烂星空、银河、闪烁星星、金色光粒
特效要求 :金色闪光、发光文字"开工大吉"
画质风格:电影质感、8k、逼真、梦幻
生成结果:
-
耗时:依旧30秒左右
-
画质:提升至1080P选项后细节更锐利
-
文字 :依然缺失。金色闪光有了,但"开工大吉"四个字依旧无影无踪。
Round 3:极限测试 ------ 当AI遇上"必须出现文字"的硬需求

三、技术拆解:为什么Hailuo-02"看得见猫,写不出字"?
基于MiniMax公开的技术架构和行业对比,我分析了三大核心瓶颈:
1. 扩散模型的"文字盲"基因
Hailuo-02采用Noise-aware Compute Redistribution (NCR) 架构,本质仍是扩散模型(Diffusion Model)。这类模型在生成结构性文字时普遍存在缺陷------它们擅长处理连续的视觉纹理(毛发、星空),却难以处理离散的符号系统(汉字笔画)。
对比:Runway Gen-3同样存在文字生成扭曲问题;而快手可灵1.6在中文文字生成上略有优势,但离"可用"仍有距离。
2. 时序一致性与音频缺失
测试视频固定为5秒时长 (1080P档位可选6秒),且无音频生成能力。这与官方宣称的"6秒/10秒"选项及"语音产品"布局形成落差。
行业现状 :OpenAI Sora已支持20秒视频+原生音频同步;字节Seedance支持10秒+音效。Hailuo-02在多模态完整性上落后一代。
3. 指令遵循的"选择性失明"
即使使用DeepSeek优化的结构化Prompt,模型对"文字"这一特定指令的遵循率依然为0。这指向一个更深层问题:训练数据中的文字-视觉对齐不足。
四、横向对比:Hailuo-02在AI视频赛道什么水平?
表格
复制
| 维度 | MiniMax Hailuo-02 | 字节Seedance 1.0 | 快手Kling 2.1 | OpenAI Sora |
|---|---|---|---|---|
| 生成速度 | ⭐⭐⭐⭐⭐ 30秒级 | ⭐⭐⭐⭐ 31-95秒 | ⭐⭐⭐ 2-3分钟 | ⭐⭐ 3-5分钟 |
| 物理真实感 | ⭐⭐⭐⭐☆ 毛发/光影优秀 | ⭐⭐⭐⭐⭐ 运动控制最强 | ⭐⭐⭐⭐ 中文场景适配好 | ⭐⭐⭐⭐⭐ 物理模拟标杆 |
| 文字生成 | ⭐ 完全失败 | ⭐⭐ 偶有可读英文 | ⭐⭐⭐ 中文略优 | ⭐⭐ 英文可辨,中文差 |
| 音频生成 | ❌ 不支持 | ⚠️ 部分支持 | ⚠️ 需后期合成 | ✅ 原生支持 |
| 价格 | $0.10-0.50/视频 | $0.09-1.50/视频 | $0.25-0.90/视频 | $1.5-2/视频 |
| 中文理解 | ⭐⭐⭐ 基础理解 | ⭐⭐⭐⭐ 针对优化 | ⭐⭐⭐⭐⭐ 本土优势 | ⭐⭐⭐ 通用模型 |
结论 :Hailuo-02是性价比极高的"视觉特效师",但不是"全能导演"。如果你需要快速生成无文字、无对白的唯美空镜,它是首选;如果需要信息传递(文字/语音),必须搭配其他工具。
五、实用指南:如何让Hailuo-02"扬长避短"?
基于实测经验,我总结了一套生存法则:
✅ 适合场景
-
氛围营造 :星空、深海、微观世界等非文字类视觉
-
动物/自然特写 :毛发、水流、火焰等物理模拟需求
-
快速原型 :为专业剪辑提供素材草稿(30秒出片确实香)
❌ 避坑场景
-
任何需要清晰文字的内容 :Logo、标语、字幕------完全不要指望
-
叙事性长视频 :5秒时长限制+无音频,无法独立完成叙事
-
精确运镜控制 :即使写了"[推进,下降]",镜头运动仍有随机性
💡 进阶技巧
-
分层生成:用Hailuo-02生成背景+主体,再用剪映/PR后期加文字和音效
-
动态描述 :用"飘落""旋转"等物理动词替代"优雅地"等形容词,模型理解更准
-
避免否定句 :不说"不要出现其他文字",而说"画面纯净,仅有星空和猫"
六、行业观察:AI视频工具的"最后一公里"陷阱
Hailuo-02的"文字缺失"问题,折射出2025年AI视频赛道的集体困境:
"快"和"真"的军备竞赛已接近尾声,"准"和"可控"才是下半场生死线。
MiniMax招股书显示,截至2025年前三季度,海螺AI收入占比已从7.7%飙升至32.6%,付费用户平均支出是Talkie的11.2倍。但高速增长的背面,是迪士尼、环球影业等发起的7500万美元版权诉讼 ,以及提示词遵循率这一硬指标的瓶颈。
对于普通用户,这意味着:不要神化任何AI工具。Hailuo-02能30秒给你一只完美的布偶猫,但"开工大吉"四个字,你可能还得自己P上去。
【最终评分】
-
生成速度:9/10(行业顶级)
-
视觉质量:8/10(1080P电影感)
-
指令遵循:4/10(文字完全失控)
-
实用价值:6/10(需后期加工)
-
性价比:8/10(价格仅为Sora的1/10)
推荐人群 :短视频创作者、视觉设计师、需要快速出片的营销团队
劝退人群:需要精确文字控制的品牌方、追求一站式解决方案的小白用户