我按"现在值得花钱测试"的角度给你排,不按宣传热度排。模型更新很快,下面是我刚查到的截至 2026-05-24 的官方资料口径。
先给结论
你现在最应该优先测这 5 家:
- OpenAI:ChatGPT / Codex / GPT-5.5 / GPT-5.3-Codex
- Anthropic:Claude Opus 4.7 / Sonnet 4.6 / Haiku 4.5
- Google:Gemini 3 Pro / Gemini 3.5 Flash / Gemini Omni
- xAI:Grok 4.3
- 低成本/开源路线:DeepSeek、Qwen、Mistral、Llama
如果你是为了赚钱、写代码、做交付,优先顺序是:
第一优先:ChatGPT / Codex 第二优先:Claude 第三优先:Gemini 第四优先:DeepSeek / Qwen / Mistral 低成本 API 第五优先:Grok
第一梯队:必须测
1. OpenAI GPT-5.5 / GPT-5.5 Pro
适合:综合能力、复杂任务、代码、商业文档、Agent、工具调用。
OpenAI 官方模型页显示 GPT-5.5 是面向 coding 和 professional work 的新一代模型,GPT-5.5 Pro 是更精确、更强的版本。官方模型页还列了 GPT-5.4 mini/nano、GPT-5 mini/nano 等更便宜版本。
你要测:
GPT-5.5 GPT-5.5 Pro GPT-5.4 mini GPT-5.4 nano
用途:
写代码 做文档 做商业方案 做自动化工具 做复杂推理
2. OpenAI GPT-5.3-Codex
适合:Codex、软件工程、长任务写代码、改项目、修 bug。
OpenAI 官方模型页写的是:GPT-5.3-Codex The most capable agentic coding model to date.
你如果要用 Codex 赚钱,这个是重点。
你要测:
GPT-5.3-Codex Codex in ChatGPT Codex CLI / Codex App
用途:
做网页 做脚本 做自动化工具 改代码库 生成项目 修 bug
3. Claude Opus 4.7
适合:复杂代码、长文档、深度分析、项目理解、严谨写作。
Anthropic 官方 release notes 显示 Claude Opus 4.7 已发布,并强调软件工程、复杂长任务、视觉能力提升。
你要测:
Claude Opus 4.7 Claude Sonnet 4.6 Claude Haiku 4.5
用途:
读长文档 写方案 代码审查 复杂项目规划 长上下文分析
来源:Claude release notes、编辑Claude models overview
第二梯队:很值得测
4. Claude Sonnet 4.6
适合:日常高强度使用,性价比通常比 Opus 好。
定位:
Opus = 最强 Sonnet = 平衡能力和成本 Haiku = 快、便宜
如果你不是天天做最复杂任务,Claude Sonnet 4.6 可能比 Opus 更实用。
5. Google Gemini 3 Pro / Gemini 3.5 Flash / Gemini Omni
适合:多模态、长上下文、Google 生态、图像/视频/音频方向。
Google DeepMind 官方模型卡页面列了:
Gemini Omni Flash Gemini 3.5 Flash Gemini 3.1 Pro Gemini 3 Pro Veo 3.1 Lite Veo 3 Imagen 4 Gemma 4
用途:
多模态理解 图片/视频相关 长资料分析 Google Workspace 生态 低成本快速任务
来源:编辑Google DeepMind model cards
6. xAI Grok 4.3
适合:长上下文、X/Twitter 相关、实时信息、低价 API 测试。
xAI 官方 docs 显示 Grok 4.3 支持 1M context,标注为其最智能和最快的模型,API 价格页面也直接列了输入/输出价格。
用途:
长上下文 实时信息 X 平台内容分析 低成本 API 测试
第三梯队:低成本/开源/备用模型
这些不一定是"最强",但很适合你做赚钱项目时控成本。
7. DeepSeek
适合:低成本 API、中文、代码、推理。
你要测:
deepseek-chat deepseek-reasoner
注意:官方文档显示 deepseek-chat 和 deepseek-reasoner 有退役/替换时间提示,所以要以控制台当前模型名为准。
8. Qwen
适合:中文、开源/国内生态、Agent coding、本地或云部署。
AWS 最近也上线了新的 Qwen 模型到 SageMaker JumpStart,包括 Qwen3.5、Qwen3.6 系列。
适合:
中文业务 本地部署 便宜批量任务 跨境电商中文资料处理
来源:编辑AWS Qwen models announcement
9. Mistral
适合:欧洲生态、代码、开源模型、企业私有化。
Mistral 官方模型页列了:
Devstral 2 Codestral Mistral Moderation 2 Voxtral OCR 3
用途:
代码 私有化 OCR 文档 AI 低成本部署
10. Meta Llama
适合:开源、本地部署、低成本自托管。
当前可重点看:
Llama 4 Maverick Llama 4 Scout Llama 3.3 70B
用途:
本地部署 私有数据 低成本推理 二次开发
来源:编辑Meta Llama models on Hugging Face
我建议你这样充钱测试
方案 A:预算低,先测 2 个
ChatGPT Plus Claude Pro
目的:
一个测 Codex / GPT 综合能力 一个测 Claude 长文档和代码分析
方案 B:预算中等,测 4 个
ChatGPT Plus 或 Pro Claude Pro Google AI Pro DeepSeek API 充少量额度
目的:
OpenAI 做代码和交付 Claude 做分析和文档 Gemini 做多模态和长资料 DeepSeek 做低成本批量任务
方案 C:你要认真做 Codex 赚钱
ChatGPT Pro / Codex 高额度 Claude Pro 或 Max OpenAI API 少量额度 DeepSeek API 少量额度 Google AI Pro
测试顺序:
- Codex 做网页/脚本/自动化工具 2. Claude 做方案/文档/代码审查 3. Gemini 做图片、长资料、多模态 4. DeepSeek 做便宜批量处理 5. Grok 只在你需要 X/Twitter 或超长上下文时测
不要一开始全充
先按 7 天测试:
第 1-2 天:ChatGPT / Codex 第 3 天:Claude 第 4 天:Gemini 第 5 天:DeepSeek / Qwen / Mistral API 第 6 天:Grok 第 7 天:同一个任务横向对比
你的测试任务要统一
不要随便聊天测试。用这 5 个任务测:
- 让模型做一个跨境电商广告诊断工具 2. 让模型改一份简历/面试 SOP 3. 让模型读一份长文档并总结 4. 让模型写一个可运行网页 5. 让模型修 bug 并解释原因
最终推荐
如果你现在只想先掏钱开始:
先充 ChatGPT Plus/Pro 再充 Claude Pro 然后开 DeepSeek API 小额测试 最后再考虑 Gemini / Grok
你的方向是用 Codex 赚钱,所以第一优先不是"最会聊天的模型",而是:
能不能稳定帮你交付代码、文档、自动化工具、客户项目。
按这个标准,先测 OpenAI + Claude。
--
直接给结论。以下按 2026-05-25 查询到的官方价格 + 你本机实测结果 来估算,实际账单以阿里云/BytePlus/Google/Midjourney 后台为准。
一条视频大概多少钱
现在这套默认链路是:
qwen-plus 写方案 -> Wan 2.6 I2V Flash 生成视频 -> CosyVoice 生成中文旁白 -> FFmpeg 本地合成
按当前流程,5 个分镜,每个 5 秒,也就是生成约 25 秒原始视频:
| 项目 | 模型 | 费用估算 |
|---|---|---|
| 导演方案/脚本/提示词 | qwen-plus | 约 ¥0.01 |
| 真实视频 K1-K5 | Wan 2.6 I2V Flash 720P 无声 | 25 秒 × ¥0.15/秒 = ¥3.75 |
| 中文旁白 | CosyVoice v2 | 约 ¥0.03-¥0.08 |
| 字幕/合成 | FFmpeg 本地 | ¥0 |
| 合计 | 当前默认全量流程 | 约 ¥3.8-¥4.5 / 条 |
如果优化成真正 15 秒,而不是 5 个镜头各 5 秒:
| 模式 | 大概费用 |
|---|---|
| 只生成方案和提示词 | ¥0.01 以内 |
| 只测 K1 / 5 秒视频 | 约 ¥0.75-¥1.2 |
| 15 秒完整视频,无声视频 + CosyVoice | 约 ¥2.3-¥3.0 |
| 当前 25 秒完整视频 | 约 ¥3.8-¥4.5 |
| Wan 自带音频视频 | 费用大约翻倍,不推荐当前阶段用 |
我建议默认继续用 无声 Wan 视频 + CosyVoice 单独配音,比让视频模型直接带音频更便宜,也更容易修音画同步。
一条视频大概多久
这台机器和当前 API 实测:
| 阶段 | 本地实测/预估 |
|---|---|
| qwen-plus 生成导演方案 | 实测约 81 秒 |
| Wan K1 单镜头 5 秒视频 | 服务端实测约 28 秒 |
| K1-K5 全量视频 | 通常 2-5 分钟 |
| CosyVoice 旁白 | 通常几十秒内 |
| FFmpeg 合成 | 通常几十秒内 |
| 完整一条 | 实际约 4-8 分钟比较合理 |
如果排队严重,可能到 10 分钟以上。正常情况下,你点 Notion 状态=Active 后,几分钟内应该能出结果。
哪些模型适合做什么
| 模型 | 最适合 | 不适合 | 我的建议 |
|---|---|---|---|
| qwen-plus | 产品分析、卖点、脚本、分镜、合规、提示词包 | 生成图片/视频 | 默认一直用,便宜稳定 |
| Wan 2.6 I2V Flash | 产品图生视频、K1-K5 分镜 | 高级电影感、复杂人物动作 | 当前主视频模型 |
| Wan 2.6 I2V 标准版 | 更高质量视频 | 成本更高 | 重要产品再用 |
| CosyVoice | 中文旁白 | 视频画面 | 默认配音模型 |
| Seedance | 更强运动、更自然镜头、更广告片感 | 成本/入口不如 Wan 稳定 | 做高质量对照测试 |
| 即梦 | 中文人工创意测试 | 无人值守 API 主链路 | 适合复制提示词手动跑 |
| Nano Banana / Gemini Image | 首帧图、改图、产品场景图、before/after | 直接生成视频 | 做视频前的首帧增强 |
| Midjourney | 氛围图、封面、背景、美术方向 | 精准还原产品 | 只做场景灵感,不做产品主体 |
效果判断
当前默认 Wan 2.6 I2V Flash 的效果:
适合做"能用的 UGC 商品种草样片",尤其是花盆、家居、小摆件、低价小商品这种简单产品。速度和成本都不错。
但它的弱点也明显:
- 产品可能轻微变形。
- 复杂功能容易被模型乱加。
- 人手、产品边缘、文字标识容易出错。
- 字幕和旁白如果不统一时间轴,会错位。
- 现在更像"可验证样片",不是稳定投放级成片。
要提升到更接近投放级,我建议:
- 首帧先用 Nano Banana/Gemini Image 做准。
- K1 先用 Wan 跑一版。
- 重要产品再用 Seedance 跑 K1 对照。
- 哪个模型 K1 更稳,就用哪个扩展 K2-K5。
- 最后必须做音画同步检查。
推荐默认路线
日常低成本出片:
添加到对话
qwen-plus 产方案 Wan 2.6 I2V Flash 生成 5 个无声镜头 CosyVoice 生成中文旁白 FFmpeg 合成字幕和音频
重要产品高质量路线:
qwen-plus 产方案 Nano Banana / Gemini Image 做首帧 Wan 和 Seedance 各跑 K1 人工选更好的 K1 风格 再全量生成 K2-K5 CosyVoice + FFmpeg 合成
我的直接建议
你现在这套系统,下一步不要急着换模型。先优化三件事:
-
把每个镜头从 5 秒改成 3 秒,做真正 15 秒广告。
成本从约 ¥3.75 视频费降到约 ¥2.25。
-
修音画同步。
旁白、字幕、视频片段必须用同一份时间轴。
-
加产品一致性质检。
K1 生成后先抽帧检查,产品不像就别继续烧 K2-K5。
参考来源:
阿里云百炼模型价格
Gemini API Pricing
BytePlus ModelArk Pricing
编辑Midjourney Plans
更新时间:2026-05-25 04:41:12
本文档集中记录 ecommerce_ugc_video_system 的后续优化建议。目标是让系统逐步变成:用户只在 Notion 新建一个产品任务并把 状态 设为 Active,n8n 自动生成导演方案、分镜提示词、真实视频、旁白、字幕和最终成片。
当前可用状态
- Notion 已有两张中文字段表:Ecommerce UGC Jobs 和 Ecommerce UGC Shots。
- n8n 2.0 已导入并 Published 电商带货 UGC 视频生成器 - Notion 自动执行器。
- 自动执行器每 1 分钟检查一次 Notion,发现 状态=Active 的 Jobs 后自动启动生成流程。
- 当前脚本已支持 Notion 中英字段别名,Notion 字段名可以是中文。
- 真实视频开关已打开,但仍建议默认保留 K1 / Shot 1 优先验证,再扩展全量镜头。
- 原短剧系统、短剧文档、短剧输出必须继续保持不动。
用户操作体验优化
-
建立一个固定的 Notion 模板按钮
- 在 Jobs 表里做一个"新建产品广告任务"模板。
- 默认填好 广告目标、视频时长、画面比例、画面风格、旁白风格。
- 用户只需要填 产品名称、商品页面链接、产品描述、产品图片,最后把 状态 改成 Active。
-
增加中文状态选项
- 当前触发仍依赖 Active、Running、Generated、Error 等英文选项。
- 后续可以改成同时支持中文状态:待执行、运行中、已生成、失败、待审核。
- 改状态值前必须先让所有脚本和 n8n 节点同时支持中英文状态,避免自动化断掉。
-
增加任务说明字段
- 建议新增 生成要求 字段,用于写特殊要求,例如"要英文旁白""不要真人出镜""只做 15 秒 TikTok"。
- 建议新增 禁用词/禁用卖点 字段,用于写产品不能宣传的点,例如"不能说发光、太阳能、治愈焦虑"。
-
输出结果更好找
- Jobs 表保留 最终视频链接。
- Shots 表保留每个镜头的 图片链接、视频链接。
- 建议新增 本地成片路径 和 质检结论 字段,方便快速判断结果是否可用。
产品输入优化
-
产品图片必须优先使用真实产品图
- 最好填写公网可访问图片链接。
- 如果只上传到 Notion 文件字段,后续需要确认 n8n/脚本能稳定读取临时文件 URL。
- 若商品图无法访问,系统可以临时生成参考图,但这种图只适合占位验证,不适合最终投放。
-
商品页面解析
- 后续可加入商品页面抓取模块,自动提取标题、价格、评价、规格、材质、禁用宣传风险。
- 页面抓取失败时,不应阻断流程,应退回使用用户填写的产品描述。
-
产品识别质检
- 在生成视频前,先让模型输出"产品识别摘要"。
- 如果产品识别与用户描述冲突,任务应进入 待审核,不要直接生成真实视频。
脚本和导演方案优化
-
建立固定 UGC 广告结构
- K1:痛点/好奇钩子。
- K2:产品露出。
- K3:使用动作或核心利益点。
- K4:效果展示或信任细节。
- K5:结果展示和轻 CTA。
-
支持不同平台风格
- TikTok:更快节奏、真实口语、前 2 秒强钩子。
- 抖音:更直接的改造前后对比和利益点。
- 小红书:更生活方式、更自然种草、少硬广。
- Temu/Amazon:更强调产品展示、规格和使用场景。
-
中英文双语输出
- 用户填写中文时,默认输出中文旁白和中文字幕,同时保留英文模型提示词。
- 用户填写英文时,默认输出英文旁白和英文字幕。
- 用户可以在 旁白风格 中明确写"中文旁白 / English voiceover / bilingual subtitles"。
-
合规检查前置
- 每个任务都必须输出"可说卖点"和"不可说卖点"。
- 禁止默认生成夸大表达,例如"永久有效""100% 不褪色""治愈焦虑""全网最低价"。
- 对带灯、功效、医疗、美妆、食品、儿童用品等高风险品类,应增加专门合规检查。
-
明确扩展尾镜头策略
- 当前全量真实视频报告仍按 K1-K5 统计,但同步成片阶段已经出现追加 K6 CTA 的情况。
- 后续应把"基础分镜数"和"最终成片分镜数"拆开记录,避免报告里前面写 5 条、后面写 6 条,影响验收和重跑判断。
- 如果确实需要追加尾镜头,Notion 和报告里应明确标记为"扩展镜头"而不是覆盖原 K1-K5 结构。
多模型提示词优化
-
Seedance / 即梦视频提示词
- 必须包含产品锁定词:保持产品形状、颜色、材质、平面/立体关系不变。
- 明确禁止:文字、水印、logo、错误功能、额外产品、产品变形。
- 每个镜头单独生成 3-5 秒,再合成。
-
Nano Banana 图片/改图提示词
- 优先用于首帧图、场景图、before/after 图。
- 提示词必须强调"使用上传产品图作为精确参考"。
- 不应让它自由重画复杂产品。
-
Midjourney 场景提示词
- 更适合做背景氛围图,不适合精准复刻产品。
- 提示词应预留产品位置,而不是要求它重画精确产品。
-
提示词质量评分
- 每个镜头给 Seedance、即梦、Nano Banana、Midjourney 提示词打分。
- 低于阈值时只写回 Notion,不进入真实视频生成。
模型分工与路由建议
-
Qwen / 阿里百炼 qwen-plus
- 最适合:产品卖点提取、目标用户画像、痛点/场景/利益点、UGC 创意角度、15 秒/30 秒脚本、分镜表、合规风险检查、多模型提示词包。
- 不适合:直接生成视频、精确判断视频质量、复杂图片编辑。
- 当前系统定位:默认导演方案和提示词生产模型。
- 路由建议:所有任务先走 qwen-plus 生成结构化导演方案,只有通过合规检查和提示词质量检查后,才进入真实图片/视频模型。
-
Wan 2.6 I2V Flash / 阿里百炼
- 最适合:用产品图或首帧图生成 3-5 秒真实短镜头。
- 优点:已经在本地链路跑通,适合接 n8n 自动化;可控、可记录任务 ID、可写回 Notion。
- 风险:产品可能变形;视频 URL 常带临时签名,报告和 Notion 写回必须脱敏;队列耗时会波动。
- 当前系统定位:默认真实视频 API 生成模型。
- 路由建议:先生成 K1 / Shot 1;通过后再跑 K2-K5。默认 audio=false,后续用 CosyVoice 单独配音,更便于字幕和旁白同步。
-
Seedance
- 最适合:运动幅度更大的镜头、镜头语言更强的广告片、需要更好 prompt adherence 的视频生成。
- 优点:官方介绍强调文本/图像到视频、多镜头叙事、主体/风格一致性和 1080p 生成能力。
- 风险:不同入口的 API、积分、地区和审核策略可能不同;成本和排队时间需要按实际账号后台确认。
- 当前系统定位:高级视频备选模型,先输出 Seedance 提示词包,不默认自动烧钱。
- 路由建议:当 Wan 生成的产品动作不够自然,或用户明确要更强镜头感时,用 Seedance 做 K1 对照测试;通过后再考虑全量。
-
即梦 / Jimeng / Dreamina
- 最适合:人工在网页或客户端里做视频创意测试,尤其是中文创作者工作流。
- 优点:操作直观,适合拿系统生成的中文提示词直接复制测试。
- 风险:消费端产品的积分、模型版本、审核和导出限制会变;不适合作为第一阶段无人值守 API 主链路。
- 当前系统定位:提示词包输出对象和人工备选生成通道。
- 路由建议:Notion 中保留 即梦视频提示词,用户需要人工精修时复制使用;自动化主链路仍以可 API 化的 Wan 为主。
-
Nano Banana / Gemini 2.5 Flash Image
- 最适合:产品生活方式图、首帧图、before/after 图、轻量改图、场景合成。
- 优点:图像编辑和上下文理解强,适合把产品图放进真实生活场景。
- 风险:复杂产品可能被重画变形;不能替代精确商品摄影;价格和可用模型版本需要按 Gemini API 官方页面复核。
- 当前系统定位:图片/首帧增强模型,不作为视频模型。
- 路由建议:当用户产品图质量差、没有生活方式图、或需要更适合 I2V 的首帧时,用 Nano Banana 生成或改一张首帧,再交给 Wan/Seedance 做视频。
-
Midjourney
- 最适合:广告氛围图、背景图、封面图、风格探索、场景 moodboard。
- 优点:视觉质感强,适合探索电商广告的场景方向。
- 风险:不擅长精确复刻产品;官方计费是订阅/GPU 时间,不是稳定的单次 API 成本;自动化接入不应作为第一阶段主链路。
- 当前系统定位:场景图和封面灵感生成工具。
- 路由建议:只让 Midjourney 生成"留出产品位置的背景/场景",不要让它重画真实产品主体。
-
CosyVoice
- 最适合:中文旁白生成。
- 优点:按字符计费,成本通常远低于视频生成;和本地 FFmpeg 合成链路已经跑通。
- 风险:旁白时长可能和视频长度不一致,需要严格按分镜时间轴限制字数。
- 当前系统定位:默认中文旁白 TTS。
- 路由建议:先生成短旁白,再按实际音频时长调整字幕和视频总时长;不要在视频模型里直接生成不可控旁白。
-
FFmpeg / 本地合成
- 最适合:镜头拼接、字幕烧录、音频合成、格式转换。
- 优点:无 API 成本,可重复执行,适合修复音画不同步。
- 风险:如果输入片段时长不一致,字幕和旁白仍会错位。
- 当前系统定位:最终成片合成器。
- 路由建议:所有片段先标准化为统一分辨率、帧率、音频参数,再合成最终版本。
成本与耗时估算
说明:以下价格会变化,必须以官方价格页和账号后台为准。本文档只记录当前可用于工程决策的估算框架。
-
一条 15 秒广告的基础成本结构
- 文案/导演方案:qwen-plus,按 token 计费,通常成本很低。
- 图片/首帧:Nano Banana、WanX 或其他图片模型,按张或按任务计费。
- 视频:最大成本项,通常按输出视频秒数计费。
- 旁白:CosyVoice,按输入字符计费,通常远低于视频。
- 合成:FFmpeg 本地执行,无模型费用。
-
当前系统实测数据
- qwen-plus 生成导演方案:一次样例任务耗时约 81 秒,usage 为 976 prompt tokens + 3664 completion tokens,总计 4640 tokens。
- Wan 2.6 I2V Flash K1:一次 5 秒 720P 无声视频,服务端从提交到结束约 28 秒,轮询 4 次,本地视频约 3.1 MB。
- Wan 2.6 I2V Flash K1-K5:5 个镜头全量真实生成后,再本地合成字幕和 CosyVoice 旁白;样例链路整体约几分钟级,实际取决于队列和重试。
- CosyVoice:样例旁白 266 个字符,生成出约 0.5 MB MP3;成本按字符数算,通常不是主要成本。
-
Wan 2.6 I2V Flash 成本估算
- 当前系统使用的策略是 720P、audio=false,再单独做 CosyVoice。
- 按阿里云百炼官方价格页,Wan 2.6 I2V Flash 的无声 720P 视频按秒计费;中国内地和国际部署单价不同。
- 粗略公式:视频成本 = 输出秒数 × 对应分辨率单价 × 镜头数量。
- 例:5 个镜头 × 每个 5 秒 = 25 秒输出视频。无声 720P 的总价约等于 25 秒乘以对应账号区域的单价。
- 优化建议:默认先 K1,避免 25 秒视频一次性全量失败;K1 通过后再全量生成。
-
Qwen 成本估算
- qwen-plus 按输入/输出 token 计费。
- 在当前样例里,文案阶段 token 量约 4.6K,通常远低于视频成本。
- 优化建议:可以多跑几轮脚本和提示词优化,成本压力主要不在文本模型,而在视频模型。
-
Nano Banana / Gemini Flash Image 成本估算
- Gemini API 官方价格页把 gemini-2.5-flash-image 作为图像生成模型,标准模式有文本/图片输入价格和按张输出价格。
- 粗略公式:图片成本 = 输入 token 成本 + 输出图片张数 × 单张图片成本。
- 优化建议:先生成 1 张首帧图,不要一次生成多张;只有产品准确、场景自然后再进入视频。
-
Midjourney 成本估算
- Midjourney 官方是订阅制,不适合按每条视频精确折算成本。
- Basic/Standard/Pro/Mega 有不同月费、Fast GPU 时间和并发限制,额外 GPU 时间按小时购买。
- 优化建议:把 Midjourney 当作设计探索成本,不计入自动成片的单条 API 成本;除非后续建立人工工作台统计 GPU 时间。
-
Seedance / 即梦成本估算
- Seedance/即梦的入口较多,API、网页、积分和地区价格可能不同。
- 优化建议:在 Notion 增加 模型路由、预计成本、预计耗时、实际成本、实际耗时 字段;每次使用 Seedance/即梦后手动或自动记录消耗,形成自己的真实成本表。
- 工程策略:先把 Seedance/即梦作为高质量备选,而不是无人值守默认主链路。
-
成本控制建议
- 文案和提示词可以多轮优化,视频不要多轮盲跑。
- 默认只跑 K1;K1 产品一致性通过后再跑 K2-K5。
- 每个镜头最多自动重跑 1 次;继续失败进入 Review。
- 低成本模式:qwen-plus + 提示词包 + Notion 写回,不生成真实视频。
- 标准模式:K1 Wan I2V + CosyVoice 预演。
- 完整模式:K1-K5 Wan I2V + CosyVoice + FFmpeg 合成。
- 高质模式:Nano Banana 首帧 + Seedance 对照测试 + 人工审核。
-
耗时控制建议
- 在每个脚本报告里新增 started_at、finished_at、elapsed_ms、model_elapsed_ms、queue_elapsed_ms。
- 在 Notion Jobs 表新增 预计耗时、实际耗时、最近运行时间。
- 在 Shots 表新增 生成耗时秒、重跑次数。
- 用真实数据建立路由:如果 Wan 当前排队慢,则先只产提示词;如果 Seedance 某段时间更快,再走 Seedance 测试。
-
推荐默认模型路线
- 默认低成本方案:qwen-plus 生成导演方案和四模型提示词包。
- 默认真实视频方案:Wan 2.6 I2V Flash 720P 无声视频 + CosyVoice 中文旁白 + FFmpeg 合成。
- 默认图片增强方案:Nano Banana 做首帧/生活方式图;Midjourney 做场景灵感,不直接做精确产品。
- 默认高质量对照方案:K1 用 Wan 和 Seedance 各出一版,人工选更好的模型后再全量扩展。
真实视频生成优化
-
保留 K1 优先策略
- 新产品第一次真实生成时,只先跑 K1 / Shot 1。
- K1 通过后,再允许 K2-K5 全量生成。
- 即使用户说费用不用考虑,也应保留失败保护,防止错误产品图连续烧钱。
-
增加视频质检
- 检查视频文件是否非空。
- 检查时长是否接近分镜时长。
- 抽帧检查是否有明显黑屏、纯色、错误产品、文字水印。
- 抽帧图片可写入报告,方便人工快速确认。
-
产品一致性检查
- K1 生成后,抽帧让视觉模型检查产品是否仍像原图。
- 如果产品变成错误颜色、错误材质、错误功能,应标记 待重跑。
-
分镜重跑机制
- Shots 表里的 重跑 字段应支持:None、Rerun Prompt、Rerun Image、Rerun Video。
- 只重跑失败镜头,不重跑整个视频。
旁白、字幕和音画同步优化
-
统一时间轴
- 旁白、字幕、视频片段必须来自同一份分镜时间轴。
- 不要在合成阶段重新推断字幕时长。
-
旁白时长控制
- 每个镜头旁白字数要按镜头秒数限制。
- 15 秒视频建议总旁白控制在 45-60 个中文字。
- 30 秒视频建议总旁白控制在 90-120 个中文字。
-
合成后校验
- 用 FFmpeg 或 ffprobe 检查最终视频时长、音频流、字幕烧录结果。
- 若音频长度明显长于视频,应自动降速、裁剪或重新生成短旁白。
-
字幕样式
- 字幕应该简短、居中偏下、避免遮挡产品。
- 字幕行数最多两行。
- 手机竖屏 9:16 下要保证文字不贴边。
Notion + n8n 自动化优化
-
状态流转建议
- Active:用户提交任务。
- Running:n8n 已接管。
- Prompt Ready:导演方案和提示词已完成。
- Shot 1 Test:K1 单镜头测试中。
- Review:等待人工看 K1 或成片。
- Generated:最终视频已生成。
- Error:失败,查看错误信息和重试建议。
-
防重复运行
- 继续保留本地锁文件。
- 同一时间只允许一个 Active 任务进入真实生成。
- 如果发现多个 Active 任务,优先处理最早创建的一条,其余保持等待。
-
错误写回
- 所有失败都必须写回 Jobs 的 错误信息 和 重试建议。
- 不允许只在终端失败而 Notion 没有状态。
-
n8n 2.0 兼容
- UI 中显示 Published,API 中仍是 active=true。
- 文档里统一说明:看到 Published 就表示已开启。
-
空跑心跳可视化
- 当前自动执行器在没有 Active 任务时只在本地报告里写 IDLE,用户在 Notion 侧无法区分"系统空闲"还是"执行器掉线"。
- 建议在 Jobs 看板或单独的系统状态页写回 最近检查时间、执行器状态、最近空跑原因。
- 如果连续多轮没有新任务,也应保留心跳写回,确保"一键触发"体验可观测。
安全和密钥管理
-
不把密钥写入任何项目文件
- Notion、n8n、DashScope、百炼等密钥只放环境变量、系统凭据或 n8n Credentials。
- 报告、日志、Markdown、workflow JSON 都不能出现明文密钥。
-
每次修改后跑敏感信息扫描
- 检查 .json、.js、.md、.ps1、.cmd。
- 如果发现 key/token/JWT,要立即移除并重新验证。
- 额外扫描带签名的临时下载链接,例如对象存储签名参数、过期时间参数这类查询串;报告中只保留脱敏后的域名、文件名或本地路径,不保留完整签名 URL。
-
限制日志内容
- 失败日志只保留错误类型和接口状态。
- 不打印 Authorization header、完整请求体、完整环境变量。
-
运行报告默认脱敏落盘
- 目前部分真实视频和同步成片 JSON 报告仍会保留带签名的临时媒体 URL,这类链接虽然不是 API Key,但仍属于敏感访问凭据。
- 建议报告默认只落本地路径、任务 ID、文件名和脱敏域名;完整签名 URL 只在进程内短暂使用,不写入 Notion、报告或持久日志。
- 敏感扫描应覆盖 outputs/**/*.json,命中签名查询串时直接判定为失败并阻止报告落盘。
-
Markdown 报告也要拦截签名媒体链接
- 最新 outputs/real_k1_wan/ecommerce_ugc_real_k1_wan_report_zh.md 仍直接写入了包含 OSSAccessKeyId、Signature 和 Expires 查询参数的临时媒体 URL,说明当前脱敏规则没有覆盖 Markdown 报告正文。
- 后续应先对写回 Notion 和落盘报告的 URL 做统一脱敏,再分别渲染 .json 和 .md,避免一种格式已拦截、另一种格式继续泄露。
- 敏感扫描范围应从 outputs/**/*.json 扩大到 outputs/**/*.md、outputs/**/*.json 和自动执行器生成的富文本内容,命中对象存储签名参数时直接失败。
观测和质量报告
-
每次运行都生成报告
- 自动执行器报告。
- 百炼导演方案报告。
- K1 真实视频报告。
- 全量视频合成报告。
- 音画同步报告。
-
Notion 增加质检字段
- 质检状态
- 质检问题
- 可投放等级
- 人工审核备注
-
汇总看板
- 按状态统计任务数量。
- 按错误类型统计失败原因。
- 按产品品类统计最常见重跑原因。
优先级路线图
P0:稳定当前 Notion 一键触发
- 保证中文字段后自动化仍稳定。
- 保证 状态=Active 后 n8n 能自动接管。
- 保证错误一定写回 Notion。
P1:修复成片完整度和音画同步
- 统一分镜、旁白、字幕时间轴。
- 自动检查最终视频是否有音频流。
- 自动检查字幕和旁白是否明显错位。
P2:提高产品图一致性
- 优先使用用户提供的真实产品图。
- 增加抽帧质检。
- 失败时只重跑单镜头。
P3:优化 Notion 用户体验
- 增加模板按钮。
- 增加中文状态别名。
- 增加生成要求、禁用词、质检字段。
P4:扩展多平台广告模板
- TikTok 模板。
- 抖音模板。
- 小红书模板。
- Amazon/Temu 商品展示模板。
P5:建立模型成本和耗时看板
- 每次模型调用都记录模型名、分辨率、输出秒数、token、字符数、实际耗时和估算成本。
- Jobs 表显示整条广告的预计成本和实际成本。
- Shots 表显示每个镜头的模型、耗时、重跑次数和成本。
- 每周根据真实数据调整默认模型路由。
官方参考入口
- 阿里云百炼模型价格:编辑https://www.alibabacloud.com/help/zh/model-studio/model-pricing
- Gemini API 价格:https://ai.google.dev/gemini-api/docs/pricing
- Midjourney 官方套餐:编辑https://docs.midjourney.com/hc/en-us/articles/27870484040333-Comparing-Midjourney-Plans
- Seedance 官方介绍:https://seed.bytedance.com/en/seedance
每小时优化本文档的自动化设计
自动化名称:电商 UGC 优化建议文档每小时复盘
运行频率:每 1 小时。
每次执行任务:
- 读取本文档。
- 检查 ecommerce_ugc_video_system 最近新增的报告和运行结果。
- 重点查看:
- Notion 自动执行器是否空转或失败。
- 是否有新的视频生成失败。
- 是否有音画同步、字幕错位、产品图不一致问题。
- 是否有敏感信息扫描风险。
- 是否有用户提出的新问题或新需求。
- 将新建议合并进本文档对应章节。
- 如果只是重复建议,不追加。
- 不修改原短剧系统。
- 不写入任何 API Key、token、JWT 或密钥。
输出要求:
- 直接更新本文档。
- 在文档顶部更新 更新时间。
- 如果新增建议,写清楚优先级、原因和建议动作。
- 如果没有新增建议,只追加一条简短复盘记录到"复盘记录"。
复盘记录
- 2026-05-25:建立首版优化建议文档,并设计每小时自动复盘机制。
- 2026-05-25:补充模型分工、模型路由、成本估算、耗时估算和官方价格参考入口。明确默认路线为 qwen-plus 产方案、Wan 2.6 I2V Flash 产视频、CosyVoice 产旁白、Nano Banana 做首帧/改图、Midjourney 做场景灵感、Seedance/即梦作为高质量备选。
- 2026-05-25 02:38:44:根据 n8n 自动执行器、Notion 中文化、K1 实拍、全量真实视频和同步成片报告,新增"扩展尾镜头计数对齐"和"签名 URL 脱敏"建议。
- 2026-05-25 03:39:30:根据自动执行器空跑报告和真实视频报告,新增"空跑心跳可视化"和"运行报告默认脱敏落盘"建议。
- 2026-05-25 04:41:12:根据最新 K1 实拍报告,新增"Markdown 报告拦截签名媒体链接"建议,并把敏感扫描范围从 json 扩大到 md/json 与写回正文。
- 2026-05-25 05:41:12:复盘最新 n8n 自动执行器报告,仍为 IDLE 且无 Active 任务,未发现超出既有"空跑心跳可视化"范围的新问题。
- 2026-05-25 06:41:59:复盘 2026-05-24T22:41:21Z 的 n8n 自动执行器报告,仍为 IDLE 且仅提示无 Active 任务,未发现新的 Notion 触发、Published 执行、中文字段兼容或错误写回问题。
- 2026-05-25 07:00:00:复盘 2026-05-24T23:41:21Z 的最新 n8n 自动执行器报告与结束日志,仍为 IDLE 且正常退出,未发现新的 Notion 一键触发、Published 自动执行、中文字段兼容、错误写回或敏感信息落盘问题。
- 2026-05-25 08:44:03:复盘 2026-05-25T00:43:21Z 的最新 n8n 自动执行器报告,仍为 IDLE 且仅提示无 Active 任务;本轮新增的完整视频、同步成片、静态验收与百炼写回报告均为 PASS,未发现新的 Notion 一键触发、Published 自动执行、中文字段兼容、产品图一致性、K1/Shot 1 优先、全量真实视频、音画同步、错误写回、敏感信息扫描、成本控制或用户操作体验问题。