电商带货 UGC 视频生成系统优化建议文档

我按"现在值得花钱测试"的角度给你排，不按宣传热度排。模型更新很快，下面是我刚查到的截至 2026-05-24 的官方资料口径。

先给结论

你现在最应该优先测这 5 家：

OpenAI：ChatGPT / Codex / GPT-5.5 / GPT-5.3-Codex
Anthropic：Claude Opus 4.7 / Sonnet 4.6 / Haiku 4.5
Google：Gemini 3 Pro / Gemini 3.5 Flash / Gemini Omni
xAI：Grok 4.3
低成本/开源路线：DeepSeek、Qwen、Mistral、Llama

如果你是为了赚钱、写代码、做交付，优先顺序是：

第一优先：ChatGPT / Codex 第二优先：Claude 第三优先：Gemini 第四优先：DeepSeek / Qwen / Mistral 低成本 API 第五优先：Grok

第一梯队：必须测

1. OpenAI GPT-5.5 / GPT-5.5 Pro

适合：综合能力、复杂任务、代码、商业文档、Agent、工具调用。

OpenAI 官方模型页显示 GPT-5.5 是面向 coding 和 professional work 的新一代模型，GPT-5.5 Pro 是更精确、更强的版本。官方模型页还列了 GPT-5.4 mini/nano、GPT-5 mini/nano 等更便宜版本。

你要测：

GPT-5.5 GPT-5.5 Pro GPT-5.4 mini GPT-5.4 nano

用途：

写代码做文档做商业方案做自动化工具做复杂推理

来源：OpenAI API models

2. OpenAI GPT-5.3-Codex

适合：Codex、软件工程、长任务写代码、改项目、修 bug。

OpenAI 官方模型页写的是：GPT-5.3-Codex The most capable agentic coding model to date.

你如果要用 Codex 赚钱，这个是重点。

你要测：

GPT-5.3-Codex Codex in ChatGPT Codex CLI / Codex App

用途：

做网页做脚本做自动化工具改代码库生成项目修 bug

来源：OpenAI API models

3. Claude Opus 4.7

适合：复杂代码、长文档、深度分析、项目理解、严谨写作。

Anthropic 官方 release notes 显示 Claude Opus 4.7 已发布，并强调软件工程、复杂长任务、视觉能力提升。

你要测：

Claude Opus 4.7 Claude Sonnet 4.6 Claude Haiku 4.5

用途：

读长文档写方案代码审查复杂项目规划长上下文分析

来源：Claude release notes、编辑Claude models overview

第二梯队：很值得测

4. Claude Sonnet 4.6

适合：日常高强度使用，性价比通常比 Opus 好。

定位：

Opus = 最强 Sonnet = 平衡能力和成本 Haiku = 快、便宜

如果你不是天天做最复杂任务，Claude Sonnet 4.6 可能比 Opus 更实用。

5. Google Gemini 3 Pro / Gemini 3.5 Flash / Gemini Omni

适合：多模态、长上下文、Google 生态、图像/视频/音频方向。

Google DeepMind 官方模型卡页面列了：

Gemini Omni Flash Gemini 3.5 Flash Gemini 3.1 Pro Gemini 3 Pro Veo 3.1 Lite Veo 3 Imagen 4 Gemma 4

用途：

多模态理解图片/视频相关长资料分析 Google Workspace 生态低成本快速任务

来源：编辑Google DeepMind model cards

6. xAI Grok 4.3

适合：长上下文、X/Twitter 相关、实时信息、低价 API 测试。

xAI 官方 docs 显示 Grok 4.3 支持 1M context，标注为其最智能和最快的模型，API 价格页面也直接列了输入/输出价格。

用途：

长上下文实时信息 X 平台内容分析低成本 API 测试

来源：编辑xAI models

第三梯队：低成本/开源/备用模型

这些不一定是"最强"，但很适合你做赚钱项目时控成本。

7. DeepSeek

适合：低成本 API、中文、代码、推理。

你要测：

deepseek-chat deepseek-reasoner

注意：官方文档显示 deepseek-chat 和 deepseek-reasoner 有退役/替换时间提示，所以要以控制台当前模型名为准。

来源：DeepSeek API docs

8. Qwen

适合：中文、开源/国内生态、Agent coding、本地或云部署。

AWS 最近也上线了新的 Qwen 模型到 SageMaker JumpStart，包括 Qwen3.5、Qwen3.6 系列。

适合：

中文业务本地部署便宜批量任务跨境电商中文资料处理

来源：编辑AWS Qwen models announcement

9. Mistral

适合：欧洲生态、代码、开源模型、企业私有化。

Mistral 官方模型页列了：

Devstral 2 Codestral Mistral Moderation 2 Voxtral OCR 3

用途：

代码私有化 OCR 文档 AI 低成本部署

来源：Mistral models overview

10. Meta Llama

适合：开源、本地部署、低成本自托管。

当前可重点看：

Llama 4 Maverick Llama 4 Scout Llama 3.3 70B

用途：

本地部署私有数据低成本推理二次开发

来源：编辑Meta Llama models on Hugging Face

我建议你这样充钱测试

方案 A：预算低，先测 2 个

ChatGPT Plus Claude Pro

目的：

一个测 Codex / GPT 综合能力一个测 Claude 长文档和代码分析

方案 B：预算中等，测 4 个

ChatGPT Plus 或 Pro Claude Pro Google AI Pro DeepSeek API 充少量额度

目的：

OpenAI 做代码和交付 Claude 做分析和文档 Gemini 做多模态和长资料 DeepSeek 做低成本批量任务

方案 C：你要认真做 Codex 赚钱

ChatGPT Pro / Codex 高额度 Claude Pro 或 Max OpenAI API 少量额度 DeepSeek API 少量额度 Google AI Pro

测试顺序：

Codex 做网页/脚本/自动化工具 2. Claude 做方案/文档/代码审查 3. Gemini 做图片、长资料、多模态 4. DeepSeek 做便宜批量处理 5. Grok 只在你需要 X/Twitter 或超长上下文时测

不要一开始全充

先按 7 天测试：

第 1-2 天：ChatGPT / Codex 第 3 天：Claude 第 4 天：Gemini 第 5 天：DeepSeek / Qwen / Mistral API 第 6 天：Grok 第 7 天：同一个任务横向对比

你的测试任务要统一

不要随便聊天测试。用这 5 个任务测：

让模型做一个跨境电商广告诊断工具 2. 让模型改一份简历/面试 SOP 3. 让模型读一份长文档并总结 4. 让模型写一个可运行网页 5. 让模型修 bug 并解释原因

最终推荐

如果你现在只想先掏钱开始：

先充 ChatGPT Plus/Pro 再充 Claude Pro 然后开 DeepSeek API 小额测试最后再考虑 Gemini / Grok

你的方向是用 Codex 赚钱，所以第一优先不是"最会聊天的模型"，而是：

能不能稳定帮你交付代码、文档、自动化工具、客户项目。

按这个标准，先测 OpenAI + Claude。

直接给结论。以下按 2026-05-25 查询到的官方价格 + 你本机实测结果 来估算，实际账单以阿里云/BytePlus/Google/Midjourney 后台为准。

一条视频大概多少钱

现在这套默认链路是：

qwen-plus 写方案 -> Wan 2.6 I2V Flash 生成视频 -> CosyVoice 生成中文旁白 -> FFmpeg 本地合成

按当前流程，5 个分镜，每个 5 秒，也就是生成约 25 秒原始视频：

项目	模型	费用估算
导演方案/脚本/提示词	qwen-plus	约 ¥0.01
真实视频 K1-K5	Wan 2.6 I2V Flash 720P 无声	25 秒 × ¥0.15/秒 = ¥3.75
中文旁白	CosyVoice v2	约 ¥0.03-¥0.08
字幕/合成	FFmpeg 本地	¥0
合计	当前默认全量流程	约 ¥3.8-¥4.5 / 条

如果优化成真正 15 秒，而不是 5 个镜头各 5 秒：

模式	大概费用
只生成方案和提示词	¥0.01 以内
只测 K1 / 5 秒视频	约 ¥0.75-¥1.2
15 秒完整视频，无声视频 + CosyVoice	约 ¥2.3-¥3.0
当前 25 秒完整视频	约 ¥3.8-¥4.5
Wan 自带音频视频	费用大约翻倍，不推荐当前阶段用

我建议默认继续用 无声 Wan 视频 + CosyVoice 单独配音，比让视频模型直接带音频更便宜，也更容易修音画同步。

一条视频大概多久

这台机器和当前 API 实测：

阶段	本地实测/预估
qwen-plus 生成导演方案	实测约 81 秒
Wan K1 单镜头 5 秒视频	服务端实测约 28 秒
K1-K5 全量视频	通常 2-5 分钟
CosyVoice 旁白	通常几十秒内
FFmpeg 合成	通常几十秒内
完整一条	实际约 4-8 分钟比较合理

如果排队严重，可能到 10 分钟以上。正常情况下，你点 Notion 状态=Active 后，几分钟内应该能出结果。

哪些模型适合做什么

模型	最适合	不适合	我的建议
qwen-plus	产品分析、卖点、脚本、分镜、合规、提示词包	生成图片/视频	默认一直用，便宜稳定
Wan 2.6 I2V Flash	产品图生视频、K1-K5 分镜	高级电影感、复杂人物动作	当前主视频模型
Wan 2.6 I2V 标准版	更高质量视频	成本更高	重要产品再用
CosyVoice	中文旁白	视频画面	默认配音模型
Seedance	更强运动、更自然镜头、更广告片感	成本/入口不如 Wan 稳定	做高质量对照测试
即梦	中文人工创意测试	无人值守 API 主链路	适合复制提示词手动跑
Nano Banana / Gemini Image	首帧图、改图、产品场景图、before/after	直接生成视频	做视频前的首帧增强
Midjourney	氛围图、封面、背景、美术方向	精准还原产品	只做场景灵感，不做产品主体

效果判断

当前默认 Wan 2.6 I2V Flash 的效果：

适合做"能用的 UGC 商品种草样片"，尤其是花盆、家居、小摆件、低价小商品这种简单产品。速度和成本都不错。

但它的弱点也明显：

产品可能轻微变形。
复杂功能容易被模型乱加。
人手、产品边缘、文字标识容易出错。
字幕和旁白如果不统一时间轴，会错位。
现在更像"可验证样片"，不是稳定投放级成片。

要提升到更接近投放级，我建议：

首帧先用 Nano Banana/Gemini Image 做准。
K1 先用 Wan 跑一版。
重要产品再用 Seedance 跑 K1 对照。
哪个模型 K1 更稳，就用哪个扩展 K2-K5。
最后必须做音画同步检查。

推荐默认路线

日常低成本出片：

添加到对话

qwen-plus 产方案 Wan 2.6 I2V Flash 生成 5 个无声镜头 CosyVoice 生成中文旁白 FFmpeg 合成字幕和音频

重要产品高质量路线：

qwen-plus 产方案 Nano Banana / Gemini Image 做首帧 Wan 和 Seedance 各跑 K1 人工选更好的 K1 风格再全量生成 K2-K5 CosyVoice + FFmpeg 合成

我的直接建议

你现在这套系统，下一步不要急着换模型。先优化三件事：

把每个镜头从 5 秒改成 3 秒，做真正 15 秒广告。

成本从约 ¥3.75 视频费降到约 ¥2.25。
修音画同步。

旁白、字幕、视频片段必须用同一份时间轴。
加产品一致性质检。

K1 生成后先抽帧检查，产品不像就别继续烧 K2-K5。

参考来源：
阿里云百炼模型价格
 Gemini API Pricing
BytePlus ModelArk Pricing
编辑Midjourney Plans

更新时间：2026-05-25 04:41:12

本文档集中记录 ecommerce_ugc_video_system 的后续优化建议。目标是让系统逐步变成：用户只在 Notion 新建一个产品任务并把状态设为 Active，n8n 自动生成导演方案、分镜提示词、真实视频、旁白、字幕和最终成片。

当前可用状态

Notion 已有两张中文字段表：Ecommerce UGC Jobs 和 Ecommerce UGC Shots。
n8n 2.0 已导入并 Published 电商带货 UGC 视频生成器 - Notion 自动执行器。
自动执行器每 1 分钟检查一次 Notion，发现状态=Active 的 Jobs 后自动启动生成流程。
当前脚本已支持 Notion 中英字段别名，Notion 字段名可以是中文。
真实视频开关已打开，但仍建议默认保留 K1 / Shot 1 优先验证，再扩展全量镜头。
原短剧系统、短剧文档、短剧输出必须继续保持不动。

用户操作体验优化

建立一个固定的 Notion 模板按钮
- 在 Jobs 表里做一个"新建产品广告任务"模板。
- 默认填好广告目标、视频时长、画面比例、画面风格、旁白风格。
- 用户只需要填产品名称、商品页面链接、产品描述、产品图片，最后把状态改成 Active。
增加中文状态选项
- 当前触发仍依赖 Active、Running、Generated、Error 等英文选项。
- 后续可以改成同时支持中文状态：待执行、运行中、已生成、失败、待审核。
- 改状态值前必须先让所有脚本和 n8n 节点同时支持中英文状态，避免自动化断掉。
增加任务说明字段
- 建议新增生成要求字段，用于写特殊要求，例如"要英文旁白""不要真人出镜""只做 15 秒 TikTok"。
- 建议新增禁用词/禁用卖点字段，用于写产品不能宣传的点，例如"不能说发光、太阳能、治愈焦虑"。
输出结果更好找
- Jobs 表保留最终视频链接。
- Shots 表保留每个镜头的图片链接、视频链接。
- 建议新增本地成片路径和质检结论字段，方便快速判断结果是否可用。

产品输入优化

产品图片必须优先使用真实产品图
- 最好填写公网可访问图片链接。
- 如果只上传到 Notion 文件字段，后续需要确认 n8n/脚本能稳定读取临时文件 URL。
- 若商品图无法访问，系统可以临时生成参考图，但这种图只适合占位验证，不适合最终投放。
商品页面解析
- 后续可加入商品页面抓取模块，自动提取标题、价格、评价、规格、材质、禁用宣传风险。
- 页面抓取失败时，不应阻断流程，应退回使用用户填写的产品描述。
产品识别质检
- 在生成视频前，先让模型输出"产品识别摘要"。
- 如果产品识别与用户描述冲突，任务应进入待审核，不要直接生成真实视频。

脚本和导演方案优化

建立固定 UGC 广告结构
- K1：痛点/好奇钩子。
- K2：产品露出。
- K3：使用动作或核心利益点。
- K4：效果展示或信任细节。
- K5：结果展示和轻 CTA。
支持不同平台风格
- TikTok：更快节奏、真实口语、前 2 秒强钩子。
- 抖音：更直接的改造前后对比和利益点。
- 小红书：更生活方式、更自然种草、少硬广。
- Temu/Amazon：更强调产品展示、规格和使用场景。
中英文双语输出
- 用户填写中文时，默认输出中文旁白和中文字幕，同时保留英文模型提示词。
- 用户填写英文时，默认输出英文旁白和英文字幕。
- 用户可以在旁白风格中明确写"中文旁白 / English voiceover / bilingual subtitles"。
合规检查前置
- 每个任务都必须输出"可说卖点"和"不可说卖点"。
- 禁止默认生成夸大表达，例如"永久有效""100% 不褪色""治愈焦虑""全网最低价"。
- 对带灯、功效、医疗、美妆、食品、儿童用品等高风险品类，应增加专门合规检查。
明确扩展尾镜头策略
- 当前全量真实视频报告仍按 K1-K5 统计，但同步成片阶段已经出现追加 K6 CTA 的情况。
- 后续应把"基础分镜数"和"最终成片分镜数"拆开记录，避免报告里前面写 5 条、后面写 6 条，影响验收和重跑判断。
- 如果确实需要追加尾镜头，Notion 和报告里应明确标记为"扩展镜头"而不是覆盖原 K1-K5 结构。

多模型提示词优化

Seedance / 即梦视频提示词
- 必须包含产品锁定词：保持产品形状、颜色、材质、平面/立体关系不变。
- 明确禁止：文字、水印、logo、错误功能、额外产品、产品变形。
- 每个镜头单独生成 3-5 秒，再合成。
Nano Banana 图片/改图提示词
- 优先用于首帧图、场景图、before/after 图。
- 提示词必须强调"使用上传产品图作为精确参考"。
- 不应让它自由重画复杂产品。
Midjourney 场景提示词
- 更适合做背景氛围图，不适合精准复刻产品。
- 提示词应预留产品位置，而不是要求它重画精确产品。
提示词质量评分
- 每个镜头给 Seedance、即梦、Nano Banana、Midjourney 提示词打分。
- 低于阈值时只写回 Notion，不进入真实视频生成。

模型分工与路由建议

Qwen / 阿里百炼 qwen-plus
- 最适合：产品卖点提取、目标用户画像、痛点/场景/利益点、UGC 创意角度、15 秒/30 秒脚本、分镜表、合规风险检查、多模型提示词包。
- 不适合：直接生成视频、精确判断视频质量、复杂图片编辑。
- 当前系统定位：默认导演方案和提示词生产模型。
- 路由建议：所有任务先走 qwen-plus 生成结构化导演方案，只有通过合规检查和提示词质量检查后，才进入真实图片/视频模型。
Wan 2.6 I2V Flash / 阿里百炼
- 最适合：用产品图或首帧图生成 3-5 秒真实短镜头。
- 优点：已经在本地链路跑通，适合接 n8n 自动化；可控、可记录任务 ID、可写回 Notion。
- 风险：产品可能变形；视频 URL 常带临时签名，报告和 Notion 写回必须脱敏；队列耗时会波动。
- 当前系统定位：默认真实视频 API 生成模型。
- 路由建议：先生成 K1 / Shot 1；通过后再跑 K2-K5。默认 audio=false，后续用 CosyVoice 单独配音，更便于字幕和旁白同步。
Seedance
- 最适合：运动幅度更大的镜头、镜头语言更强的广告片、需要更好 prompt adherence 的视频生成。
- 优点：官方介绍强调文本/图像到视频、多镜头叙事、主体/风格一致性和 1080p 生成能力。
- 风险：不同入口的 API、积分、地区和审核策略可能不同；成本和排队时间需要按实际账号后台确认。
- 当前系统定位：高级视频备选模型，先输出 Seedance 提示词包，不默认自动烧钱。
- 路由建议：当 Wan 生成的产品动作不够自然，或用户明确要更强镜头感时，用 Seedance 做 K1 对照测试；通过后再考虑全量。
即梦 / Jimeng / Dreamina
- 最适合：人工在网页或客户端里做视频创意测试，尤其是中文创作者工作流。
- 优点：操作直观，适合拿系统生成的中文提示词直接复制测试。
- 风险：消费端产品的积分、模型版本、审核和导出限制会变；不适合作为第一阶段无人值守 API 主链路。
- 当前系统定位：提示词包输出对象和人工备选生成通道。
- 路由建议：Notion 中保留即梦视频提示词，用户需要人工精修时复制使用；自动化主链路仍以可 API 化的 Wan 为主。
Nano Banana / Gemini 2.5 Flash Image
- 最适合：产品生活方式图、首帧图、before/after 图、轻量改图、场景合成。
- 优点：图像编辑和上下文理解强，适合把产品图放进真实生活场景。
- 风险：复杂产品可能被重画变形；不能替代精确商品摄影；价格和可用模型版本需要按 Gemini API 官方页面复核。
- 当前系统定位：图片/首帧增强模型，不作为视频模型。
- 路由建议：当用户产品图质量差、没有生活方式图、或需要更适合 I2V 的首帧时，用 Nano Banana 生成或改一张首帧，再交给 Wan/Seedance 做视频。
Midjourney
- 最适合：广告氛围图、背景图、封面图、风格探索、场景 moodboard。
- 优点：视觉质感强，适合探索电商广告的场景方向。
- 风险：不擅长精确复刻产品；官方计费是订阅/GPU 时间，不是稳定的单次 API 成本；自动化接入不应作为第一阶段主链路。
- 当前系统定位：场景图和封面灵感生成工具。
- 路由建议：只让 Midjourney 生成"留出产品位置的背景/场景"，不要让它重画真实产品主体。
CosyVoice
- 最适合：中文旁白生成。
- 优点：按字符计费，成本通常远低于视频生成；和本地 FFmpeg 合成链路已经跑通。
- 风险：旁白时长可能和视频长度不一致，需要严格按分镜时间轴限制字数。
- 当前系统定位：默认中文旁白 TTS。
- 路由建议：先生成短旁白，再按实际音频时长调整字幕和视频总时长；不要在视频模型里直接生成不可控旁白。
FFmpeg / 本地合成
- 最适合：镜头拼接、字幕烧录、音频合成、格式转换。
- 优点：无 API 成本，可重复执行，适合修复音画不同步。
- 风险：如果输入片段时长不一致，字幕和旁白仍会错位。
- 当前系统定位：最终成片合成器。
- 路由建议：所有片段先标准化为统一分辨率、帧率、音频参数，再合成最终版本。

成本与耗时估算

说明：以下价格会变化，必须以官方价格页和账号后台为准。本文档只记录当前可用于工程决策的估算框架。

一条 15 秒广告的基础成本结构
- 文案/导演方案：qwen-plus，按 token 计费，通常成本很低。
- 图片/首帧：Nano Banana、WanX 或其他图片模型，按张或按任务计费。
- 视频：最大成本项，通常按输出视频秒数计费。
- 旁白：CosyVoice，按输入字符计费，通常远低于视频。
- 合成：FFmpeg 本地执行，无模型费用。
当前系统实测数据
- qwen-plus 生成导演方案：一次样例任务耗时约 81 秒，usage 为 976 prompt tokens + 3664 completion tokens，总计 4640 tokens。
- Wan 2.6 I2V Flash K1：一次 5 秒 720P 无声视频，服务端从提交到结束约 28 秒，轮询 4 次，本地视频约 3.1 MB。
- Wan 2.6 I2V Flash K1-K5：5 个镜头全量真实生成后，再本地合成字幕和 CosyVoice 旁白；样例链路整体约几分钟级，实际取决于队列和重试。
- CosyVoice：样例旁白 266 个字符，生成出约 0.5 MB MP3；成本按字符数算，通常不是主要成本。
Wan 2.6 I2V Flash 成本估算
- 当前系统使用的策略是 720P、audio=false，再单独做 CosyVoice。
- 按阿里云百炼官方价格页，Wan 2.6 I2V Flash 的无声 720P 视频按秒计费；中国内地和国际部署单价不同。
- 粗略公式：视频成本 = 输出秒数 × 对应分辨率单价 × 镜头数量。
- 例：5 个镜头 × 每个 5 秒 = 25 秒输出视频。无声 720P 的总价约等于 25 秒乘以对应账号区域的单价。
- 优化建议：默认先 K1，避免 25 秒视频一次性全量失败；K1 通过后再全量生成。
Qwen 成本估算
- qwen-plus 按输入/输出 token 计费。
- 在当前样例里，文案阶段 token 量约 4.6K，通常远低于视频成本。
- 优化建议：可以多跑几轮脚本和提示词优化，成本压力主要不在文本模型，而在视频模型。
Nano Banana / Gemini Flash Image 成本估算
- Gemini API 官方价格页把 gemini-2.5-flash-image 作为图像生成模型，标准模式有文本/图片输入价格和按张输出价格。
- 粗略公式：图片成本 = 输入 token 成本 + 输出图片张数 × 单张图片成本。
- 优化建议：先生成 1 张首帧图，不要一次生成多张；只有产品准确、场景自然后再进入视频。
Midjourney 成本估算
- Midjourney 官方是订阅制，不适合按每条视频精确折算成本。
- Basic/Standard/Pro/Mega 有不同月费、Fast GPU 时间和并发限制，额外 GPU 时间按小时购买。
- 优化建议：把 Midjourney 当作设计探索成本，不计入自动成片的单条 API 成本；除非后续建立人工工作台统计 GPU 时间。
Seedance / 即梦成本估算
- Seedance/即梦的入口较多，API、网页、积分和地区价格可能不同。
- 优化建议：在 Notion 增加模型路由、预计成本、预计耗时、实际成本、实际耗时字段；每次使用 Seedance/即梦后手动或自动记录消耗，形成自己的真实成本表。
- 工程策略：先把 Seedance/即梦作为高质量备选，而不是无人值守默认主链路。
成本控制建议
- 文案和提示词可以多轮优化，视频不要多轮盲跑。
- 默认只跑 K1；K1 产品一致性通过后再跑 K2-K5。
- 每个镜头最多自动重跑 1 次；继续失败进入 Review。
- 低成本模式：qwen-plus + 提示词包 + Notion 写回，不生成真实视频。
- 标准模式：K1 Wan I2V + CosyVoice 预演。
- 完整模式：K1-K5 Wan I2V + CosyVoice + FFmpeg 合成。
- 高质模式：Nano Banana 首帧 + Seedance 对照测试 + 人工审核。
耗时控制建议
- 在每个脚本报告里新增 started_at、finished_at、elapsed_ms、model_elapsed_ms、queue_elapsed_ms。
- 在 Notion Jobs 表新增预计耗时、实际耗时、最近运行时间。
- 在 Shots 表新增生成耗时秒、重跑次数。
- 用真实数据建立路由：如果 Wan 当前排队慢，则先只产提示词；如果 Seedance 某段时间更快，再走 Seedance 测试。

推荐默认模型路线
- 默认低成本方案：qwen-plus 生成导演方案和四模型提示词包。
- 默认真实视频方案：Wan 2.6 I2V Flash 720P 无声视频 + CosyVoice 中文旁白 + FFmpeg 合成。
- 默认图片增强方案：Nano Banana 做首帧/生活方式图；Midjourney 做场景灵感，不直接做精确产品。
- 默认高质量对照方案：K1 用 Wan 和 Seedance 各出一版，人工选更好的模型后再全量扩展。

真实视频生成优化

保留 K1 优先策略
- 新产品第一次真实生成时，只先跑 K1 / Shot 1。
- K1 通过后，再允许 K2-K5 全量生成。
- 即使用户说费用不用考虑，也应保留失败保护，防止错误产品图连续烧钱。
增加视频质检
- 检查视频文件是否非空。
- 检查时长是否接近分镜时长。
- 抽帧检查是否有明显黑屏、纯色、错误产品、文字水印。
- 抽帧图片可写入报告，方便人工快速确认。
产品一致性检查
- K1 生成后，抽帧让视觉模型检查产品是否仍像原图。
- 如果产品变成错误颜色、错误材质、错误功能，应标记待重跑。
分镜重跑机制
- Shots 表里的重跑字段应支持：None、Rerun Prompt、Rerun Image、Rerun Video。
- 只重跑失败镜头，不重跑整个视频。

旁白、字幕和音画同步优化

统一时间轴
- 旁白、字幕、视频片段必须来自同一份分镜时间轴。
- 不要在合成阶段重新推断字幕时长。
旁白时长控制
- 每个镜头旁白字数要按镜头秒数限制。
- 15 秒视频建议总旁白控制在 45-60 个中文字。
- 30 秒视频建议总旁白控制在 90-120 个中文字。
合成后校验
- 用 FFmpeg 或 ffprobe 检查最终视频时长、音频流、字幕烧录结果。
- 若音频长度明显长于视频，应自动降速、裁剪或重新生成短旁白。
字幕样式
- 字幕应该简短、居中偏下、避免遮挡产品。
- 字幕行数最多两行。
- 手机竖屏 9:16 下要保证文字不贴边。

Notion + n8n 自动化优化

状态流转建议
- Active：用户提交任务。
- Running：n8n 已接管。
- Prompt Ready：导演方案和提示词已完成。
- Shot 1 Test：K1 单镜头测试中。
- Review：等待人工看 K1 或成片。
- Generated：最终视频已生成。
- Error：失败，查看错误信息和重试建议。
防重复运行
- 继续保留本地锁文件。
- 同一时间只允许一个 Active 任务进入真实生成。
- 如果发现多个 Active 任务，优先处理最早创建的一条，其余保持等待。
错误写回
- 所有失败都必须写回 Jobs 的错误信息和重试建议。
- 不允许只在终端失败而 Notion 没有状态。
n8n 2.0 兼容
- UI 中显示 Published，API 中仍是 active=true。
- 文档里统一说明：看到 Published 就表示已开启。
空跑心跳可视化
- 当前自动执行器在没有 Active 任务时只在本地报告里写 IDLE，用户在 Notion 侧无法区分"系统空闲"还是"执行器掉线"。
- 建议在 Jobs 看板或单独的系统状态页写回最近检查时间、执行器状态、最近空跑原因。
- 如果连续多轮没有新任务，也应保留心跳写回，确保"一键触发"体验可观测。

安全和密钥管理

不把密钥写入任何项目文件
- Notion、n8n、DashScope、百炼等密钥只放环境变量、系统凭据或 n8n Credentials。
- 报告、日志、Markdown、workflow JSON 都不能出现明文密钥。
每次修改后跑敏感信息扫描
- 检查 .json、.js、.md、.ps1、.cmd。
- 如果发现 key/token/JWT，要立即移除并重新验证。
- 额外扫描带签名的临时下载链接，例如对象存储签名参数、过期时间参数这类查询串；报告中只保留脱敏后的域名、文件名或本地路径，不保留完整签名 URL。
限制日志内容
- 失败日志只保留错误类型和接口状态。
- 不打印 Authorization header、完整请求体、完整环境变量。
运行报告默认脱敏落盘
- 目前部分真实视频和同步成片 JSON 报告仍会保留带签名的临时媒体 URL，这类链接虽然不是 API Key，但仍属于敏感访问凭据。
- 建议报告默认只落本地路径、任务 ID、文件名和脱敏域名；完整签名 URL 只在进程内短暂使用，不写入 Notion、报告或持久日志。
- 敏感扫描应覆盖 outputs/**/*.json，命中签名查询串时直接判定为失败并阻止报告落盘。
Markdown 报告也要拦截签名媒体链接
- 最新 outputs/real_k1_wan/ecommerce_ugc_real_k1_wan_report_zh.md 仍直接写入了包含 OSSAccessKeyId、Signature 和 Expires 查询参数的临时媒体 URL，说明当前脱敏规则没有覆盖 Markdown 报告正文。
- 后续应先对写回 Notion 和落盘报告的 URL 做统一脱敏，再分别渲染 .json 和 .md，避免一种格式已拦截、另一种格式继续泄露。
- 敏感扫描范围应从 outputs/**/*.json 扩大到 outputs/**/*.md、outputs/**/*.json 和自动执行器生成的富文本内容，命中对象存储签名参数时直接失败。

观测和质量报告

每次运行都生成报告
- 自动执行器报告。
- 百炼导演方案报告。
- K1 真实视频报告。
- 全量视频合成报告。
- 音画同步报告。
Notion 增加质检字段
- 质检状态
- 质检问题
- 可投放等级
- 人工审核备注
汇总看板
- 按状态统计任务数量。
- 按错误类型统计失败原因。
- 按产品品类统计最常见重跑原因。

优先级路线图

P0：稳定当前 Notion 一键触发

保证中文字段后自动化仍稳定。
保证状态=Active 后 n8n 能自动接管。
保证错误一定写回 Notion。

P1：修复成片完整度和音画同步

统一分镜、旁白、字幕时间轴。
自动检查最终视频是否有音频流。
自动检查字幕和旁白是否明显错位。

P2：提高产品图一致性

优先使用用户提供的真实产品图。
增加抽帧质检。
失败时只重跑单镜头。

P3：优化 Notion 用户体验

增加模板按钮。
增加中文状态别名。
增加生成要求、禁用词、质检字段。

P4：扩展多平台广告模板

TikTok 模板。
抖音模板。
小红书模板。
Amazon/Temu 商品展示模板。

P5：建立模型成本和耗时看板

每次模型调用都记录模型名、分辨率、输出秒数、token、字符数、实际耗时和估算成本。
Jobs 表显示整条广告的预计成本和实际成本。
Shots 表显示每个镜头的模型、耗时、重跑次数和成本。
每周根据真实数据调整默认模型路由。

官方参考入口

阿里云百炼模型价格：编辑https://www.alibabacloud.com/help/zh/model-studio/model-pricing
Gemini API 价格：https://ai.google.dev/gemini-api/docs/pricing
Midjourney 官方套餐：编辑https://docs.midjourney.com/hc/en-us/articles/27870484040333-Comparing-Midjourney-Plans
Seedance 官方介绍：https://seed.bytedance.com/en/seedance

每小时优化本文档的自动化设计

自动化名称：电商 UGC 优化建议文档每小时复盘

运行频率：每 1 小时。

每次执行任务：

读取本文档。
检查 ecommerce_ugc_video_system 最近新增的报告和运行结果。
重点查看：
- Notion 自动执行器是否空转或失败。
- 是否有新的视频生成失败。
- 是否有音画同步、字幕错位、产品图不一致问题。
- 是否有敏感信息扫描风险。
- 是否有用户提出的新问题或新需求。
将新建议合并进本文档对应章节。
如果只是重复建议，不追加。
不修改原短剧系统。
不写入任何 API Key、token、JWT 或密钥。

输出要求：

直接更新本文档。
在文档顶部更新更新时间。
如果新增建议，写清楚优先级、原因和建议动作。
如果没有新增建议，只追加一条简短复盘记录到"复盘记录"。

复盘记录

2026-05-25：建立首版优化建议文档，并设计每小时自动复盘机制。
2026-05-25：补充模型分工、模型路由、成本估算、耗时估算和官方价格参考入口。明确默认路线为 qwen-plus 产方案、Wan 2.6 I2V Flash 产视频、CosyVoice 产旁白、Nano Banana 做首帧/改图、Midjourney 做场景灵感、Seedance/即梦作为高质量备选。
2026-05-25 02:38:44：根据 n8n 自动执行器、Notion 中文化、K1 实拍、全量真实视频和同步成片报告，新增"扩展尾镜头计数对齐"和"签名 URL 脱敏"建议。
2026-05-25 03:39:30：根据自动执行器空跑报告和真实视频报告，新增"空跑心跳可视化"和"运行报告默认脱敏落盘"建议。
2026-05-25 04:41:12：根据最新 K1 实拍报告，新增"Markdown 报告拦截签名媒体链接"建议，并把敏感扫描范围从 json 扩大到 md/json 与写回正文。
2026-05-25 05:41:12：复盘最新 n8n 自动执行器报告，仍为 IDLE 且无 Active 任务，未发现超出既有"空跑心跳可视化"范围的新问题。
2026-05-25 06:41:59：复盘 2026-05-24T22:41:21Z 的 n8n 自动执行器报告，仍为 IDLE 且仅提示无 Active 任务，未发现新的 Notion 触发、Published 执行、中文字段兼容或错误写回问题。
2026-05-25 07:00:00：复盘 2026-05-24T23:41:21Z 的最新 n8n 自动执行器报告与结束日志，仍为 IDLE 且正常退出，未发现新的 Notion 一键触发、Published 自动执行、中文字段兼容、错误写回或敏感信息落盘问题。
2026-05-25 08:44:03：复盘 2026-05-25T00:43:21Z 的最新 n8n 自动执行器报告，仍为 IDLE 且仅提示无 Active 任务；本轮新增的完整视频、同步成片、静态验收与百炼写回报告均为 PASS，未发现新的 Notion 一键触发、Published 自动执行、中文字段兼容、产品图一致性、K1/Shot 1 优先、全量真实视频、音画同步、错误写回、敏感信息扫描、成本控制或用户操作体验问题。