电商带货 UGC 视频生成系统优化建议文档

我按"现在值得花钱测试"的角度给你排,不按宣传热度排。模型更新很快,下面是我刚查到的截至 2026-05-24 的官方资料口径。

先给结论

你现在最应该优先测这 5 家:

  1. OpenAI:ChatGPT / Codex / GPT-5.5 / GPT-5.3-Codex
  2. Anthropic:Claude Opus 4.7 / Sonnet 4.6 / Haiku 4.5
  3. Google:Gemini 3 Pro / Gemini 3.5 Flash / Gemini Omni
  4. xAI:Grok 4.3
  5. 低成本/开源路线:DeepSeek、Qwen、Mistral、Llama

如果你是为了赚钱、写代码、做交付,优先顺序是:

第一优先:ChatGPT / Codex 第二优先:Claude 第三优先:Gemini 第四优先:DeepSeek / Qwen / Mistral 低成本 API 第五优先:Grok

第一梯队:必须测

1. OpenAI GPT-5.5 / GPT-5.5 Pro

适合:综合能力、复杂任务、代码、商业文档、Agent、工具调用。

OpenAI 官方模型页显示 GPT-5.5 是面向 coding 和 professional work 的新一代模型,GPT-5.5 Pro 是更精确、更强的版本。官方模型页还列了 GPT-5.4 mini/nano、GPT-5 mini/nano 等更便宜版本。

你要测:

GPT-5.5 GPT-5.5 Pro GPT-5.4 mini GPT-5.4 nano

用途:

写代码 做文档 做商业方案 做自动化工具 做复杂推理

来源:OpenAI API models

2. OpenAI GPT-5.3-Codex

适合:Codex、软件工程、长任务写代码、改项目、修 bug。

OpenAI 官方模型页写的是:GPT-5.3-Codex The most capable agentic coding model to date.

你如果要用 Codex 赚钱,这个是重点。

你要测:

GPT-5.3-Codex Codex in ChatGPT Codex CLI / Codex App

用途:

做网页 做脚本 做自动化工具 改代码库 生成项目 修 bug

来源:OpenAI API models

3. Claude Opus 4.7

适合:复杂代码、长文档、深度分析、项目理解、严谨写作。

Anthropic 官方 release notes 显示 Claude Opus 4.7 已发布,并强调软件工程、复杂长任务、视觉能力提升。

你要测:

Claude Opus 4.7 Claude Sonnet 4.6 Claude Haiku 4.5

用途:

读长文档 写方案 代码审查 复杂项目规划 长上下文分析

来源:Claude release notes​编辑Claude models overview

第二梯队:很值得测

4. Claude Sonnet 4.6

适合:日常高强度使用,性价比通常比 Opus 好。

定位:

Opus = 最强 Sonnet = 平衡能力和成本 Haiku = 快、便宜

如果你不是天天做最复杂任务,Claude Sonnet 4.6 可能比 Opus 更实用。

5. Google Gemini 3 Pro / Gemini 3.5 Flash / Gemini Omni

适合:多模态、长上下文、Google 生态、图像/视频/音频方向。

Google DeepMind 官方模型卡页面列了:

Gemini Omni Flash Gemini 3.5 Flash Gemini 3.1 Pro Gemini 3 Pro Veo 3.1 Lite Veo 3 Imagen 4 Gemma 4

用途:

多模态理解 图片/视频相关 长资料分析 Google Workspace 生态 低成本快速任务

来源:​编辑Google DeepMind model cards

6. xAI Grok 4.3

适合:长上下文、X/Twitter 相关、实时信息、低价 API 测试。

xAI 官方 docs 显示 Grok 4.3 支持 1M context,标注为其最智能和最快的模型,API 价格页面也直接列了输入/输出价格。

用途:

长上下文 实时信息 X 平台内容分析 低成本 API 测试

来源:​编辑xAI models

第三梯队:低成本/开源/备用模型

这些不一定是"最强",但很适合你做赚钱项目时控成本。

7. DeepSeek

适合:低成本 API、中文、代码、推理。

你要测:

deepseek-chat deepseek-reasoner

注意:官方文档显示 deepseek-chat 和 deepseek-reasoner 有退役/替换时间提示,所以要以控制台当前模型名为准。

来源:DeepSeek API docs

8. Qwen

适合:中文、开源/国内生态、Agent coding、本地或云部署。

AWS 最近也上线了新的 Qwen 模型到 SageMaker JumpStart,包括 Qwen3.5、Qwen3.6 系列。

适合:

中文业务 本地部署 便宜批量任务 跨境电商中文资料处理

来源:​编辑AWS Qwen models announcement

9. Mistral

适合:欧洲生态、代码、开源模型、企业私有化。

Mistral 官方模型页列了:

Devstral 2 Codestral Mistral Moderation 2 Voxtral OCR 3

用途:

代码 私有化 OCR 文档 AI 低成本部署

来源:Mistral models overview

10. Meta Llama

适合:开源、本地部署、低成本自托管。

当前可重点看:

Llama 4 Maverick Llama 4 Scout Llama 3.3 70B

用途:

本地部署 私有数据 低成本推理 二次开发

来源:​编辑Meta Llama models on Hugging Face

我建议你这样充钱测试

方案 A:预算低,先测 2 个

ChatGPT Plus Claude Pro

目的:

一个测 Codex / GPT 综合能力 一个测 Claude 长文档和代码分析

方案 B:预算中等,测 4 个

ChatGPT Plus 或 Pro Claude Pro Google AI Pro DeepSeek API 充少量额度

目的:

OpenAI 做代码和交付 Claude 做分析和文档 Gemini 做多模态和长资料 DeepSeek 做低成本批量任务

方案 C:你要认真做 Codex 赚钱

ChatGPT Pro / Codex 高额度 Claude Pro 或 Max OpenAI API 少量额度 DeepSeek API 少量额度 Google AI Pro

测试顺序:

  1. Codex 做网页/脚本/自动化工具 2. Claude 做方案/文档/代码审查 3. Gemini 做图片、长资料、多模态 4. DeepSeek 做便宜批量处理 5. Grok 只在你需要 X/Twitter 或超长上下文时测

不要一开始全充

先按 7 天测试:

第 1-2 天:ChatGPT / Codex 第 3 天:Claude 第 4 天:Gemini 第 5 天:DeepSeek / Qwen / Mistral API 第 6 天:Grok 第 7 天:同一个任务横向对比

你的测试任务要统一

不要随便聊天测试。用这 5 个任务测:

  1. 让模型做一个跨境电商广告诊断工具 2. 让模型改一份简历/面试 SOP 3. 让模型读一份长文档并总结 4. 让模型写一个可运行网页 5. 让模型修 bug 并解释原因

最终推荐

如果你现在只想先掏钱开始:

先充 ChatGPT Plus/Pro 再充 Claude Pro 然后开 DeepSeek API 小额测试 最后再考虑 Gemini / Grok

你的方向是用 Codex 赚钱,所以第一优先不是"最会聊天的模型",而是:

能不能稳定帮你交付代码、文档、自动化工具、客户项目。

按这个标准,先测 OpenAI + Claude。

--

直接给结论。以下按 2026-05-25 查询到的官方价格 + 你本机实测结果 来估算,实际账单以阿里云/BytePlus/Google/Midjourney 后台为准。

一条视频大概多少钱

现在这套默认链路是:

qwen-plus 写方案 -> Wan 2.6 I2V Flash 生成视频 -> CosyVoice 生成中文旁白 -> FFmpeg 本地合成

按当前流程,5 个分镜,每个 5 秒,也就是生成约 25 秒原始视频:

项目 模型 费用估算
导演方案/脚本/提示词 qwen-plus 约 ¥0.01
真实视频 K1-K5 Wan 2.6 I2V Flash 720P 无声 25 秒 × ¥0.15/秒 = ¥3.75
中文旁白 CosyVoice v2 约 ¥0.03-¥0.08
字幕/合成 FFmpeg 本地 ¥0
合计 当前默认全量流程 约 ¥3.8-¥4.5 / 条

如果优化成真正 15 秒,而不是 5 个镜头各 5 秒:

模式 大概费用
只生成方案和提示词 ¥0.01 以内
只测 K1 / 5 秒视频 约 ¥0.75-¥1.2
15 秒完整视频,无声视频 + CosyVoice 约 ¥2.3-¥3.0
当前 25 秒完整视频 约 ¥3.8-¥4.5
Wan 自带音频视频 费用大约翻倍,不推荐当前阶段用

我建议默认继续用 无声 Wan 视频 + CosyVoice 单独配音,比让视频模型直接带音频更便宜,也更容易修音画同步。

一条视频大概多久

这台机器和当前 API 实测:

阶段 本地实测/预估
qwen-plus 生成导演方案 实测约 81 秒
Wan K1 单镜头 5 秒视频 服务端实测约 28 秒
K1-K5 全量视频 通常 2-5 分钟
CosyVoice 旁白 通常几十秒内
FFmpeg 合成 通常几十秒内
完整一条 实际约 4-8 分钟比较合理

如果排队严重,可能到 10 分钟以上。正常情况下,你点 Notion 状态=Active 后,几分钟内应该能出结果。

哪些模型适合做什么

模型 最适合 不适合 我的建议
qwen-plus 产品分析、卖点、脚本、分镜、合规、提示词包 生成图片/视频 默认一直用,便宜稳定
Wan 2.6 I2V Flash 产品图生视频、K1-K5 分镜 高级电影感、复杂人物动作 当前主视频模型
Wan 2.6 I2V 标准版 更高质量视频 成本更高 重要产品再用
CosyVoice 中文旁白 视频画面 默认配音模型
Seedance 更强运动、更自然镜头、更广告片感 成本/入口不如 Wan 稳定 做高质量对照测试
即梦 中文人工创意测试 无人值守 API 主链路 适合复制提示词手动跑
Nano Banana / Gemini Image 首帧图、改图、产品场景图、before/after 直接生成视频 做视频前的首帧增强
Midjourney 氛围图、封面、背景、美术方向 精准还原产品 只做场景灵感,不做产品主体

效果判断

当前默认 Wan 2.6 I2V Flash 的效果:

适合做"能用的 UGC 商品种草样片",尤其是花盆、家居、小摆件、低价小商品这种简单产品。速度和成本都不错。

但它的弱点也明显:

  • 产品可能轻微变形。
  • 复杂功能容易被模型乱加。
  • 人手、产品边缘、文字标识容易出错。
  • 字幕和旁白如果不统一时间轴,会错位。
  • 现在更像"可验证样片",不是稳定投放级成片。

要提升到更接近投放级,我建议:

  1. 首帧先用 Nano Banana/Gemini Image 做准。
  2. K1 先用 Wan 跑一版。
  3. 重要产品再用 Seedance 跑 K1 对照。
  4. 哪个模型 K1 更稳,就用哪个扩展 K2-K5。
  5. 最后必须做音画同步检查。

推荐默认路线

日常低成本出片:

添加到对话

qwen-plus 产方案 Wan 2.6 I2V Flash 生成 5 个无声镜头 CosyVoice 生成中文旁白 FFmpeg 合成字幕和音频

重要产品高质量路线:

qwen-plus 产方案 Nano Banana / Gemini Image 做首帧 Wan 和 Seedance 各跑 K1 人工选更好的 K1 风格 再全量生成 K2-K5 CosyVoice + FFmpeg 合成

我的直接建议

你现在这套系统,下一步不要急着换模型。先优化三件事:

  1. 把每个镜头从 5 秒改成 3 秒,做真正 15 秒广告。

    成本从约 ¥3.75 视频费降到约 ¥2.25。

  2. 修音画同步。

    旁白、字幕、视频片段必须用同一份时间轴。

  3. 加产品一致性质检。

    K1 生成后先抽帧检查,产品不像就别继续烧 K2-K5。

参考来源:
阿里云百炼模型价格
Gemini API Pricing
BytePlus ModelArk Pricing
​编辑Midjourney Plans


更新时间:2026-05-25 04:41:12

本文档集中记录 ecommerce_ugc_video_system 的后续优化建议。目标是让系统逐步变成:用户只在 Notion 新建一个产品任务并把 状态 设为 Active,n8n 自动生成导演方案、分镜提示词、真实视频、旁白、字幕和最终成片。

当前可用状态

  • Notion 已有两张中文字段表:Ecommerce UGC Jobs 和 Ecommerce UGC Shots。
  • n8n 2.0 已导入并 Published 电商带货 UGC 视频生成器 - Notion 自动执行器。
  • 自动执行器每 1 分钟检查一次 Notion,发现 状态=Active 的 Jobs 后自动启动生成流程。
  • 当前脚本已支持 Notion 中英字段别名,Notion 字段名可以是中文。
  • 真实视频开关已打开,但仍建议默认保留 K1 / Shot 1 优先验证,再扩展全量镜头。
  • 原短剧系统、短剧文档、短剧输出必须继续保持不动。

用户操作体验优化

  1. 建立一个固定的 Notion 模板按钮

    • 在 Jobs 表里做一个"新建产品广告任务"模板。
    • 默认填好 广告目标、视频时长、画面比例、画面风格、旁白风格。
    • 用户只需要填 产品名称、商品页面链接、产品描述、产品图片,最后把 状态 改成 Active。
  2. 增加中文状态选项

    • 当前触发仍依赖 Active、Running、Generated、Error 等英文选项。
    • 后续可以改成同时支持中文状态:待执行、运行中、已生成、失败、待审核。
    • 改状态值前必须先让所有脚本和 n8n 节点同时支持中英文状态,避免自动化断掉。
  3. 增加任务说明字段

    • 建议新增 生成要求 字段,用于写特殊要求,例如"要英文旁白""不要真人出镜""只做 15 秒 TikTok"。
    • 建议新增 禁用词/禁用卖点 字段,用于写产品不能宣传的点,例如"不能说发光、太阳能、治愈焦虑"。
  4. 输出结果更好找

    • Jobs 表保留 最终视频链接。
    • Shots 表保留每个镜头的 图片链接、视频链接。
    • 建议新增 本地成片路径 和 质检结论 字段,方便快速判断结果是否可用。

产品输入优化

  1. 产品图片必须优先使用真实产品图

    • 最好填写公网可访问图片链接。
    • 如果只上传到 Notion 文件字段,后续需要确认 n8n/脚本能稳定读取临时文件 URL。
    • 若商品图无法访问,系统可以临时生成参考图,但这种图只适合占位验证,不适合最终投放。
  2. 商品页面解析

    • 后续可加入商品页面抓取模块,自动提取标题、价格、评价、规格、材质、禁用宣传风险。
    • 页面抓取失败时,不应阻断流程,应退回使用用户填写的产品描述。
  3. 产品识别质检

    • 在生成视频前,先让模型输出"产品识别摘要"。
    • 如果产品识别与用户描述冲突,任务应进入 待审核,不要直接生成真实视频。

脚本和导演方案优化

  1. 建立固定 UGC 广告结构

    • K1:痛点/好奇钩子。
    • K2:产品露出。
    • K3:使用动作或核心利益点。
    • K4:效果展示或信任细节。
    • K5:结果展示和轻 CTA。
  2. 支持不同平台风格

    • TikTok:更快节奏、真实口语、前 2 秒强钩子。
    • 抖音:更直接的改造前后对比和利益点。
    • 小红书:更生活方式、更自然种草、少硬广。
    • Temu/Amazon:更强调产品展示、规格和使用场景。
  3. 中英文双语输出

    • 用户填写中文时,默认输出中文旁白和中文字幕,同时保留英文模型提示词。
    • 用户填写英文时,默认输出英文旁白和英文字幕。
    • 用户可以在 旁白风格 中明确写"中文旁白 / English voiceover / bilingual subtitles"。
  4. 合规检查前置

    • 每个任务都必须输出"可说卖点"和"不可说卖点"。
    • 禁止默认生成夸大表达,例如"永久有效""100% 不褪色""治愈焦虑""全网最低价"。
    • 对带灯、功效、医疗、美妆、食品、儿童用品等高风险品类,应增加专门合规检查。
  5. 明确扩展尾镜头策略

    • 当前全量真实视频报告仍按 K1-K5 统计,但同步成片阶段已经出现追加 K6 CTA 的情况。
    • 后续应把"基础分镜数"和"最终成片分镜数"拆开记录,避免报告里前面写 5 条、后面写 6 条,影响验收和重跑判断。
    • 如果确实需要追加尾镜头,Notion 和报告里应明确标记为"扩展镜头"而不是覆盖原 K1-K5 结构。

多模型提示词优化

  1. Seedance / 即梦视频提示词

    • 必须包含产品锁定词:保持产品形状、颜色、材质、平面/立体关系不变。
    • 明确禁止:文字、水印、logo、错误功能、额外产品、产品变形。
    • 每个镜头单独生成 3-5 秒,再合成。
  2. Nano Banana 图片/改图提示词

    • 优先用于首帧图、场景图、before/after 图。
    • 提示词必须强调"使用上传产品图作为精确参考"。
    • 不应让它自由重画复杂产品。
  3. Midjourney 场景提示词

    • 更适合做背景氛围图,不适合精准复刻产品。
    • 提示词应预留产品位置,而不是要求它重画精确产品。
  4. 提示词质量评分

    • 每个镜头给 Seedance、即梦、Nano Banana、Midjourney 提示词打分。
    • 低于阈值时只写回 Notion,不进入真实视频生成。

模型分工与路由建议

  1. Qwen / 阿里百炼 qwen-plus

    • 最适合:产品卖点提取、目标用户画像、痛点/场景/利益点、UGC 创意角度、15 秒/30 秒脚本、分镜表、合规风险检查、多模型提示词包。
    • 不适合:直接生成视频、精确判断视频质量、复杂图片编辑。
    • 当前系统定位:默认导演方案和提示词生产模型。
    • 路由建议:所有任务先走 qwen-plus 生成结构化导演方案,只有通过合规检查和提示词质量检查后,才进入真实图片/视频模型。
  2. Wan 2.6 I2V Flash / 阿里百炼

    • 最适合:用产品图或首帧图生成 3-5 秒真实短镜头。
    • 优点:已经在本地链路跑通,适合接 n8n 自动化;可控、可记录任务 ID、可写回 Notion。
    • 风险:产品可能变形;视频 URL 常带临时签名,报告和 Notion 写回必须脱敏;队列耗时会波动。
    • 当前系统定位:默认真实视频 API 生成模型。
    • 路由建议:先生成 K1 / Shot 1;通过后再跑 K2-K5。默认 audio=false,后续用 CosyVoice 单独配音,更便于字幕和旁白同步。
  3. Seedance

    • 最适合:运动幅度更大的镜头、镜头语言更强的广告片、需要更好 prompt adherence 的视频生成。
    • 优点:官方介绍强调文本/图像到视频、多镜头叙事、主体/风格一致性和 1080p 生成能力。
    • 风险:不同入口的 API、积分、地区和审核策略可能不同;成本和排队时间需要按实际账号后台确认。
    • 当前系统定位:高级视频备选模型,先输出 Seedance 提示词包,不默认自动烧钱。
    • 路由建议:当 Wan 生成的产品动作不够自然,或用户明确要更强镜头感时,用 Seedance 做 K1 对照测试;通过后再考虑全量。
  4. 即梦 / Jimeng / Dreamina

    • 最适合:人工在网页或客户端里做视频创意测试,尤其是中文创作者工作流。
    • 优点:操作直观,适合拿系统生成的中文提示词直接复制测试。
    • 风险:消费端产品的积分、模型版本、审核和导出限制会变;不适合作为第一阶段无人值守 API 主链路。
    • 当前系统定位:提示词包输出对象和人工备选生成通道。
    • 路由建议:Notion 中保留 即梦视频提示词,用户需要人工精修时复制使用;自动化主链路仍以可 API 化的 Wan 为主。
  5. Nano Banana / Gemini 2.5 Flash Image

    • 最适合:产品生活方式图、首帧图、before/after 图、轻量改图、场景合成。
    • 优点:图像编辑和上下文理解强,适合把产品图放进真实生活场景。
    • 风险:复杂产品可能被重画变形;不能替代精确商品摄影;价格和可用模型版本需要按 Gemini API 官方页面复核。
    • 当前系统定位:图片/首帧增强模型,不作为视频模型。
    • 路由建议:当用户产品图质量差、没有生活方式图、或需要更适合 I2V 的首帧时,用 Nano Banana 生成或改一张首帧,再交给 Wan/Seedance 做视频。
  6. Midjourney

    • 最适合:广告氛围图、背景图、封面图、风格探索、场景 moodboard。
    • 优点:视觉质感强,适合探索电商广告的场景方向。
    • 风险:不擅长精确复刻产品;官方计费是订阅/GPU 时间,不是稳定的单次 API 成本;自动化接入不应作为第一阶段主链路。
    • 当前系统定位:场景图和封面灵感生成工具。
    • 路由建议:只让 Midjourney 生成"留出产品位置的背景/场景",不要让它重画真实产品主体。
  7. CosyVoice

    • 最适合:中文旁白生成。
    • 优点:按字符计费,成本通常远低于视频生成;和本地 FFmpeg 合成链路已经跑通。
    • 风险:旁白时长可能和视频长度不一致,需要严格按分镜时间轴限制字数。
    • 当前系统定位:默认中文旁白 TTS。
    • 路由建议:先生成短旁白,再按实际音频时长调整字幕和视频总时长;不要在视频模型里直接生成不可控旁白。
  8. FFmpeg / 本地合成

    • 最适合:镜头拼接、字幕烧录、音频合成、格式转换。
    • 优点:无 API 成本,可重复执行,适合修复音画不同步。
    • 风险:如果输入片段时长不一致,字幕和旁白仍会错位。
    • 当前系统定位:最终成片合成器。
    • 路由建议:所有片段先标准化为统一分辨率、帧率、音频参数,再合成最终版本。

成本与耗时估算

说明:以下价格会变化,必须以官方价格页和账号后台为准。本文档只记录当前可用于工程决策的估算框架。

  1. 一条 15 秒广告的基础成本结构

    • 文案/导演方案:qwen-plus,按 token 计费,通常成本很低。
    • 图片/首帧:Nano Banana、WanX 或其他图片模型,按张或按任务计费。
    • 视频:最大成本项,通常按输出视频秒数计费。
    • 旁白:CosyVoice,按输入字符计费,通常远低于视频。
    • 合成:FFmpeg 本地执行,无模型费用。
  2. 当前系统实测数据

    • qwen-plus 生成导演方案:一次样例任务耗时约 81 秒,usage 为 976 prompt tokens + 3664 completion tokens,总计 4640 tokens。
    • Wan 2.6 I2V Flash K1:一次 5 秒 720P 无声视频,服务端从提交到结束约 28 秒,轮询 4 次,本地视频约 3.1 MB。
    • Wan 2.6 I2V Flash K1-K5:5 个镜头全量真实生成后,再本地合成字幕和 CosyVoice 旁白;样例链路整体约几分钟级,实际取决于队列和重试。
    • CosyVoice:样例旁白 266 个字符,生成出约 0.5 MB MP3;成本按字符数算,通常不是主要成本。
  3. Wan 2.6 I2V Flash 成本估算

    • 当前系统使用的策略是 720P、audio=false,再单独做 CosyVoice。
    • 按阿里云百炼官方价格页,Wan 2.6 I2V Flash 的无声 720P 视频按秒计费;中国内地和国际部署单价不同。
    • 粗略公式:视频成本 = 输出秒数 × 对应分辨率单价 × 镜头数量。
    • 例:5 个镜头 × 每个 5 秒 = 25 秒输出视频。无声 720P 的总价约等于 25 秒乘以对应账号区域的单价。
    • 优化建议:默认先 K1,避免 25 秒视频一次性全量失败;K1 通过后再全量生成。
  4. Qwen 成本估算

    • qwen-plus 按输入/输出 token 计费。
    • 在当前样例里,文案阶段 token 量约 4.6K,通常远低于视频成本。
    • 优化建议:可以多跑几轮脚本和提示词优化,成本压力主要不在文本模型,而在视频模型。
  5. Nano Banana / Gemini Flash Image 成本估算

    • Gemini API 官方价格页把 gemini-2.5-flash-image 作为图像生成模型,标准模式有文本/图片输入价格和按张输出价格。
    • 粗略公式:图片成本 = 输入 token 成本 + 输出图片张数 × 单张图片成本。
    • 优化建议:先生成 1 张首帧图,不要一次生成多张;只有产品准确、场景自然后再进入视频。
  6. Midjourney 成本估算

    • Midjourney 官方是订阅制,不适合按每条视频精确折算成本。
    • Basic/Standard/Pro/Mega 有不同月费、Fast GPU 时间和并发限制,额外 GPU 时间按小时购买。
    • 优化建议:把 Midjourney 当作设计探索成本,不计入自动成片的单条 API 成本;除非后续建立人工工作台统计 GPU 时间。
  7. Seedance / 即梦成本估算

    • Seedance/即梦的入口较多,API、网页、积分和地区价格可能不同。
    • 优化建议:在 Notion 增加 模型路由、预计成本、预计耗时、实际成本、实际耗时 字段;每次使用 Seedance/即梦后手动或自动记录消耗,形成自己的真实成本表。
    • 工程策略:先把 Seedance/即梦作为高质量备选,而不是无人值守默认主链路。
  8. 成本控制建议

    • 文案和提示词可以多轮优化,视频不要多轮盲跑。
    • 默认只跑 K1;K1 产品一致性通过后再跑 K2-K5。
    • 每个镜头最多自动重跑 1 次;继续失败进入 Review。
    • 低成本模式:qwen-plus + 提示词包 + Notion 写回,不生成真实视频。
    • 标准模式:K1 Wan I2V + CosyVoice 预演。
    • 完整模式:K1-K5 Wan I2V + CosyVoice + FFmpeg 合成。
    • 高质模式:Nano Banana 首帧 + Seedance 对照测试 + 人工审核。
  9. 耗时控制建议

    • 在每个脚本报告里新增 started_at、finished_at、elapsed_ms、model_elapsed_ms、queue_elapsed_ms。
    • 在 Notion Jobs 表新增 预计耗时、实际耗时、最近运行时间。
    • 在 Shots 表新增 生成耗时秒、重跑次数。
    • 用真实数据建立路由:如果 Wan 当前排队慢,则先只产提示词;如果 Seedance 某段时间更快,再走 Seedance 测试。
  1. 推荐默认模型路线

    • 默认低成本方案:qwen-plus 生成导演方案和四模型提示词包。
    • 默认真实视频方案:Wan 2.6 I2V Flash 720P 无声视频 + CosyVoice 中文旁白 + FFmpeg 合成。
    • 默认图片增强方案:Nano Banana 做首帧/生活方式图;Midjourney 做场景灵感,不直接做精确产品。
    • 默认高质量对照方案:K1 用 Wan 和 Seedance 各出一版,人工选更好的模型后再全量扩展。

真实视频生成优化

  1. 保留 K1 优先策略

    • 新产品第一次真实生成时,只先跑 K1 / Shot 1。
    • K1 通过后,再允许 K2-K5 全量生成。
    • 即使用户说费用不用考虑,也应保留失败保护,防止错误产品图连续烧钱。
  2. 增加视频质检

    • 检查视频文件是否非空。
    • 检查时长是否接近分镜时长。
    • 抽帧检查是否有明显黑屏、纯色、错误产品、文字水印。
    • 抽帧图片可写入报告,方便人工快速确认。
  3. 产品一致性检查

    • K1 生成后,抽帧让视觉模型检查产品是否仍像原图。
    • 如果产品变成错误颜色、错误材质、错误功能,应标记 待重跑。
  4. 分镜重跑机制

    • Shots 表里的 重跑 字段应支持:None、Rerun Prompt、Rerun Image、Rerun Video。
    • 只重跑失败镜头,不重跑整个视频。

旁白、字幕和音画同步优化

  1. 统一时间轴

    • 旁白、字幕、视频片段必须来自同一份分镜时间轴。
    • 不要在合成阶段重新推断字幕时长。
  2. 旁白时长控制

    • 每个镜头旁白字数要按镜头秒数限制。
    • 15 秒视频建议总旁白控制在 45-60 个中文字。
    • 30 秒视频建议总旁白控制在 90-120 个中文字。
  3. 合成后校验

    • 用 FFmpeg 或 ffprobe 检查最终视频时长、音频流、字幕烧录结果。
    • 若音频长度明显长于视频,应自动降速、裁剪或重新生成短旁白。
  4. 字幕样式

    • 字幕应该简短、居中偏下、避免遮挡产品。
    • 字幕行数最多两行。
    • 手机竖屏 9:16 下要保证文字不贴边。

Notion + n8n 自动化优化

  1. 状态流转建议

    • Active:用户提交任务。
    • Running:n8n 已接管。
    • Prompt Ready:导演方案和提示词已完成。
    • Shot 1 Test:K1 单镜头测试中。
    • Review:等待人工看 K1 或成片。
    • Generated:最终视频已生成。
    • Error:失败,查看错误信息和重试建议。
  2. 防重复运行

    • 继续保留本地锁文件。
    • 同一时间只允许一个 Active 任务进入真实生成。
    • 如果发现多个 Active 任务,优先处理最早创建的一条,其余保持等待。
  3. 错误写回

    • 所有失败都必须写回 Jobs 的 错误信息 和 重试建议。
    • 不允许只在终端失败而 Notion 没有状态。
  4. n8n 2.0 兼容

    • UI 中显示 Published,API 中仍是 active=true。
    • 文档里统一说明:看到 Published 就表示已开启。
  5. 空跑心跳可视化

    • 当前自动执行器在没有 Active 任务时只在本地报告里写 IDLE,用户在 Notion 侧无法区分"系统空闲"还是"执行器掉线"。
    • 建议在 Jobs 看板或单独的系统状态页写回 最近检查时间、执行器状态、最近空跑原因。
    • 如果连续多轮没有新任务,也应保留心跳写回,确保"一键触发"体验可观测。

安全和密钥管理

  1. 不把密钥写入任何项目文件

    • Notion、n8n、DashScope、百炼等密钥只放环境变量、系统凭据或 n8n Credentials。
    • 报告、日志、Markdown、workflow JSON 都不能出现明文密钥。
  2. 每次修改后跑敏感信息扫描

    • 检查 .json、.js、.md、.ps1、.cmd。
    • 如果发现 key/token/JWT,要立即移除并重新验证。
    • 额外扫描带签名的临时下载链接,例如对象存储签名参数、过期时间参数这类查询串;报告中只保留脱敏后的域名、文件名或本地路径,不保留完整签名 URL。
  3. 限制日志内容

    • 失败日志只保留错误类型和接口状态。
    • 不打印 Authorization header、完整请求体、完整环境变量。
  4. 运行报告默认脱敏落盘

    • 目前部分真实视频和同步成片 JSON 报告仍会保留带签名的临时媒体 URL,这类链接虽然不是 API Key,但仍属于敏感访问凭据。
    • 建议报告默认只落本地路径、任务 ID、文件名和脱敏域名;完整签名 URL 只在进程内短暂使用,不写入 Notion、报告或持久日志。
    • 敏感扫描应覆盖 outputs/**/*.json,命中签名查询串时直接判定为失败并阻止报告落盘。
  5. Markdown 报告也要拦截签名媒体链接

    • 最新 outputs/real_k1_wan/ecommerce_ugc_real_k1_wan_report_zh.md 仍直接写入了包含 OSSAccessKeyId、Signature 和 Expires 查询参数的临时媒体 URL,说明当前脱敏规则没有覆盖 Markdown 报告正文。
    • 后续应先对写回 Notion 和落盘报告的 URL 做统一脱敏,再分别渲染 .json 和 .md,避免一种格式已拦截、另一种格式继续泄露。
    • 敏感扫描范围应从 outputs/**/*.json 扩大到 outputs/**/*.md、outputs/**/*.json 和自动执行器生成的富文本内容,命中对象存储签名参数时直接失败。

观测和质量报告

  1. 每次运行都生成报告

    • 自动执行器报告。
    • 百炼导演方案报告。
    • K1 真实视频报告。
    • 全量视频合成报告。
    • 音画同步报告。
  2. Notion 增加质检字段

    • 质检状态
    • 质检问题
    • 可投放等级
    • 人工审核备注
  3. 汇总看板

    • 按状态统计任务数量。
    • 按错误类型统计失败原因。
    • 按产品品类统计最常见重跑原因。

优先级路线图

P0:稳定当前 Notion 一键触发

  • 保证中文字段后自动化仍稳定。
  • 保证 状态=Active 后 n8n 能自动接管。
  • 保证错误一定写回 Notion。

P1:修复成片完整度和音画同步

  • 统一分镜、旁白、字幕时间轴。
  • 自动检查最终视频是否有音频流。
  • 自动检查字幕和旁白是否明显错位。

P2:提高产品图一致性

  • 优先使用用户提供的真实产品图。
  • 增加抽帧质检。
  • 失败时只重跑单镜头。

P3:优化 Notion 用户体验

  • 增加模板按钮。
  • 增加中文状态别名。
  • 增加生成要求、禁用词、质检字段。

P4:扩展多平台广告模板

  • TikTok 模板。
  • 抖音模板。
  • 小红书模板。
  • Amazon/Temu 商品展示模板。

P5:建立模型成本和耗时看板

  • 每次模型调用都记录模型名、分辨率、输出秒数、token、字符数、实际耗时和估算成本。
  • Jobs 表显示整条广告的预计成本和实际成本。
  • Shots 表显示每个镜头的模型、耗时、重跑次数和成本。
  • 每周根据真实数据调整默认模型路由。

官方参考入口

每小时优化本文档的自动化设计

自动化名称:电商 UGC 优化建议文档每小时复盘

运行频率:每 1 小时。

每次执行任务:

  1. 读取本文档。
  2. 检查 ecommerce_ugc_video_system 最近新增的报告和运行结果。
  3. 重点查看:
    • Notion 自动执行器是否空转或失败。
    • 是否有新的视频生成失败。
    • 是否有音画同步、字幕错位、产品图不一致问题。
    • 是否有敏感信息扫描风险。
    • 是否有用户提出的新问题或新需求。
  4. 将新建议合并进本文档对应章节。
  5. 如果只是重复建议,不追加。
  6. 不修改原短剧系统。
  7. 不写入任何 API Key、token、JWT 或密钥。

输出要求:

  • 直接更新本文档。
  • 在文档顶部更新 更新时间。
  • 如果新增建议,写清楚优先级、原因和建议动作。
  • 如果没有新增建议,只追加一条简短复盘记录到"复盘记录"。

复盘记录

  • 2026-05-25:建立首版优化建议文档,并设计每小时自动复盘机制。
  • 2026-05-25:补充模型分工、模型路由、成本估算、耗时估算和官方价格参考入口。明确默认路线为 qwen-plus 产方案、Wan 2.6 I2V Flash 产视频、CosyVoice 产旁白、Nano Banana 做首帧/改图、Midjourney 做场景灵感、Seedance/即梦作为高质量备选。
  • 2026-05-25 02:38:44:根据 n8n 自动执行器、Notion 中文化、K1 实拍、全量真实视频和同步成片报告,新增"扩展尾镜头计数对齐"和"签名 URL 脱敏"建议。
  • 2026-05-25 03:39:30:根据自动执行器空跑报告和真实视频报告,新增"空跑心跳可视化"和"运行报告默认脱敏落盘"建议。
  • 2026-05-25 04:41:12:根据最新 K1 实拍报告,新增"Markdown 报告拦截签名媒体链接"建议,并把敏感扫描范围从 json 扩大到 md/json 与写回正文。
  • 2026-05-25 05:41:12:复盘最新 n8n 自动执行器报告,仍为 IDLE 且无 Active 任务,未发现超出既有"空跑心跳可视化"范围的新问题。
  • 2026-05-25 06:41:59:复盘 2026-05-24T22:41:21Z 的 n8n 自动执行器报告,仍为 IDLE 且仅提示无 Active 任务,未发现新的 Notion 触发、Published 执行、中文字段兼容或错误写回问题。
  • 2026-05-25 07:00:00:复盘 2026-05-24T23:41:21Z 的最新 n8n 自动执行器报告与结束日志,仍为 IDLE 且正常退出,未发现新的 Notion 一键触发、Published 自动执行、中文字段兼容、错误写回或敏感信息落盘问题。
  • 2026-05-25 08:44:03:复盘 2026-05-25T00:43:21Z 的最新 n8n 自动执行器报告,仍为 IDLE 且仅提示无 Active 任务;本轮新增的完整视频、同步成片、静态验收与百炼写回报告均为 PASS,未发现新的 Notion 一键触发、Published 自动执行、中文字段兼容、产品图一致性、K1/Shot 1 优先、全量真实视频、音画同步、错误写回、敏感信息扫描、成本控制或用户操作体验问题。
相关推荐
AI周红伟13 小时前
Windows 支持 Hermes Agent 吗:原生 Windows 安装 + WSL2 路径完整指南
数据库·人工智能·windows·阿里云·职场和发展·计算机外设
码农阿强13 小时前
DeepSeek-V4 Flash/Pro 技术深度解析:成本下降与场景适配
人工智能·ai·aigc·个人开发
张忠琳15 小时前
【vllm】(v1 Attention)vLLM V1 Attention— Part2 标准Attention后端实现
ai·架构·vllm
ofoxcoding15 小时前
Codex 官网访问 + 完整安装教程:macOS / Windows / Linux 一次跑通(2026)
linux·windows·macos·ai
Agent手记15 小时前
智能财务对账Agent如何设计?2026金融大模型Agent架构设计与实战指引
人工智能·算法·ai·金融
想ai抽16 小时前
AIAgent友好的数据治理框架-Apache Gravitino技术调研报告
ai·数据治理·gravitino
翼龙云_cloud16 小时前
阿里云代理商:阿里云HappyHorse AI 视频生成的全能创作引擎
人工智能·阿里云·云计算·音视频·happyhorse
TG_yunshuguoji16 小时前
阿里云代理商:阿里云HappyHorse 是什么?
人工智能·阿里云·云计算·ai智能体·happyhorse
云布道师16 小时前
【云故事探索】NO.25 | 深势科技携手阿里云AgentRun,加速科研智能体全速运行
科技·阿里云·云计算