从工程思维到产品思维：我用 AI 搭建内容生产系统的实战复盘

[1 背景：为什么我要用 AI 做内容和产品](#1 背景：为什么我要用 AI 做内容和产品)
[2 从工程思维到产品思维](#2 从工程思维到产品思维)
[3 我现在的解决方案：AI 内容生产 Pipeline](#3 我现在的解决方案：AI 内容生产 Pipeline)
- [3.1 总览](#3.1 总览)
- [3.2 分步骤讲](#3.2 分步骤讲)
- - [3.2.1 选题（决定80%的效果）](#3.2.1 选题（决定80%的效果）)
  - [3.2.2 信息收集（保证内容"有依据"且可持续）](#3.2.2 信息收集（保证内容“有依据”且可持续）)
  - [3.2.3 AI筛选（从"有信息"到"值得做的内容"）](#3.2.3 AI筛选（从“有信息”到“值得做的内容”）)
  - [3.2.4 内容生成（从素材到"可消费内容"）](#3.2.4 内容生成（从素材到“可消费内容”）)
  - [3.2.5 多模态生成（放大内容形态）](#3.2.5 多模态生成（放大内容形态）)
  - [3.2.6 发布（进入真实用户环境）](#3.2.6 发布（进入真实用户环境）)
  - [3.2.7 数据反馈（判断内容是否有效）](#3.2.7 数据反馈（判断内容是否有效）)
  - [3.2.8 再优化（形成闭环）](#3.2.8 再优化（形成闭环）)
- [3.3 案例：英语单词视频的AI生产Pipeline拆解](#3.3 案例：英语单词视频的AI生产Pipeline拆解)
- - [3.3.1 英语单词视频Pipeline（记忆类内容）](#3.3.1 英语单词视频Pipeline（记忆类内容）)
[4 我踩过的坑](#4 我踩过的坑)
- [4.1 AI 输出"看起来对，但其实没价值"](#4.1 AI 输出“看起来对，但其实没价值”)
- [4.2. 内容同质化严重](#4.2. 内容同质化严重)
- [4.3 没有闭环（数据反馈）](#4.3 没有闭环（数据反馈）)
[5 我的方法论总结](#5 我的方法论总结)
- [5.1 AI 是放大器，不是替代者](#5.1 AI 是放大器，不是替代者)
- [5.2 产品的核心仍然是需求](#5.2 产品的核心仍然是需求)
- [5.3 工作流比工具更重要](#5.3 工作流比工具更重要)
- [5.4 快速试错，比完美更重要](#5.4 快速试错，比完美更重要)
[6 未来方向](#6 未来方向)
- [6.1 进一步自动化（但不过度追求"全自动"）](#6.1 进一步自动化（但不过度追求“全自动”）)
- [6.2. 从"内容"走向"产品化"](#6.2. 从“内容”走向“产品化”)
- [6.3 找到可持续的商业价值](#6.3 找到可持续的商业价值)
- [6.4 从"使用 AI"到"理解 AI 的边界"](#6.4 从“使用 AI”到“理解 AI 的边界”)

1 背景：为什么我要用 AI 做内容和产品

一开始接触 AI，其实没有想太多，动机很简单：

AI 能力越来越强
会用 AI，明显可以提升效率和竞争力

在做内容和一些小产品的过程中，我很快就感受到一个很直观的变化：

👉 同样一件事情，用不用 AI，效率差别非常明显。

做一个简单功能，从几天缩短到几个小时
理解一篇最新的学术论文，从1小时缩短到10分钟

所以一开始，我用 AI 的方式其实很"粗暴"：

👉 哪里能用，就用哪里。

做总结用 AI
想点子用 AI
写代码用 AI
甚至很多原本需要手动完成的事情，也尽量交给 AI

当时我的思路其实很典型的"工程思维"：

能不能更快？
能不能更自动化？
能不能把更多事情交给 AI？

再往后，我开始做一些更"激进"的尝试：

用 AI 做完整的内容生产流程
搭一些"看起来很强"的功能
把多个模型串起来，做成一个完整系统

当时我有一个很强的感觉：

👉 只要把 AI 用好，很多问题好像都可以被解决。

但很快，我就遇到了一个问题：

👉 这些东西确实能做出来，但并没有人真正会用。

甚至更直接一点说：

👉 我做出来的很多东西，并没有解决用户真正的问题。

2 从工程思维到产品思维

在上一阶段，我其实做了不少"看起来很强"的东西：

可以自动生成内容的系统
把多个模型串起来的完整流程
一些自动化程度很高的小工具

从技术角度来看，这些东西都没有太大问题，甚至还挺"酷"。

但问题也很明显：

👉 做出来之后，几乎没有人真正会用。

一开始我其实有点困惑：

是不是我做得还不够好？
是不是模型还不够强？
是不是流程还不够自动化？

所以我下意识的反应是：

👉 继续优化技术。

调 prompt
换模型
提升效果
增加功能

但做了一段时间之后，我慢慢意识到一个问题：

👉 问题可能根本不在"做得好不好"，而在"做的东西对不对"。

回头看，我当时的思路其实是非常典型的"工程思维"：

关注的是功能能不能实现
关注的是系统是不是完整
关注的是技术是不是先进

但很少去问一个更基础的问题：

👉 用户到底需不需要这个东西？

后来我开始刻意去观察一些"用得多的内容"和"没人看的内容"，慢慢发现一个很明显的差异：

用户不会为"技术先进"买单
用户也不关心你用了什么模型
用户只关心一件事：
👉 这个东西，能不能解决我的问题？

这其实让我想起《The 7 Habits Of Highly Effective People》里提到的一个习惯：

👉 Begin with the End in Mind（以终为始）

我之前做很多 AI 项目，其实是"从手段出发"的：

我能用 AI 做什么？
我能把哪些东西自动化？

但更合理的顺序应该是：

用户的问题是什么？（End）
现在是怎么解决的？
我能不能用 AI 把这个过程变得更简单/更高效？

从那之后，我在做任何一个 AI 项目之前，都会先问自己几个问题：

用户是谁？
他现在最大的痛点是什么？
他现在是怎么解决这个问题的？
我做的这个东西，能不能让他更省时间/更省钱/更简单？

如果这些问题没有想清楚，我基本不会再往下做。

对我来说，这算是一个比较关键的转变：

👉 从"我能做什么"，变成"用户需要什么"。

也正是基于这个转变，我后面才慢慢沉淀出一套更稳定的内容生产方式，而不是一味地堆功能、堆模型。

接下来，我会具体讲一下我现在是怎么用 AI 搭建一套内容生产 Pipeline 的。

3 我现在的解决方案：AI 内容生产 Pipeline

3.1 总览

在经历了前面"只追求功能实现"的阶段之后，我逐渐意识到：

👉 真正有价值的不是某一个 AI 能力，而是一套可以稳定产出内容的流程。

所以我开始把整个内容生产过程拆解，并用 AI 去重构，最终形成了一套相对稳定的 Pipeline。

👉 整体流程如下：

选题 → 信息收集 → AI筛选 → 内容生成 → 多模态生成（图/语音） → 发布 → 数据反馈 → 再优化

每一步在解决什么问题？

3.2 分步骤讲

3.2.1 选题（决定80%的效果）

做什么内容，本质上决定了有没有人看。

在做英语视频时，我一开始也是从"兴趣出发"，但很快发现，仅仅做自己觉得有意思的内容，很难获得稳定反馈。

后来我逐渐把选题拆成两个层面：

👉 赛道选择（做哪一类内容）

👉 具体选题（这一条视频讲什么）

目前我主要在做两类英语内容：

1）帮助记忆单词的视频

本质是在解决：用户**"记不住单词"的问题**
选题会围绕：雅思考试/高频实用词等
有场景的表达（比如职场/日常）

2）名人名句类视频

本质是在解决：用户**"想学地道表达 + 智慧情感感染"的需求**
选题会围绕：
有情绪共鸣的句子
简短有力、容易传播的表达
有人物背景加持的内容

在具体选题上，我会结合三类信息来源：

用户真实需求（比如：记不住单词 / 不会表达）
内容传播属性（是否有共鸣/是否容易分享）
AI扩展能力（同一个主题生成多个角度）

👉 AI 在这一环节主要做两件事：

扩展选题：比如围绕一个单词，生成不同记忆方式或表达场景
优化表达：把一个普通句子，改写成更有传播力的内容

这一步我最大的变化是：

👉 从=="做我觉得有用的内容"==

👉 到=="做用户更容易理解和传播的内容"==

3.2.2 信息收集（保证内容"有依据"且可持续）

在确定选题之后，下一步就是信息收集。

这一步的目标很明确：

👉 让内容"有来源、有质量"，同时可以长期稳定获取素材

在实际操作中，我主要通过两种方式来获取数据：

1️⃣ 结构化数据来源（GitHub / API）

主要用于获取"可批量处理"的内容，比如：

单词库
名人名言数据集
开源语料数据

这些数据通常来自：

GitHub 开源项目
公共 API
一些词典或语料库接口

👉 优点是：

可规模化（适合批量生产内容）
结构清晰（方便后续 AI 处理）

2️⃣ 非结构化内容（文本 / 图片 / 视频）

主要用于补充"表达效果"和"语境信息"，例如：

单词或句子的真实使用场景
名人名句的背景故事
情绪衬托的视频素材（用于增强表达）
人物肖像 / 相关图片（用于视觉呈现）

👉 这部分我通常结合 AI 来处理：

快速总结信息
提取关键信息
降低阅读和整理成本

这一层解决的问题是：

👉 从"原始素材" → 到"可用于内容生产的数据输入"

同时也是整个 AI 内容生产 Pipeline 的"数据基础层"。

3.2.3 AI筛选（从"有信息"到"值得做的内容"）

在信息收集之后，并不是所有内容都适合直接进入生产环节。

这时候就需要一个非常关键的步骤：

👉 AI筛选

很多人在做内容时，往往会忽略这一层，直接用 AI 生成内容，结果就是：

内容"看起来对"，但没人看
信息很多，但没有传播力
做了很多，但没有反馈

本质原因是：

👉 缺少"内容价值判断"这一层

👉 我是怎么用 AI 做筛选的？

我会让 AI 做三件事情：

1️⃣ 判断：这个内容是否值得做？

核心问题是：

👉 有没有用户需求？有没有传播潜力？

👉 AI 可以帮助我：

从大量素材中筛选出"更有价值"的部分
给出优先级排序

2️⃣ 判断：是否有"表达空间"？

不是所有内容都适合做视频。

我会让 AI 判断：

👉 这个内容是否可以被"讲清楚 + 讲有趣"

例如：

是否可以讲成一个小故事？
是否可以用对比/反常识表达？
是否可以引发共鸣？

如果不能"被讲出来"，就不进入下一步

👉 在不同内容类型中的筛选重点

在健康内容中（核心筛选场景）：

我会重点让 AI 判断：

这个问题是否是"用户真实在关心的健康问题"？

（比如：脱发、睡眠、疲劳、减肥、血糖等）
是否具有"感知明显"的特征？

（用户能否在日常生活中感受到，例如：经常困、掉头发、睡不好）
是否存在"认知偏差"或"误区"？

（例如：很多人以为对，但其实不一定对）
是否有"行动价值"？

（用户看完之后，是否可以做出一些调整）

👉 这一类内容更容易产生：

点击（因为和自己有关）
停留（因为想知道答案）
转发（因为适合分享给家人）

在英语单词视频中（轻筛选）：

是否是高频单词？
是否容易被记错或用错？
是否可以用简单方法记住？

👉 本质是提高学习效率，而不是做复杂筛选

👉 在 Pipeline 中的作用

这一层的作用可以理解为：

信息 →（AI筛选）→ 内容素材

3.2.4 内容生成（从素材到"可消费内容"）

在通过 AI 筛选出"值得做的内容"之后，才进入内容生成阶段。

这一层的核心不是"让 AI 写"，而是：

👉 让 AI 按结构、按目标去生成内容

在实际操作中，我会通过 Prompt 约束 AI：

内容结构（开头吸引 + 中间解释 + 结尾总结）
表达风格（口语化 / 易理解 / 有画面感）
目标导向（是否有记忆点 / 是否有传播性）

例如：

健康内容 → 强调"误区 + 解释 + 建议"
英语内容 → 强调"简单 + 好记 + 可复用"

👉 本质是：

从"信息" → 转换成"用户愿意看/愿意听的内容"

3.2.5 多模态生成（放大内容形态）

有了文本之后，我会进一步做多模态扩展：

图像（封面 / 插图）
语音（TTS）
简单视频（字幕 + 背景素材）

👉 AI 在这里的作用是：

降低制作成本
提高生产效率
支持多平台分发

👉 本质是：

一份内容 → 多种表达形式

3.2.6 发布（进入真实用户环境）

内容生产完成之后，才真正进入"市场验证"阶段。

发布时我会关注：

标题是否有吸引力
封面是否清晰表达主题
是否符合平台风格

👉 这一层的关键不是"发出去"，而是：

让用户愿意点开

3.2.7 数据反馈（判断内容是否有效）

发布之后，我会重点关注几个核心指标：

点击率（选题是否有效）
完读率/播放完成率（内容是否有吸引力）
转发/收藏（是否有价值）

👉 这一层的意义在于：

用数据判断：内容到底有没有解决用户问题

3.2.8 再优化（形成闭环）

基于数据反馈，我会反向调整：

哪些选题更受欢迎
哪种表达方式更有效
哪类内容更容易传播

👉 最终形成一个循环：

本质是：
让内容生产从"拍脑袋"，变成"有反馈驱动的系统"

在实际探索过程中，我并不只做单一方向的内容。

我也在尝试用 AI 做多个赛道的内容和产品，包括：

健康类内容（视频号 + 公众号）
英语学习类内容（单词记忆 / 表达）
基于模型的股票分析等工具探索

👉 本质上，这些方向看起来不同，但底层逻辑是类似的：

都是围绕==「选题 → 数据 → AI生成 → 多模态 → 发布 → 反馈」==这一套流程在做。

由于时间和篇幅有限，下面我会选择「英语单词视频」这一条线，作为一个完整案例进行拆解。

👉 一方面，这个场景结构更简单，便于说明

👉 另一方面，其中的方法论，同样可以复用到健康内容、以及其他AI应用中

3.3 案例：英语单词视频的AI生产Pipeline拆解

下面我以英语单词视频为例，完整拆解这套Pipeline是如何落地的。

3.3.1 英语单词视频Pipeline（记忆类内容）

在实际做英语单词视频时，整体流程虽然和前面的通用 Pipeline 一致，但我会进一步抽象为四个核心问题：

1️⃣ 解决什么用户问题？

本质是：用户为什么要看这个视频

👉 用户记不住单词、不会用、容易混淆

2️⃣ 如何持续稳定获取素材？

👉 是否有可规模化的数据来源（单词库 / 语料 / API）

3️⃣ 如何用 AI 生成"更容易记住"的内容？

👉 不只是生成解释，而是生成"有记忆点"的表达方式

4️⃣ 如何让整个流程可复用甚至自动化？

👉 从单条内容生产，变成批量化内容生成

从这个角度来看，英语单词视频的核心并不是"教单词"，而是：

👉 用更低成本，持续生产"更容易被记住"的内容

在做英语单词类视频时，一个非常现实的问题是：

👉 素材从哪里来？能不能持续获取？

如果只是手动找单词，很快就会遇到两个问题：

不可持续（很耗时间）
难以规模化（无法批量生产）

因此，我在这一层的目标是：

👉 构建一个"稳定 + 可扩展"的单词数据来源

在具体实现上，我主要采用两种方式：

开源数据（GitHub / 词库）
本地可调用的语言库

最终我选择使用（Natural Language Toolkit）来获取基础词汇数据。

👉 为什么选择 NLTK？

内置常用英文词库（无需额外维护数据）
调用简单，适合快速集成
可以作为"基础词汇池"，支持后续筛选和加工

具体获取如下：

python 复制代码

import json
from wordfreq import top_n_list, zipf_frequency
from nltk.corpus import wordnet as wn
import nltk
import os

# ===== 初始化 =====
nltk.download("wordnet")
nltk.download("omw-1.4")

# ===== 参数=====
TOP_N_FREQ = 12000        # 高频词规模（太大会引入抽象词）
MIN_ZIPF = 2           # 低于这个频率的词直接不要
MAX_WORD_LEN = 16        # 太长的一般不可视觉化

# ===== 1️⃣ 高频词=====
high_freq_words = set(top_n_list("en", TOP_N_FREQ))

def is_high_quality_visual_word(word: str) -> bool:
    # 基础过滤
    if not word.isalpha():
        return False
    if len(word) < 3 or len(word) > MAX_WORD_LEN:
        return False

    # 频率过滤（避免冷门、书面、学术词）
    if zipf_frequency(word, "en") < MIN_ZIPF:
        print(f"过滤低频词: {word}")
        return False

    # WordNet 校验
    synsets = wn.synsets(word)
    if not synsets:
        return False
    return True


# ===== 2️⃣ 精选 WordNet =====
visual_words = set()

for syn in wn.all_synsets():

    for lemma in syn.lemmas():
        word = lemma.name().lower().replace("_", " ")
        # 不要短语
        if " " in word:
            continue
        # 只保留高质量词
        if is_high_quality_visual_word(word):
            visual_words.add(word)

# ===== 3️⃣ 与高频词交集=====
final_words = sorted(visual_words & high_freq_words)

print(f"最终高质量视觉词数量: {len(final_words)}")

# ===== 4️⃣ 保存 =====
output_path = "words.json"
#获取当前脚本目录
BASE_DIR = os.path.dirname(os.path.abspath(__file__))
output_path = os.path.join(BASE_DIR, f"data/{output_path}")

with open(output_path, "w", encoding="utf-8") as f:
    json.dump(final_words, f, ensure_ascii=False, indent=2)
print(f"已保存高质量词库到: {output_path}")

如何生成一个"更容易记住"的单词视频（内容生成）

在解决了数据来源问题之后，下一步就是：

👉 如何把一个"单词"，转化成一个"用户更容易记住的视频内容"

这一步，也是大模型真正发挥价值的地方。

从内容结构来看，一个完整的单词视频通常包含三类信息：

文本信息（解释 + 记忆点）
图片信息（视觉辅助理解）
语音信息（发音 + 听觉强化）

👉 本质是通过多模态，让用户"多通道记忆"。

👉 为什么需要多模态？

如果只是给出：

单词 + 释义

👉 用户很难记住

但如果同时提供：

场景化解释（文本）
相关画面（图像）
标准发音（语音）

👉 会明显提升记忆效果

👉 在我的实现中，主要分三步：

1️⃣ 文本生成（核心）

通过大模型生成：

简单解释（通俗易懂）
使用场景（帮助理解）
记忆方法（联想 / 对比 / 拆解）

👉 重点不是"解释"，而是：

👉 让用户更容易记住

在模型选择上，目前市场上已经有很多可用的大模型，例如：

OpenAI GPT 系列
Google Gemini 系列
阿里 Qwen 系列
DeepSeek 系列

👉 模型选择思路

在实际使用中，我主要考虑三个因素：

1️⃣ 生成质量（是否自然、易理解）

2️⃣ 成本（是否支持批量生产）

3️⃣ 稳定性（接口是否稳定）

基于以上考虑，我目前主要使用的是 DeepSeek 模型。

👉 原因是：

性价比较高（适合高频调用）
中文和中英混合能力较好
在结构化生成任务中表现稳定

👉 对于内容生产来说，本质是：

不是追求"最强模型"，而是"最适合当前场景的模型"

核心调用模型的代码如下：

python 复制代码

client = OpenAI(
    api_key=api_key,
    base_url="https://api.deepseek.com",
    timeout=120,
    max_retries=3
)

response = client.chat.completions.create(
model="deepseek-reasoner",
messages=[{"role": "user", "content": prompt}]
)
content = response.choices[0].message.content.strip()
data = safe_parse_json(content)

重点在prompt的设计，根据自己的任务目标决定产出什么内容输出，一般是json格式数据输出：

python 复制代码

{
    "visual_text": {
		...
    },
    "memory_hook": {
		...
    },
    "scene_prompt": ...,
    "voiceover_script": [{
   		...
       }
    ],
    }

这一层的核心不是"调用模型"，而是：

👉 通过设计合适的 Prompt，让模型输出"更适合传播和记忆的内容"

这也是我从"用AI写内容"，转向"用AI设计内容结构"的一个关键转变。

2️⃣ 图片生成（让内容"看得见"）

在完成文本生成之后，下一步就是将抽象的内容转化为"可视化信息"。

👉 通过图像，让用户更容易理解和记住内容

在单词视频中，我通常会生成两类图片：

场景图（帮助理解语境）
联想图（强化记忆）

👉 本质是：

👉 让抽象信息变得具体

实现方式

在具体实现上，我会复用前面文本生成阶段的结果，让大模型生成对应的图像 Prompt，然后再调用图像模型生成图片。

整体流程如下：

单词 → 文本生成（DeepSeek）→ 图像Prompt → 图像模型 → 图片

👉 图像模型选择

在图像生成阶段，我会使用类似 Nano Banana Pro 或者Stability.ai 这样的图像大模型。

👉 Prompt设计（这一点非常关键）

相比模型本身，图像质量更依赖 Prompt 的设计。

我在实践中的一个经验是：

👉 Prompt 越具体，生成的图片越稳定、细节越丰富

例如，不推荐：

a man learning english

而更推荐：

a young man studying English in a cozy room, books on the desk, warm lighting, focused expression, realistic style

👉 在实际使用中，我会让文本模型（DeepSeek）直接生成：

场景描述

画面细节

情绪氛围

然后再传给图像模型生成图片。

基于Abyss这个单词，图像生成prompt如下：

👉 这一类模型的优势是：

生成速度快

成本相对可控

能满足内容生产的基本质量需求

调用nano banna pro生成图片的代码如下：

python 复制代码

client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=roter_key,
)
response = client.chat.completions.create(
model="google/gemini-3-pro-image-preview",
messages=[
   {
       "role": "user",
       "content": f'{prompt}'
   }
],
extra_body={
   "modalities": ["image", "text"],
}
)

message = response.choices[0].message

if hasattr(message, "images") and message.images:
   for idx, image in enumerate(message.images):
       data_url = image["image_url"]["url"]

       # 1️⃣ 拆分 data:image/png;base64,...
       header, base64_data = data_url.split(",", 1)

       # 2️⃣ Base64 解码
       image_bytes = base64.b64decode(base64_data)

       # 3️⃣ 保存为文件
       with open(save_path, "wb") as f:
           f.write(image_bytes)

       print(f"✅ 图片已保存：{save_path}")
else:
   print("❌ 没有生成图片")

在这里是用OpenRouter，生成图片如下：

生成效果整体还是很不错的，尤其是在细节表现上，已经接近真实场景。具体视频如下：

abyss

这里也顺带提一下我在使用的 nano banana pro 模型，在图像生成的稳定性和细节丰富度上表现都比较突出。

下面是我实际测试生成的一些图片，包含不同风格和场景，抽取了几张供大家参考👇

可爱😊的puppy

下雨天睡觉的小猫咪😁

这张是描述李白的经典诗

《静夜思》

床前明月光，

疑是地上霜。

举头望明月，

低头思故乡。

看繁星享受安静的👩🏻

给人宁静温馨的道路早晨阳光

冰川上的一个湖泊

镜头聚焦场景下的小男孩看向道路远方在等妈妈

生成的图片整体细节还是很不错的，而且有一个很明显的体感：

👉 效果好不好，很大程度取决于 Prompt

同一个模型，不同的描述方式，生成出来的画面风格和细节差异会非常明显。

==补充：OpenRouter（多模型统一调用方案) ==

在实际使用过程中，如果同时接入多个大模型（如 GPT、DeepSeek、Claude、Gemini），会遇到一个问题：

👉 不同模型有不同的 API、调用方式和计费体系

这时候，可以使用 OpenRouter 来做统一管理。

什么是 OpenRouter？

OpenRouter 是一个"模型聚合平台"，可以理解为：

👉 用一个统一的接口，调用多个大模型

👉 把"模型选择"变成一个可配置的能力，而不是写死在代码里

3️⃣ 语音生成（强化输入与记忆）

在完成文本和图像之后，最后一步是将内容转化为语音。

标准发音（保证准确性）
可重复播放（方便用户强化记忆）

👉 为什么语音很重要？

在英语学习场景中，仅靠"看"是不够的：

只看文本 → 容易理解但难记住
加入语音 → 可以形成"听觉记忆"

本质是：

👉 增加一个记忆通道，让用户从"理解"变成"熟悉"

👉 实现方式

这一层通常比较简单，可以直接调用现有的 TTS 模型或接口：

文本 → TTS模型 → 语音文件

实现代码如下：

python 复制代码

client = OpenAI(
    base_url="https://api.gptsapi.net/v1",
    api_key=wildcard_key
)
response = client.audio.speech.create(
    model="tts-1",  
    voice=voice,
    speed=speed,
    instructions=instructions,
    response_format="mp3",
    input=text,
    timeout=120
)

with open("temp.wav", "wb") as f:
    f.write(response.read())
print(f"✅ TTS 完成，已保存到 {output_path}")

通过WildCard进行模型选择和调用，其中WildCar降低使用门槛（不用折腾海外卡), 支持更多 AI 工具,对个人开发者比较友好, 支持的模型具体如下：
👉 小结

这一层的核心不是"把内容做出来"，而是：

👉 用多模态方式，提升用户记住信息的概率

也是我从"做功能"转向"做效果"的一个重要变化。

3️⃣ 视频生成（让内容"真正可消费"）

在完成文本、图片和语音生成之后，最后一步就是：

👉 将这些信息组合成一个完整的视频内容

这一步，本质上是一个"多模态内容组装"的过程。

👉 输入结构

在这一阶段，我们已经有了三类内容：

文本（字幕 / 核心表达）
图片（场景图 / 联想图）
语音（讲解 / 发音）

👉 生成流程

整体流程可以抽象为：

文本 + 图片 + 语音 → 时间轴编排 → 视频合成 → 输出视频

👉 实际效果

上面这套流程不是Demo，而是我目前在真实使用的一套内容生产系统，

已经在持续生成英语学习视频。
如果你想看"AI生成内容实际长什么样"，可以扫码关注我的视频号👇

里面都是这套流程跑出来的真实结果。也欢迎交流一起优化这套内容生产流程。

4 我踩过的坑

在这段时间用 AI 做内容和产品的过程中，其实踩了不少坑，有些甚至是反复踩。

这里总结几个我觉得比较典型的：

4.1 AI 输出"看起来对，但其实没价值"

一开始我很容易被 AI 的输出"骗到"。

很多内容：

逻辑是通顺的
表达是流畅的
甚至看起来还挺"专业"

但仔细一看会发现：

👉 没有信息增量

👉 没有观点

👉 对用户没有实际帮助

本质上只是"把正确的废话说得更顺"。

后来我会更刻意去判断一件事：

👉 这段内容，用户看完之后，有没有获得新的东西？

如果没有，那写得再好也没有意义。

4.2. 内容同质化严重

当我开始大量使用 AI 生成内容之后，很快遇到一个问题：

👉 内容开始变得"越来越像"。

原因其实很简单：

大模型的训练数据是相似的
prompt 写法也在收敛
很多选题本身就是热点复用

结果就是：

👉 很容易做出"看起来还行，但不出彩"的内容。

后来我做的调整是：

尽量加入自己的理解和取舍
控制 AI 生成的比例（不是100%依赖）
在选题和结构上做差异，而不是只改措辞

4.3 没有闭环（数据反馈）

这是我觉得最关键的一个坑。

一开始我更多关注的是：

内容有没有生成出来
功能有没有跑通

但忽略了一点：

👉 用户是否真的在用？效果怎么样？

如果没有数据反馈，其实很容易陷入：

自己觉得不错
但实际没有任何结果

后来我开始更关注：

点击率
完播率
用户反馈
并且会把这些数据反向用来：

👉 调整选题、优化 prompt、改内容结构

这时候，整个流程才算真正"跑起来"。

5 我的方法论总结

回头看这一段时间的尝试，我自己总结了几条比较重要的原则：

5.1 AI 是放大器，不是替代者

AI 确实可以大幅提升效率，但它放大的不仅是能力，也会放大问题。

方向对 → 放大收益
方向错 → 放大浪费

👉 AI 不会帮你做判断，它只会放大你的判断。

5.2 产品的核心仍然是需求

无论技术怎么变化，这一点其实没有变：

👉 用户不会为"技术先进"买单，只会为"问题被解决"买单。

很多时候：

功能做得再复杂
模型用得再好

如果没有解决实际问题，最终也很难被接受。

5.3 工作流比工具更重要

一开始我也比较关注：

用哪个模型
哪个工具效果更好

但后来发现：

👉 决定效率上限的，其实是工作流，而不是单个工具。

有没有清晰的流程
各个环节是否可复用
是否可以持续优化

这些比"用哪个模型"更重要。

5.4 快速试错，比完美更重要

在 AI 的加持下，试错成本其实已经很低了。

相比于：

一开始就设计一个"很完美"的方案

我现在更倾向于：

👉 先跑起来，再不断优化。

先验证有没有人看
再优化内容质量
再考虑规模化

6 未来方向

接下来，我自己大概会往几个方向继续探索：

6.1 进一步自动化（但不过度追求"全自动"）

之前我比较倾向于做"全自动系统"，

但现在更偏向于：

👉 半自动 + 人在关键节点参与

AI 负责效率
人负责判断

在效率和质量之间做一个平衡。

6.2. 从"内容"走向"产品化"

目前做的很多事情，本质还是内容驱动。

后面会更关注：

👉 这些内容，是否可以进一步沉淀为可复用的产品形态？

比如：

工具类产品
系列化的内容（自媒体）
独立 App

6.3 找到可持续的商业价值

单纯做内容其实比较容易，但要长期做下去，一定要有商业闭环。

后面我会更关注：

哪些方向有付费意愿
哪些内容可以转化
如何从"流量"走向"价值"

6.4 从"使用 AI"到"理解 AI 的边界"

一开始更多是"怎么用 AI"，

但后面我会更关注：

👉 AI 能做什么，不能做什么。

哪些适合交给 AI
哪些必须人来做
如何设计更合理的人机协作方式

对我来说，这一阶段更像是一个开始。

AI 确实带来了很多新的可能性，但真正有价值的，还是：

👉 在这些能力之上，你选择解决什么问题。