从工程思维到产品思维:我用 AI 搭建内容生产系统的实战复盘

目录

  • [1 背景:为什么我要用 AI 做内容和产品](#1 背景:为什么我要用 AI 做内容和产品)
  • [2 从工程思维到产品思维](#2 从工程思维到产品思维)
  • [3 我现在的解决方案:AI 内容生产 Pipeline](#3 我现在的解决方案:AI 内容生产 Pipeline)
    • [3.1 总览](#3.1 总览)
    • [3.2 分步骤讲](#3.2 分步骤讲)
      • [3.2.1 选题(决定80%的效果)](#3.2.1 选题(决定80%的效果))
      • [3.2.2 信息收集(保证内容"有依据"且可持续)](#3.2.2 信息收集(保证内容“有依据”且可持续))
      • [3.2.3 AI筛选(从"有信息"到"值得做的内容")](#3.2.3 AI筛选(从“有信息”到“值得做的内容”))
      • [3.2.4 内容生成(从素材到"可消费内容")](#3.2.4 内容生成(从素材到“可消费内容”))
      • [3.2.5 多模态生成(放大内容形态)](#3.2.5 多模态生成(放大内容形态))
      • [3.2.6 发布(进入真实用户环境)](#3.2.6 发布(进入真实用户环境))
      • [3.2.7 数据反馈(判断内容是否有效)](#3.2.7 数据反馈(判断内容是否有效))
      • [3.2.8 再优化(形成闭环)](#3.2.8 再优化(形成闭环))
    • [3.3 案例:英语单词视频的AI生产Pipeline拆解](#3.3 案例:英语单词视频的AI生产Pipeline拆解)
      • [3.3.1 英语单词视频Pipeline(记忆类内容)](#3.3.1 英语单词视频Pipeline(记忆类内容))
  • [4 我踩过的坑](#4 我踩过的坑)
    • [4.1 AI 输出"看起来对,但其实没价值"](#4.1 AI 输出“看起来对,但其实没价值”)
    • [4.2. 内容同质化严重](#4.2. 内容同质化严重)
    • [4.3 没有闭环(数据反馈)](#4.3 没有闭环(数据反馈))
  • [5 我的方法论总结](#5 我的方法论总结)
    • [5.1 AI 是放大器,不是替代者](#5.1 AI 是放大器,不是替代者)
    • [5.2 产品的核心仍然是需求](#5.2 产品的核心仍然是需求)
    • [5.3 工作流比工具更重要](#5.3 工作流比工具更重要)
    • [5.4 快速试错,比完美更重要](#5.4 快速试错,比完美更重要)
  • [6 未来方向](#6 未来方向)
    • [6.1 进一步自动化(但不过度追求"全自动")](#6.1 进一步自动化(但不过度追求“全自动”))
    • [6.2. 从"内容"走向"产品化"](#6.2. 从“内容”走向“产品化”)
    • [6.3 找到可持续的商业价值](#6.3 找到可持续的商业价值)
    • [6.4 从"使用 AI"到"理解 AI 的边界"](#6.4 从“使用 AI”到“理解 AI 的边界”)

1 背景:为什么我要用 AI 做内容和产品

一开始接触 AI,其实没有想太多,动机很简单:

  • AI 能力越来越强
  • 会用 AI,明显可以提升效率和竞争力

在做内容和一些小产品的过程中,我很快就感受到一个很直观的变化:

👉 同样一件事情,用不用 AI,效率差别非常明显

  • 做一个简单功能,从几天缩短到几个小时
  • 理解一篇最新的学术论文,从1小时缩短到10分钟

所以一开始,我用 AI 的方式其实很"粗暴":

👉 哪里能用,就用哪里。

  • 做总结用 AI
  • 想点子用 AI
  • 写代码用 AI
  • 甚至很多原本需要手动完成的事情,也尽量交给 AI

当时我的思路其实很典型的"工程思维":

  • 能不能更快?
  • 能不能更自动化?
  • 能不能把更多事情交给 AI?

再往后,我开始做一些更"激进"的尝试:

  • 用 AI 做完整的内容生产流程
  • 搭一些"看起来很强"的功能
  • 把多个模型串起来,做成一个完整系统

当时我有一个很强的感觉:

👉 只要把 AI 用好,很多问题好像都可以被解决。


但很快,我就遇到了一个问题:

👉 这些东西确实能做出来,但并没有人真正会用。

甚至更直接一点说:

👉 我做出来的很多东西,并没有解决用户真正的问题。

2 从工程思维到产品思维

在上一阶段,我其实做了不少"看起来很强"的东西:

  • 可以自动生成内容的系统
  • 把多个模型串起来的完整流程
  • 一些自动化程度很高的小工具

从技术角度来看,这些东西都没有太大问题,甚至还挺"酷"。

但问题也很明显:

👉 做出来之后,几乎没有人真正会用


一开始我其实有点困惑:

  • 是不是我做得还不够好?
  • 是不是模型还不够强?
  • 是不是流程还不够自动化?

所以我下意识的反应是:

👉 继续优化技术。

  • 调 prompt
  • 换模型
  • 提升效果
  • 增加功能

但做了一段时间之后,我慢慢意识到一个问题:

👉 问题可能根本不在"做得好不好",而在"做的东西对不对"。


回头看,我当时的思路其实是非常典型的"工程思维":

  • 关注的是功能能不能实现
  • 关注的是系统是不是完整
  • 关注的是技术是不是先进

但很少去问一个更基础的问题:

👉 用户到底需不需要这个东西?


后来我开始刻意去观察一些"用得多的内容"和"没人看的内容",慢慢发现一个很明显的差异:

  • 用户不会为"技术先进"买单
  • 用户也不关心你用了什么模型
  • 用户只关心一件事:
    👉 这个东西,能不能解决我的问题?

这其实让我想起《The 7 Habits Of Highly Effective People》里提到的一个习惯:

👉 Begin with the End in Mind(以终为始)


我之前做很多 AI 项目,其实是"从手段出发"的:

  • 我能用 AI 做什么?
  • 我能把哪些东西自动化?

但更合理的顺序应该是:

  • 用户的问题是什么?(End)
  • 现在是怎么解决的?
  • 我能不能用 AI 把这个过程变得更简单/更高效?

从那之后,我在做任何一个 AI 项目之前,都会先问自己几个问题:

  1. 用户是谁?
  2. 他现在最大的痛点是什么?
  3. 他现在是怎么解决这个问题的?
  4. 我做的这个东西,能不能让他更省时间/更省钱/更简单?

如果这些问题没有想清楚,我基本不会再往下做。


对我来说,这算是一个比较关键的转变:

👉 从"我能做什么",变成"用户需要什么"。


也正是基于这个转变,我后面才慢慢沉淀出一套更稳定的内容生产方式,而不是一味地堆功能、堆模型。

接下来,我会具体讲一下我现在是怎么用 AI 搭建一套内容生产 Pipeline 的。

3 我现在的解决方案:AI 内容生产 Pipeline

3.1 总览

在经历了前面"只追求功能实现"的阶段之后,我逐渐意识到:

👉 真正有价值的不是某一个 AI 能力,而是一套可以稳定产出内容的流程

所以我开始把整个内容生产过程拆解,并用 AI 去重构,最终形成了一套相对稳定的 Pipeline。

👉 整体流程如下:

选题 → 信息收集 → AI筛选 → 内容生成 → 多模态生成(图/语音) → 发布 → 数据反馈 → 再优化

每一步在解决什么问题?

3.2 分步骤讲

3.2.1 选题(决定80%的效果)

做什么内容,本质上决定了有没有人看。

在做英语视频时,我一开始也是从"兴趣出发",但很快发现,仅仅做自己觉得有意思的内容,很难获得稳定反馈。

后来我逐渐把选题拆成两个层面:

👉 赛道选择(做哪一类内容)

👉 具体选题(这一条视频讲什么)

目前我主要在做两类英语内容:

1)帮助记忆单词的视频

  • 本质是在解决:用户**"记不住单词"的问题**

  • 选题会围绕:雅思考试/高频实用词等

  • 有场景的表达(比如职场/日常)

2)名人名句类视频

  • 本质是在解决:用户**"想学地道表达 + 智慧情感感染"的需求**

  • 选题会围绕:

  • 有情绪共鸣的句子

  • 简短有力、容易传播的表达

  • 有人物背景加持的内容


在具体选题上,我会结合三类信息来源:

  • 用户真实需求(比如:记不住单词 / 不会表达)
  • 内容传播属性(是否有共鸣/是否容易分享)
  • AI扩展能力(同一个主题生成多个角度)

👉 AI 在这一环节主要做两件事:

  • 扩展选题:比如围绕一个单词,生成不同记忆方式或表达场景
  • 优化表达:把一个普通句子,改写成更有传播力的内容

这一步我最大的变化是:

👉 从=="做我觉得有用的内容"==

👉 到=="做用户更容易理解和传播的内容"==

3.2.2 信息收集(保证内容"有依据"且可持续)

在确定选题之后,下一步就是信息收集。

这一步的目标很明确:

👉 让内容"有来源、有质量",同时可以长期稳定获取素材

在实际操作中,我主要通过两种方式来获取数据:


1️⃣ 结构化数据来源(GitHub / API)

主要用于获取"可批量处理"的内容,比如:

  • 单词库
  • 名人名言数据集
  • 开源语料数据

这些数据通常来自:

  • GitHub 开源项目
  • 公共 API
  • 一些词典或语料库接口

👉 优点是:

  • 可规模化(适合批量生产内容)
  • 结构清晰(方便后续 AI 处理)

2️⃣ 非结构化内容(文本 / 图片 / 视频)

主要用于补充"表达效果"和"语境信息",例如:

  • 单词或句子的真实使用场景
  • 名人名句的背景故事
  • 情绪衬托的视频素材(用于增强表达)
  • 人物肖像 / 相关图片(用于视觉呈现)

👉 这部分我通常结合 AI 来处理:

  • 快速总结信息
  • 提取关键信息
  • 降低阅读和整理成本

这一层解决的问题是:

👉 从"原始素材" → 到"可用于内容生产的数据输入"

同时也是整个 AI 内容生产 Pipeline 的"数据基础层"。

3.2.3 AI筛选(从"有信息"到"值得做的内容")

在信息收集之后,并不是所有内容都适合直接进入生产环节。

这时候就需要一个非常关键的步骤:

👉 AI筛选


很多人在做内容时,往往会忽略这一层,直接用 AI 生成内容,结果就是:

  • 内容"看起来对",但没人看
  • 信息很多,但没有传播力
  • 做了很多,但没有反馈

本质原因是:

👉 缺少"内容价值判断"这一层


👉 我是怎么用 AI 做筛选的?

我会让 AI 做三件事情:


1️⃣ 判断:这个内容是否值得做?

核心问题是:

👉 有没有用户需求?有没有传播潜力?

👉 AI 可以帮助我:

  • 从大量素材中筛选出"更有价值"的部分
  • 给出优先级排序

2️⃣ 判断:是否有"表达空间"?

不是所有内容都适合做视频。

我会让 AI 判断:

👉 这个内容是否可以被"讲清楚 + 讲有趣"

例如:

  • 是否可以讲成一个小故事?
  • 是否可以用对比/反常识表达?
  • 是否可以引发共鸣?

如果不能"被讲出来",就不进入下一步


👉 在不同内容类型中的筛选重点

在健康内容中(核心筛选场景):

我会重点让 AI 判断:

  • 这个问题是否是"用户真实在关心的健康问题"?

    (比如:脱发、睡眠、疲劳、减肥、血糖等)

  • 是否具有"感知明显"的特征?

    (用户能否在日常生活中感受到,例如:经常困、掉头发、睡不好)

  • 是否存在"认知偏差"或"误区"?

    (例如:很多人以为对,但其实不一定对)

  • 是否有"行动价值"?

    (用户看完之后,是否可以做出一些调整)


👉 这一类内容更容易产生:

  • 点击(因为和自己有关)
  • 停留(因为想知道答案)
  • 转发(因为适合分享给家人)

在英语单词视频中(轻筛选):

  • 是否是高频单词?
  • 是否容易被记错或用错?
  • 是否可以用简单方法记住?

👉 本质是提高学习效率,而不是做复杂筛选


👉 在 Pipeline 中的作用

这一层的作用可以理解为:

信息 →(AI筛选)→ 内容素材

3.2.4 内容生成(从素材到"可消费内容")

在通过 AI 筛选出"值得做的内容"之后,才进入内容生成阶段。

这一层的核心不是"让 AI 写",而是:

👉 让 AI 按结构、按目标去生成内容

在实际操作中,我会通过 Prompt 约束 AI:

  • 内容结构(开头吸引 + 中间解释 + 结尾总结)
  • 表达风格(口语化 / 易理解 / 有画面感)
  • 目标导向(是否有记忆点 / 是否有传播性)

例如:

  • 健康内容 → 强调"误区 + 解释 + 建议"
  • 英语内容 → 强调"简单 + 好记 + 可复用"

👉 本质是:

从"信息" → 转换成"用户愿意看/愿意听的内容"


3.2.5 多模态生成(放大内容形态)

有了文本之后,我会进一步做多模态扩展:

  • 图像(封面 / 插图)
  • 语音(TTS)
  • 简单视频(字幕 + 背景素材)

👉 AI 在这里的作用是:

  • 降低制作成本
  • 提高生产效率
  • 支持多平台分发

👉 本质是:

一份内容 → 多种表达形式


3.2.6 发布(进入真实用户环境)

内容生产完成之后,才真正进入"市场验证"阶段。

发布时我会关注:

  • 标题是否有吸引力
  • 封面是否清晰表达主题
  • 是否符合平台风格

👉 这一层的关键不是"发出去",而是:

让用户愿意点开


3.2.7 数据反馈(判断内容是否有效)

发布之后,我会重点关注几个核心指标:

  • 点击率(选题是否有效)
  • 完读率/播放完成率(内容是否有吸引力)
  • 转发/收藏(是否有价值)

👉 这一层的意义在于:

用数据判断:内容到底有没有解决用户问题


3.2.8 再优化(形成闭环)

基于数据反馈,我会反向调整:

  • 哪些选题更受欢迎
  • 哪种表达方式更有效
  • 哪类内容更容易传播

👉 最终形成一个循环:

本质是:
让内容生产从"拍脑袋",变成"有反馈驱动的系统"

在实际探索过程中,我并不只做单一方向的内容。

我也在尝试用 AI 做多个赛道的内容和产品,包括:

  • 健康类内容(视频号 + 公众号)
  • 英语学习类内容(单词记忆 / 表达)
  • 基于模型的股票分析等工具探索

👉 本质上,这些方向看起来不同,但底层逻辑是类似的:

都是围绕==「选题 → 数据 → AI生成 → 多模态 → 发布 → 反馈」==这一套流程在做。


由于时间和篇幅有限,下面我会选择「英语单词视频」这一条线,作为一个完整案例进行拆解。

👉 一方面,这个场景结构更简单,便于说明

👉 另一方面,其中的方法论,同样可以复用到健康内容、以及其他AI应用中

3.3 案例:英语单词视频的AI生产Pipeline拆解

下面我以英语单词视频为例,完整拆解这套Pipeline是如何落地的。

3.3.1 英语单词视频Pipeline(记忆类内容)

在实际做英语单词视频时,整体流程虽然和前面的通用 Pipeline 一致,但我会进一步抽象为四个核心问题:


1️⃣ 解决什么用户问题?

本质是:用户为什么要看这个视频

👉 用户记不住单词、不会用、容易混淆


2️⃣ 如何持续稳定获取素材?

👉 是否有可规模化的数据来源(单词库 / 语料 / API)


3️⃣ 如何用 AI 生成"更容易记住"的内容?

👉 不只是生成解释,而是生成"有记忆点"的表达方式


4️⃣ 如何让整个流程可复用甚至自动化?

👉 从单条内容生产,变成批量化内容生成


从这个角度来看,英语单词视频的核心并不是"教单词",而是:

👉 用更低成本,持续生产"更容易被记住"的内容

在做英语单词类视频时,一个非常现实的问题是:

👉 素材从哪里来?能不能持续获取?

如果只是手动找单词,很快就会遇到两个问题:

  • 不可持续(很耗时间)
  • 难以规模化(无法批量生产)

因此,我在这一层的目标是:

👉 构建一个"稳定 + 可扩展"的单词数据来源


在具体实现上,我主要采用两种方式:

  • 开源数据(GitHub / 词库)
  • 本地可调用的语言库

最终我选择使用 (Natural Language Toolkit)来获取基础词汇数据。


👉 为什么选择 NLTK?

  • 内置常用英文词库(无需额外维护数据)
  • 调用简单,适合快速集成
  • 可以作为"基础词汇池",支持后续筛选和加工

具体获取如下:

python 复制代码
import json
from wordfreq import top_n_list, zipf_frequency
from nltk.corpus import wordnet as wn
import nltk
import os

# ===== 初始化 =====
nltk.download("wordnet")
nltk.download("omw-1.4")

# ===== 参数=====
TOP_N_FREQ = 12000        # 高频词规模(太大会引入抽象词)
MIN_ZIPF = 2           # 低于这个频率的词直接不要
MAX_WORD_LEN = 16        # 太长的一般不可视觉化

# ===== 1️⃣ 高频词=====
high_freq_words = set(top_n_list("en", TOP_N_FREQ))

def is_high_quality_visual_word(word: str) -> bool:
    # 基础过滤
    if not word.isalpha():
        return False
    if len(word) < 3 or len(word) > MAX_WORD_LEN:
        return False

    # 频率过滤(避免冷门、书面、学术词)
    if zipf_frequency(word, "en") < MIN_ZIPF:
        print(f"过滤低频词: {word}")
        return False

    # WordNet 校验
    synsets = wn.synsets(word)
    if not synsets:
        return False
    return True


# ===== 2️⃣ 精选 WordNet =====
visual_words = set()

for syn in wn.all_synsets():

    for lemma in syn.lemmas():
        word = lemma.name().lower().replace("_", " ")
        # 不要短语
        if " " in word:
            continue
        # 只保留高质量词
        if is_high_quality_visual_word(word):
            visual_words.add(word)

# ===== 3️⃣ 与高频词交集=====
final_words = sorted(visual_words & high_freq_words)

print(f"最终高质量视觉词数量: {len(final_words)}")

# ===== 4️⃣ 保存 =====
output_path = "words.json"
#获取当前脚本目录
BASE_DIR = os.path.dirname(os.path.abspath(__file__))
output_path = os.path.join(BASE_DIR, f"data/{output_path}")

with open(output_path, "w", encoding="utf-8") as f:
    json.dump(final_words, f, ensure_ascii=False, indent=2)
print(f"已保存高质量词库到: {output_path}")

如何生成一个"更容易记住"的单词视频(内容生成)

在解决了数据来源问题之后,下一步就是:

👉 如何把一个"单词",转化成一个"用户更容易记住的视频内容"

这一步,也是大模型真正发挥价值的地方。


从内容结构来看,一个完整的单词视频通常包含三类信息:

  • 文本信息(解释 + 记忆点)
  • 图片信息(视觉辅助理解)
  • 语音信息(发音 + 听觉强化)

👉 本质是通过多模态,让用户"多通道记忆"。


👉 为什么需要多模态?

如果只是给出:

  • 单词 + 释义

👉 用户很难记住

但如果同时提供:

  • 场景化解释(文本)
  • 相关画面(图像)
  • 标准发音(语音)

👉 会明显提升记忆效果


👉 在我的实现中,主要分三步:


1️⃣ 文本生成(核心)

通过大模型生成:

  • 简单解释(通俗易懂)
  • 使用场景(帮助理解)
  • 记忆方法(联想 / 对比 / 拆解)

👉 重点不是"解释",而是:

👉 让用户更容易记住

在模型选择上,目前市场上已经有很多可用的大模型,例如:

  • OpenAI GPT 系列
  • Google Gemini 系列
  • 阿里 Qwen 系列
  • DeepSeek 系列

👉 模型选择思路

在实际使用中,我主要考虑三个因素:

1️⃣ 生成质量(是否自然、易理解)

2️⃣ 成本(是否支持批量生产)

3️⃣ 稳定性(接口是否稳定)


基于以上考虑,我目前主要使用的是 DeepSeek 模型。

👉 原因是:

  • 性价比较高(适合高频调用)
  • 中文和中英混合能力较好
  • 在结构化生成任务中表现稳定

👉 对于内容生产来说,本质是:

不是追求"最强模型",而是"最适合当前场景的模型"

核心调用模型的代码如下:

python 复制代码
client = OpenAI(
    api_key=api_key,
    base_url="https://api.deepseek.com",
    timeout=120,
    max_retries=3
)

response = client.chat.completions.create(
model="deepseek-reasoner",
messages=[{"role": "user", "content": prompt}]
)
content = response.choices[0].message.content.strip()
data = safe_parse_json(content)

重点在prompt的设计,根据自己的任务目标决定产出什么内容输出,一般是json格式数据输出:

python 复制代码
{
    "visual_text": {
		...
    },
    "memory_hook": {
		...
    },
    "scene_prompt": ...,
    "voiceover_script": [{
   		...
       }
    ],
    }

这一层的核心不是"调用模型",而是:

👉 通过设计合适的 Prompt,让模型输出"更适合传播和记忆的内容"

这也是我从"用AI写内容",转向"用AI设计内容结构"的一个关键转变。


2️⃣ 图片生成(让内容"看得见")

在完成文本生成之后,下一步就是将抽象的内容转化为"可视化信息"。

👉 通过图像,让用户更容易理解和记住内容


在单词视频中,我通常会生成两类图片:

  • 场景图(帮助理解语境)
  • 联想图(强化记忆)

👉 本质是:

👉 让抽象信息变得具体


实现方式

在具体实现上,我会复用前面文本生成阶段的结果,让大模型生成对应的图像 Prompt,然后再调用图像模型生成图片。

整体流程如下:

单词 → 文本生成(DeepSeek)→ 图像Prompt → 图像模型 → 图片

👉 图像模型选择

在图像生成阶段,我会使用类似 Nano Banana Pro 或者Stability.ai 这样的图像大模型。

👉 Prompt设计(这一点非常关键)

相比模型本身,图像质量更依赖 Prompt 的设计。

我在实践中的一个经验是:

👉 Prompt 越具体,生成的图片越稳定、细节越丰富

例如,不推荐:

a man learning english

而更推荐:

a young man studying English in a cozy room, books on the desk, warm lighting, focused expression, realistic style

👉 在实际使用中,我会让文本模型(DeepSeek)直接生成:

场景描述

画面细节

情绪氛围

然后再传给图像模型生成图片。

基于Abyss这个单词,图像生成prompt如下:

👉 这一类模型的优势是:

生成速度快

成本相对可控

能满足内容生产的基本质量需求

调用nano banna pro生成图片的代码如下:

python 复制代码
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=roter_key,
)
response = client.chat.completions.create(
model="google/gemini-3-pro-image-preview",
messages=[
   {
       "role": "user",
       "content": f'{prompt}'
   }
],
extra_body={
   "modalities": ["image", "text"],
}
)

message = response.choices[0].message

if hasattr(message, "images") and message.images:
   for idx, image in enumerate(message.images):
       data_url = image["image_url"]["url"]

       # 1️⃣ 拆分 data:image/png;base64,...
       header, base64_data = data_url.split(",", 1)

       # 2️⃣ Base64 解码
       image_bytes = base64.b64decode(base64_data)

       # 3️⃣ 保存为文件
       with open(save_path, "wb") as f:
           f.write(image_bytes)

       print(f"✅ 图片已保存:{save_path}")
else:
   print("❌ 没有生成图片")

在这里是用OpenRouter,生成图片如下:

生成效果整体还是很不错的,尤其是在细节表现上,已经接近真实场景。具体视频如下:

abyss

这里也顺带提一下我在使用的 nano banana pro 模型,在图像生成的稳定性和细节丰富度上表现都比较突出。

下面是我实际测试生成的一些图片,包含不同风格和场景,抽取了几张供大家参考👇

可爱😊的puppy

下雨天睡觉的小猫咪😁

这张是描述李白的经典诗

《静夜思》

床前明月光,

疑是地上霜。

举头望明月,

低头思故乡。

看繁星享受安静的👩🏻

给人宁静温馨的道路早晨阳光

冰川上的一个湖泊

镜头聚焦场景下的小男孩看向道路远方在等妈妈

生成的图片整体细节还是很不错的,而且有一个很明显的体感:

👉 效果好不好,很大程度取决于 Prompt

同一个模型,不同的描述方式,生成出来的画面风格和细节差异会非常明显。

==补充:OpenRouter(多模型统一调用方案) ==

在实际使用过程中,如果同时接入多个大模型(如 GPT、DeepSeek、Claude、Gemini),会遇到一个问题:

👉 不同模型有不同的 API、调用方式和计费体系

这时候,可以使用 OpenRouter 来做统一管理。

什么是 OpenRouter?

OpenRouter 是一个"模型聚合平台",可以理解为:

👉 用一个统一的接口,调用多个大模型

👉 把"模型选择"变成一个可配置的能力,而不是写死在代码里

3️⃣ 语音生成(强化输入与记忆)

在完成文本和图像之后,最后一步是将内容转化为语音。

  • 标准发音(保证准确性)
  • 可重复播放(方便用户强化记忆)

👉 为什么语音很重要?

在英语学习场景中,仅靠"看"是不够的:

  • 只看文本 → 容易理解但难记住
  • 加入语音 → 可以形成"听觉记忆"

本质是:

👉 增加一个记忆通道,让用户从"理解"变成"熟悉"


👉 实现方式

这一层通常比较简单,可以直接调用现有的 TTS 模型或接口:

文本 → TTS模型 → 语音文件

实现代码如下:

python 复制代码
client = OpenAI(
    base_url="https://api.gptsapi.net/v1",
    api_key=wildcard_key
)
response = client.audio.speech.create(
    model="tts-1",  
    voice=voice,
    speed=speed,
    instructions=instructions,
    response_format="mp3",
    input=text,
    timeout=120
)

with open("temp.wav", "wb") as f:
    f.write(response.read())
print(f"✅ TTS 完成,已保存到 {output_path}")

通过WildCard进行模型选择和调用,其中WildCar降低使用门槛(不用折腾海外卡), 支持更多 AI 工具,对个人开发者比较友好, 支持的模型具体如下:
👉 小结

这一层的核心不是"把内容做出来",而是:

👉 用多模态方式,提升用户记住信息的概率

也是我从"做功能"转向"做效果"的一个重要变化。

3️⃣ 视频生成(让内容"真正可消费")

在完成文本、图片和语音生成之后,最后一步就是:

👉 将这些信息组合成一个完整的视频内容

这一步,本质上是一个"多模态内容组装"的过程。


👉 输入结构

在这一阶段,我们已经有了三类内容:

  • 文本(字幕 / 核心表达)
  • 图片(场景图 / 联想图)
  • 语音(讲解 / 发音)

👉 生成流程

整体流程可以抽象为:

文本 + 图片 + 语音 → 时间轴编排 → 视频合成 → 输出视频

👉 实际效果

上面这套流程不是Demo,而是我目前在真实使用的一套内容生产系统,

已经在持续生成英语学习视频。
如果你想看"AI生成内容实际长什么样",可以扫码关注我的视频号👇

里面都是这套流程跑出来的真实结果。也欢迎交流一起优化这套内容生产流程。

4 我踩过的坑

在这段时间用 AI 做内容和产品的过程中,其实踩了不少坑,有些甚至是反复踩。

这里总结几个我觉得比较典型的:


4.1 AI 输出"看起来对,但其实没价值"

一开始我很容易被 AI 的输出"骗到"。

很多内容:

  • 逻辑是通顺的
  • 表达是流畅的
  • 甚至看起来还挺"专业"

但仔细一看会发现:

👉 没有信息增量

👉 没有观点

👉 对用户没有实际帮助

本质上只是"把正确的废话说得更顺"。

后来我会更刻意去判断一件事:

👉 这段内容,用户看完之后,有没有获得新的东西?

如果没有,那写得再好也没有意义。


4.2. 内容同质化严重

当我开始大量使用 AI 生成内容之后,很快遇到一个问题:

👉 内容开始变得"越来越像"。

原因其实很简单:

  • 大模型的训练数据是相似的
  • prompt 写法也在收敛
  • 很多选题本身就是热点复用

结果就是:

👉 很容易做出"看起来还行,但不出彩"的内容。

后来我做的调整是:

  • 尽量加入自己的理解和取舍
  • 控制 AI 生成的比例(不是100%依赖)
  • 在选题和结构上做差异,而不是只改措辞

4.3 没有闭环(数据反馈)

这是我觉得最关键的一个坑

一开始我更多关注的是:

  • 内容有没有生成出来
  • 功能有没有跑通

但忽略了一点:

👉 用户是否真的在用?效果怎么样?

如果没有数据反馈,其实很容易陷入:

  • 自己觉得不错
  • 但实际没有任何结果

后来我开始更关注:

  • 点击率
  • 完播率
  • 用户反馈
    并且会把这些数据反向用来:

👉 调整选题、优化 prompt、改内容结构

这时候,整个流程才算真正"跑起来"。

5 我的方法论总结

回头看这一段时间的尝试,我自己总结了几条比较重要的原则:


5.1 AI 是放大器,不是替代者

AI 确实可以大幅提升效率,但它放大的不仅是能力,也会放大问题。

  • 方向对 → 放大收益
  • 方向错 → 放大浪费

👉 AI 不会帮你做判断,它只会放大你的判断。


5.2 产品的核心仍然是需求

无论技术怎么变化,这一点其实没有变:

👉 用户不会为"技术先进"买单,只会为"问题被解决"买单。

很多时候:

  • 功能做得再复杂
  • 模型用得再好

如果没有解决实际问题,最终也很难被接受。


5.3 工作流比工具更重要

一开始我也比较关注:

  • 用哪个模型
  • 哪个工具效果更好

但后来发现:

👉 决定效率上限的,其实是工作流,而不是单个工具。

  • 有没有清晰的流程
  • 各个环节是否可复用
  • 是否可以持续优化

这些比"用哪个模型"更重要。


5.4 快速试错,比完美更重要

在 AI 的加持下,试错成本其实已经很低了。

相比于:

  • 一开始就设计一个"很完美"的方案

我现在更倾向于:

👉 先跑起来,再不断优化。

  • 先验证有没有人看
  • 再优化内容质量
  • 再考虑规模化

6 未来方向

接下来,我自己大概会往几个方向继续探索:


6.1 进一步自动化(但不过度追求"全自动")

之前我比较倾向于做"全自动系统",

但现在更偏向于:

👉 半自动 + 人在关键节点参与

  • AI 负责效率
  • 人负责判断

在效率和质量之间做一个平衡。


6.2. 从"内容"走向"产品化"

目前做的很多事情,本质还是内容驱动。

后面会更关注:

👉 这些内容,是否可以进一步沉淀为可复用的产品形态?

比如:

  • 工具类产品
  • 系列化的内容(自媒体)
  • 独立 App

6.3 找到可持续的商业价值

单纯做内容其实比较容易,但要长期做下去,一定要有商业闭环。

后面我会更关注:

  • 哪些方向有付费意愿
  • 哪些内容可以转化
  • 如何从"流量"走向"价值"

6.4 从"使用 AI"到"理解 AI 的边界"

一开始更多是"怎么用 AI",

但后面我会更关注:

👉 AI 能做什么,不能做什么。

  • 哪些适合交给 AI
  • 哪些必须人来做
  • 如何设计更合理的人机协作方式

对我来说,这一阶段更像是一个开始。

AI 确实带来了很多新的可能性,但真正有价值的,还是:

👉 在这些能力之上,你选择解决什么问题。

相关推荐
星爷AG I2 小时前
15-6 威胁性信息(AGI基础理论)
网络·agi
m0_747124532 小时前
告别古法编程,拥抱AI时代
ai
ofoxcoding2 小时前
怎么用 API 搭一个 AI 客服机器人?从零到上线的完整方案
人工智能·ai·机器人
GoCodingInMyWay3 小时前
Triton 开始
ai·triton
Blurpath住宅代理3 小时前
AI代理配置实战指南:构建高可用、低风险的网络出口层
人工智能·ai·自动化·静态ip·动态代理·住宅ip·住宅代理
marsh02063 小时前
17 openclaw数据库连接池配置:避免性能瓶颈的关键
数据库·ai·oracle·编程·技术
黄粱梦醒4 小时前
OpenClaw-window安装教程以及通用常用命令
人工智能·llm
填满你的记忆4 小时前
RAG 架构在实际项目中的应用(从原理到落地)
java·ai·架构
snow_yan4 小时前
基于 json-render 的流式表单渲染方案
前端·react.js·llm