八周带你手搓AI应用-第二周-让AI更像人-第1天-流式输出改造

恭喜你跨入了第二周！如果说第一周是让 AI "学会说话"，那么第二周的第一天就是让 AI "更像人"。

在科研或办公场景中，如果你让 AI 生成一份 3000 字的"聚酰亚胺实验大纲"，普通模式下你需要盯着屏幕死等 30 秒，而流式输出能让你在第 1 秒就开始阅读。

第一站：解密流式输出 (Streaming)

是什么？ 流式输出（Streaming）是一种数据传输技术。传统模式下，大模型必须把整个句子生成完，再一次性打包发给你（就像邮寄一整箱书）；而流式输出是模型每生成一个字符（Token），就立刻发给客户端一个片段（就像发传单，一张一张发）。

为什么这么设计？

极速响应（降低首字延迟）： 大模型生成长文本非常耗时。流式输出能让用户在几百毫秒内看到第一个字，极大地缓解了焦虑，提升了用户体验。
节省内存： 对于超长文本，不需要在服务器端积攒所有内容再发送，数据像流水一样流过。
交互感： 模拟人类思考和打字的过程，更有"对话"的感觉。

第二站：核心逻辑 ------ 迭代响应对象

是什么？ 在 Python 中，当开启 stream=True 后，返回的不再是一个简单的对象，而是一个可迭代的生成器（Generator） 。你需要用 for 循环去"遍历"这个水龙头里流出的每一个水滴。

关键概念：Chunk（数据块） 每一个"水滴"被称为一个 chunk。它包含了一小段文字内容（delta content）。你需要把这些内容实时打印出来，并且不换行。

🚀 今日最终里程碑：实现"打字机"聊天机器人

今天我们要改造 chat.py，将原本"憋大招"式的回复变成"逐字蹦出"的打字机效果。

1. 核心代码改造点：

参数增加：stream=True
处理逻辑：由 await client.chat.completions.create 变为 await ... 之后接一个异步循环 async for。

2. 实战示例代码

在 Cursor 中新建文件 day8_stream_chat.py：

python 复制代码

import os
import asyncio
from openai import AsyncOpenAI
from dotenv import load_dotenv

load_dotenv()

async def stream_chat():
    client = AsyncOpenAI(
        api_key=os.getenv("API_KEY"),
        base_url=os.getenv("BASE_URL")
    )

    print("🤖 AI 助手（流式模式）已就绪。")
    
    while True:
        user_input = input("\n👤 用户: ")
        if user_input.lower() == 'exit': break

        print("🤖 AI: ", end="", flush=True) # end="" 保证不自动换行，flush=True 强制刷新缓冲区

        # 1. 开启 stream=True
        response = await client.chat.completions.create(
            model=os.getenv("MODEL_NAME"),
            messages=[{"role": "user", "content": user_input}],
            stream=True  # 👈 关键参数
        )

        full_reply = ""
        # 2. 异步迭代返回的每一个 chunk
        async for chunk in response:
            # 3. 提取 delta 内容 (大模型正在蹦出的字)
            content = chunk.choices[0].delta.content
            if content:
                print(content, end="", flush=True) # 实时打印
                full_reply += content
        
        print() # 最后打印一个换行

if __name__ == "__main__":
    asyncio.run(stream_chat())

💡 关键细节说明：

print(content, end="", flush=True)：
- end=""：告诉 Python 打印完不要换行，因为 AI 还没说完。
- flush=True：强制让文字立刻出现在屏幕上。默认情况下，Python 会等缓冲区满了才打印，不加这个参数你会发现文字还是一坨一坨跳出来的。
delta vs message：
- 在非流式模式下，我们读取的是 choices[0].message.content。
- 在流式模式下，内容藏在 choices[0].delta.content 中。这是一个微小的属性变化，请务必注意。

学习技巧：对比感知

运行程序后，输入一个长问题（例如："请写一篇关于聚酰亚胺未来发展的500字综述"）。观察文字像瀑布一样流出的过程。

今日思考： 在流式模式下，我们如何像第四天那样，把这段"流出来"的完整回答保存到 history 列表中，以维持下一轮对话的记忆？（提示：代码中的 full_reply 变量就是为了干这个活的）。

明天我们将挑战第二周的高峰：Function Calling，让 AI 开始操作你的本地代码！