恭喜你跨入了第二周!如果说第一周是让 AI "学会说话",那么第二周的第一天就是让 AI "更像人"。
在科研或办公场景中,如果你让 AI 生成一份 3000 字的"聚酰亚胺实验大纲",普通模式下你需要盯着屏幕死等 30 秒,而流式输出能让你在第 1 秒就开始阅读。
第一站:解密流式输出 (Streaming)
是什么? 流式输出(Streaming)是一种数据传输技术。传统模式下,大模型必须把整个句子生成完,再一次性打包发给你(就像邮寄一整箱书);而流式输出是模型每生成一个字符(Token),就立刻发给客户端一个片段(就像发传单,一张一张发)。
为什么这么设计?
- 极速响应(降低首字延迟): 大模型生成长文本非常耗时。流式输出能让用户在几百毫秒内看到第一个字,极大地缓解了焦虑,提升了用户体验。
- 节省内存: 对于超长文本,不需要在服务器端积攒所有内容再发送,数据像流水一样流过。
- 交互感: 模拟人类思考和打字的过程,更有"对话"的感觉。
第二站:核心逻辑 ------ 迭代响应对象
是什么? 在 Python 中,当开启 stream=True 后,返回的不再是一个简单的对象,而是一个可迭代的生成器(Generator) 。你需要用 for 循环去"遍历"这个水龙头里流出的每一个水滴。
关键概念:Chunk(数据块) 每一个"水滴"被称为一个 chunk。它包含了一小段文字内容(delta content)。你需要把这些内容实时打印出来,并且不换行。
🚀 今日最终里程碑:实现"打字机"聊天机器人
今天我们要改造 chat.py,将原本"憋大招"式的回复变成"逐字蹦出"的打字机效果。
1. 核心代码改造点:
- 参数增加:
stream=True - 处理逻辑:由
await client.chat.completions.create变为await ...之后接一个异步循环async for。
2. 实战示例代码
在 Cursor 中新建文件 day8_stream_chat.py:
python
import os
import asyncio
from openai import AsyncOpenAI
from dotenv import load_dotenv
load_dotenv()
async def stream_chat():
client = AsyncOpenAI(
api_key=os.getenv("API_KEY"),
base_url=os.getenv("BASE_URL")
)
print("🤖 AI 助手(流式模式)已就绪。")
while True:
user_input = input("\n👤 用户: ")
if user_input.lower() == 'exit': break
print("🤖 AI: ", end="", flush=True) # end="" 保证不自动换行,flush=True 强制刷新缓冲区
# 1. 开启 stream=True
response = await client.chat.completions.create(
model=os.getenv("MODEL_NAME"),
messages=[{"role": "user", "content": user_input}],
stream=True # 👈 关键参数
)
full_reply = ""
# 2. 异步迭代返回的每一个 chunk
async for chunk in response:
# 3. 提取 delta 内容 (大模型正在蹦出的字)
content = chunk.choices[0].delta.content
if content:
print(content, end="", flush=True) # 实时打印
full_reply += content
print() # 最后打印一个换行
if __name__ == "__main__":
asyncio.run(stream_chat())
💡 关键细节说明:
print(content, end="", flush=True):end="":告诉 Python 打印完不要换行,因为 AI 还没说完。flush=True:强制让文字立刻出现在屏幕上。默认情况下,Python 会等缓冲区满了才打印,不加这个参数你会发现文字还是一坨一坨跳出来的。
deltavsmessage:- 在非流式模式下,我们读取的是
choices[0].message.content。 - 在流式模式下,内容藏在
choices[0].delta.content中。这是一个微小的属性变化,请务必注意。
- 在非流式模式下,我们读取的是
学习技巧:对比感知
运行程序后,输入一个长问题(例如:"请写一篇关于聚酰亚胺未来发展的500字综述")。观察文字像瀑布一样流出的过程。
今日思考: 在流式模式下,我们如何像第四天那样,把这段"流出来"的完整回答保存到 history 列表中,以维持下一轮对话的记忆?(提示:代码中的 full_reply 变量就是为了干这个活的)。
明天我们将挑战第二周的高峰:Function Calling,让 AI 开始操作你的本地代码!