八周带你手搓AI应用-第二周-让AI更像人-第1天-流式输出改造

恭喜你跨入了第二周!如果说第一周是让 AI "学会说话",那么第二周的第一天就是让 AI "更像人"。

在科研或办公场景中,如果你让 AI 生成一份 3000 字的"聚酰亚胺实验大纲",普通模式下你需要盯着屏幕死等 30 秒,而流式输出能让你在第 1 秒就开始阅读。


第一站:解密流式输出 (Streaming)

是什么? 流式输出(Streaming)是一种数据传输技术。传统模式下,大模型必须把整个句子生成完,再一次性打包发给你(就像邮寄一整箱书);而流式输出是模型每生成一个字符(Token),就立刻发给客户端一个片段(就像发传单,一张一张发)。

为什么这么设计?

  1. 极速响应(降低首字延迟): 大模型生成长文本非常耗时。流式输出能让用户在几百毫秒内看到第一个字,极大地缓解了焦虑,提升了用户体验。
  2. 节省内存: 对于超长文本,不需要在服务器端积攒所有内容再发送,数据像流水一样流过。
  3. 交互感: 模拟人类思考和打字的过程,更有"对话"的感觉。

第二站:核心逻辑 ------ 迭代响应对象

是什么? 在 Python 中,当开启 stream=True 后,返回的不再是一个简单的对象,而是一个可迭代的生成器(Generator) 。你需要用 for 循环去"遍历"这个水龙头里流出的每一个水滴。

关键概念:Chunk(数据块) 每一个"水滴"被称为一个 chunk。它包含了一小段文字内容(delta content)。你需要把这些内容实时打印出来,并且不换行


🚀 今日最终里程碑:实现"打字机"聊天机器人

今天我们要改造 chat.py,将原本"憋大招"式的回复变成"逐字蹦出"的打字机效果。

1. 核心代码改造点:
  • 参数增加:stream=True
  • 处理逻辑:由 await client.chat.completions.create 变为 await ... 之后接一个异步循环 async for
2. 实战示例代码

在 Cursor 中新建文件 day8_stream_chat.py

python 复制代码
import os
import asyncio
from openai import AsyncOpenAI
from dotenv import load_dotenv

load_dotenv()

async def stream_chat():
    client = AsyncOpenAI(
        api_key=os.getenv("API_KEY"),
        base_url=os.getenv("BASE_URL")
    )

    print("🤖 AI 助手(流式模式)已就绪。")
    
    while True:
        user_input = input("\n👤 用户: ")
        if user_input.lower() == 'exit': break

        print("🤖 AI: ", end="", flush=True) # end="" 保证不自动换行,flush=True 强制刷新缓冲区

        # 1. 开启 stream=True
        response = await client.chat.completions.create(
            model=os.getenv("MODEL_NAME"),
            messages=[{"role": "user", "content": user_input}],
            stream=True  # 👈 关键参数
        )

        full_reply = ""
        # 2. 异步迭代返回的每一个 chunk
        async for chunk in response:
            # 3. 提取 delta 内容 (大模型正在蹦出的字)
            content = chunk.choices[0].delta.content
            if content:
                print(content, end="", flush=True) # 实时打印
                full_reply += content
        
        print() # 最后打印一个换行

if __name__ == "__main__":
    asyncio.run(stream_chat())

💡 关键细节说明:

  1. print(content, end="", flush=True)
    • end="":告诉 Python 打印完不要换行,因为 AI 还没说完。
    • flush=True:强制让文字立刻出现在屏幕上。默认情况下,Python 会等缓冲区满了才打印,不加这个参数你会发现文字还是一坨一坨跳出来的。
  2. delta vs message
    • 在非流式模式下,我们读取的是 choices[0].message.content
    • 在流式模式下,内容藏在 choices[0].delta.content 中。这是一个微小的属性变化,请务必注意。

学习技巧:对比感知

运行程序后,输入一个长问题(例如:"请写一篇关于聚酰亚胺未来发展的500字综述")。观察文字像瀑布一样流出的过程。

今日思考: 在流式模式下,我们如何像第四天那样,把这段"流出来"的完整回答保存到 history 列表中,以维持下一轮对话的记忆?(提示:代码中的 full_reply 变量就是为了干这个活的)。

明天我们将挑战第二周的高峰:Function Calling,让 AI 开始操作你的本地代码!

相关推荐
逸模7 分钟前
AI+BIM 重构连锁公装新范式 逸模打造数字化营建核心底座
大数据·人工智能·笔记·其他·信息可视化·重构
phltxy17 分钟前
MCP 从协议到 Spring AI 实战
人工智能·spring·oracle
Sirius Wu28 分钟前
Agentic端到端&分离式RL技术建设
人工智能·深度学习·机器学习·caffe
AI导出鸭PC端39 分钟前
智谱清言怎么生成word文档?AI导出鸭终结乱码烦恼
人工智能·ai·c#·word·豆包·ai导出鸭
格桑阿sir40 分钟前
17-大模型智能体开发工程师:深入学习Agent记忆系统
人工智能·记忆存储·记忆系统·agent记忆·嵌入式数据库·agent进化·记忆检索
数据仓库搬砖人42 分钟前
LangGraph 原理深度解析:为什么它是目前最适合构建 Agent 的框架
人工智能
孟陬1 小时前
国外技术周刊 #139:LLM 正在杀死程序员的「懒惰美德」
前端·人工智能·后端
Peter·Pan爱编程1 小时前
23. 算法库:用算法代替手写循环
c++·人工智能·算法
Nile1 小时前
Claude Code-Dynamic Workflows:1.为什么用工作流?
人工智能·ai·ai编程·ai-native
狂炫冰美式1 小时前
AI 生成 Draw.io,导入飞书/Lark 画板后可编辑
前端·人工智能·后端