八周带你手搓AI应用-第二周-让AI更像人-第1天-流式输出改造

恭喜你跨入了第二周!如果说第一周是让 AI "学会说话",那么第二周的第一天就是让 AI "更像人"。

在科研或办公场景中,如果你让 AI 生成一份 3000 字的"聚酰亚胺实验大纲",普通模式下你需要盯着屏幕死等 30 秒,而流式输出能让你在第 1 秒就开始阅读。


第一站:解密流式输出 (Streaming)

是什么? 流式输出(Streaming)是一种数据传输技术。传统模式下,大模型必须把整个句子生成完,再一次性打包发给你(就像邮寄一整箱书);而流式输出是模型每生成一个字符(Token),就立刻发给客户端一个片段(就像发传单,一张一张发)。

为什么这么设计?

  1. 极速响应(降低首字延迟): 大模型生成长文本非常耗时。流式输出能让用户在几百毫秒内看到第一个字,极大地缓解了焦虑,提升了用户体验。
  2. 节省内存: 对于超长文本,不需要在服务器端积攒所有内容再发送,数据像流水一样流过。
  3. 交互感: 模拟人类思考和打字的过程,更有"对话"的感觉。

第二站:核心逻辑 ------ 迭代响应对象

是什么? 在 Python 中,当开启 stream=True 后,返回的不再是一个简单的对象,而是一个可迭代的生成器(Generator) 。你需要用 for 循环去"遍历"这个水龙头里流出的每一个水滴。

关键概念:Chunk(数据块) 每一个"水滴"被称为一个 chunk。它包含了一小段文字内容(delta content)。你需要把这些内容实时打印出来,并且不换行


🚀 今日最终里程碑:实现"打字机"聊天机器人

今天我们要改造 chat.py,将原本"憋大招"式的回复变成"逐字蹦出"的打字机效果。

1. 核心代码改造点:
  • 参数增加:stream=True
  • 处理逻辑:由 await client.chat.completions.create 变为 await ... 之后接一个异步循环 async for
2. 实战示例代码

在 Cursor 中新建文件 day8_stream_chat.py

python 复制代码
import os
import asyncio
from openai import AsyncOpenAI
from dotenv import load_dotenv

load_dotenv()

async def stream_chat():
    client = AsyncOpenAI(
        api_key=os.getenv("API_KEY"),
        base_url=os.getenv("BASE_URL")
    )

    print("🤖 AI 助手(流式模式)已就绪。")
    
    while True:
        user_input = input("\n👤 用户: ")
        if user_input.lower() == 'exit': break

        print("🤖 AI: ", end="", flush=True) # end="" 保证不自动换行,flush=True 强制刷新缓冲区

        # 1. 开启 stream=True
        response = await client.chat.completions.create(
            model=os.getenv("MODEL_NAME"),
            messages=[{"role": "user", "content": user_input}],
            stream=True  # 👈 关键参数
        )

        full_reply = ""
        # 2. 异步迭代返回的每一个 chunk
        async for chunk in response:
            # 3. 提取 delta 内容 (大模型正在蹦出的字)
            content = chunk.choices[0].delta.content
            if content:
                print(content, end="", flush=True) # 实时打印
                full_reply += content
        
        print() # 最后打印一个换行

if __name__ == "__main__":
    asyncio.run(stream_chat())

💡 关键细节说明:

  1. print(content, end="", flush=True)
    • end="":告诉 Python 打印完不要换行,因为 AI 还没说完。
    • flush=True:强制让文字立刻出现在屏幕上。默认情况下,Python 会等缓冲区满了才打印,不加这个参数你会发现文字还是一坨一坨跳出来的。
  2. delta vs message
    • 在非流式模式下,我们读取的是 choices[0].message.content
    • 在流式模式下,内容藏在 choices[0].delta.content 中。这是一个微小的属性变化,请务必注意。

学习技巧:对比感知

运行程序后,输入一个长问题(例如:"请写一篇关于聚酰亚胺未来发展的500字综述")。观察文字像瀑布一样流出的过程。

今日思考: 在流式模式下,我们如何像第四天那样,把这段"流出来"的完整回答保存到 history 列表中,以维持下一轮对话的记忆?(提示:代码中的 full_reply 变量就是为了干这个活的)。

明天我们将挑战第二周的高峰:Function Calling,让 AI 开始操作你的本地代码!

相关推荐
ZhengEnCi9 小时前
09bad-斯坦福CS336作业一-构建优化器
人工智能
ZhengEnCi10 小时前
09bac-斯坦福CS336作业一-实现训练损失计算
人工智能
冬奇Lab10 小时前
Skill 系列(01):Skill 评测体系——如何量化一个 AI Skill 的质量
人工智能
IT_陈寒13 小时前
Redis内存爆了,原来我漏掉了这个致命配置
前端·人工智能·后端
用户35218024547514 小时前
🎆从 Prompt 到 Skill:让 Spring AI Agent 学会"装新技能"
人工智能·spring boot·ai编程
米小虾15 小时前
手把手教你搭建第一个生产级AI Agent:从选型到实战的完整指南
人工智能·agent
任沫15 小时前
Agent之Function Call
javascript·人工智能·go
米小虾15 小时前
2026年AI Agent全面爆发:从开源生态到企业级应用的进化之路
人工智能·agent
用户69190268133915 小时前
Vibe Coding 开发项目的基本范式
人工智能·设计模式·代码规范
To_OC15 小时前
别再跟 AI 死磕 prompt 了,我写了个 Loop 让它自己改到满意为止
人工智能·aigc·agent