【Agent | openai | Streaming | 】流式输出Streaming

Streaming

案例实践

02-streaming流式输出()

描述

  • 什么是Streaming?
  • 为什么要使用Streaming?
    (使用Streaming的意图?)
    (Streaming的作用?)

在实时聊天或长文本生成应用中,长时间的等待会损害用户体验并可能导致触发服务端超时,导致任务失败。流式输出通过持续返回模型生成的文本片段,解决了这两个核心问题。

问题

what where why how

``

``

1 what

什么是流式输出?

  • 通过分块传输 来持续接收数据并实时渲染,而非等待完整的响应后在输出渲染,类似"滴水成河"过程。reference - 前端流式输出实现详解:从原理到实践
  • 流式传输将您想要通过网络发送或接收的资源分解更小的块 。浏览器在接收媒体资源(例如视频缓冲或部分加载图片)时,通常会发生这种情况。

where

流式输出的典型应用场景包括:

AI 对话系统(ChatGPT 式交互)

大文件处理进度

实时日志输出

数据分析报告生成

streaming的特点?

主要:

  1. 实时性 减少等待,提升用户体验
  2. 低延迟 减少等待 用户体验
  3. 渐进式 体验自然

解决-why | how

为什么需要流式输出?

想象一个场景:用户向 AI 助手提问,传统方式需要等待完整答案生成后才能看到结果,可能需要等待数十秒。而流式输出允许答案逐字逐句地呈现,就像真人对话一样自然。这种即时反馈不仅减少了感知等待时间,还增强了应用的互动性。

避免长时间等待

流式消息(Streaming)允许在模型生成响应时实时获取 内容,而不需要等待完整响应 生成完毕。这种方式可以显著改善用户体验,特别是在生成长文本内容时,用户可以立即看到输出开始出现。

how

技术选型:为什么选择 SSE?

技术方案

  1. http HTTP/2 Server Push
  2. websocket WebSocket
  3. sse (server-sent events)SSE
http
python 复制代码
# Flask 流式响应示例
from flask import Flask, Response
import time

app = Flask(__name__)

@app.route('/stream')
def stream():
    def generate():
        for i in range(10):
            time.sleep(1)
            yield f"data: 这是第 {
     
     i} 条消息\n\n"
    return Response(generate(), mimetype="text/event-stream")
websocket
python 复制代码
// 前端WebSocket接收流式数据
const ws = new WebSocket('ws://example.com/stream');
ws.onmessage = (event) => {
   
   
    console.log('收到数据:', event.data);
};
sse

简单易用 :基于 HTTP 协议,无需复杂握手
自动重连 :浏览器原生支持断线重连
轻量级 :相比 WebSocket 更节省资源
防火墙友好:使用标准 HTTP 端口

python 复制代码
<!-- 前端接收SSE -->
<script>
const eventSource = new EventSource('/stream');
eventSource.onmessage = (e) => {
     
     
    console.log(e.data);
};
</script>

Learn how to stream model responses from the OpenAI API using server-sent events.

how to;

using server-sent events

Copy Page

reference

1.Streaming API responses-streaming-responses

  1. alibaba-Streaming

  2. bigmodel-streaming

  3. LLM 如何流式传输回答-Google

  4. LazyLLM流式输出-cnblogshttps://www.cnblogs.com/Honesty-is-the-best-policy/p/18982901

  5. https://cloud.tencent.com/developer/article/2552560

  6. 流式输出(Streaming)实现:提升用户体验

相关推荐
Moment2 小时前
面试官:给 llm 传递上下文,有哪几个身份 role ❓❓❓
前端·后端·面试
木斯佳3 小时前
前端八股文面经大全:字节抖音前端三面(2026-04-27)·面经深度解析
前端·面试·笔试·八股·面经
刘延林.4 小时前
win11系统下通过 WSL2 安装Ubuntu 24.04 使用RTX 5080 GPU
linux·运维·ubuntu
愚者游世4 小时前
noexcept 说明符与 noexcept运算符各版本异同
开发语言·c++·程序人生·面试·visual studio
码点滴4 小时前
从“失忆症“到“数智分身“:Hermes Agent 如何重塑你的 AI 交互体验?
人工智能·架构·prompt·ai编程·hermes
猫头虎5 小时前
如何搭建 24 小时 AI 直播平台:魔珐星云数字人打造无人值守 “AI 销冠” 全流程实战教程
人工智能·langchain·开源·prompt·aigc·embedding·agi
Flying pigs~~6 小时前
大模型Prompt-Tuning技术进阶 - 完整总结
人工智能·大模型·prompt
用户34268877621966 小时前
Agent + Ollama 部署踩坑记录
ubuntu