一、单轮对话 vs 多轮对话
-
单轮对话 一问一答,不记历史。每次请求都是独立的,大模型不知道上一句聊了啥。适合:简单一次性提问、查单个知识点。
-
多轮对话 会记住上下文 ,需要把所有历史聊天记录一起传给大模型。模型能连贯接话、顺着之前的话题聊。适合:AI 聊天助手、智能客服、连续写代码改需求。
二、什么是上下文窗口(Context Window)
一句话:大模型一次能装下、能记住的最大文字总量。
- 上下文窗口越大:能读长文档、记很多聊天记录
- 上下文窗口越小:聊几句就忘、不能处理长文章常见规格:4K、8K、32K、128K(K 代表千 token)
三、输入 Token / 输出 Token
- 输入 Token:你发给大模型的文字(提问 + 历史对话)
- 输出 Token :大模型给你回复的文字在线 API 调用时,输入、输出两边都计费。
四、流式输出 vs 一次性输出
-
一次性输出 等模型全部思考完,整段文字一次性发回来,要等待,像普通网页加载完才显示内容。
-
流式输出(SSE 流式) 一个字一个字实时往外蹦,像你用豆包打字那种逐字出现效果。前端对接用 SSE 协议,体验更丝滑,不用长时间等待。
五、Prompt 提示词 基础概念
Prompt 就是你发给大模型的指令、提问、要求 。同样的模型,Prompt 写得越好,答案越准。好提示词三要素:
- 给身份(你是资深前端工程师)
- 给要求(简洁、带注释、用 Vue3)
- 给任务(帮我写一个登录页面代码)
六、今日必背总结
- 单轮无记忆,多轮带历史上下文。
- 上下文窗口:模型能容纳的最大 token 容量。
- 输入、输出 Token 都要计费。
- 流式输出逐字展示,一次性输出整段返回。
- Prompt 就是给大模型的指令,写得好答案质量翻倍。