nano-vllm学习

看代码步骤

复制代码
 1. 调度:决定下一步运行哪些序列
seqs, is_prefill = self.scheduler.schedule()

其中seqs表示被调度的序列列表。

seqs是一个包含 Sequence对象的列表,这些是被调度器选中、将要送入模型进行本次推理的序列。

这些序列的来源:

新请求:第一次运行的序列(需要预填充)

进行中的请求:已生成部分token,需要继续生成的序列

混合批次:可能同时包含新序列和进行中序列

3. 后处理:更新序列状态

self.scheduler.postprocess(seqs, token_ids)更新序列状态什么意思

在 LLM 推理中,每个用户请求对应一个Sequence(序列)对象。每次模型生成一个新的 token 后,需要更新这个序列的状态。具体包括:

1.添加新生成的 token 到序列中

python 复制代码
# 在 Sequence 类中可能有这样的逻辑:
for seq, new_token_id in zip(seqs, token_ids):
    seq.generated_token_ids.append(new_token_id)  # 添加到已生成列表
    seq.total_tokens += 1  # 总token数+1

2.检查序列是否应该结束

需要检查各种停止条件:

  • 是否生成了结束符(EOS token)

  • 是否达到最大生成长度

  • 是否满足特定的停止字符串条件

python 复制代码
# 伪代码示例
for seq in seqs:
    # 检查EOS token
    if new_token_id == config.eos_token_id:
        seq.is_finished = True
    
    # 检查最大长度
    if len(seq) >= seq.max_tokens:
        seq.is_finished = True
    
    # 检查停止字符串
    current_text = tokenizer.decode(seq.generated_token_ids)
    if any(stop_str in current_text for stop_str in seq.stop_strings):
        seq.is_finished = True

3.更新KV缓存的元数据

在vLLM的内存管理中,每个序列的KV缓存存储在特定的内存块中。更新状态包括:

  • 记录当前使用了哪些内存块

  • 如果序列结束,标记这些块为可回收状态

  • 更新序列在内存块中的位置指针

  1. 更新调度器的内部数据结构

调度器需要维护不同状态的序列:

  • 运行中:正在生成token的序列

  • 等待中:等待调度的序列

  • 已完成:生成结束的序列

postprocess会将已完成的序列从运行队列移到完成队列。

实际例子

假设有两个序列:

  • 序列A:已生成 ["你好", "世界"],还需要继续生成

  • 序列B :已生成 ["今天天气", "不错"],刚生成了结束符<eos>

执行 postprocess后:

  1. 序列A的token列表变为 ["你好", "世界", "新token"]

  2. 序列B标记为已完成

  3. 序列B的KV缓存被释放

  4. 序列B从运行队列移除

相关推荐
幸福巡礼16 分钟前
【LangChain 1.2 实战(一)】 概述
笔记·学习·langchain
知识分享小能手1 小时前
R语言入门学习教程,从入门到精通,R语言数据计算与分组统计(9)
开发语言·学习·r语言
lizhihai_991 小时前
股市学习心得—半导体12种核心材料
大数据·人工智能·学习
sakiko_2 小时前
UIKit学习笔记3-布局、滚动视图、隐藏或显示视图
前端·笔记·学习·objective-c·swift·uikit
嵌入式-老费3 小时前
瑞芯微soc的学习和应用(题外话之esp32开发)
学习
辰同学ovo3 小时前
从全局登录状态管理学习 Redux
前端·javascript·学习·react.js
ting94520003 小时前
告别无效学习:Scholé 如何用 AI 重构职场学习,让学习直接嵌入工作流
人工智能·学习·重构
xian_wwq3 小时前
【学习笔记】Harness到底是什么
笔记·学习·ai·harness
wuxinyan1233 小时前
大模型学习之路004:RAG 零基础入门教程(第一篇):基础理论与文档处理流水线
人工智能·学习·rag
冯诺依曼的锦鲤4 小时前
从零实现高并发内存池:TCMalloc 核心架构拆解
c++·学习·算法·架构