大模型常见的专用名词

复制代码
•	RPM(Requests Per Minute):每分钟最多允许发起多少次请求(调用次数)。超过就会报限流。 
•	TPM(Tokens Per Minute):每分钟最多允许处理多少 token。token 可以理解为"文本计费单位/处理单位"(中英文拆分规则不同)。 
•	重要:有的厂商 TPM只算输入 tokens,有的会把 输入+输出 都算进去;要以你用的厂商文档为准。 
•	RPD(Requests Per Day):每天(或滚动 24h)最多允许多少次请求。 
  1. Token & 上下文相关

    • Token:模型处理文本的基本单位;不是"字数",中文/英文的 token 数差异很大。

    • Context window / Context length(上下文窗口):一次请求里模型能"看到"的最大 token 数(输入+输出通常都占用窗口)。

    • Input tokens / Output tokens:输入消耗的 token、输出生成消耗的 token。

    • Max output tokens / max_tokens:这次最多允许模型生成多少 token(防止无限输出)。

    • Truncation(截断):输入太长时被系统或你自己截断,导致模型"看不到后半段"。

  2. 限流 / 吞吐相关

    • RPS / QPS(Requests/Queries Per Second):每秒请求数(有时平台会用这个口径,而不是 RPM)。

    • Burst(突发):短时间允许你"瞬时冲高",但会用更长窗口做平滑统计(常见于滚动窗口策略)。

    • Rolling window(滚动窗口):不是按整点清零,而是按"最近 60 秒 / 最近 24 小时"累计来算;所以你会看到"请在 X 分钟后重试"这种提示。 

    • Concurrency(并发):同时在跑的请求数量上限(有的平台单独限制并发)。

    • Throughput(吞吐):单位时间输出多少 token(tokens/s),和模型大小、推理硬件、解码策略有关。

    • Latency(延迟):从发请求到拿到响应的时间;常拆成 TTFT + 生成阶段。

  3. 流式与时延拆分

    • Streaming(流式输出):模型边生成边返回(更"快看到第一段")。

    • TTFT(Time To First Token):首 token 返回时间;对体验影响非常大。

    • Tokens/s(生成速度):流式时更直观。

  4. 计费与配额混合口径(不同厂商差异更大)

    • TPD(Tokens Per Day):每天 token 总量限制(有些平台有)。 

    • Spend limit(消费上限):按金额限制(例如 Anthropic/Claude 文档里会区分消费上限和速率限制)。 

    • Cached tokens(缓存 token):有的平台对"命中缓存"的 token 不计入限额或计费(具体看平台规则)。 

    • 音频类配额:例如按 Audio seconds per hour/day 计(做语音模型常见)。 

相关推荐
阿里巴啦21 小时前
clawdbot (openclaw) + discord 机器人部署指南学习教程
机器人·大模型·discord·clawdbot·openclaw·clawbot安装教程
CoderJia程序员甲1 天前
GitHub 热榜项目 - 日榜(2026-01-30)
开源·大模型·llm·github·ai教程
人工智能培训1 天前
基于Transformer的人工智能模型搭建与fine-tuning二
人工智能·深度学习·机器学习·大模型·transformer·企业数字化转型
司南OpenCompass1 天前
当模型开始“记住”评测,如何用动态数据对抗污染?(上篇)
人工智能·大模型·多模态模型·大模型评测·司南评测
xixixi777771 天前
2026 年 1 月 30 日 AI + 通信 + 安全前沿信息集成
算法·安全·ai·大模型·安全威胁分析·信息与通信·通信
艾莉丝努力练剑2 天前
人工智能 Gemini 2.5 Pro:深度解析技术突破与实战应用
c++·人工智能·python·ai·大模型·编辑器·gemini
xixixi777772 天前
模型开源的核心目的与潜在隐患(附 AI 领域 / 具身智能专属视角)
人工智能·安全·ai·开源·大模型·具身智能·开源模型
玉梅小洋2 天前
Claude Code 从入门到精通(四):Hooks从原理到实践
ai·大模型·ai编程·claude·ai工具
博士僧小星2 天前
人工智能|大模型——应用——详解ClawdBot(Moltbot)
人工智能·大模型·agent·智能体·ai助理·clawdbot·moltbot
羊城迷鹿2 天前
从LoRA到OFT:Qwen2.5-VL在昇腾910B与4090上的多模态微调实践与踩坑记录
大模型·微调·多模态·qwen·llamafactory·oft