第二篇:不碰模型,意图识别快 9 倍 —— P0→P1→P2 流水线设计优化的最高境界不是换更强的模型,而是让该做的事情不需要模型来做。全量 LLM function calling:每次把所有 tool schema(5 个工具 × ~150 字描述)传给 Qwen,LLM 读完所有描述再抉择。我们用 qwen-turbo 实测了 500 次(50 条 query × 10 repeats):p50=477ms、p95=672ms、p99=1200ms。延迟分解:input token 编码(~730 tokens) + LLM 推理 + output token 解码(~