别让 LLM 写文件:一套 Agent 进度跟踪的工程化范式

摘要:用"把Schema塞Prompt、让LLM写文件"做Agent进度跟踪,我翻车了。本文把我栽过的坑、钩子postToolUse救不了的根本矛盾、Claude Code是怎么绕过去的,以及一套可落地的工程范式,一次讲清楚。


目录


一、一个看起来很优雅的设计

给Agent加"进度跟踪"时,最快的方式无疑是把Schema塞进Prompt,让LLM自己维护一个JSON文件。于是我写下:

text 复制代码
You are an agent. Track your progress in `progress.json`.
Schema:
{
  "tasks": [
    { "id": string, "title": string, "status": "todo"|"doing"|"done" }
  ]
}
Update `progress.json` every time you make progress.

简洁,自洽,符合直觉。跑起来之后发现:

  • 跑十次有三次status写成了"Done" / "complete" / "finished"
  • JSON偶尔多个尾逗号,整个文件挂掉
  • 并发子Agent同时写,文件被覆盖,只留一条

于是我加了一层postToolUse修正------每次LLM写完文件后,用脚本做schema校验、枚举归一化、格式修复:

python 复制代码
# postToolUse.py ------ 每次LLM写完后跑一遍import json

def fix_progress(path):
    with open(path) as f:
        data = json.load(f)

    #修正大小写for task in data.get("tasks", []):
        status = task.get("status", "").lower()
        if status in ("complete", "finished"):
            task["status"] = "done"
        elif status not in ("todo", "doing", "done"):
            task["status"] = "todo"

    with open(path, "w") as f:
        json.dump(data, f, indent=2)
    return data

钩子postToolUse确实能修掉格式错误枚举偏差,我终于松了一口气。


二、钩子postToolUse修正:治标不治本

但跑了一段时间,更隐蔽的问题冒出来了:

LLM改一个字段,顺手把其他任务"优化"掉了。 场景是这样的:Agent正在处理task#9,它读取了progress.json,里面有10个任务。它想更新#9的status为"done",于是调用edit工具输出新的JSON。但LLM拿到的不是"diff"接口,而是"重写整个文件"的指令------它重新生成了一份JSON,task#4被漏掉了。钩子postToolUse校验通过了:schema是对的,字段类型也没错。但task#4没了。

根本矛盾在这里:

问题 钩子postToolUse能修吗? 根因
大小写/枚举偏差 ✅ 能 生成模型的自由文本倾向
JSON语法错误 ✅ 能 生成模型的序列化不稳定性
整文件重写丢数据 不能 LLM上下文有限,只能"凭印象"重写
并发覆盖 不能 文件系统没有事务隔离
幻觉新字段 不能 生成模型的创造性是特性,不是bug
过期读导致的状态冲突 不能 LLM看到的永远是上一轮快照

钩子postToolUse是事后修 ,但数据丢失和并发冲突发生在LLM生成的那一刻,根本无从恢复。根本原因是:校验层放错了位置------它应该在LLM动笔之前就把非法意图拦住,而不是等它写完了再擦屁股。


三、第一性原理:LLM是推理引擎,不是数据库

把"LLM写文件"当成存储层,等价于让一个没有事务、没有约束、上下文有限、还会幻觉的实体去维护关键状态。它的失败模式是结构性的,不是prompt调一调、postToolUse修一修能彻底解决的:

失败模式 根因
Schema漂移 LLM是生成模型,不是确定性序列化器
整文件重写丢数据 上下文窗口装不下全量状态,LLM只能"凭印象"重写
没校验闸门 错误写入和正确写入对LLM来说看起来一样
过期读 LLM看到的永远是上一轮的快照
自由文本枚举 自然语言模型天生抗拒离散约束
不幂等 LLM不知道"我上一秒做过这件事"

结论:状态必须住在进程里,由工程师管。LLM只负责"提出意图"。


四、Claude Code是怎么做的

翻开Claude Code的开源代码,我没有看到任何"write your progress to a file"的prompt。而是四个独立工具:

  • TaskCreate:新建任务- TaskGet:读取单个任务详情- TaskList:列出所有任务- TaskUpdate:更新任务(partial patch)

每个工具的入参都是一个strict zod schemaadditionalProperties: false),存储完全在主进程的内存+持久化层里,UI直接订阅这个store渲染。

text 复制代码
// src/tools/TaskUpdateTool/prompt.ts节选Use this tool to update a task in the task list.

## Status Workflow
Status progresses: pending → in_progress → completed
Use `deleted` to permanently remove a task.

## Staleness
Make sure to read a task's latest state using `TaskGet` before updating it.
```更关键的是BashTool的提示里反过来明确写着:

> NEVER use the TodoWriteTool or Agent tools (inside specific subroutines)
>
> Reserve using the Bash exclusively for system commands ... If you are unsure and there is a relevant dedicated tool, default to using the dedicated tool.而系统主提示词里又再写一遍:"Do NOT use the Bash to run commands when a relevant dedicated tool is provided. ... This is CRITICAL to assisting the user."

**三层叠加**:

1. **架构隔离** --- 任务存储不是文件,Bash物理上写不进
2. **Schema闸门** --- 每个Task工具都是strict zod,非法入参直接拒
3. **Prompt引导** --- 正向要求+反向禁止+每个工具自带*When to Use / NOT to Use*

这才是LLM能"稳定"管理状态的真正原因------**模型并没有变聪明,是错误路径被工程上堵死了**。

---

##五、推荐架构```
LLM ──tool_call(JSON)──▶ Validator (strict schema)
                              │
                              ▼  拒绝非法 → 错误返回LLM自修Your Store (SQLite / Redis / RDB)
                              │
                              ▼
                    Tool返回规范化、格式化后的文本 ──▶ LLM
```四层职责:

|层|职责|谁写|
|----|------|------|
| LLM |提出"意图" |模型|
| Tool Schema |校验、归一化、拒绝|工程师|
| Store |持久化、并发、事务|工程师|
| Formatter |把存储结构渲染成LLM易读文本|工程师|

---

##六、8条工程化原则

### 1.一动词一工具

不要`updateProgress(整个state)`,拆成:

```text
progress.create({ subject, description })          // → 服务端返回id
progress.get({ id })
progress.list({ status? })
progress.update({ id, patch })                      //只接patch
progress.delete({ id })

每个工具是一个原子操作。LLM再也"重写不了整个世界"。

2. Strict Schema把校验前移到工具边界

ts 复制代码
import { z } from 'zod';

const StatusEnum = z.enum(['pending', 'in_progress', 'done', 'blocked']);

const CreateInput = z.strictObject({
  subject: z.string().min(1).max(200),
  description: z.string().max(2000).optional(),
  blockedBy: z.array(z.string()).optional(),
});

const UpdateInput = z.strictObject({
  id: z.string(),
  patch: z.strictObject({
    status: StatusEnum.optional(),
    subject: z.string().min(1).max(200).optional(),
    description: z.string().max(2000).optional(),
  }),
  expectedVersion: z.number().int().optional(),
});

要点

  • strictObject → 多余字段直接拒(防止幻觉新字段)
    -枚举 → 拒绝"Done" / "complete"
  • ID 不让LLM生成,服务端uuid/自增-拒绝时返回结构化错误,让LLM下一轮自我修正

3. Patch语义,不要Replace语义update只接diff,不接整条记录:

ts 复制代码
// ❌ 错progress.update({ id: '3', record: { subject, description, status, ... } });

// ✅ 对progress.update({ id: '3', patch: { status: 'done' } });

好处

-不需要LLM把全量上下文背在脑子里-不可能误删兄弟字段- token消耗大幅下降

4.服务端格式化的读接口list / get的返回值由代码渲染,而不是吐原始JSON:

ts 复制代码
function renderTaskList(tasks: Task[]): string {
  return tasks.map(t => {
    const blocked = t.blockedBy.length
      ? ` [blocked by ${t.blockedBy.map(id => `#${id}`).join(', ')}]`
      : '';
    const owner = t.owner ? ` (${t.owner})` : '';
    return `#${t.id} [${t.status}] ${t.subject}${owner}${blocked}`;
  }).join('\n');
}

LLM每次看到的都是同样形状,下游行为天然稳定。Claude Code的TaskListTool.mapToolResultToToolResultBlockParam就是这套做法。

5.过期写防护

两种成本递增的方案:

ts 复制代码
//方案A:文档约定//在update工具描述里写:
// "Always call `get` before `update` to fetch the latest state."

//方案B:版本号/ etag(真正的乐观并发)
progress.update({
  id: '3',
  expectedVersion: 7,
  patch: { status: 'done' },
});
//服务端比对版本,不一致直接拒```

### 6.幂等键```ts
progress.create({
  subject: 'Fix login bug',
  idempotencyKey: 'turn-42-task-A',
});
//同一个key重复调用 → 返回已有记录,不重复创建```

LLM重试、回放对话历史时不会污染状态。

### 7. Prompt加固(锦上添花)

系统提示词+每个工具描述里写清楚:

- "所有进度跟踪必须用`progress.*`工具"
- "**严禁**用shell或文件写工具维护进度文件"
-每个工具配*When to Use / When NOT to Use*
-在Bash/Write工具的描述里**也**显式禁掉这条路(双向围栏)

光靠prompt不够,但和前6条一起就是保险带+安全绳。

### 8.让错误路径"做了也没用"如果你的UI /系统**只从store读**,那么LLM即便写了野文件,也什么都不会发生:

- UI不刷新-后续`list`看不到-依赖关系不生效**架构级约束>> Prompt级约束**。"做不到"永远比"被告知不要做"靠谱。

---

##七、最小可用实现(TypeScript + zod + SQLite)

```ts
// store.ts
import Database from 'better-sqlite3';
import { randomUUID } from 'crypto';

const db = new Database('progress.db');
db.exec(`
  CREATE TABLE IF NOT EXISTS tasks (
    id TEXT PRIMARY KEY,
    subject TEXT NOT NULL,
    description TEXT,
    status TEXT NOT NULL DEFAULT 'pending',
    version INTEGER NOT NULL DEFAULT 1,
    created_at INTEGER NOT NULL,
    updated_at INTEGER NOT NULL
  );
  CREATE TABLE IF NOT EXISTS idempotency (
    key TEXT PRIMARY KEY,
    task_id TEXT NOT NULL
  );
`);

export const store = {
  create(input: { subject: string; description?: string; idempotencyKey?: string }) {
    if (input.idempotencyKey) {
      const row = db.prepare('SELECT task_id FROM idempotency WHERE key = ?').get(input.idempotencyKey);
      if (row) return this.get((row as any).task_id);
    }
    const id = randomUUID();
    const now = Date.now();
    db.prepare(`INSERT INTO tasks (id, subject, description, status, version, created_at, updated_at)
                VALUES (?, ?, ?, 'pending', 1, ?, ?)`)
      .run(id, input.subject, input.description ?? null, now, now);
    if (input.idempotencyKey) {
      db.prepare('INSERT INTO idempotency (key, task_id) VALUES (?, ?)').run(input.idempotencyKey, id);
    }
    return this.get(id);
  },

  update(input: { id: string; expectedVersion?: number; patch: Record<string, unknown> }) {
    const current = this.get(input.id);
    if (!current) throw new ToolError('NOT_FOUND', `Task ${input.id} not found`);
    if (input.expectedVersion != null && current.version !== input.expectedVersion) {
      throw new ToolError('STALE', `expected v${input.expectedVersion}, got v${current.version}; call get() and retry`);
    }
    const fields = ['subject', 'description', 'status'].filter(k => k in input.patch);
    const sets = fields.map(f => `${f} = ?`).join(', ');
    const values = fields.map(f => (input.patch as any)[f]);
    db.prepare(`UPDATE tasks SET ${sets}, version = version + 1, updated_at = ? WHERE id = ?`)
      .run(...values, Date.now(), input.id);
    return this.get(input.id);
  },

  get(id: string) {
    return db.prepare('SELECT * FROM tasks WHERE id = ?').get(id) as Task | undefined;
  },

  list() {
    return db.prepare('SELECT * FROM tasks ORDER BY created_at').all() as Task[];
  },
};
ts 复制代码
// tools.ts ------ 工具边界做schema校验export const tools = {
  'progress.create': {
    inputSchema: CreateInput,
    handler: (args: z.infer<typeof CreateInput>) => store.create(args),
  },
  'progress.update': {
    inputSchema: UpdateInput,
    handler: (args: z.infer<typeof UpdateInput>) => store.update(args),
  },
  // ...
};

//调用入口export function callTool(name: string, rawArgs: unknown) {
  const tool = tools[name];
  if (!tool) return { error: `unknown tool: ${name}` };
  const parsed = tool.inputSchema.safeParse(rawArgs);
  if (!parsed.success) {
    return { error: 'INVALID_INPUT', details: parsed.error.issues };  //立刻返回给LLM
  }
  try {
    return { ok: tool.handler(parsed.data) };
  } catch (e) {
    if (e instanceof ToolError) return { error: e.code, message: e.message };
    throw e;
  }
}
```这套100行级别的代码,已经把上面8条原则里最关键的5条(动词拆分、strict schema、patch、过期写防护、幂等键)实现了。

---

##八、迁移阶梯(从最便宜到最强)

如果你已经在跑"LLM写文件"的旧方案,不必一夜重构。建议按这个顺序推进:

1. **本周** --- 在工具边界加strict schema校验,失败时返回结构化错误。光这一步通常稳定性翻倍。
2. **下周** --- 把"整文件写"换成**patch-only update**,服务端分配ID。
3. **下个迭代** --- 存储迁到SQLite /你已有的DB,LLM完全看不到文件。
4. **打磨期** --- 加version/etag、幂等键、审计日志。
5. **收尾** --- 收紧系统提示词+工具描述+在Bash/Edit路径里显式禁掉旁路。

---

##九、如果必须保留文件存储

某些sandbox /内网场景确实跑不起持久服务。这时降级方案:

- **一条记录一个文件**(UUID文件名)--- 物理消除"误改兄弟"
- **append-only事件日志** +物化视图 --- LLM只追加事件,状态由你聚合- update用**JSON Patch (RFC 6902)**而不是整条对象-每次写入都过**包装器**(FileWriteTool上面套一层)做schema校验,失败立即报错给LLM核心思想没变:**减少LLM一次能搞砸的范围**。

---

##参考

- [Claude Code开源仓库](https://github.com/codeaashu/claude-code)(`src/tools/TaskCreateTool` / `TaskUpdateTool` / `TaskListTool` / `TaskGetTool`)
- `src/constants/prompts.ts`的`getUsingYourToolsSection`:主提示词如何正反两面引导
- `src/tools/BashTool/prompt.ts`:BashTool自己如何把任务管理排除在职责外
- [RFC 6902 JSON Patch](https://tools.ietf.org/html/rfc6902)
- zod `strictObject` / Pydantic `model_config = ConfigDict(extra='forbid')`
相关推荐
Agent手记4 小时前
环保排放数据自动上报全流程自动化—— 2026企业级智能体(Agent)落地全指南
运维·人工智能·ai·自动化
可信AI Coding5 小时前
AI产业周报|AI编程工具的代际跃迁:可信智能开发进入自主时代
ai·大模型·编程
彦为君5 小时前
JavaSE-11-BIO/NIO/AIO(多人聊天室)
java·开发语言·python·ai·nio
ashen♂6 小时前
OpenClaw Windows本机安装
ai·openclaw
彦为君6 小时前
JavaSE-10-并发编程(11个案例)
java·开发语言·python·ai·nio
这是谁的博客?7 小时前
AI 领域精选新闻(2026-05-21)
人工智能·gpt·ai·google·大模型·gemini·新闻
Elastic 中国社区官方博客8 小时前
在 Elasticsearch 中,存储向量查询速度最高提升 3 倍
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索
searchforAI9 小时前
视频画面里的PPT怎么提取?视频转图文讲义的实操教程
人工智能·学习·ai·aigc·powerpoint·音视频·贴图