别让 LLM 写文件：一套 Agent 进度跟踪的工程化范式

摘要：用"把Schema塞Prompt、让LLM写文件"做Agent进度跟踪，我翻车了。本文把我栽过的坑、钩子postToolUse救不了的根本矛盾、Claude Code是怎么绕过去的，以及一套可落地的工程范式，一次讲清楚。

一、一个看起来很优雅的设计
二、钩子postToolUse修正：治标不治本
三、第一性原理：LLM是推理引擎，不是数据库
[四、Claude Code是怎么做的](#四、Claude Code是怎么做的)
五、推荐架构
六、8条工程化原则
[七、最小可用实现（TypeScript + zod + SQLite）](#七、最小可用实现（TypeScript + zod + SQLite）)
八、迁移阶梯（从最便宜到最强）
九、如果必须保留文件存储

一、一个看起来很优雅的设计

给Agent加"进度跟踪"时，最快的方式无疑是把Schema塞进Prompt，让LLM自己维护一个JSON文件。于是我写下：

text 复制代码

You are an agent. Track your progress in `progress.json`.
Schema:
{
  "tasks": [
    { "id": string, "title": string, "status": "todo"|"doing"|"done" }
  ]
}
Update `progress.json` every time you make progress.

简洁，自洽，符合直觉。跑起来之后发现：

跑十次有三次status写成了"Done" / "complete" / "finished"
JSON偶尔多个尾逗号，整个文件挂掉
并发子Agent同时写，文件被覆盖，只留一条

于是我加了一层postToolUse修正------每次LLM写完文件后，用脚本做schema校验、枚举归一化、格式修复：

python 复制代码

# postToolUse.py ------ 每次LLM写完后跑一遍import json

def fix_progress(path):
    with open(path) as f:
        data = json.load(f)

    #修正大小写for task in data.get("tasks", []):
        status = task.get("status", "").lower()
        if status in ("complete", "finished"):
            task["status"] = "done"
        elif status not in ("todo", "doing", "done"):
            task["status"] = "todo"

    with open(path, "w") as f:
        json.dump(data, f, indent=2)
    return data

钩子postToolUse确实能修掉格式错误 和枚举偏差，我终于松了一口气。

二、钩子postToolUse修正：治标不治本

但跑了一段时间，更隐蔽的问题冒出来了：

LLM改一个字段，顺手把其他任务"优化"掉了。 场景是这样的：Agent正在处理task#9，它读取了progress.json，里面有10个任务。它想更新#9的status为"done"，于是调用edit工具输出新的JSON。但LLM拿到的不是"diff"接口，而是"重写整个文件"的指令------它重新生成了一份JSON，task#4被漏掉了。钩子postToolUse校验通过了：schema是对的，字段类型也没错。但task#4没了。

根本矛盾在这里：

问题	钩子postToolUse能修吗？	根因
大小写/枚举偏差	✅ 能	生成模型的自由文本倾向
JSON语法错误	✅ 能	生成模型的序列化不稳定性
整文件重写丢数据	❌ 不能	LLM上下文有限，只能"凭印象"重写
并发覆盖	❌ 不能	文件系统没有事务隔离
幻觉新字段	❌ 不能	生成模型的创造性是特性，不是bug
过期读导致的状态冲突	❌ 不能	LLM看到的永远是上一轮快照

钩子postToolUse是事后修 ，但数据丢失和并发冲突发生在LLM生成的那一刻，根本无从恢复。根本原因是：校验层放错了位置------它应该在LLM动笔之前就把非法意图拦住，而不是等它写完了再擦屁股。

三、第一性原理：LLM是推理引擎，不是数据库

把"LLM写文件"当成存储层，等价于让一个没有事务、没有约束、上下文有限、还会幻觉的实体去维护关键状态。它的失败模式是结构性的，不是prompt调一调、postToolUse修一修能彻底解决的：

失败模式	根因
Schema漂移	LLM是生成模型，不是确定性序列化器
整文件重写丢数据	上下文窗口装不下全量状态，LLM只能"凭印象"重写
没校验闸门	错误写入和正确写入对LLM来说看起来一样
过期读	LLM看到的永远是上一轮的快照
自由文本枚举	自然语言模型天生抗拒离散约束
不幂等	LLM不知道"我上一秒做过这件事"

结论：状态必须住在进程里，由工程师管。LLM只负责"提出意图"。

四、Claude Code是怎么做的

翻开Claude Code的开源代码，我没有看到任何"write your progress to a file"的prompt。而是四个独立工具：

TaskCreate：新建任务- TaskGet：读取单个任务详情- TaskList：列出所有任务- TaskUpdate：更新任务（partial patch）

每个工具的入参都是一个strict zod schema （additionalProperties: false），存储完全在主进程的内存+持久化层里，UI直接订阅这个store渲染。

text 复制代码

// src/tools/TaskUpdateTool/prompt.ts节选Use this tool to update a task in the task list.

## Status Workflow
Status progresses: pending → in_progress → completed
Use `deleted` to permanently remove a task.

## Staleness
Make sure to read a task's latest state using `TaskGet` before updating it.
```更关键的是BashTool的提示里反过来明确写着：

> NEVER use the TodoWriteTool or Agent tools (inside specific subroutines)
>
> Reserve using the Bash exclusively for system commands ... If you are unsure and there is a relevant dedicated tool, default to using the dedicated tool.而系统主提示词里又再写一遍："Do NOT use the Bash to run commands when a relevant dedicated tool is provided. ... This is CRITICAL to assisting the user."

**三层叠加**：

1. **架构隔离** --- 任务存储不是文件，Bash物理上写不进
2. **Schema闸门** --- 每个Task工具都是strict zod，非法入参直接拒
3. **Prompt引导** --- 正向要求+反向禁止+每个工具自带*When to Use / NOT to Use*

这才是LLM能"稳定"管理状态的真正原因------**模型并没有变聪明，是错误路径被工程上堵死了**。

---

##五、推荐架构```
LLM ──tool_call(JSON)──▶ Validator (strict schema)
                              │
                              ▼  拒绝非法 → 错误返回LLM自修Your Store (SQLite / Redis / RDB)
                              │
                              ▼
                    Tool返回规范化、格式化后的文本 ──▶ LLM
```四层职责：

|层|职责|谁写|
|----|------|------|
| LLM |提出"意图" |模型|
| Tool Schema |校验、归一化、拒绝|工程师|
| Store |持久化、并发、事务|工程师|
| Formatter |把存储结构渲染成LLM易读文本|工程师|

---

##六、8条工程化原则

### 1.一动词一工具

不要`updateProgress(整个state)`，拆成：

```text
progress.create({ subject, description })          // → 服务端返回id
progress.get({ id })
progress.list({ status? })
progress.update({ id, patch })                      //只接patch
progress.delete({ id })

每个工具是一个原子操作。LLM再也"重写不了整个世界"。

2. Strict Schema把校验前移到工具边界

ts 复制代码

import { z } from 'zod';

const StatusEnum = z.enum(['pending', 'in_progress', 'done', 'blocked']);

const CreateInput = z.strictObject({
  subject: z.string().min(1).max(200),
  description: z.string().max(2000).optional(),
  blockedBy: z.array(z.string()).optional(),
});

const UpdateInput = z.strictObject({
  id: z.string(),
  patch: z.strictObject({
    status: StatusEnum.optional(),
    subject: z.string().min(1).max(200).optional(),
    description: z.string().max(2000).optional(),
  }),
  expectedVersion: z.number().int().optional(),
});

要点：

strictObject → 多余字段直接拒（防止幻觉新字段）
-枚举 → 拒绝"Done" / "complete"
ID 不让LLM生成，服务端uuid/自增-拒绝时返回结构化错误，让LLM下一轮自我修正

3. Patch语义，不要Replace语义`update`只接diff，不接整条记录：

ts 复制代码

// ❌ 错progress.update({ id: '3', record: { subject, description, status, ... } });

// ✅ 对progress.update({ id: '3', patch: { status: 'done' } });

好处：

-不需要LLM把全量上下文背在脑子里-不可能误删兄弟字段- token消耗大幅下降

4.服务端格式化的读接口`list` / `get`的返回值由代码渲染，而不是吐原始JSON：

ts 复制代码

function renderTaskList(tasks: Task[]): string {
  return tasks.map(t => {
    const blocked = t.blockedBy.length
      ? ` [blocked by ${t.blockedBy.map(id => `#${id}`).join(', ')}]`
      : '';
    const owner = t.owner ? ` (${t.owner})` : '';
    return `#${t.id} [${t.status}] ${t.subject}${owner}${blocked}`;
  }).join('\n');
}

LLM每次看到的都是同样形状，下游行为天然稳定。Claude Code的TaskListTool.mapToolResultToToolResultBlockParam就是这套做法。

5.过期写防护

两种成本递增的方案：

ts 复制代码

//方案A：文档约定//在update工具描述里写：
// "Always call `get` before `update` to fetch the latest state."

//方案B：版本号/ etag（真正的乐观并发）
progress.update({
  id: '3',
  expectedVersion: 7,
  patch: { status: 'done' },
});
//服务端比对版本，不一致直接拒```

### 6.幂等键```ts
progress.create({
  subject: 'Fix login bug',
  idempotencyKey: 'turn-42-task-A',
});
//同一个key重复调用 → 返回已有记录，不重复创建```

LLM重试、回放对话历史时不会污染状态。

### 7. Prompt加固（锦上添花）

系统提示词+每个工具描述里写清楚：

- "所有进度跟踪必须用`progress.*`工具"
- "**严禁**用shell或文件写工具维护进度文件"
-每个工具配*When to Use / When NOT to Use*
-在Bash/Write工具的描述里**也**显式禁掉这条路（双向围栏）

光靠prompt不够，但和前6条一起就是保险带+安全绳。

### 8.让错误路径"做了也没用"如果你的UI /系统**只从store读**，那么LLM即便写了野文件，也什么都不会发生：

- UI不刷新-后续`list`看不到-依赖关系不生效**架构级约束>> Prompt级约束**。"做不到"永远比"被告知不要做"靠谱。

---

##七、最小可用实现（TypeScript + zod + SQLite）

```ts
// store.ts
import Database from 'better-sqlite3';
import { randomUUID } from 'crypto';

const db = new Database('progress.db');
db.exec(`
  CREATE TABLE IF NOT EXISTS tasks (
    id TEXT PRIMARY KEY,
    subject TEXT NOT NULL,
    description TEXT,
    status TEXT NOT NULL DEFAULT 'pending',
    version INTEGER NOT NULL DEFAULT 1,
    created_at INTEGER NOT NULL,
    updated_at INTEGER NOT NULL
  );
  CREATE TABLE IF NOT EXISTS idempotency (
    key TEXT PRIMARY KEY,
    task_id TEXT NOT NULL
  );
`);

export const store = {
  create(input: { subject: string; description?: string; idempotencyKey?: string }) {
    if (input.idempotencyKey) {
      const row = db.prepare('SELECT task_id FROM idempotency WHERE key = ?').get(input.idempotencyKey);
      if (row) return this.get((row as any).task_id);
    }
    const id = randomUUID();
    const now = Date.now();
    db.prepare(`INSERT INTO tasks (id, subject, description, status, version, created_at, updated_at)
                VALUES (?, ?, ?, 'pending', 1, ?, ?)`)
      .run(id, input.subject, input.description ?? null, now, now);
    if (input.idempotencyKey) {
      db.prepare('INSERT INTO idempotency (key, task_id) VALUES (?, ?)').run(input.idempotencyKey, id);
    }
    return this.get(id);
  },

  update(input: { id: string; expectedVersion?: number; patch: Record<string, unknown> }) {
    const current = this.get(input.id);
    if (!current) throw new ToolError('NOT_FOUND', `Task ${input.id} not found`);
    if (input.expectedVersion != null && current.version !== input.expectedVersion) {
      throw new ToolError('STALE', `expected v${input.expectedVersion}, got v${current.version}; call get() and retry`);
    }
    const fields = ['subject', 'description', 'status'].filter(k => k in input.patch);
    const sets = fields.map(f => `${f} = ?`).join(', ');
    const values = fields.map(f => (input.patch as any)[f]);
    db.prepare(`UPDATE tasks SET ${sets}, version = version + 1, updated_at = ? WHERE id = ?`)
      .run(...values, Date.now(), input.id);
    return this.get(input.id);
  },

  get(id: string) {
    return db.prepare('SELECT * FROM tasks WHERE id = ?').get(id) as Task | undefined;
  },

  list() {
    return db.prepare('SELECT * FROM tasks ORDER BY created_at').all() as Task[];
  },
};

ts 复制代码

// tools.ts ------ 工具边界做schema校验export const tools = {
  'progress.create': {
    inputSchema: CreateInput,
    handler: (args: z.infer<typeof CreateInput>) => store.create(args),
  },
  'progress.update': {
    inputSchema: UpdateInput,
    handler: (args: z.infer<typeof UpdateInput>) => store.update(args),
  },
  // ...
};

//调用入口export function callTool(name: string, rawArgs: unknown) {
  const tool = tools[name];
  if (!tool) return { error: `unknown tool: ${name}` };
  const parsed = tool.inputSchema.safeParse(rawArgs);
  if (!parsed.success) {
    return { error: 'INVALID_INPUT', details: parsed.error.issues };  //立刻返回给LLM
  }
  try {
    return { ok: tool.handler(parsed.data) };
  } catch (e) {
    if (e instanceof ToolError) return { error: e.code, message: e.message };
    throw e;
  }
}
```这套100行级别的代码，已经把上面8条原则里最关键的5条（动词拆分、strict schema、patch、过期写防护、幂等键）实现了。

---

##八、迁移阶梯（从最便宜到最强）

如果你已经在跑"LLM写文件"的旧方案，不必一夜重构。建议按这个顺序推进：

1. **本周** --- 在工具边界加strict schema校验，失败时返回结构化错误。光这一步通常稳定性翻倍。
2. **下周** --- 把"整文件写"换成**patch-only update**，服务端分配ID。
3. **下个迭代** --- 存储迁到SQLite /你已有的DB，LLM完全看不到文件。
4. **打磨期** --- 加version/etag、幂等键、审计日志。
5. **收尾** --- 收紧系统提示词+工具描述+在Bash/Edit路径里显式禁掉旁路。

---

##九、如果必须保留文件存储

某些sandbox /内网场景确实跑不起持久服务。这时降级方案：

- **一条记录一个文件**（UUID文件名）--- 物理消除"误改兄弟"
- **append-only事件日志** +物化视图 --- LLM只追加事件，状态由你聚合- update用**JSON Patch (RFC 6902)**而不是整条对象-每次写入都过**包装器**（FileWriteTool上面套一层）做schema校验，失败立即报错给LLM核心思想没变：**减少LLM一次能搞砸的范围**。

---

##参考

- [Claude Code开源仓库](https://github.com/codeaashu/claude-code)（`src/tools/TaskCreateTool` / `TaskUpdateTool` / `TaskListTool` / `TaskGetTool`）
- `src/constants/prompts.ts`的`getUsingYourToolsSection`：主提示词如何正反两面引导
- `src/tools/BashTool/prompt.ts`：BashTool自己如何把任务管理排除在职责外
- [RFC 6902 JSON Patch](https://tools.ietf.org/html/rfc6902)
- zod `strictObject` / Pydantic `model_config = ConfigDict(extra='forbid')`

别让 LLM 写文件：一套 Agent 进度跟踪的工程化范式

目录

一、一个看起来很优雅的设计

二、钩子postToolUse修正：治标不治本

三、第一性原理：LLM是推理引擎，不是数据库

四、Claude Code是怎么做的

2. Strict Schema把校验前移到工具边界

3. Patch语义，不要Replace语义update只接diff，不接整条记录：

4.服务端格式化的读接口list / get的返回值由代码渲染，而不是吐原始JSON：

5.过期写防护

3. Patch语义，不要Replace语义`update`只接diff，不接整条记录：

4.服务端格式化的读接口`list` / `get`的返回值由代码渲染，而不是吐原始JSON：