【AI编程通识】从模型到Agent，从Prompt到Harness

文章目录

一、AI辅助编程方式：Prompt、Context、Harness
- [1. 演化主线](#1. 演化主线)
- [2. 顶层范式：Vibe Coding vs. Agentic Coding](#2. 顶层范式：Vibe Coding vs. Agentic Coding)
- - [2.1 Vibe Coding（氛围编码）](#2.1 Vibe Coding（氛围编码）)
  - [2.2 Agentic Coding（代理编码）](#2.2 Agentic Coding（代理编码）)
  - [（1）Prompt Engineering（提示词工程）](#（1）Prompt Engineering（提示词工程）)
  - [（2）Context Engineering（上下文工程）](#（2）Context Engineering（上下文工程）)
  - [（3）Harness Engineering（驾驭工程）------ Agent = LLM + Harness](#（3）Harness Engineering（驾驭工程）—— Agent = LLM + Harness)
  - [（4）Coordination Engineering（协同工程）](#（4）Coordination Engineering（协同工程）)
[二、AI主流编程工具：Cursor、Codex、Claude Code](#二、AI主流编程工具：Cursor、Codex、Claude Code)
- [📊 核心性能与定位对比](#📊 核心性能与定位对比)
- [🔍 深度解读：数据背后的核心差异](#🔍 深度解读：数据背后的核心差异)
- - [1. 性能表现：专长不同，赛道不同](#1. 性能表现：专长不同，赛道不同)
  - [2. 任务架构：决定工作方式的根本](#2. 任务架构：决定工作方式的根本)
  - [3. 成本与陷阱：不止看标价](#3. 成本与陷阱：不止看标价)
三、AI交互模式：Ask、Plan、Craft、Agent
- [1. 四种模式（对比）](#1. 四种模式（对比）)
- [2. 四大工具对四种模式的支持对比](#2. 四大工具对四种模式的支持对比)
- [3. 交互模式（详解）](#3. 交互模式（详解）)
- - [1. Ask 模式（先问，后议，不行动） ------ 安全的顾问](#1. Ask 模式（先问，后议，不行动） —— 安全的顾问)
  - [2. Plan 模式（先议，后定，再行动） ------ 严谨的建筑师](#2. Plan 模式（先议，后定，再行动） —— 严谨的建筑师)
  - [3. Craft 模式（听令，即做，快迭代） ------ 高效的执行者](#3. Craft 模式（听令，即做，快迭代） —— 高效的执行者)
  - [4. Agent 模式（委派，闭环，全自主） ------ 全自主的工程师](#4. Agent 模式（委派，闭环，全自主） —— 全自主的工程师)
其他
- [AI产品形态：基础大模型、对话式AI、AI Agent](#AI产品形态：基础大模型、对话式AI、AI Agent)
- [大模型 API 调用的响应模式：非流式请求 vs. 流式请求](#大模型 API 调用的响应模式：非流式请求 vs. 流式请求)
- [会议纪要主流AI工具 ------ 实时录音转文字，自动生成会议纪要](#会议纪要主流AI工具 —— 实时录音转文字，自动生成会议纪要)

一、AI辅助编程方式：Prompt、Context、Harness

text 复制代码

AI辅助编程方式
│
├── 演化阶段（能力维度）
│   ├── 语法级补全（2020--2023）
│   ├── 语义理解与对话（2023--2025）→ 催生 Vibe Coding
│   └── 智能体架构（2026--今）    → 推动 Agentic Coding
│
├── 顶层范式（协作模式）
│   ├── Vibe Coding
│   └── Agentic Coding
│       └── 底层三组件
│           ├── Prompt Engineering
│           ├── Context Engineering
│           └── Harness Engineering
│
└── 说明
    └── Vibe Coding 不强制使用三组件，其核心是直接对话与人类判断。
        若借用部分组件（如清晰提示），属于对 Agentic 能力的共用，不改变范式定义。

1. 演化主线

演化阶段	时间窗口	核心能力	对应的主导范式	代表工具/标志	要点说明
语法级补全	2020--2023	预测下一行/若干行代码	尚未形成独立范式	GitHub Copilot（初代）	AI 首次进入编程领域，作为"高级自动补全"存在；开发者需提供完整上下文语义
语义理解与对话	2023--2025	自然语言 → 代码，局部需求理解	Vibe Coding 成为主流	ChatGPT 集成、Copilot Chat	工具形态从 IDE 内补全转向 agent 中心化工作流；Cursor agent 用量一年增长超 15 倍，用户重心从 Tab 补全转向 Agent
智能体架构	2026--至今	自主规划、执行、测试、迭代	Agentic Coding 成为焦点	Claude Code、Codex、Cursor	核心跃迁：AI 从"被动响应"升级为"主动执行"；能够自主规划多步任务、调用外部工具、运行测试并迭代修正

2. 顶层范式：Vibe Coding vs. Agentic Coding

范式	定义	主导方	交互模式
Vibe Coding	开发者通过自然语言对话与AI协作，AI生成代码，人类即时评估并持续迭代，始终在回路中	人类	对话式、步骤式
Agentic Coding	AI智能体自主理解目标、拆解任务、调用工具、执行代码、运行测试、根据反馈修正，最小化人工干预	AI智能体	目标驱动、闭环自主

2.1 Vibe Coding（氛围编码）

起源：术语由 Andrej Karpathy 于 2025 年 2 月在社交媒体上提出。

定义与特征 ：开发者通过自然语言对话与 AI 协作，AI 生成代码，人类即时评估并持续迭代。开发者可公开接受或忽略某些风险，而不像传统测试驱动开发那样严格要求所有验证环节。2025 年综述《A Survey of Vibe Coding with Large Language Models》将其界定为一种由开发者、项目上下文与编码 agent 共同构成的协同开发范式，归纳出迭代式对话、规划驱动、测试驱动、上下文增强等若干典型模式。

统计数据：Index.dev 2025 年分析显示，84% 的开发者正在使用 AI 编码工具，41% 的代码由 AI 部分生成。DORA 2025 报告调查近 5000 名开发者发现，90% 在工作中使用 AI 工具（同比增长 14%），超 80% 表示 AI 提升了生产力。

学术争议：低经验的 vibe coder 会生成更大体量的代码（提交数 2.15 倍、变更文件数 1.47 倍），收到 4.52 倍以上的评审意见，接受率低 31%，开启时长远 5.16 倍。这意味着项目管理者无法安全地替代经验丰富的开发者，而必须增加评审能力。

2.2 Agentic Coding（代理编码）

定义与特征 ：AI 智能体自主理解目标、拆解任务、调用工具、执行代码、运行测试、根据反馈修正，最小化人工干预。SonarSource 对 1100 多名软件开发者的调查显示，64% 的开发者已经开始使用 AI agent 进行开发工作（39% 试验中，25% 日常经常使用）。

使用场景分布：68% 使用 agent 创建代码文档，61% 用于自动测试生成与执行，57% 用于自动代码审查。高风险的漏洞修补仅占 28%。

采纳率：Romain Robbes 等人首次对 GitHub 上编码 agent 的大规模研究（128,018 个项目）表明，agent 采纳率已达 22.20%--28.66%。

企业投资：MIT Technology Review 与 SoftServe 发布的报告（300 位高级技术高管）显示，50% 的组织将 agentic AI 列为当前软件工程的顶级投资优先项，84% 表示到 2029 年将成为首要投资领域。

方法论区分：Thoughtworks 技术雷达指出，2025 年行业已从 vibe coding 的松散、基于氛围的方式，转向了系统化的上下文管理方法，但人类开发者依然至关重要。

工程范式	一句话概括	控制对象
Prompt Engineering	怎么问	单个问答
Context Engineering	给什么信息	单次对话的上下文
Harness Engineering	怎么约束和验证	单个Agent的执行环境
Coordination Engineering	怎么协作	多个Agent的团队

（1）Prompt Engineering（提示词工程）

定义：设计、优化和动态生成输入提示的技术，包括角色设定、任务分解、输出格式约束、示例等。

时间：2022--2024年，作为AI辅助编程的第一代范式兴起。

核心要点：

提示质量直接决定输出准确性
支持多级任务拆解和动态生成
实践中倾向于迭代多轮对话而非单次完美提示
复杂代码生成和调试仍有挑战，文档类任务最可靠

适用场景：复杂任务拆解、格式约束、领域知识注入。

（2）Context Engineering（上下文工程）

定义：主动收集、维护并注入项目上下文的技术，包括代码库结构、依赖、API定义、设计文档等。

时间：约2025年起，Anthropic提出，被确立为第二代范式。

核心要点：

结合长期记忆 （向量数据库）与短期感知（当前会话）
支持多粒度上下文：文件/模块/仓库级别
核心难点：在有限窗口内选择性注入最相关信息
标志着从"优化话术"升级到"管理AI的信息环境"

适用场景：大型项目重构、多文件协同修改、风格一致性保持。

（3）Harness Engineering（驾驭工程）------ Agent = LLM + Harness

定义：自动化验证框架的设计与实现，用于检验生成代码的正确性、安全性、规范性，形成"生成→验证→反馈→再生成"闭环。

时间：2025下半年--2026年，作为第三代范式确立。

核心要点：

责任分离：LLM负责思考，Harness负责约束、验证和管控
核心信念：靠代码、linter、测试保证正确性，而非依赖LLM的直觉
支持自动生成测试用例和分级验证（快速语法检查 → 完整运行测试）
仅调整Harness、保持模型固定，可使agent得分提升26%

适用场景：高可靠性模块、CI/CD代码生成、回归测试保障。

（4）Coordination Engineering（协同工程）

定义：设计和管理多个AI Agent如何分工协作来完成复杂任务的技术。

时间：2026年至今，正在兴起的第四代范式（目前更多是设计理念和方法论，尚未标准化普及）。

核心要点：

主Agent负责拆解与调度，Subagents各司其职独立执行
并行执行多个子任务，大幅提升效率
故障隔离：单个子任务失败不影响全局，只需重跑该子任务
解决了单一Agent面临的上下文爆炸、串行慢、全局易崩三大问题

适用场景：复杂多模块任务、需要多种专业能力并行的工作、追求高效率的AI团队协作。

二、AI主流编程工具：Cursor、Codex、Claude Code

在2026年的AI编程工具领域，OpenAI Codex、Claude Code和Cursor 已分化为三种截然不同的产品形态，它们不再是同类竞品，而是服务于不同开发场景的专属工具。直接的基准测试分数对比已无太大意义，真正的选择应基于你的主力工作台是IDE、终端还是云端任务面板。

以下将从核心形态、性能基准、成本模型和最佳场景四个维度，为你梳理这三款工具的最新实力定位。

📊 核心性能与定位对比

对比维度	Cursor	OpenAI Codex	Claude Code
产品形态	AI原生IDE（基于VS Code）	云端委派型Agent（CLI+App）	终端优先型Agent
核心基准	Terminal-Bench 2.0 ：61.7% SWE-bench Multilingual：73.7%	Terminal-Bench 2.0 ：77.3% SWE-bench Pro：56.8%	SWE-bench Verified ：80.8% Terminal-Bench 2.0：65.4%
上下文窗口	较大（结合Cloud Agents）	200K tokens	100万 tokens
性能特性	编辑器集成最深，交互流畅	速度最快（1000+ tok/s），任务隔离最强	任务最彻底（但Token消耗高3-4倍）
月费成本	$20/月起（Pro）	包含在ChatGPT Plus（$20/月）中	$20/月（Pro）
最佳场景	日常主力IDE，边写边改	安全隔离的云端任务、并行处理	复杂重构、大型代码库排障

🔍 深度解读：数据背后的核心差异

1. 性能表现：专长不同，赛道不同

三者各自在一个关键的细分赛道上领先，没有绝对的"全能冠军"。

Codex在终端任务上最快 ：它在Terminal-Bench 2.0 （真实终端任务）上获得了77.3% 的最高分，推理速度高达1000+ tokens/秒，是Claude Code的5倍。如果你的任务是快速、高频的终端交互，Codex是性能首选。
Claude Code在软件工程上最"稳" ：它在SWE-bench Verified （软件工程任务）上取得了80.8% 的最高分，体现了处理复杂、真实世界代码问题的强大能力。但代价是它会消耗3-4倍于Codex的Token来追求"彻底性"。
Cursor在"自研+集成"上进步神速 ：其自研的Composer 2 模型在Terminal-Bench 2.0 上得分61.7% ，超越了Claude Opus 4.6的58.0%，并且将成本降低至后者的1/10。这说明Cursor正在快速摆脱对第三方模型的依赖。

2. 任务架构：决定工作方式的根本

三者的架构设计决定了它们适合完成什么类型的任务。

Cursor：IDE中心主义。它的设计目标是让你的编辑器更强大，适合边写代码边和AI协作，是日常开发的"主力环境"。
Codex：云端沙箱隔离 。每个任务都运行在独立、无网络访问的云端容器中，这带来了最强的任务隔离性和安全性，非常适合处理你不信任或需要绝对保密的代码片段。
Claude Code：终端里的Agent Teams 。它支持创建多个子Agent，这些Agent可以相互通信、共享任务列表、跟踪依赖关系，协同完成一个复杂的大工程，比如同时进行代码研究、实现和测试。

3. 成本与陷阱：不止看标价

Cursor：$20/月的固定订阅费，对于重度IDE用户是清晰的开销。
Codex：对已有的ChatGPT Plus（$20/月）用户是"零边际成本"的增值服务，极具吸引力。
Claude Code ：$20/月的订阅费看起来不高，但要注意，如果配置不当使用API密钥，会产生额外账单。更重要的是，它"高Token消耗"的特性（3-4倍于Codex）可能会导致你更快地触及使用上限。
本实际使用体验的反馈。

三、AI交互模式：Ask、Plan、Craft、Agent

1. 四种模式（对比）

模式	核心准则	AI 的权限	你的角色	最佳应用场景
Ask	先问，后议，不行动	只读（可阅读、分析、搜索，无写入/执行权限）	提问者、决策者	学习框架、理解逻辑、方案讨论
Plan	先议，后定，再行动	受限写入（可生成计划文件，需确认后才进入编码）	审核者、拍板人	复杂功能开发、架构设计、多文件重构
Craft	听令，即做，快迭代	高度自治（跨文件批量生成/修改代码，直接产出）	目标设定者、验收者	快速原型、明确 Bug 修复、重复代码生成
Agent	委派，闭环，全自主	完全自主（可跨文件修改、执行终端命令、自行纠错）	最终验收者	端到端复杂任务、无人值守执行

2. 四大工具对四种模式的支持对比

工具	Ask	Plan	Craft	Agent	整体风格
GitHub Copilot	✅ `Ask Agent` / 内联对话	✅ `Plan Mode` 生成 `plan.md`	✅ `Edit` 代理（单文件精准修改）	✅ `Agent` 模式（跨文件 + 终端）	阶梯清晰，从对话到全自主
Cursor	✅ `Ask`（`Cmd+L`）	✅ `Plan` 模式（生成步骤，审核后执行）	✅ `Edit`（`Cmd+K`，框选修改）	✅ `Agent` 模式（`Cmd+I`，默认主力）	模式最全，控制颗粒度细
Codex	❌ 无独立 Ask	❌ 无显式 Plan	❌ 无 Craft	✅ 唯一模式：云端容器全自动 Agent	纯 Agent，任务隔离，无中间态
Claude Code	✅ 默认对话即 Ask	✅ `Plan Mode`（`Shift+Tab`，核心模式，只读规划）	❌ 不单独提供	✅ 通过多子 Agent 隐式实现（但行动源于 Plan）	强规划，先分析后执行，保守彻底

注：Codex 不提供 Ask/Plan/Craft，因为其设计理念是"直接委派任务给 Agent，无需中间交互"。

3. 交互模式（详解）

1. Ask 模式（先问，后议，不行动） ------ 安全的顾问

核心理念

AI 仅作为顾问：回答你的问题、解释代码逻辑、搜索相关信息、提供实现思路，但绝不会修改任何文件或执行任何命令。这是一次只读的安全对话。

特点

零风险：不会意外改动代码
适合探索性工作：学习新框架、理解遗留系统、讨论多种方案优劣
AI 可以引用当前代码库内容作为依据

典型工作流

你提出问题 → AI 分析并给出建议 → 你根据建议自行编写代码

2. Plan 模式（先议，后定，再行动） ------ 严谨的建筑师

核心理念

在"理解需求"和"动手编码"之间强制插入规划环节。AI 先输出一份结构化的实施计划（通常分阶段、列清单、标依赖），你审阅、修改、确认后，AI 才按计划执行。这是提高复杂任务可控性的关键模式。

特点

计划可见可改：所有步骤都以文档形式呈现
降低不确定性：大型重构、架构变更前先锁定方案
支持"确认后执行"：你可以选择仅生成计划，或让 AI 在确认后自动执行各步骤

典型工作流

提出需求 → AI 生成计划 → 你审核/修改计划 → （可选）AI 按计划逐步执行

3. Craft 模式（听令，即做，快迭代） ------ 高效的执行者

核心理念

听令即做，直接产出代码 。AI 能够跨文件理解上下文，一次性生成或修改多个文件，无需逐条确认。与 Agent 的区别在于：Craft 通常不主动执行终端命令，也不具备反复试错的自愈能力，属于"一次性批量代码生成"。

特点

快速响应：适合明确、中等粒度的任务
跨文件协作：可同时创建/修改多个相关文件
无自主命令执行：不会运行测试、安装依赖或启动服务

典型工作流

你描述需求 → AI 直接生成/修改代码 → 你审阅所有变更 → 接受或拒绝

4. Agent 模式（委派，闭环，全自主） ------ 全自主的工程师

核心理念

完全委派：AI 作为自主智能体，能够独立完成端到端的复杂任务。它自己规划步骤、跨文件搜索修改代码、执行终端命令、运行测试、分析报错并自动修复，直到任务完成或遇到无法解决的阻塞。

特点

闭环自主：无需人工中途干预
工具齐全：可调用文件系统、终端、LSP、浏览器等
具备韧性：失败后可自动尝试不同方案

典型工作流

你下达最终目标（如"为支付模块添加 Stripe 支持，并确保所有测试通过"） → AI 自主规划、执行、纠错 → 你验收最终结果

其他

AI产品形态：基础大模型、对话式AI、AI Agent

类别	子类	核心定位	核心类比	自主性	工具调用方式	典型代表
基础大模型（Foundation Models）	文本大模型（Large Language Model，LLM）	智能能力本身（文本）	引擎	无	不能调用工具	国际：GPT-5.4、Claude Opus 4.6、Grok 4.20、Llama 4、Mistral Large 3 国产：DeepSeek-V3/R1、通义千问Qwen 3.5、GLM-5、Kimi K2.5、文心一言5.0、MiniMax M2.5、腾讯混元
	多模态大模型（Large Multimodal Model，LMM）	智能能力本身（图文/音/视频）	引擎	无	不能调用工具	国际：Gemini 2.5/3.1、GPT-5 with vision、Claude 4 Vision、Llama 4 MultiModal、Sora、Veo、Runway Gen-4、Stable Diffusion 4.0 国产：通义万相、文心多模态、GLM-4V、智谱清影、可灵Kling 3.0、海艺AI、即梦Seedance 2.0
对话式AI（Conversational AI，CoAI）	---	智能能力的对话封装	整车	低（回合对话）	用户主动触发，单步	国际：ChatGPT、Claude.ai、Gemini、Perplexity、Microsoft Copilot、Grok 国产：豆包、Kimi、DeepSeek Chat、文心一言、通义千问
AI 智能体 (AI Agent)	---	智能能力的自主执行体	自动驾驶车队	高（自主规划、多步闭环）	自动拆解任务、多工具链式调用	国际：Cursor、Claude Code、OpenAI Codex、Devin、GitHub Copilot Agent、Windsurf、Google Antigravity 国产：豆包Agent、文心快码、通义灵码、智谱AutoGLM

python 复制代码

基础大模型（底层智能）
    ↓ 封装
对话式AI（对话交互界面）
    ↓ 增强自主性
AI Agent（自主执行体）
# AI Agent通常内部包含一个或多个大模型，也可能以对话式AI作为前端入口，但其核心是**执行闭环**而非问答。

大模型 API 调用的响应模式：非流式请求 vs. 流式请求

核心区别在于数据返回的方式和时机。

维度	非流式请求 (Non-Streaming)	流式请求 (Streaming)
响应方式	一次性返回完整结果	逐字/逐块返回生成内容
用户感知	等待后一次性呈现	实时看到生成过程（打字机效果）
首字延迟	较高（需等待完整生成）	极低（首块内容快速返回）
适用场景	短内容、简单问答、批量处理	长文本、实时对话、ChatGPT式交互
技术实现	单次 HTTP 请求+响应	SSE（Server-Sent Events）或 WebSocket
中断能力	不支持（一旦开始必须等待完成）	支持（可随时关闭连接停止生成）
代表产品	批量 API 调用、离线任务	ChatGPT、Claude 网页版、DeepSeek Chat

python 复制代码

【非流式】
用户 ──请求──▶ 服务器（生成中...生成完成）──完整结果──▶ 用户
        等待时间 = 完整生成时间

【流式】
用户 ──请求──▶ 服务器 ──第一块──▶ 用户（看到开头）
                ──第二块──▶ 用户（继续）
                ──第三块──▶ 用户（继续）
                ──完成────▶ 用户
         首字延迟极低，边生成边显示
         
################################################
# 非流式
response = client.chat.completions.create(
    model="gpt-4",
    messages=[{"role": "user", "content": "讲个故事"}],
    stream=False  # 非流式
)
print(response.choices[0].message.content)  # 一次性输出完整故事


# 流式
response = client.chat.completions.create(
    model="gpt-4",
    messages=[{"role": "user", "content": "讲个故事"}],
    stream=True  # 流式
)
for chunk in response:
    print(chunk.choices[0].delta.content, end="")  # 逐字输出
################################################

会议纪要主流AI工具 ------ 实时录音转文字，自动生成会议纪要

工具	类型	核心功能	支持平台	免费额度	付费起价
Otter.ai	国际/实时转录	实时转录、自动摘要、发言人识别	Zoom、Meet、Teams、Webex	300分钟/月	$16.99/月
Fireflies.ai	国际/实时转录	转录、摘要、动作项提取、知识库搜索	全平台+API	无限（功能受限）	$19/月
Fathom	国际/会议机器人	一键录制、高亮标记、CRM集成	Zoom、Meet、Teams	完全免费	---
Read.ai	国际/会议机器人	健康度分析、情绪识别、参与度追踪	Zoom、Teams、Meet	基础免费	$15/月
Tactiq	国际/实时转录	实时字幕、一键生成纪要、导出Docs	Meet、Zoom、Teams	10次/月	$8/月
Avoma	国际/会议机器人	全周期管理（会前→会中→会后）	全平台	30天试用	$30/月
Sembly	国际/会议机器人	任务追踪、风险识别、合规审计	全平台	10次/月	$15/月
通义听悟	国产/实时转录	实时转录、章节速览、PPT提取、中英混合	网页/App	10小时/天	基础免费
讯飞听见	国产/实时转录	ASR转录、多语翻译、发言人分离	网页/App	分钟计费	按分钟
腾讯会议AI助手	国产/原生集成	自动总结、待办提取	腾讯会议	企业版包含	企业版
飞书妙记	国产/原生集成	转录、翻译、智能章节、任务联动	飞书	付费版包含	飞书付费版
华为云会议智能纪要	国产/原生集成	自动区分发言人、实时字幕	华为会议	企业版包含	企业版

需求	首选
个人免费（国际会议）	Fathom
个人免费（中文会议）	通义听悟
功能全面团队使用	Fireflies.ai
飞书/腾讯会议用户	原生AI助手