【AI编程通识】从模型到Agent,从Prompt到Harness

文章目录

  • 一、AI辅助编程方式:Prompt、Context、Harness
    • [1. 演化主线](#1. 演化主线)
    • [2. 顶层范式:Vibe Coding vs. Agentic Coding](#2. 顶层范式:Vibe Coding vs. Agentic Coding)
      • [2.1 Vibe Coding(氛围编码)](#2.1 Vibe Coding(氛围编码))
      • [2.2 Agentic Coding(代理编码)](#2.2 Agentic Coding(代理编码))
      • [(1)Prompt Engineering(提示词工程)](#(1)Prompt Engineering(提示词工程))
      • [(2)Context Engineering(上下文工程)](#(2)Context Engineering(上下文工程))
      • [(3)Harness Engineering(驾驭工程)------ Agent = LLM + Harness](#(3)Harness Engineering(驾驭工程)—— Agent = LLM + Harness)
      • [(4)Coordination Engineering(协同工程)](#(4)Coordination Engineering(协同工程))
  • [二、AI主流编程工具:Cursor、Codex、Claude Code](#二、AI主流编程工具:Cursor、Codex、Claude Code)
    • [📊 核心性能与定位对比](#📊 核心性能与定位对比)
    • [🔍 深度解读:数据背后的核心差异](#🔍 深度解读:数据背后的核心差异)
      • [1. 性能表现:专长不同,赛道不同](#1. 性能表现:专长不同,赛道不同)
      • [2. 任务架构:决定工作方式的根本](#2. 任务架构:决定工作方式的根本)
      • [3. 成本与陷阱:不止看标价](#3. 成本与陷阱:不止看标价)
  • 三、AI交互模式:Ask、Plan、Craft、Agent
    • [1. 四种模式(对比)](#1. 四种模式(对比))
    • [2. 四大工具对四种模式的支持对比](#2. 四大工具对四种模式的支持对比)
    • [3. 交互模式(详解)](#3. 交互模式(详解))
      • [1. Ask 模式(先问,后议,不行动) ------ 安全的顾问](#1. Ask 模式(先问,后议,不行动) —— 安全的顾问)
      • [2. Plan 模式(先议,后定,再行动) ------ 严谨的建筑师](#2. Plan 模式(先议,后定,再行动) —— 严谨的建筑师)
      • [3. Craft 模式(听令,即做,快迭代) ------ 高效的执行者](#3. Craft 模式(听令,即做,快迭代) —— 高效的执行者)
      • [4. Agent 模式(委派,闭环,全自主) ------ 全自主的工程师](#4. Agent 模式(委派,闭环,全自主) —— 全自主的工程师)
  • 其他
    • [AI产品形态:基础大模型、对话式AI、AI Agent](#AI产品形态:基础大模型、对话式AI、AI Agent)
    • [大模型 API 调用的响应模式:非流式请求 vs. 流式请求](#大模型 API 调用的响应模式:非流式请求 vs. 流式请求)
    • [会议纪要主流AI工具 ------ 实时录音转文字,自动生成会议纪要](#会议纪要主流AI工具 —— 实时录音转文字,自动生成会议纪要)

一、AI辅助编程方式:Prompt、Context、Harness

text 复制代码
AI辅助编程方式
│
├── 演化阶段(能力维度)
│   ├── 语法级补全(2020--2023)
│   ├── 语义理解与对话(2023--2025)→ 催生 Vibe Coding
│   └── 智能体架构(2026--今)    → 推动 Agentic Coding
│
├── 顶层范式(协作模式)
│   ├── Vibe Coding
│   └── Agentic Coding
│       └── 底层三组件
│           ├── Prompt Engineering
│           ├── Context Engineering
│           └── Harness Engineering
│
└── 说明
    └── Vibe Coding 不强制使用三组件,其核心是直接对话与人类判断。
        若借用部分组件(如清晰提示),属于对 Agentic 能力的共用,不改变范式定义。

1. 演化主线

演化阶段 时间窗口 核心能力 对应的主导范式 代表工具/标志 要点说明
语法级补全 2020--2023 预测下一行/若干行代码 尚未形成独立范式 GitHub Copilot(初代) AI 首次进入编程领域,作为"高级自动补全"存在;开发者需提供完整上下文语义
语义理解与对话 2023--2025 自然语言 → 代码,局部需求理解 Vibe Coding 成为主流 ChatGPT 集成、Copilot Chat 工具形态从 IDE 内补全转向 agent 中心化工作流;Cursor agent 用量一年增长超 15 倍,用户重心从 Tab 补全转向 Agent
智能体架构 2026--至今 自主规划、执行、测试、迭代 Agentic Coding 成为焦点 Claude Code、Codex、Cursor 核心跃迁:AI 从"被动响应"升级为"主动执行";能够自主规划多步任务、调用外部工具、运行测试并迭代修正

2. 顶层范式:Vibe Coding vs. Agentic Coding

范式 定义 主导方 交互模式
Vibe Coding 开发者通过自然语言对话与AI协作,AI生成代码,人类即时评估并持续迭代,始终在回路中 人类 对话式、步骤式
Agentic Coding AI智能体自主理解目标、拆解任务、调用工具、执行代码、运行测试、根据反馈修正,最小化人工干预 AI智能体 目标驱动、闭环自主

2.1 Vibe Coding(氛围编码)

起源:术语由 Andrej Karpathy 于 2025 年 2 月在社交媒体上提出。

定义与特征 :开发者通过自然语言对话与 AI 协作,AI 生成代码,人类即时评估并持续迭代。开发者可公开接受或忽略某些风险,而不像传统测试驱动开发那样严格要求所有验证环节。2025 年综述《A Survey of Vibe Coding with Large Language Models》将其界定为一种由开发者、项目上下文与编码 agent 共同构成的协同开发范式,归纳出迭代式对话、规划驱动、测试驱动、上下文增强等若干典型模式。

统计数据:Index.dev 2025 年分析显示,84% 的开发者正在使用 AI 编码工具,41% 的代码由 AI 部分生成。DORA 2025 报告调查近 5000 名开发者发现,90% 在工作中使用 AI 工具(同比增长 14%),超 80% 表示 AI 提升了生产力。

学术争议:低经验的 vibe coder 会生成更大体量的代码(提交数 2.15 倍、变更文件数 1.47 倍),收到 4.52 倍以上的评审意见,接受率低 31%,开启时长远 5.16 倍。这意味着项目管理者无法安全地替代经验丰富的开发者,而必须增加评审能力。

2.2 Agentic Coding(代理编码)

定义与特征 :AI 智能体自主理解目标、拆解任务、调用工具、执行代码、运行测试、根据反馈修正,最小化人工干预。SonarSource 对 1100 多名软件开发者的调查显示,64% 的开发者已经开始使用 AI agent 进行开发工作(39% 试验中,25% 日常经常使用)。

使用场景分布:68% 使用 agent 创建代码文档,61% 用于自动测试生成与执行,57% 用于自动代码审查。高风险的漏洞修补仅占 28%。

采纳率:Romain Robbes 等人首次对 GitHub 上编码 agent 的大规模研究(128,018 个项目)表明,agent 采纳率已达 22.20%--28.66%。

企业投资:MIT Technology Review 与 SoftServe 发布的报告(300 位高级技术高管)显示,50% 的组织将 agentic AI 列为当前软件工程的顶级投资优先项,84% 表示到 2029 年将成为首要投资领域。

方法论区分:Thoughtworks 技术雷达指出,2025 年行业已从 vibe coding 的松散、基于氛围的方式,转向了系统化的上下文管理方法,但人类开发者依然至关重要。


工程范式 一句话概括 控制对象
Prompt Engineering 怎么问 单个问答
Context Engineering 给什么信息 单次对话的上下文
Harness Engineering 怎么约束和验证 单个Agent的执行环境
Coordination Engineering 怎么协作 多个Agent的团队

(1)Prompt Engineering(提示词工程)

定义:设计、优化和动态生成输入提示的技术,包括角色设定、任务分解、输出格式约束、示例等。

时间 :2022--2024年,作为AI辅助编程的第一代范式兴起。

核心要点

  • 提示质量直接决定输出准确性
  • 支持多级任务拆解和动态生成
  • 实践中倾向于迭代多轮对话而非单次完美提示
  • 复杂代码生成和调试仍有挑战,文档类任务最可靠

适用场景:复杂任务拆解、格式约束、领域知识注入。


(2)Context Engineering(上下文工程)

定义:主动收集、维护并注入项目上下文的技术,包括代码库结构、依赖、API定义、设计文档等。

时间 :约2025年起,Anthropic提出,被确立为第二代范式

核心要点

  • 结合长期记忆 (向量数据库)与短期感知(当前会话)
  • 支持多粒度上下文:文件/模块/仓库级别
  • 核心难点:在有限窗口内选择性注入最相关信息
  • 标志着从"优化话术"升级到"管理AI的信息环境"

适用场景:大型项目重构、多文件协同修改、风格一致性保持。


(3)Harness Engineering(驾驭工程)------ Agent = LLM + Harness

定义:自动化验证框架的设计与实现,用于检验生成代码的正确性、安全性、规范性,形成"生成→验证→反馈→再生成"闭环。

时间 :2025下半年--2026年,作为第三代范式确立。

核心要点

  • 责任分离:LLM负责思考,Harness负责约束、验证和管控
  • 核心信念:靠代码、linter、测试保证正确性,而非依赖LLM的直觉
  • 支持自动生成测试用例和分级验证(快速语法检查 → 完整运行测试)
  • 仅调整Harness、保持模型固定,可使agent得分提升26%

适用场景:高可靠性模块、CI/CD代码生成、回归测试保障。


(4)Coordination Engineering(协同工程)

定义 :设计和管理多个AI Agent如何分工协作来完成复杂任务的技术。

时间 :2026年至今,正在兴起的第四代范式(目前更多是设计理念和方法论,尚未标准化普及)。

核心要点

  • 主Agent负责拆解与调度,Subagents各司其职独立执行
  • 并行执行多个子任务,大幅提升效率
  • 故障隔离:单个子任务失败不影响全局,只需重跑该子任务
  • 解决了单一Agent面临的上下文爆炸、串行慢、全局易崩三大问题

适用场景:复杂多模块任务、需要多种专业能力并行的工作、追求高效率的AI团队协作。

二、AI主流编程工具:Cursor、Codex、Claude Code

在2026年的AI编程工具领域,OpenAI Codex、Claude Code和Cursor 已分化为三种截然不同的产品形态,它们不再是同类竞品,而是服务于不同开发场景的专属工具。直接的基准测试分数对比已无太大意义,真正的选择应基于你的主力工作台是IDE、终端还是云端任务面板

以下将从核心形态、性能基准、成本模型和最佳场景四个维度,为你梳理这三款工具的最新实力定位。

📊 核心性能与定位对比

对比维度 Cursor OpenAI Codex Claude Code
产品形态 AI原生IDE(基于VS Code) 云端委派型Agent(CLI+App) 终端优先型Agent
核心基准 Terminal-Bench 2.0 :61.7% SWE-bench Multilingual:73.7% Terminal-Bench 2.077.3% SWE-bench Pro:56.8% SWE-bench Verified80.8% Terminal-Bench 2.0:65.4%
上下文窗口 较大(结合Cloud Agents) 200K tokens 100万 tokens
性能特性 编辑器集成最深,交互流畅 速度最快(1000+ tok/s),任务隔离最强 任务最彻底(但Token消耗高3-4倍)
月费成本 $20/月起(Pro) 包含在ChatGPT Plus($20/月)中 $20/月(Pro)
最佳场景 日常主力IDE,边写边改 安全隔离的云端任务、并行处理 复杂重构、大型代码库排障

🔍 深度解读:数据背后的核心差异

1. 性能表现:专长不同,赛道不同

三者各自在一个关键的细分赛道上领先,没有绝对的"全能冠军"。

  • Codex在终端任务上最快 :它在Terminal-Bench 2.0 (真实终端任务)上获得了77.3% 的最高分,推理速度高达1000+ tokens/秒,是Claude Code的5倍。如果你的任务是快速、高频的终端交互,Codex是性能首选。
  • Claude Code在软件工程上最"稳" :它在SWE-bench Verified (软件工程任务)上取得了80.8% 的最高分,体现了处理复杂、真实世界代码问题的强大能力。但代价是它会消耗3-4倍于Codex的Token来追求"彻底性"。
  • Cursor在"自研+集成"上进步神速 :其自研的Composer 2 模型在Terminal-Bench 2.0 上得分61.7% ,超越了Claude Opus 4.6的58.0%,并且将成本降低至后者的1/10。这说明Cursor正在快速摆脱对第三方模型的依赖。

2. 任务架构:决定工作方式的根本

三者的架构设计决定了它们适合完成什么类型的任务。

  • Cursor:IDE中心主义。它的设计目标是让你的编辑器更强大,适合边写代码边和AI协作,是日常开发的"主力环境"。
  • Codex:云端沙箱隔离 。每个任务都运行在独立、无网络访问的云端容器中,这带来了最强的任务隔离性和安全性,非常适合处理你不信任或需要绝对保密的代码片段。
  • Claude Code:终端里的Agent Teams 。它支持创建多个子Agent,这些Agent可以相互通信、共享任务列表、跟踪依赖关系,协同完成一个复杂的大工程,比如同时进行代码研究、实现和测试。

3. 成本与陷阱:不止看标价

  • Cursor:$20/月的固定订阅费,对于重度IDE用户是清晰的开销。
  • Codex:对已有的ChatGPT Plus($20/月)用户是"零边际成本"的增值服务,极具吸引力。
  • Claude Code :$20/月的订阅费看起来不高,但要注意,如果配置不当使用API密钥,会产生额外账单。更重要的是,它"高Token消耗"的特性(3-4倍于Codex)可能会导致你更快地触及使用上限。
    实际使用体验的反馈。

三、AI交互模式:Ask、Plan、Craft、Agent

1. 四种模式(对比)

模式 核心准则 AI 的权限 你的角色 最佳应用场景
Ask 先问,后议,不行动 只读(可阅读、分析、搜索,无写入/执行权限) 提问者、决策者 学习框架、理解逻辑、方案讨论
Plan 先议,后定,再行动 受限写入(可生成计划文件,需确认后才进入编码) 审核者、拍板人 复杂功能开发、架构设计、多文件重构
Craft 听令,即做,快迭代 高度自治(跨文件批量生成/修改代码,直接产出) 目标设定者、验收者 快速原型、明确 Bug 修复、重复代码生成
Agent 委派,闭环,全自主 完全自主(可跨文件修改、执行终端命令、自行纠错) 最终验收者 端到端复杂任务、无人值守执行

2. 四大工具对四种模式的支持对比

工具 Ask Plan Craft Agent 整体风格
GitHub Copilot Ask Agent / 内联对话 Plan Mode 生成 plan.md Edit 代理(单文件精准修改) Agent 模式(跨文件 + 终端) 阶梯清晰,从对话到全自主
Cursor AskCmd+L Plan 模式(生成步骤,审核后执行) EditCmd+K,框选修改) Agent 模式(Cmd+I,默认主力) 模式最全,控制颗粒度细
Codex ❌ 无独立 Ask ❌ 无显式 Plan ❌ 无 Craft 唯一模式:云端容器全自动 Agent 纯 Agent,任务隔离,无中间态
Claude Code ✅ 默认对话即 Ask Plan ModeShift+Tab核心模式,只读规划) ❌ 不单独提供 ✅ 通过多子 Agent 隐式实现(但行动源于 Plan) 强规划,先分析后执行,保守彻底

注:Codex 不提供 Ask/Plan/Craft,因为其设计理念是"直接委派任务给 Agent,无需中间交互"。


3. 交互模式(详解)

1. Ask 模式(先问,后议,不行动) ------ 安全的顾问

核心理念

AI 仅作为顾问:回答你的问题、解释代码逻辑、搜索相关信息、提供实现思路,但绝不会修改任何文件或执行任何命令。这是一次只读的安全对话。

特点

  • 零风险:不会意外改动代码
  • 适合探索性工作:学习新框架、理解遗留系统、讨论多种方案优劣
  • AI 可以引用当前代码库内容作为依据

典型工作流

你提出问题 → AI 分析并给出建议 → 你根据建议自行编写代码


2. Plan 模式(先议,后定,再行动) ------ 严谨的建筑师

核心理念

在"理解需求"和"动手编码"之间强制插入规划环节。AI 先输出一份结构化的实施计划(通常分阶段、列清单、标依赖),你审阅、修改、确认后,AI 才按计划执行。这是提高复杂任务可控性的关键模式。

特点

  • 计划可见可改:所有步骤都以文档形式呈现
  • 降低不确定性:大型重构、架构变更前先锁定方案
  • 支持"确认后执行":你可以选择仅生成计划,或让 AI 在确认后自动执行各步骤

典型工作流

提出需求 → AI 生成计划 → 你审核/修改计划 → (可选)AI 按计划逐步执行


3. Craft 模式(听令,即做,快迭代) ------ 高效的执行者

核心理念

听令即做,直接产出代码 。AI 能够跨文件理解上下文,一次性生成或修改多个文件,无需逐条确认。与 Agent 的区别在于:Craft 通常不主动执行终端命令,也不具备反复试错的自愈能力,属于"一次性批量代码生成"。

特点

  • 快速响应:适合明确、中等粒度的任务
  • 跨文件协作:可同时创建/修改多个相关文件
  • 无自主命令执行:不会运行测试、安装依赖或启动服务

典型工作流

你描述需求 → AI 直接生成/修改代码 → 你审阅所有变更 → 接受或拒绝


4. Agent 模式(委派,闭环,全自主) ------ 全自主的工程师

核心理念

完全委派:AI 作为自主智能体,能够独立完成端到端的复杂任务。它自己规划步骤、跨文件搜索修改代码、执行终端命令、运行测试、分析报错并自动修复,直到任务完成或遇到无法解决的阻塞。

特点

  • 闭环自主:无需人工中途干预
  • 工具齐全:可调用文件系统、终端、LSP、浏览器等
  • 具备韧性:失败后可自动尝试不同方案

典型工作流

你下达最终目标(如"为支付模块添加 Stripe 支持,并确保所有测试通过") → AI 自主规划、执行、纠错 → 你验收最终结果

其他

AI产品形态:基础大模型、对话式AI、AI Agent

类别 子类 核心定位 核心类比 自主性 工具调用方式 典型代表
基础大模型(Foundation Models) 文本大模型(Large Language Model,LLM) 智能能力本身(文本) 引擎 不能调用工具 国际:GPT-5.4、Claude Opus 4.6、Grok 4.20、Llama 4、Mistral Large 3 国产:DeepSeek-V3/R1、通义千问Qwen 3.5、GLM-5、Kimi K2.5、文心一言5.0、MiniMax M2.5、腾讯混元
多模态大模型(Large Multimodal Model,LMM) 智能能力本身(图文/音/视频) 引擎 不能调用工具 国际:Gemini 2.5/3.1、GPT-5 with vision、Claude 4 Vision、Llama 4 MultiModal、Sora、Veo、Runway Gen-4、Stable Diffusion 4.0 国产:通义万相、文心多模态、GLM-4V、智谱清影、可灵Kling 3.0、海艺AI、即梦Seedance 2.0
对话式AI(Conversational AI,CoAI) --- 智能能力的对话封装 整车 低(回合对话) 用户主动触发,单步 国际:ChatGPT、Claude.ai、Gemini、Perplexity、Microsoft Copilot、Grok 国产:豆包、Kimi、DeepSeek Chat、文心一言、通义千问
AI 智能体 (AI Agent) --- 智能能力的自主执行体 自动驾驶车队 高(自主规划、多步闭环) 自动拆解任务、多工具链式调用 国际:Cursor、Claude Code、OpenAI Codex、Devin、GitHub Copilot Agent、Windsurf、Google Antigravity 国产:豆包Agent、文心快码、通义灵码、智谱AutoGLM
python 复制代码
基础大模型(底层智能)
    ↓ 封装
对话式AI(对话交互界面)
    ↓ 增强自主性
AI Agent(自主执行体)
# AI Agent通常内部包含一个或多个大模型,也可能以对话式AI作为前端入口,但其核心是**执行闭环**而非问答。

大模型 API 调用的响应模式:非流式请求 vs. 流式请求

核心区别在于数据返回的方式和时机。

维度 非流式请求 (Non-Streaming) 流式请求 (Streaming)
响应方式 一次性返回完整结果 逐字/逐块返回生成内容
用户感知 等待后一次性呈现 实时看到生成过程(打字机效果)
首字延迟 较高(需等待完整生成) 极低(首块内容快速返回)
适用场景 短内容、简单问答、批量处理 长文本、实时对话、ChatGPT式交互
技术实现 单次 HTTP 请求+响应 SSE(Server-Sent Events)或 WebSocket
中断能力 不支持(一旦开始必须等待完成) 支持(可随时关闭连接停止生成)
代表产品 批量 API 调用、离线任务 ChatGPT、Claude 网页版、DeepSeek Chat
python 复制代码
【非流式】
用户 ──请求──▶ 服务器(生成中...生成完成)──完整结果──▶ 用户
        等待时间 = 完整生成时间

【流式】
用户 ──请求──▶ 服务器 ──第一块──▶ 用户(看到开头)
                ──第二块──▶ 用户(继续)
                ──第三块──▶ 用户(继续)
                ──完成────▶ 用户
         首字延迟极低,边生成边显示
         
################################################
# 非流式
response = client.chat.completions.create(
    model="gpt-4",
    messages=[{"role": "user", "content": "讲个故事"}],
    stream=False  # 非流式
)
print(response.choices[0].message.content)  # 一次性输出完整故事


# 流式
response = client.chat.completions.create(
    model="gpt-4",
    messages=[{"role": "user", "content": "讲个故事"}],
    stream=True  # 流式
)
for chunk in response:
    print(chunk.choices[0].delta.content, end="")  # 逐字输出
################################################

会议纪要主流AI工具 ------ 实时录音转文字,自动生成会议纪要

工具 类型 核心功能 支持平台 免费额度 付费起价
Otter.ai 国际/实时转录 实时转录、自动摘要、发言人识别 Zoom、Meet、Teams、Webex 300分钟/月 $16.99/月
Fireflies.ai 国际/实时转录 转录、摘要、动作项提取、知识库搜索 全平台+API 无限(功能受限) $19/月
Fathom 国际/会议机器人 一键录制、高亮标记、CRM集成 Zoom、Meet、Teams 完全免费 ---
Read.ai 国际/会议机器人 健康度分析、情绪识别、参与度追踪 Zoom、Teams、Meet 基础免费 $15/月
Tactiq 国际/实时转录 实时字幕、一键生成纪要、导出Docs Meet、Zoom、Teams 10次/月 $8/月
Avoma 国际/会议机器人 全周期管理(会前→会中→会后) 全平台 30天试用 $30/月
Sembly 国际/会议机器人 任务追踪、风险识别、合规审计 全平台 10次/月 $15/月
通义听悟 国产/实时转录 实时转录、章节速览、PPT提取、中英混合 网页/App 10小时/天 基础免费
讯飞听见 国产/实时转录 ASR转录、多语翻译、发言人分离 网页/App 分钟计费 按分钟
腾讯会议AI助手 国产/原生集成 自动总结、待办提取 腾讯会议 企业版包含 企业版
飞书妙记 国产/原生集成 转录、翻译、智能章节、任务联动 飞书 付费版包含 飞书付费版
华为云会议智能纪要 国产/原生集成 自动区分发言人、实时字幕 华为会议 企业版包含 企业版

需求 首选
个人免费(国际会议) Fathom
个人免费(中文会议) 通义听悟
功能全面团队使用 Fireflies.ai
飞书/腾讯会议用户 原生AI助手
相关推荐
前端AI充电站1 小时前
第 7 篇:让 RAG 答案可追溯:展示知识库引用来源
前端·人工智能·前端框架
kishu_iOS&AI1 小时前
NLP —— 文本预处理
人工智能·pytorch·python·自然语言处理
编程小石头1 小时前
AI提示词,整理了各个场景中比较常用的Ai编程工具的提示词
人工智能·ai作画·ai编程
MY_TEUCK1 小时前
【AI 应用】前端接口联调工程化:把 Swagger 接入沉淀成可复用 Skill
前端·人工智能·uni-app·状态模式
曦樂~1 小时前
【深度学习】张量创建
人工智能·深度学习
丝雨_xrc1 小时前
Kimi K2.6 全能上手指南:从零开始驾驭 AI 生产力
人工智能
世rui睿1 小时前
RAG 知识库质检:三级 Gate 如何拦截垃圾知识
人工智能·agent
2601_949695591 小时前
开源AI智能体OpenClaw接入DeepSeek V4全流程:从配置到成本
人工智能·驱动开发·ai·电脑
β添砖java1 小时前
深度学习(10)丢弃法
人工智能·深度学习