TL;DR:
今天我们推出了 Augment Code Review。专为大型的、长期维护的代码库而构建,它能够捕获现有工具遗漏的正确性、架构和跨系统问题,同时显著减少噪音。由 GPT-5.2 驱动,Augment 在唯一公开的 AI 辅助 code review 基准测试中达到了最高准确率,在整体质量上比 Cursor Bugbot、CodeRabbit 等系统高出约 10 分。企业团队和 OSS 维护者已经在使用它来更快地完成 reviews 并减少到达生产环境的 bugs。
Augment Code Review Agent 现已向所有 Augment Code 用户开放,所有付费计划免费试用一周。开源项目可以申请免费使用 Augment Code Review。要了解更多信息,请查看我们的产品页面或阅读文档。
Code review 已经很痛苦。AI 让它变得更糟。
AI 已经极大地加速了代码创建:Google 报告称超过 25% 的新代码现在由 AI 编写;Microsoft 报告超过 30%。但企业中的 review 容量并没有跟上步伐。这种不匹配已成为现代软件开发中最大的瓶颈之一。
每个工程组织都知道这些症状:
- 最佳实践存在于文档、Slack 线程和资深工程师的头脑中
- 但它们并没有持续地应用到代码中
- 团队等待数天才能得到 review
- 仓促或肤浅的 reviews 成为运营风险
财务后果是真实的:平均每小时故障成本约 30 万美元,在大企业中可能超过每小时 100 万美元。许多故障源于软件错误、配置错误或不完整的 reviews。
我们构建了 Augment Code Review 来从根本上解决这个问题:通过对每个 PR 执行最佳实践,及早捕获高影响问题,并恢复在复杂系统中工作的开发团队的工作流。
为什么现有 AI review 工具表现不佳
GitHub Marketplace 列出了 77+ 个 AI review bots,但它们遵循同样有缺陷的模式:
提取 diff → 发送给 LLM → 生成几十个肤浅、嘈杂的评论
这导致:
- 低精确度:太多不相关的建议
- 低召回率:由于缺乏上下文而遗漏真正的 bugs
- 肤浅的推理:对架构或跨文件行为没有理解
开发者会忽略它们。
一个真正的 review agent 必须达到不同的标准:深度上下文检索、高信号、以及能够有意义地影响合并决策的评论。
Augment 方法:信号胜过噪音,上下文胜过猜测
我们的理念很简单:
如果一个评论不太可能改变合并决策,我们就不会发布它。
1. 专注于正确性和架构问题
Augment 优先处理 bugs、安全漏洞、跨系统陷阱、不变量、变更影响风险和缺失测试------而不是风格细节。
2. 理解你的整个代码库
Augment 检索在大型、长期维护的仓库中评估正确性所需的完整跨文件上下文:依赖链、调用点、类型定义、测试、fixtures 和历史变更。
基准测试显示竞品工具普遍遗漏了这一上下文。
3. 编码你团队的专业知识
团队一次性定义自定义规则,Augment 在任何地方执行它们。
4. 了解你的组织真正重视什么(没有配置蔓延)
Augment 根据你的开发者处理或忽略哪些评论来适应。结果是:随着时间的推移提高精确度。
客户看到了什么
Tekion 工程高级总监 Jawahar Prasad 报告说,在 10 月向他的 1,400 名工程师团队推出后,他的团队已经看到了 Augment Code Review 的有意义的结果:
- 平均合并时间从 3 天 4 小时下降到 1 天 7 小时 ---> 在 Augment Code Review 推出后合并速度提高 60%
- 首次人工 review 的时间从 3 天减少到 1 天,因为 Augment 减少了开发者的认知负荷
- 在工程师数量不变的情况下,merge requests 合并数量增加了 21%
MongoDB Atlas Clusters 的首席工程师 Tyler Kaye 这样描述影响:
"Augment 已经成为我们 code review 流程中宝贵的部分。它不会取代人工 review;它通过在队友看到代码之前给作者一个深思熟虑的第一遍 review 来增强它。它的自定义指导原则集成将 MongoDB 的最佳实践推荐与我们自己组织特定的指导相结合,使反馈既相关又可操作。内置的可观测性帮助我们了解 Augment 揭示了多少评论以及它们被解决的频率,让我们对代码质量趋势有更清晰的洞察。凭借其高信噪比,每条评论都感觉有意义。Augment 帮助工程师以更清洁、准备更充分的代码来进行 review。"
这正是我们设计的体验:一个可靠的第一遍 reviewer,提高代码质量并加速人工 review------而不是取代它。
基准测试:Augment 领先领域
为了验证性能,我们使用唯一公开的"黄金评论"数据集评估了七个广泛使用的 AI code review 工具------这些是合格 reviewer 会捕获的真实问题。
我们测量了精确度(信号)、召回率(覆盖率)和 F 分数(整体质量)。
按 F 分数排序:
| 工具 | 精确度 | 召回率 | F 分数 |
|---|---|---|---|
| ⭐ Augment Code Review | 65% | 55% | 59% |
| Cursor Bugbot | 60% | 41% | 49% |
| Greptile | 45% | 45% | 45% |
| Codex Code Review | 68% | 29% | 41% |
| CodeRabbit | 36% | 43% | 39% |
| Claude Code | 23% | 51% | 31% |
| GitHub Copilot | 20% | 34% | 25% |

Augment 达到了最高准确率,在整体质量上比次优工具高出约 10 分。
大多数工具必须选择:
- 高召回率但低信噪比(Claude、Greptile)
- 高精确度但肤浅覆盖(Codex、Cursor)
Augment 是唯一保持高精确度和高召回率的系统,因为它检索了深度推理所需的完整、正确的上下文。
为规模而构建的定价
Augment Code Review 旨在在不破坏预算的情况下提供价值:
- 平均每个 PR review 成本:2,400 积分(约 1.50 美元)
- 开源项目免费------我们相信支持驱动现代软件的 OSS 社区。要获取访问权限,请向我们发送您的 OSS 项目链接。
从成本角度来看:一名高级工程师 review 代码的成本为每小时 75-150 美元以上,具体取决于市场和资历。即使是快速的 10 分钟 review,在完全加载成本下也需要 12-25 美元(Google 的研究显示大多数 code reviews 需要 30 分钟或更多)。在每 PR 1.50 美元的价格下,如果 Augment 每次为您的团队节省 90 秒,或者捕获了一个需要热修复、回滚和事后分析的生产 bug,就能收回成本。
数学很简单:更快的 reviews、为您的资深工程师减少上下文切换、以及以人工 review 时间成本的一小部分减少生产事故。
试试它
如果您目前是 Augment Code 客户,您可以在这里配置 Code Review:app.augmentcode.com/settings/co...
- 如果您是付费用户:您可以在下周免费使用 Code Review
- 如果您是免费试用用户:您可以使用 Code Review,它会消耗您的试用积分
- 如果您没有 Augment 账户:您可以通过创建账户并激活试用或获得付费计划来使用 Code Review
- 如果您维护开源项目:注册 Augment Code,然后为您的项目请求免费访问
如果您准备好:
- 更高信号
- 更少 bugs
- 更快的 reviews
- 以及唯一被证明超越领域的 reviewer
只需 3 次点击即可为 GitHub Cloud 安装 Augment Code Review - 阅读文档了解更多信息并立即开始。
让我们修复 code review。