谷歌AI助力软件工程的进展及未来展望

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

回顾与现状

在2019年，无论是在谷歌还是其他地方，软件工程师们虽然听说过机器学习的进步，特别是深度学习在计算机视觉和语言翻译领域的显著效果，但他们很难想象这些技术会如何在软件开发中产生影响。仅仅五年后的2024年，AI辅助写代码已成为软件工程师中的热门话题，许多人都在使用基于机器学习的自动补全工具，无论是公司内部工具（如谷歌的内部代码补全）还是商业产品。

谷歌在这篇博客中，介绍了内部软件开发工具的最新AI改进，并讨论了未来五年的预期变化。团队负责谷歌工程师大部分时间所用的软件开发环境，包括内循环（如IDE、代码审查、代码搜索）和外循环界面（如缺陷管理、规划）。通过这些改进，直接提升了开发者的生产力和满意度，这是谷歌密切关注的两个指标。

挑战

AI技术发展迅速，预测哪些想法应该首先探索一直是个挑战。技术上可行的演示与成功产品化之间通常存在显著差距。谷歌遵循三条准则来将想法应用于产品：

优先考虑技术可行性和影响力：专注于已经确定技术可行性并对工程师工作流程有高影响力的想法。
快速学习以改进用户体验和模型质量：专注于快速迭代和提取经验教训，同时保障开发者的生产力和幸福感。用户体验与模型质量同样重要。
衡量效果：目标是提升生产力和满意度指标，因此需要广泛监控这些指标。

将LLM应用于软件开发

随着Transformer架构的出现，谷歌开始探索如何将大型语言模型（LLM）应用于软件开发。基于LLM的内联代码补全是AI在软件开发中最受欢迎的应用：使用代码本身作为训练数据是自然的应用方式。用户体验感觉自然，因为单词级自动补全已是IDE多年的核心功能。此外，可以使用一个粗略的影响衡量方法，例如由AI生成的新字符的百分比。因此，这一LLM应用成为首个部署的合理选择。

早期的博客介绍了谷歌如何通过代码补全提升用户体验及其影响测量。从那时起，企业环境中类似的快速增长也得以实现，软件工程师的接受率达到了37%，帮助完成了50%的代码字符。换句话说，现在代码中的字符有一半是由AI辅助完成的，而不是开发者手动输入的。虽然开发者仍需花时间审查建议，但他们有更多时间专注于代码设计。

关键改进

关键改进来自模型（更大的模型具有改进的编码能力，提供给模型的上下文构建的启发式方法，以及基于接受、拒绝和纠正的使用日志调整模型）和用户体验。这一循环对于从实际行为中学习，而不是从合成公式中学习至关重要。

谷歌利用多年来精心整理的跨多个工具的高质量内部软件工程活动日志。这些数据使谷歌能够表示细粒度的代码编辑、构建结果、解决构建问题的编辑、代码复制粘贴操作、修复粘贴代码、代码审查、解决审查问题的编辑以及代码提交到存储库的变更。训练数据是带有特定任务注释的代码对齐语料库。数据收集过程的设计、训练数据的形状以及基于这些数据训练的模型在DIDACT博客中进行了描述。谷歌继续利用这些强大的数据集与更新一代的基础模型进行探索。

下一个重大部署是解决代码审查评论（超过8%现在通过AI辅助完成）和自动适应周围上下文的粘贴代码（现在负责IDE中约2%的代码）。其他部署包括用自然语言指示IDE进行代码编辑和预测构建失败的修复。其他应用，例如预测代码可读性提示，遵循类似模式也是可能的。

学习成果

到目前为止，谷歌的工作教会了几件事：

用户体验的自然融合：取得最高影响的是自然融入用户工作流程的用户体验。在所有上述示例中，建议会呈现给用户，只需按一下Tab键或点击一下就可以进行下一步。需要用户记住触发功能的实验未能规模化。
平衡代码审查成本和增加值：观察到，随着AI建议的增多，代码作者越来越成为审查者，找到审查成本和增加值之间的平衡很重要。通常通过接受率目标来解决这一权衡。
快速迭代和在线A/B测试：快速迭代和在线A/B测试是关键，因为离线指标往往只是用户价值的粗略代理。通过在内部工具中展示AI功能，能够轻松发布和迭代，测量使用数据，并通过用户体验研究直接向用户询问他们的体验。
高质量数据的重要性：谷歌工程师在软件工具中的活动数据，包括与功能的互动数据，对于模型质量至关重要。
优化机会转化：观察到跨功能的优化机会转化，从机会（主要是用户活动，如下图漏斗顶部所示）到影响（应用AI辅助，如漏斗底部所示），同时通过用户体验和模型改进消除漏斗中间步骤的瓶颈。

展望未来

受到迄今成功的鼓舞，谷歌正在加倍努力，将最新的基础模型（Gemini系列）与开发者数据（如上所述的DIDACT的一部分）结合，推动现有和新的ML在谷歌软件工程中的应用。

在整个行业中，基于ML的代码补全为软件开发者提供了重大推动。虽然在代码生成方面仍有改进的机会，但预计下一波收益将来自更广泛的软件工程活动的ML辅助，例如测试、代码理解和代码维护；后者在企业环境中特别重要。这些机会为谷歌的持续工作提供了信息。谷歌还强调了两个行业趋势：

自然语言的人机交互：人机交互已转向自然语言作为常见模式，正在转向使用语言作为软件工程任务的界面以及开发者信息需求的入口，所有这些都集成在IDEs中。
ML自动化大规模任务：从诊断问题到实施修复的大规模任务的ML自动化已开始显示出可行性。这些可能性由代理和工具使用的创新驱动，允许构建使用一个或多个LLM作为组件来完成更大任务的系统。

为了扩展上述成功并迈向下一代能力，从事该主题的实践者和研究人员社区将受益于共同基准的帮助，以推动该领域向实际工程任务发展。迄今为止，基准主要集中在代码生成（如HumanEval）。然而，在企业环境中，针对更广泛任务的基准可能特别有价值，例如代码迁移和生产调试。一些基准，例如用于错误解决的基准（如SWEBench），以及针对这些基准的原型（如来自Cognition AI）已经发布。谷歌鼓励社区共同提出更多基准，以涵盖更广泛的软件工程任务。