首个AI软件工程师上线！已通过公司面试抢程序员饭碗，华人创始团队手握10块IOI金牌

前段时间，英伟达 CEO 黄院士发出惊人言论：「都别学编程了，以后交给 AI 就行了，以后人人都是软件工程师。」当时还有很多人反对，说「AI 永远不会取代程序员。」没想到，首个人工智能软件工程师 Devin 一发布，程序员的饭碗可能真要被 AI 端走了。

在 SWE-Bench 基础测试中，无需人类协助，Devin 就可以解决 13.86% 的问题。而目前的 SOTA 模型，在没有人类帮忙的情况下，只能完成 1.96% 的任务。

仅从评测结果看，Devin 解决真实世界软件问题的能力要远好于当前的 GPT-4 和 Claude 等模型。

官方发的推特说，Devin 不仅通过了一家业内领先的人工智能公司的面试，在自由职业平台 Upwork 上也能成功接单，完成单主要求的工作。也就是说，Devin 不仅是横扫基础测试的「做题家」，在就业市场里也有人为它的工作能力买账。

难道继 Sora 让「现实世界」不存在了之后，Devin 也要让「软件工程」不存在了吗？

Devin 现在还未对外开放，但已经有开发人员和产品人员用上了。测试过的网友表示，以前一直用人工智能辅助编码，但一直失败。直到昨天，他给 Devin 了一个简单的 HTML 页面，让它提取选择器，这个 GPT-4-turbo 、Claude、Groq 、LLama2 都没完成的任务，Devin 只用了大约 10 秒就搞定了。

源自 news.ycombinator.com/item?id=396...

Devin 的评论区的画风，也是哀嚎一片：

当然，对这种说法，也有网友并不买账，认为这是夸大宣传。

所以，这位来抢程序员「饭碗」的 AI 软件工程师的本事到底有多大呢？

首位 AI 软件工程师

真要抢程序员饭碗？

要知道，虽然现在市面上的一系列大模型都有编程能力，但大多数都采用了单行代码补全或者单个函数生成的方式。想生成完整的程序，还需要设计 prompt 逐步「调教」。

而对 Devin 来说，你只需要向它提要求，坐等其成就可以了。

Devin 配备了包括 shell、代码编辑器和浏览器在内的常见开发工具，这些都在一个沙盒化的计算环境中 ------ 这些都是人类软件工程师完成工作所需的一切。

根据自然语言提示自动写代码、生成完整的程序并上线只是 Devin 的基操，它可以自动规划并执行需要数千个决策的复杂任务。

例如请它在几个不同的 API 上对 Llama 的表现进行基础测试，它首先制定了一个逐步解决问题的计划：

在完成项目的过程中，它使用了浏览器为 API 留档，以便它可以阅读并学习如何插入这些 API：

遇到意外的错误时，Devin 决定先「print」出来，再根据日志中的错误决定如何修复 bug：

最后，它为你构建了一个完整的可视化网站：

Devin 能自动完成如此复杂的规划，得益于其背后的 Cognition AI 在长期推理和规划方面的进展，这使它能够在每一步回忆相关的上下文，随时间学习，并修复错误。

Devin 拥有积极的协作的能力，它能实时报告进度，接受反馈，并根据需要调整，还能适应成熟的代码库，修改前辈留下的 bug：

自主学习，从完全陌生的知识学习使用不熟悉的技术，也是 Devin 所擅长的。

你给它一篇新博客，讲的是如何运行 ControlNet on Modal，生成带文字的图像：

它不仅能迅速从中学会所需的代码，没过两秒，工作就自动帮你完成了：

在 Upwork 接的单里，Devin 被要求编写并调试运行计算机视觉模型的代码。它采样了结果数据，最后呈现了一份报告：

Devin 甚至能够训练和微调自己的 AI 模型，看来 AI 的生命快要在此刻完成闭环了。仅通过一个 GitHub 仓库的链接，Devin 就微调了一个大型语言模型：

总体来看，与其他具有编程能力的大模型，Devin 不仅辅助编程或提供代码片段，它能够独立支持一整个项目，而不仅仅是辅助或提供代码片段的建议。相比于「副驾驶」的角色，Devin 更接近于一个独立工作者。而 Cognition AI 声称 Devin 实现了在 AI 领域被称为「理解」的突破，这意味着它能够不仅是在预测下一个单词或代码行应该输出什么，而是更像在思考如何解决问题的总体方法。

而 Devin 的技术路径，CognitionAI 并还未公开，只是简要地提到，Cognition AI 的团队发现了将大型语言模型（LLM）如 OpenAI 的 GPT-4 与强化学习技术结合的独特方法。这种方法可能是他们技术突破的关键点。

看到 Devin 的 Demo 后，刚从 OpenAI 离职的 AI 大牛 Andrej Karpathy 发表了一些独到的见解。在他看来，自动化软件工程的发展将类似于自动化驾驶，是一个人工智能做的越来越多，而人类的工作越来越少，但仍提供监督的过程。

Devin 可能是通向未来，人类在更高层级进行抽象监督的过程中一环，在这个过程中仍有很多问题需要解决。例如，人工智能部分以及用户界面 / 用户体验部分都有很多工作要做。人类如何提供监督他们如何引导人工智能走向不同的路径？他们如何调试出错的地方？代码编辑器的设计有可能需要大幅改变。

CognitionAI 简介

整个 Cognition AI 团队由 10 人组成，包括获得过 10 枚国际比赛金牌的运动编码者。

不少网友感叹，这太疯狂了。

这支团队的成员在编程竞赛中获得的成就和对问题解决的独特方法。其中三位创始人信息如下：

从左到右分别为 Steven Hao、Scott Wu、Walden Yan，图源：www.bloomberg.com/news/articl...

Scott Wu - 首席执行官 (CEO)：Scott 是团队的领导者，和他的兄弟 Neal Wu 一起，自青少年时期就开始参加并经常获胜于国际编程比赛，曾连续三年揽获 IOI 金牌，这些比赛提升了他们的编程能力。Scott 的背景和对算法问题的深入理解为 Cognition AI 的开发提供了独特的视角。

Scott Wu 曾连续三年获得 IOI 金牌

Steven Hao - 首席技术官 (CTO)：Steven之前是Scale AI的顶尖工程师，Scale AI是一家估值很高的初创公司，专注于帮助训练AI系统。

Walden Yan - 首席产品官 (CPO)：Walden 直到最近还在哈佛大学上学，他请求将他在学校的状态留作模糊，大概率是想「辍学创业」。

Walden Yan 在哈佛就读期间，曾在一年级时获得第 32 届 IOI 金牌

除了这三位核心成员，还有一位 Neal Wu，他是 Scott Wu 的兄弟，他也在 Cognition AI 工作。Wu 兄弟因其编程才华在全球范围内享有盛誉，他们自青少年时期起就在国际编码比赛中竞争并常获胜利，这些比赛经验帮助他们在编程和解决问题方面拥有独特的方法。

参考链接：

twitter.com/cognition\\...

www.bloomberg.com/news/articl...

博客链接：www.cognition-labs.com/blog