在Agentis Lux上的部署成功。绿色检查,没有错误,现场直播。我扫描了我自己的网站,抓取了一张"之前"的照片,进行前后对比,扫描仪给出了62分。
它还给下一个站点62。还有下一个。同样的分数,同样的发现,每次都一样,包括在一个没有结账按钮的网站上发现一个"结账按钮"。
构建成功了。它运行的是我几周前写好并放弃的扫描仪版本。从那时起,我构建的所有东西都被搁置在回购协议中,被合并,被测试,没有被部署。部署管道仅在5月份运行了一次,再也没有运行过。我从来没有注意到!
因此,这个实时网站是一个自信的、经过良好测试的、完全绿色的存根。
技术上,没有出错。这是我一直在思考的部分...结束了...结束了。
小心空隙!
我和人工智能代理一起建造。我导演,他们创作。一个代理编写基础结构,另一个审计它,我打电话和合并。又快又好,失败模式也不是我预想的那样。
我预料代理人会犯错误。他们大多不会。相反,当我要求的不是我想要的时,他们所做的是正确地构建我所要求的。错误不在代码中。bug存在于我的指令和我的意图之间,代理用字面上最真实的东西来填充这个间隙。这个东西,上下文工程,出现在Anthropic的演讲中AWS峰会.
在这种情况下,是人类管弦乐队...我会反击。"你说部署,但管道从5月起就没有运行过,你的意思是重新部署当前代码吗?"代理说"部署成功"是因为部署确实成功了。它回答了我提出的问题。我问了一个明显在我盲点上的错误问题。
大约一周内,我在一个项目中碰到过四次这种情况。每次都是一样的形状。
四次它是正确的和错误的
发货的存根。每一个网站都有62个回复,土拨鼠日得分。基础设施是真实的,测试是绿色的,部署是有效的。它只是部署了我留下的代码。"部署好了吗"是真的。"我构建的东西部署了吗"是我忘记问的问题。【教训:不要假设。]
三扇门,其中一扇是真的。我的扫描器接受三种输入:URL、代码报告、API规范。界面为他们显示了三个选项卡。干净,明显,正是设计所暗示的。只有网址一是有线的。另外两个是根据我给出的规范构建的,它描述了三个选项卡,后来我决定首先只提供URL扫描,不再更新界面来匹配。因此,一个访问者点击"API spec",输入一些东西,然后点击一面礼貌的墙。标签是正确的。我的瞄准镜已经移动了,标签还没听说。【教训:Kiro和Claude读不懂我的心思!]
这些发现只有工程师才能读懂。我的所有观众都是用人工智能构建的人,他们可能不知道<ul>是。扫描仪的发现说了类似"没有用ul或ol包装的重复兄弟元素"的事情。这是一个正确的发现。对我为之打造工具的人来说也是没用的。我要求的是准确的、技术性的、真实的发现。我拿到了。我忘了问"我的实际用户能读这个吗?"经验:不要忘记你是在为最终用户构建,一个真实的人,而不是一个理论上的人。
这张牌什么也没变。一个社会卡路线,建立,部署,工作。我保存了图像,得到了一个零字节的文件。该路径从网络上获取了三种字体,当其中一种返回时是空的,而不是彻底失败,图像渲染器得到了垃圾,什么也没有产生。本来应该处理字体错误的catch块没有被触发,因为fetch没有失败。它空手"成功"了。错误处理对于它所监视的错误是正确的。真正的失败者从一扇没人看着的门走进来。教训:不要跳过测试实时工作流。
模式
每一个都通过了自己的测试。该部署已部署。标签符合规格。这些发现是准确的。卡路线跑了。如果我相信"它能工作",这四个都可以发货了。
抓住他们的不是更好的提示,也不是更聪明的代理人。我看着实际的输出,问了一个比代理能问的更简单的问题。不是"它跑了吗""这是我想要的东西吗?"www.jpbara.com如果你费心扫描第二个站点,每个站点上的62都是可疑的。三个标签是一个陷阱,如果你点击那些你没有完成的。如果你是作为你自己的用户而不是作为编写它的工程师来阅读它,那么一个发现是没有用的。
代理针对您所说的内容进行优化。人在回路中的全部工作就是不断地检查你所说的和你所想的,因为代理人看不到区别,而你是唯一能看到的人。
为什么我一直在做
这读起来好像我还没有学到我一直在写的东西。那么,是还是不是?代理人在几天内做了几周的实际工作。审计代理发现了测试遗漏的真正错误。基础设施是牢固的。我不会还回去的。
但是这个模型是"我导演,他们制作"而不是"他们制作,我观看"是有原因的方向不是一次性的指令。这是一种持续的行为,将工作与意图对立起来,并说"接近了,但不是这样。"代理人是非凡的"正是你要求的。"知道该问什么,并注意到答案在技术上是完美的,但却是错误的,这仍然是我的一部分。
部署成功。不是我想象中的部署。现在我知道要多看两眼。
这四个都来自building Agentis Lux,一个代理就绪扫描仪。是的,一个告诉其他人代理不能读取的工具发送了一个存根,隐藏了一个损坏的标签,并呈现了一个空卡。如果你想看我不停地抓我自己,这是公开的