突破性构建:Kiro和Claude交付了我要求的东西但不是我想要的

在Agentis Lux上的部署成功。绿色检查，没有错误，现场直播。我扫描了我自己的网站，抓取了一张"之前"的照片，进行前后对比，扫描仪给出了62分。

它还给下一个站点62。还有下一个。同样的分数，同样的发现，每次都一样，包括在一个没有结账按钮的网站上发现一个"结账按钮"。

构建成功了。它运行的是我几周前写好并放弃的扫描仪版本。从那时起，我构建的所有东西都被搁置在回购协议中，被合并，被测试，没有被部署。部署管道仅在5月份运行了一次，再也没有运行过。我从来没有注意到！

因此，这个实时网站是一个自信的、经过良好测试的、完全绿色的存根。

技术上，没有出错。这是我一直在思考的部分...结束了...结束了。

小心空隙！

我和人工智能代理一起建造。我导演，他们创作。一个代理编写基础结构，另一个审计它，我打电话和合并。又快又好，失败模式也不是我预想的那样。

我预料代理人会犯错误。他们大多不会。相反，当我要求的不是我想要的时，他们所做的是正确地构建我所要求的。错误不在代码中。bug存在于我的指令和我的意图之间，代理用字面上最真实的东西来填充这个间隙。这个东西，上下文工程，出现在Anthropic的演讲中AWS峰会.

在这种情况下，是人类管弦乐队...我会反击。"你说部署，但管道从5月起就没有运行过，你的意思是重新部署当前代码吗？"代理说"部署成功"是因为部署确实成功了。它回答了我提出的问题。我问了一个明显在我盲点上的错误问题。

大约一周内，我在一个项目中碰到过四次这种情况。每次都是一样的形状。

四次它是正确的和错误的

发货的存根。每一个网站都有62个回复，土拨鼠日得分。基础设施是真实的，测试是绿色的，部署是有效的。它只是部署了我留下的代码。"部署好了吗"是真的。"我构建的东西部署了吗"是我忘记问的问题。【教训:不要假设。]

三扇门，其中一扇是真的。我的扫描器接受三种输入:URL、代码报告、API规范。界面为他们显示了三个选项卡。干净，明显，正是设计所暗示的。只有网址一是有线的。另外两个是根据我给出的规范构建的，它描述了三个选项卡，后来我决定首先只提供URL扫描，不再更新界面来匹配。因此，一个访问者点击"API spec"，输入一些东西，然后点击一面礼貌的墙。标签是正确的。我的瞄准镜已经移动了，标签还没听说。【教训:Kiro和Claude读不懂我的心思！]

这些发现只有工程师才能读懂。我的所有观众都是用人工智能构建的人，他们可能不知道<ul>是。扫描仪的发现说了类似"没有用ul或ol包装的重复兄弟元素"的事情。这是一个正确的发现。对我为之打造工具的人来说也是没用的。我要求的是准确的、技术性的、真实的发现。我拿到了。我忘了问"我的实际用户能读这个吗？" $经验:不要忘记你是在为最终用户构建，一个真实的人，而不是一个理论上的人。$

这张牌什么也没变。一个社会卡路线，建立，部署，工作。我保存了图像，得到了一个零字节的文件。该路径从网络上获取了三种字体，当其中一种返回时是空的，而不是彻底失败，图像渲染器得到了垃圾，什么也没有产生。本来应该处理字体错误的catch块没有被触发，因为fetch没有失败。它空手"成功"了。错误处理对于它所监视的错误是正确的。真正的失败者从一扇没人看着的门走进来。 $教训:不要跳过测试实时工作流。$

模式

每一个都通过了自己的测试。该部署已部署。标签符合规格。这些发现是准确的。卡路线跑了。如果我相信"它能工作"，这四个都可以发货了。

抓住他们的不是更好的提示，也不是更聪明的代理人。我看着实际的输出，问了一个比代理能问的更简单的问题。不是"它跑了吗""这是我想要的东西吗？"www.jpbara.com如果你费心扫描第二个站点，每个站点上的62都是可疑的。三个标签是一个陷阱，如果你点击那些你没有完成的。如果你是作为你自己的用户而不是作为编写它的工程师来阅读它，那么一个发现是没有用的。

代理针对您所说的内容进行优化。人在回路中的全部工作就是不断地检查你所说的和你所想的，因为代理人看不到区别，而你是唯一能看到的人。

为什么我一直在做

这读起来好像我还没有学到我一直在写的东西。那么，是还是不是？代理人在几天内做了几周的实际工作。审计代理发现了测试遗漏的真正错误。基础设施是牢固的。我不会还回去的。

但是这个模型是"我导演，他们制作"而不是"他们制作，我观看"是有原因的方向不是一次性的指令。这是一种持续的行为，将工作与意图对立起来，并说"接近了，但不是这样。"代理人是非凡的"正是你要求的。"知道该问什么，并注意到答案在技术上是完美的，但却是错误的，这仍然是我的一部分。

部署成功。不是我想象中的部署。现在我知道要多看两眼。

这四个都来自building Agentis Lux，一个代理就绪扫描仪。是的，一个告诉其他人代理不能读取的工具发送了一个存根，隐藏了一个损坏的标签，并呈现了一个空卡。如果你想看我不停地抓我自己，这是公开的