把 AI Agent 记忆验证从手工比对换成 Pytest + 向量数据库,测试效率提升 10 倍凌晨两点,我被一通报警电话叫醒。用户投诉我们的 AI 客服「小伊」突然不认人了——明明上一轮对话告诉过它自己叫“老王”,下一轮它就问:“请问怎么称呼您?” 没别的,记忆丢了。我打开数据库,手动在几千条向量记录里翻来翻去,试图找到那次对话写入的记录,再对比 embedding 相似度。折腾到天亮,眼睛快瞎了才定位到:一个更新操作因为并发时序问题,把刚刚写进去的记忆又覆盖成了旧版本。那时我就想:这种破事,绝不能再靠手工验证第二遍。