可观测性 4.0:教系统如何思考

我们建造了会发射一切的系统,却从未教它们什么才是重要的。

它揭示了一个我们刻意回避的事实:在可观测性领域,"收集一切"已经变成了一个优雅的借口。我们用存储成本下降来为自己的贪婪辩护,用"未来可能有用"来掩盖当下的无意义。当数据量突破某个临界点,信号就变成了噪音,理解让位于搜索,洞察退化为排查,做的事永远是头疼医头,脚疼医脚。

但真正的理解系统不是这样,这是我们作为工程师群体的集体失职。

Mezmo CEO 塔克·卡拉韦说了一句让所有人笑完之后沉默的话:"可观测性用法语说就是存储。"

笑是因为他说的是真话。沉默是因为我们发现自己无可辩驳。

01

过去十年,可观测性的叙事是这样的:存储便宜,弹性计算唾手可得,每多收集一条数据,就多一分发现问题的可能。这个逻辑曾经成立。

现在它成了债务。

被动收集模式有一个残酷的数学特性:成本线性增长,价值指数衰减。每加一条指标,每多一个追踪跨度,支出的增长是确定的,但它们带来的理解增长却恰恰相反------当数据海洋足够宽广,有意义的信号反而被稀释到难以辨认。

我们以为自己在监控一切。其实我们只是在囤积。

更隐蔽的危机发生在认知层面。现代运维人员面对的不是信息匮乏,而是选择过载。仪表板沦为噪音发射器,事件调查变成了过滤练习------从上百条相关日志中挑出真正有用的那一条。认知过载、误判疲劳、面对海量数据却无从下手的无力感,正在系统性地侵蚀整个行业的注意力和信心。

讽刺的是,我们用更多的数据来试图解决数据过多的问题

这就像用更多的演讲来解决沟通过多的问题一样。

02

AI 本应是救赎。

现实是,它放大了我们的问题。

训练于嘈杂、非上下文数据上的模型,继承了它创造者的混沌。行业数据显示,事件分拣仍然耗费每事件 1 到 6 美元,需要 12 到 27 次工具调用,失败率居高不下。即便是最先进的自动化管道,也难以摆脱一个根本瓶颈:输入本身就是垃圾。

机器学习不会超越数据质量。它成倍放大后果。

一个被错误标注的日志,一个缺失的追踪跨度,会通过嵌入层、向量存储和推理层级联传播,最终输出自信但错误的结论。模型越大,误会越昂贵

这才是真正令人警醒的事实:即便拥有最先进的大语言模型和异常检测器,人工智能在人类最擅长的领域仍然一败涂地------上下文的推理

它能看见模式。但它无法将模式置于情境(Context)之中。

没有服务拓扑,没有近期部署,没有用户行为,上下文就是空的,AI Agent 只是在追逐统计幽灵。

03

有一个被遗忘的中间层,正在悄悄重塑整个行业。

数据工程优化吞吐量。可观测性优化可见性。AI 优化预测。但从来没有一个学科优化意义(Meaning)。

直到现在。

上下文工程------它不取代上述任何学科,而是连接它们。它定义了信息在系统间应该如何表现 :如何承载意图(Intent)、溯源(Lineage)、所有权(Ownship)和重要性(Significance)

你可以把它想象成主动遥测的神经系统。允许信号带着理解流动,而不仅仅是流动。

传统数据仓库(Data Warehouse)是静态的------存储发生了什么 。上下文图(Context Graphs)是动态的------代表事情如何以及为何发生

它将事件(Events)、实体(Entity)、原因(Reason)连接成一个活的知识层。每个节点是一个活生生的实体:服务、部署、用户事务、配置文件,甚至 AI Agent。每条边描述关系------所有权、因果、时间顺序。因为这些图实时演变,它们成为自我解释系统的基础。

一个构建良好的上下文图(Context Graphs),可以让这样的查询得到即时解决:"昨晚 us-east-1 的延迟峰值,最有可能是谁部署的哪个变更触发的?"

无需翻阅 PB 级日志。一个问题,一秒回答。

这就是意义(Meaning)的力量。

04

可观测性的第四个时代,关于系统本身参与自身的理解。

  • 第一个时代关于可见性,主要围绕日志、指标和链路三大支柱展开。
  • 第二个时代关于关联性,可观测性 2.0 试图解决 1.0 的不足,转向统一的数据模型。通过整合日志、指标和链路,团队能够在同一平台上分析数据并提出更多有意义的问题。
  • 第三个时代,让人类逐渐理解系统,给了人类有效地采取行动的能力。
  • 现在第四个时代来临了,系统本身参与自身的理解------遥测(Telemetry)不再是反映情况的镜子,而是交互的界面

主动遥测(Active Telemetry)意味着数据不再是被动收集的产物,而是积极参与系统运作的 Agent。

自我描述 ------携带来源、所有权、相关性的元数据。它自适应 ------根据消费者是谁来调整自己的形态。它前馈(Feeds forward) ------以链接因果的方式引导人类和 AI 决策。

举一个具体的例子。

一个结账服务的延迟峰值,在不同场景下发出的遥测数据(Telemetry)截然不同。正常运行期间,它可能只产生粗粒度指标。部署窗口期间,它丰富追踪数据,附带提交 ID、部署策略、负责人元数据。事件期间,它提高保真度,抑制非关键噪音,优先处理与用户影响相关的信号。

同一个信号,三种形态。

因为它的目的变了。

这就是主动遥测(Active Telemetry)的核心哲学:数据的目的不是记录发生了什么,而是影响接下来会发生什么。

05

当遥测变得智能,上下文变得明确,系统可以开始闭环自己的循环。

它们感知,解释,响应。从曾经只告知人类的相同上下文中汲取营养。

观察和操作之间的边界消失了。仪表板变成了对话。

这带来了一个根本性的转变:自动化是关于规模的------做得更多、更快。自主性是关于判断力的------决定做什么、何时做、为什么做

在自主运营的核心是代理层------三种类型的智能体正在浮现:

  1. 顾问型 Agent 呈现建议(Recommendations)和置信度评分假设(Confidence-scored Hypotheses)。
  2. 助手型 Agent 在监督(Supervision)下执行常规操作。
  3. 自主型 Agent 在上下文和风险被充分理解的情况下内独立行动。

想象一下:不再是 PagerDuty 把你叫醒,而是 Agent 在故障发生前 30 分钟就已经模拟了回滚方案,等你只是来按确认键

这不是关于取代人类。这是关于扩大机器可以安全行动的范围------因为上下文让意图(Intent)变得可读。

但有一个前提:信任

没有工程师会轻易将控制权交给 AI。信任不是授予的,是赚取的。每个自主决策必须可解释:哪些信号触发了它?推断了什么因果链?模拟和拒绝了哪些行动(Action)?

可解释性(Explainability)将扮演无可替代的角色。

并且在 AI Agent 操作系统的整个流程中,人类需要确保 AI 的行动严格匹配行动的意图(Intent)。

06

回到最初的问题。

"目前团队失败不是因为缺乏数据,"塔克·卡拉韦说。"他们挣扎是因为数据缺乏意义。"

这句话指向一个更深的转变。

遥测(Telemetry)不再是系统行为之后发射的信息------它是系统行为本身的一部分。

当信号(Signal)不仅仅是被观察,而是被真正理解运用。可观测性就变成了架构决策,而非工具选择

这意味着:

  • 有意义的数据生而有目的------信号(Signal)存在是因为它支持某个决策(Decision)或强化某种已知行为,而非因为某行诊断代码恰好被留在代码库里。
  • 有意义的数据在移动前被塑形------减少(Reduction)、丰富(Enrichment)、过滤(Filtering)和路由(Routing)在数据原点附近发生,存储后端不再承担全部解释负担。
  • 有意义的数据与系统目标对齐------遥测(Telemetry)反映服务级意图、用户影响和业务意义。

自主性不来自高数据量。自主性来自有意义的数据

07

我们正在见证一种新型企业的崛起。

AI 不再是对基础设施的附加------它正在成为基础设施本身。未来的赢家,是那些把上下文视为战略资本的组织。

三种力量汇聚:

  1. 可观测性成为 AI Agent 的基础设施。你的遥测层不再作为被动监控底层运行,而是成为为组织各处推理 Agent 提供动力的感官系统。
  2. 上下文工程成为竞争优势。在每个人都可以访问相同模型的世界里,上下文成为真正的差异化因素。两家公司用同一个模型------一个提供原始日志,另一个提供结构化、语义一致、领域感知的信号。只有后者实现真正的智能
  3. 智能遥测产生网络效应(Network effects)。系统产生的上下文越多,AI Agent 能理解的越多。AI Agent 理解越多,行动越有效。行动越有效,遥测越清晰有意义。这是一种运营复利。

企业变得更聪明,不是因为更多工具,而是因为意义的协调。

08

"我们建造了会发射一切的系统,却从未教它们什么才是重要的。"

我们这代人面对的挑战,不是让机器更聪明。

是让我们自己更清楚------什么才是真正重要的,包括人类对自己行动的理解。

当可观测性变成理解力(Comprehension),当上下文变成认知(Cognition),当自主性变成协作(Collaboration),工程就变成了人类判断和机器清晰度之间的伙伴关系。

这不是机器取代工程师的未来。

是机器理解系统,让我们更好理解我们正在构建的世界的未来。

智能运营(Intelligent Operation)的新时代,不由工具定义,不被仪表板限制。

它由一个哲学转变界定:我们不再教系统发生了什么。

Observe. Reason. Act. 从记录,到理解,到行动。我们教它们如何思考。


参考来源:本文核心观点提炼自 O'Reilly 技术报告《Context Engineering for Observability》,作者深入分析了现代可观测性面临的人机双重危机,并提出了"主动遥测"、"上下文工程"及"自主运维"三大架构演进方向。

相关推荐
sunny8652 小时前
Claude Code 跨会话上下文恢复:从 8 次纠正到 0 次的工程实践
人工智能·开源·github
小笼包包仔2 小时前
OpenClaw 多Agent软件开发最佳实践指南
人工智能
smallyoung2 小时前
AgenticRAG:智能体驱动的检索增强生成
人工智能
_skyming_2 小时前
OpenCode 如何做到结果不做自动质量评估,为什么结果还不错?
人工智能
南山安3 小时前
手写 Cursor 核心原理:从 Node.js 进程到智能 Agent
人工智能·agent·设计
掘金安东尼3 小时前
如何为 AI 编码代理配置 Next.js 项目
人工智能
aircrushin3 小时前
轻量化大模型架构演进
人工智能·架构
文心快码BaiduComate4 小时前
百度云与光本位签署战略合作:用AI Agent 重构芯片研发流程
前端·人工智能·架构
风象南5 小时前
Claude Code这个隐藏技能,让我告别PPT焦虑
人工智能·后端