龙虾之后,为什么说「主动式智能」才是Agent的终极形态?

一、当 AI 的进化被止于屏幕

OpenClaw 的爆火,不只是因为它能替你干活。

如果仅仅是自动化,市面上的 RPA 工具早就能做到。OpenClaw 真正让人兴奋的,是它展现出的主动性:基于对邮件、日程、聊天记录的持续理解,主动帮你处理事务、主动推送你可能需要的信息。从 Reactive 到 Proactive 的跨越,让整个行业第一次感受到:AI Agent 不只能「被使唤」,更能「替你想」。

但这种主动性有一个边界,它止步于屏幕。

OpenClaw 的感知器是截屏和文件系统,记忆是聊天记录和邮件归档。合上电脑走进真实生活,上下文链路就此中断。会议室里一小时的讨论、通勤路上偶然看到的书、午餐时的闲聊,对所有数字 Agent 都是感知盲区。

这不是 OpenClaw 的缺陷,而是所有数字 Agent 的结构性边界。当视线从屏幕转向现实,上下文的介质就从文本流变成了视听流,这不是数据量的叠加,而是维度的跨越。

当现实世界本身成为 AI 的上下文,Agent 才有机会从数字世界的「主动帮你干活」,进化为现实生活里的「主动替你留心」,这就是 Proactive AI 从线上走向线下的起点。

冲着这个命题而来的,是 Looki 最新上线的 Proactive Intelligence Engine (Looki PIE)。

这家由 CMU 校友创办的硬件初创公司,正在将自动驾驶「从感知到决策」的工程范式,迁移到一款 30g 的可穿戴设备上,试图在现实世界中构建真正的主动智能。

二、从「被动记录」到「主动判断」

判断一个 Agent 是否真正理解你的生活,最简单的方法是看它敢不敢主动开口。

Looki L1 去年 8 月海外发售后引发了不小的关注,并在 12 月上线国内版本。在用户社区里,它被称为「人生回看器」,通过全天候的视听记录,为用户梳理生活碎片、提供回溯与洞察。

但早期的交互模式仍是 Reactive 的:你问它「今天吃了什么」,它从视听数据中提取答案;你让它整理会议内容,它忠实执行。触发点始终在用户手里。

今天向国内用户正式上线的最新版本,标志着这款产品的关键跨越。

Looki 从固定间隔采集升级为 AI 自主判断「此刻是否需要记录、是否需要给出反馈」的动态决策模式,它被团队定义为「场景自适应式智能」(Scene-Adaptive Intelligence)。

这种「主动」是什么体感?让我来分享一次真实的出差经历。

佩戴 Looki 前往首都机场。过完安检,第一条推送到了,它不是航班提醒,而是 Looki 识别到我进入候机区后,主动提醒:「你答应了给家里小宝贝们带礼物,在机场挑点航天模型或者熊猫周边吧。」它记住的不是日程条目,而是我几天前某次对话中随口提的一句话。

走进包子铺还没坐稳,第二条来了:「这 '返京第一口' 选得有老北京情怀!建议再配一碗小米粥或者炒肝,记得去调料区弄碟醋加点油辣椒,那才地道。」

它识别出了餐厅,还基于我的饮食偏好给出了搭配建议,这条推送的信息密度和个人化程度,已经超出了我对一个可穿戴设备的预期。

回到候机区,第三波推送到达:一份基于我此前设定的「AI 行业动态」偏好生成的当日新闻摘要:算力涨价、新融资,每条附有我关注的行业关联分析;紧跟着是三条 T3 航站楼的冷知识,最后一条居然是关于天窗采光设计的,因为它记得我偏好「明亮日照办公环境」。

一个小时,三个场景节点,四次主动判断。每一次都融合了即时感知和历史记忆,没有一条需要我主动发起。坦白说,有几条推送的时机之精准让我有点意外:它确实在学习「什么时候该开口」。

这条体验链背后的技术链路与 OpenClaw 截然不同。OpenClaw 从文本指令出发,经工具调用到结果反馈,在数字世界闭环。

Looki PIE 的起点是未经编辑的现实视听片段,系统先「看懂」场景,再从全天行为时序中检索记忆,判断「此刻是否值得介入」,最终生成一条融合即时感知与历史上下文的推送。

从 Reactive 到 Proactive,关键不在模型更大,而在让现实世界成为持续供给的个人上下文。

三、主动判断的两个技术切面

在出差场景的「即时提醒」之外,翻到 APP 的另一个页面「探索」,会发现一个更有想象力的功能入口:用户可以用自然语言,自己定义 Agent 在什么条件下该做什么。

它本质上是一段为现实世界编写「If...Then...」的提示词。

我试着设了几条:「每天一杯咖啡,多了提醒我克制」「到了餐厅帮我推荐菜」「开会时有任何洞察及时告诉我」「每天早上到公司,把我关心的信息发给我」。设定过程极简,自然语言输入即可。

这些规则的触发逻辑和手机定时提醒完全不同。手机闹钟只能按时间或坐标响,而Looki 的触发条件却是场景语义:摄像头捕捉到你面前第二杯咖啡才触发健康提醒,识别出你走进餐厅在看菜单才推送推荐。

背后是一条完整管线:从自然语言的意图解析、视觉特征提取,到实时场景匹配和多维上下文验证。这套具身智能 Pipeline 通常存在于机器人实验室,如今被压进 30g 的日常设备。

不过,比「看懂场景」更难的是「决定什么时候开口」。

回看出差那四次推送:安检后提醒买礼物:「进入商业区 + 有空闲 + 记得承诺 "同时满足;进餐厅推荐 ------「正在做就餐决策 + 了解口味」;候机推新闻:「有碎片时间 + 偏好匹配」。每一次都是多因子时机决策,而非规则匹配。

我体验下来最深的感受是:Proactive AI 的核心难度不在推送的内容质量,而在时机精度。

同一条信息,忙时弹出是骚扰,闲时送达是贴心。对比来看,OpenClaw 的场景相对简单:它只在用户明确指令时行动,不需要在物理环境中判断介入时机。但 Looki PIE 的挑战更体现在物理世界的纷扰中,判断和选择时机比信息世界更困难。

这个分寸,就是 Proactive AI 最核心的技术挑战。

四、为现实世界搭建一套全新的 Agent Harness

Looki PIE 是产品概念,落到工程层面是系统问题。

OpenClaw 的 Harness 为数字世界设计:所有输入是文本态,所有操作在数字环境中。当 Agent 走出屏幕,面对混沌的视听流和非确定性的现实场景,Harness 每一层都得重建。

在 Looki 的两位创始人看来,自动驾驶本质上就是在为现实世界搭 Harness Engineering。从实时采集多模态数据、极低延迟完成场景理解,到做出决策并承担后果。现在他们把同一套工程范式从道路平移到了日常生活。

首先是「看」的问题。

30g 设备、12 小时续航,感知模块不可能常开。Looki PIE 突破在于端侧部署了轻量化决策模型,根据环境光流和声音波形实时判断「此刻是否值得激活」。通勤时低频运转,会议或聚餐时自动加密采集。不是无差别地盯着你,而是学会什么时候该「睁眼」。

「看到」之后是「记住」。

Looki 面对的是一整天的视频流和音频流,一帧画面的 token 消耗可能抵得上一封完整邮件,全量灌入模型既不经济也会放大幻觉风险。据 CTO 刘博聪介绍,Looki 在云端构建了多层级上下文索引体系,按语义需求精准摘取最相关片段。出差场景中「你答应给孩子带礼物」那条推送,靠的就是这套索引从数天前一段对话中打捞出一个承诺,在「用户正在机场候机」的实时场景中将它激活。

最顶层是「决定说不说」。

感知和记忆提供了原料,但 Looki PIE 最终能否成立,取决于决策层在没有明确指令时自主判断此刻是否该行动。数字 Harness 不太需要纠结这个:行动由用户指令确定性触发。现实 Harness 必须多出这层主动决策能力,且容错空间极小。

还有一件事绕不开:隐私。

Looki 采用端侧过滤加 App 手动上传的双重门控,原始视听数据不无差别上云。而动态感知机制在架构层面做了一件巧妙的事,设备不是时刻在录,而是由 AI 判断「此刻是否需要激活」,同一套决策逻辑同时服务于能力和隐私。

当感知范围延伸到整个生活现场,隐私保障的质量直接决定产品生死。

五、从「个人上下文」到「数字直觉」

回到开篇。OpenClaw 让行业看到了 Proactive AI 在数字世界的面貌,但只活在屏幕里的 Agent 覆盖的终究是生活的一半。

Looki PIE 试图覆盖另一半。它证明了:现实世界的上下文,那些连续的视听流、散落的行为轨迹、非结构化的生活碎片,可以被工程化地采集、结构化地记忆、智能化地调用,并以此支撑 Agent 做出主动判断。

这条路还很长。执行力边界、感知精度、隐私框架,都有大量未解命题。但方向清晰:当你的生活轨迹、所见所闻、与家人的对话沉淀为属于你的「个人上下文」,AI 就不再需要你手动描述世界:它自己看到了、记住了、理解了,然后在你需要的时候,先你一步。

各路「龙虾们」还在为数字世界的「断片」焦头烂额,而窗外的现实世界,作为上下文的新疆域,才刚刚被纳入 AI 的视野。当 Agent 终于走出对话框,开始真正 「看见」这片广袤的现实,我们与 AI 的关系,或许才刚刚开始。

相关推荐
智算菩萨1 小时前
GPT-5.4 Pro与Thinking模型全面研究报告
人工智能·gpt·ai·chatgpt·ai-native
团子和二花2 小时前
openclaw平替之nanobot源码解析(八):Gateway进阶——定时任务与心跳机制
人工智能·gateway
机器之心2 小时前
昨晚,OpenClaw大更新,亲手终结「旧插件」时代
人工智能·openai
码路高手2 小时前
Trae-Agent源码重点
人工智能·架构
剑穗挂着新流苏3122 小时前
114_PyTorch 进阶:模型保存与读取的两大方式及“陷阱”避坑指南
人工智能·pytorch·深度学习
CoovallyAIHub2 小时前
把 Whisper、Moonshine、SenseVoice 统统装进手机:sherpa-onnx 离线语音部署框架,GitHub 10.9K Star
人工智能·架构
一只叫煤球的猫2 小时前
RAG 如何落地?从原理解释到工程实现
人工智能·后端·ai编程
AI营销快线2 小时前
AI营销获客难?原圈科技深度解析SaaS系统增长之道
大数据·人工智能
南滑散修2 小时前
机器学习(四):混合高斯模型GMM
人工智能·机器学习