抱歉,对于今天大家都在热议的「AutoGLM沉思」,我可能要来浇一盆冷水了。
今天,智谱 AI 推出了一个名为「AutoGLM沉思」的智能体,宣称融合了"深度研究"(DeepResearch)和"实际操作"(Operator)两项核心能力。
目前,在网页版上线的是「ChatGLM-沉思模式」,在 PC 客户端上推出的则是更为高级的「AutoGLM沉思版」。
尽管官方提供了多个预设示例以供快速体验,但相比起这些主题宽泛的用例,我更关心的是它在实际生产环境中的价值。
因此,我以自己最近写过的一篇文章《AI 编程发展史》为主题。由于这篇文章在前期的调研阶段同样使用了多个其他的 DeepResearch 产品,因而可以为这次评测提供一个良好的对比。
下面分别说说我对「AutoGLM沉思」这两个模式的使用体验。
ChatGLM-沉思模式
网页版的「ChatGLM-沉思模式」,主打的是"边想边搜,擅长深度搜索和调研写作"。从使用体验上来看,与市面上其他 DeepResearch 产品相差不大。其背后所采用的架构,大概率还是主流的 ReAct 那一套 ,即在一个循环中不断地进行"推理-行动-观察",逐步逼近结果直至达成目标。
具体的流程是:制定计划 -> 提炼关键词 -> 调用搜索引擎 -> 访问网页 -> 内容总结 -> 根据结果调整关键词 -> 继续循环,直到它认为目标达成。
老实说,这个过程并没有什么特别亮眼的地方,本质上就是将用户手动使用搜索引擎获取信息的过程自动化了,核心仍然依赖关键词检索。
而众所周知,使用关键词搜索的最大问题在于:
容易受到 SEO(搜索引擎优化)的干扰。
搜索结果的排序往往受 SEO 影响,排名靠前的不一定是最权威或最有价值的内容,导致最终整合出的研究报告质量参差不齐,难以保证准确性和深度。这一点在多次测试中都得到了体现。
这也是目前所有的 DeepResearch 产品共同面临的问题,即:
无法有效辨别高质量的信息源,无法做到如人类专家般的精准筛选与验证。
比起花里胡哨的搜索体验,我更关心的它搜索来源的准确性、权威性,是否有鉴别优质内容的能力。很不幸的是,「ChatGLM-沉思模式」在这一方面同样落于俗套,没能做到。
AutoGLM沉思版
「AutoGLM 沉思版」在「ChatGLM-沉思模式」的基础上,通过 PC 客户端 配合 Chorome 浏览器的插件,实现了浏览器自动化,增强了操作能力,使其具备以下新特性:
- 更强的搜索方式:支持直接打开浏览器标签页模拟人工搜索,而不仅仅事依赖搜索引擎工具 API。
- 站内搜索能力:能够直接访问特定网站,并执行该站点的内部搜索,获取更相关的结果。
- 深度整合数据:可以直接解析搜索结果,抓取网页内容,并无缝回传到 PC 端作为后续推理的参考。
这种模式的优势也比较明显:
- 可访问部分有登录限制的网站,搜索范围更广
- 可利用站内搜索的筛选和排序功能,获取更优质、更精准的内容
尽管增强了搜索能力,但其带来的副作用也很明显,那就是------慢!
与「ChatGLM-沉思模式」可以在后台快速爬取和处理搜索结果相比,「AutoGLM 沉思版」在操作浏览器时存在明显的延迟,它往往需要:
- 解析网页结构,确定搜索框与按钮
- 输入关键词并执行搜索
- 解析搜索结果,选择合适链接
- 访问链接并提取网页内容
- 继续重复以上步骤
由于每一步都涉及页面加载、元素识别、交互操作,导致整个流程变得异常缓慢,任务执行时间显著增加,影响了整体使用体验。
并且,尽管采用了更接近人类操作习惯的搜索方式,但它仍然没有解决前面那个最根本的问题。
在测试过程中,我多次观察到它在一些注定无法获得正确结果的网站上,来回地执行一些低效的搜索,让人倍感无奈,当时我的表情是这样的:
所以,尽管操作方式上令人眼前一亮,但从最终的输出结果质量来看,满分 100 分的话,我可能也就只能给个 30 分。
这是我给到它的完整提示词:
而它返回给我的最终结果,则问题多多,比如:
- 未遵循Markdown表格格式的规范:
- 引用资料缺失或指向错误
- 事件描述过于笼统
- 出现了"未来"时间点的事件:
- 出现了调研要求以外的内容
另外,它还有一些体验上的问题,这个就稍微列一下,不做过多赘述了:
- 搜索结果存在幻觉:特别是在要求其给出引用内容的来源时尤为明显。
- 登录处理不完善:遇到需要登录的网站时,经常出现卡住等待的情况。
- 流程稳定性不足:部分情况下,浏览器成功抓取信息但未能正确回传。
- 剥夺用户操作权:由于浏览器自动化直接运行在用户设备上,导致并发使用时体验受限。
结论:"自动化"探索值得肯定,但"沉思"之路仍长
「AutoGLM 沉思」中展示的浏览器自动化技术,确实令人眼前一亮。然而,从产品体验和最终效果来看,对通用搜索模式的依赖、缺乏对信息源权威性的辨别能力,以及在浏览器自动化操控的效率问题,都限制了其在严肃研究或复杂任务场景下的实用价值。
目前来看,AutoGLM 的"沉思"更像是一种技术能力的展示,距离成为一个成熟、可靠、高效的智能研究助理,还有相当长的路要走。