单纯从我简单的使用上,让我想到了魔镜:
魔镜魔镜,快告诉我,baidu.com 的 seo 做的怎么样?
魔镜魔镜,快告诉我,近 100年来,美国最聪明的人是谁?
魔镜魔镜,快告诉我,近100年来,美国最漂亮的女人是谁?
魔镜魔镜....啪,1美元没了!
开个玩笑,我们言归正传,下面简单介绍下我这次的体验吧:
准备工作
Manus 爆火之后,github 迅速涌出 openManus,据说只花了 3个小时。
出于好奇,就跑了下看看。
首先,官方的安装教程比较友好,借助 uv(官方的推荐方法二),一个没什么 python 基础的人(比如我),也能很快配置好环境并完成安装。
使用上需要配置自己的 api_key 和对应的模型请求 url(这一步可能需要一点玩 ai 的基础,或者找个中间商配置一下也行)。
也是按照官方文档来配置即可,下面是我的配置:
核心就是请求的 url 和 api_key。
这两步搞定,就可以直接,启动:python main.py
我本来以为会打开一个网页,然后输入你的指令,openmanus 自动帮你跑啊这些的,结果是在命令行。
好吧,3个小时的话,其实也没毛病。
小试牛刀
接下来就是文章开头的一幕了,刚好也没啥问的,就问一些简单的问题吧。
看起来命令行一大堆内容,实际上基本可以分为两步:
-
run: 执行的开始,看起来是 x/30,似乎是设置了最多30轮的样子
-
toolcall: 这一阶段分为思考,选择工具,执行工具,完成工具执行
这两步交替执行,完成最终的任务后,返回结果。
在我上述的例子中,执行了多轮:
第一轮,选择了 google_search, 找到了 n 多篇文章。
第二轮,选择了 file_saver 这个工具,把这些链接保存在了我本地的一个文件中
第三轮,选择 browser_use 这个工具,打开了这些链接中的第一个,这一步是在我本机上打开的
第四轮,选择了 python_execute 来审查网页,最终观察到了 近百年来 USA 最漂亮的女人 是奥黛丽赫本
第五轮,选择了 file_saver,把结论保存在了本地的一个文件中
第六轮,选择了 terminate 这个工具,也就是终止,并告知最终执行结果:success。
结果就是去最终本地保存的文件查看。
说实话,从这里来看,其实还不如让普通的对话机器人联网搜索下来的快。
而且这段执行下来,大概花费在 0.2美金左右,对应我选择的模型,大概是 0.2M tokens 的样子,可比单纯聊天花费多太多了。
浅浅看看原理
从实际的体验来看,个人感觉并不是特别大的技术突破。
核心还是借助大模型的能力,来从工具集中选择工具并执行。
简单画个图,大概是样子:
说是缝合,似乎也不为过。
不过这个系统更像是一个可以成长的机器人,一方面,可以通过不断的向其中增加工具集,来完善 agent 的能力。
而另一方面,从大模型入手,将人类的思考方式灌入,比如拆分任务(这一步已经在进行中了,在 run_flow.py 中)后,再进入工具选择阶段。
总结
整体来讲,openManus 的推出速度可谓是非常快了,拆分任务,选择工具,执行工具,得到结果,这种模式确实很强,具备比较大的成长空间。
虽然目前比较简陋,但是随着工具集的扩充,流程的拆分,相信未来大有可为。
同时,在 token 的消耗量上,也是一个需要优化的地方,目前的消耗量,还是承担不起的,性价比并不高。
最后,回答下一开始的问题:
- baidu 的 seo 做的怎么样,agent 回答:The website has a good SEO score.
- 近百年来最聪明的美国人:Albert Einstein
这两问题,花费 0.8美金,其实还蛮气人的!
当然,也别忘记关注我的公众号:程序员芋仔。
AI程序员时代(饭碗随时会丢),我也组建了一个前端抱团取暖群,欢迎加我微信来撩:mxb151,加群备注简单的自我介绍和加群哦。