文章流程灵感来源于@艾逗比
一、核心工作流程
-
意图识别
• 输入解析 :提取用户输入关键词(如"日本旅行计划"→
japan-trip
,任务类型travel
)。• 交互补充:若需求模糊,引导用户补充信息或上传文档/图片。
-
任务初始化
• 环境隔离 :根据任务关键词创建专属文件夹,启动Docker容器。
• 资源管理:执行过程文件写入任务文件夹,结束后自动清理容器。
-
步骤规划
• 智能拆分 :结合意图识别结果与背景信息,通过推理模型(如DeepSeek-R1)生成任务步骤。
• 任务清单 :将步骤写入
todo.md
([ ]
为待执行,[x]
为已完成)。 -
任务执行
• 动态调度 :遍历
todo.md
,通过Function Call调用对应Agent(如Search/Code/Data-Analysis Agent)。• 执行与反馈 :
◦ Agent执行任务并保存结果至文件夹。
◦ 主线程更新
todo.md
状态,循环至所有任务完成。 -
归纳整理
• 结果生成 :整合任务产物(文档/代码/图片),按用户需求呈现。
• 用户反馈:提供下载并收集满意度,支持后续优化。
二、关键Agent设计示例
-
Search Agent
• 搜索流程 :
① 调用Google API获取10-20条结果;
② 通过无头浏览器访问首条结果,提取文本及截图;
③ 多模态模型(如Claude-3)筛选有效信息,若不满足则模拟点击/滚动操作;
④ 循环直至满足需求,保存结果至任务文件夹。
• 核心技术:无头浏览器+多模态模型协同。
-
Code Agent
• 代码生成 :根据需求生成Python/HTML等代码文件。
• 执行验证 :系统调用执行代码,通过
code-preview
服务预览结果。 -
Data-Analysis Agent
• 自动化处理:生成数据分析脚本,执行后保存可视化结果。
三、优化方向
- 任务依赖管理 :将线性任务清单升级为DAG(有向无环图),支持复杂依赖关系。
- 质量保障机制 :引入自动化测试Agent,对低评分任务节点回溯重试。
- 人机协同模式 :支持任务执行中用户介入反馈(超时未响应则自动继续)。
四、技术评价
• 工程优势 :环境隔离与多Agent调度设计完善,交互体验优于同类产品。
• 技术依赖 :
• 意图识别依赖专用小模型;
• 任务规划需DeepSeek-R1等推理模型;
• 多模态处理需Claude-3等高成本模型。
• 商业化挑战 :高Token消耗导致成本压力,需平衡用户体验与运营成本。
• 验证需求:任务准确性与用户满意度需更多案例验证。
五、总结
Manus通过模块化Agent协作实现复杂任务处理,其核心价值在于工程化落地的流畅性。未来需在成本控制与任务可靠性上突破,同时探索DAG、人机协同等增强场景适应能力。