Manus通用任务智能体工作流程拆解分析

文章流程灵感来源于@艾逗比

意图识别

• 输入解析 ：提取用户输入关键词（如"日本旅行计划"→japan-trip，任务类型travel）。

• 交互补充：若需求模糊，引导用户补充信息或上传文档/图片。
任务初始化

• 环境隔离 ：根据任务关键词创建专属文件夹，启动Docker容器。

• 资源管理：执行过程文件写入任务文件夹，结束后自动清理容器。
步骤规划

• 智能拆分 ：结合意图识别结果与背景信息，通过推理模型（如DeepSeek-R1）生成任务步骤。

• 任务清单 ：将步骤写入todo.md（[ ]为待执行，[x]为已完成）。
任务执行

• 动态调度 ：遍历todo.md，通过Function Call调用对应Agent（如Search/Code/Data-Analysis Agent）。

• 执行与反馈 ：

◦ Agent执行任务并保存结果至文件夹。

◦ 主线程更新todo.md状态，循环至所有任务完成。
归纳整理

• 结果生成 ：整合任务产物（文档/代码/图片），按用户需求呈现。

• 用户反馈：提供下载并收集满意度，支持后续优化。

Search Agent

• 搜索流程 ：

① 调用Google API获取10-20条结果；

② 通过无头浏览器访问首条结果，提取文本及截图；

③ 多模态模型（如Claude-3）筛选有效信息，若不满足则模拟点击/滚动操作；

④ 循环直至满足需求，保存结果至任务文件夹。

• 核心技术：无头浏览器+多模态模型协同。
Code Agent

• 代码生成 ：根据需求生成Python/HTML等代码文件。

• 执行验证 ：系统调用执行代码，通过code-preview服务预览结果。
Data-Analysis Agent

• 自动化处理：生成数据分析脚本，执行后保存可视化结果。

• 工程优势 ：环境隔离与多Agent调度设计完善，交互体验优于同类产品。

• 技术依赖 ：

• 意图识别依赖专用小模型；

• 任务规划需DeepSeek-R1等推理模型；

• 多模态处理需Claude-3等高成本模型。

• 商业化挑战 ：高Token消耗导致成本压力，需平衡用户体验与运营成本。

• 验证需求：任务准确性与用户满意度需更多案例验证。

Manus通过模块化Agent协作实现复杂任务处理，其核心价值在于工程化落地的流畅性。未来需在成本控制与任务可靠性上突破，同时探索DAG、人机协同等增强场景适应能力。