DataWorks Data Agent:从增强到自主,数据智能体的范式跃迁

从痛点到跃迁:数据智能体的进化之路

周五下午5点半,你正准备享受周末,运营同学突然找来:"能在周一看到这周末新增的运营指标数据吗?"你心里清楚,这意味着要对齐口径、分析历史数据、查阅文档、编写 SQL、补数据、做报表------整个周末可能就搭进去了。

凌晨2点47分,持续的报警声把你从睡梦中惊醒。你想处理这个问题,但又不确定具体该怎么做。为了提升那 10% 的准确性,你不得不登录平台查看日志、翻阅代码,最终可能发现只需要简单重跑一下任务就能解决。 这两个场景,正是 DataWorks Data Agent 要实打实解决的痛点。当你接到需求时,CLI 模式的 Agent 可以端到端全部完成;当你半夜收到报警时,Claw 模式(龙虾)会自主分析问题,给出处理建议,你只需回复一个"好",整个运维流程就自动完成了。

五阶段演进:从辅助到自主的范式转变

DataWorks 在 AI 领域的探索已有两三年时间,经历了清晰的五个阶段。

第一阶段是代码补全------写完一行代码按下回车,系统自动推荐下一步该写什么。

第二阶段进化到问答与代码辅助------通过几句自然语言描述,AI 就能给出问题解释和建议,实现快速的"Control C + Control V"式开发。

第三阶段是 IDE Copilot------AI不仅能生成代码,还能通过注释理解、代码翻译等功能,帮你快速完成30%到40%的代码工作。

第四阶段是 Chat BI------运营、运维人员也能通过自然语言快速找到数据或生成简单报表,不过这个阶段最大的痛点是"准不准"的问题。

**第五阶段,也就是现在发布的 DataWorks Data Agent,实现了从"增强"到"自主"的跃迁。**前面的阶段都是助手模式,像副驾驶或陪练。但 DataWorks Data Agent 是全自动驾驶------给它一个目标,它能端到端全部完成,包括需求理解、数据探查、代码编写、任务上线,甚至上线后的归因分析。这不是简单的模式改变,而是从"会问""会写"到真正"会做"的范式跃迁。

双引擎架构:两类场景,一颗大脑

DataWorks Data Agent 采用双模式设计:CLI 模式和 Claw 模式(龙虾模式)。这两种模式不是独立的产品,而是共享同一个统一上下文的智能体系统。

CLI 模式擅长代码编写和复杂任务处理。它可以读取你的工程文件、表的变更日志(Change Log),执行非常复杂的指令来完成任务。你打开命令行或 IDE 中的 CLI,告诉它"帮我把某张表的数据加工成什么样子"。

CLI Agent 会读取你工程里的所有文件,找到相关的表,读取表的内容以及曾经变更过的 Change Log。它还会做数据洞察,帮你分析上游和下游依赖关系,最终生成一个可行的方案。根据这个方案,它会编写代码、调试、生成单元测试、设置质量规则。整套工作完成后交给你 Review,确认无误后就可以发布上线。

Claw 模式则有非常好的生态集成能力。它可以与钉钉、企业微信、飞书等社交软件结合,也能与各种告警链路打通。它更适合处理点状的、突发的问题,或者通过自然语言聊天方式来快速确认和执行任务。

在钉钉群、企业微信群或飞书里,你可以主动询问"这个任务为什么没处理好"。系统会在群里通过你这句话识别异常,读取曾经执行过的周期、刚才执行的日志、错误信息,简单处理数据并进行分析。出于安全管控的考虑,系统会把所有信息整理好后告诉你它想做什么,但需要你确认。你只需要回复确认,它就开始执行。

根据 DataWorks 的实践,CLI 专注于代码和工程编写,Claw 模式处理点状突发事件或需要通过聊天方式快速响应的场景。虽然入口不同,但两个模式的能力是互通的------它们共享同一份数据语义与上下文。

统一技术内核:从产品到架构的深度设计

DataWorks Data Agent 的技术架构不是简单地把通用 Code Agent 和龙虾嵌入到一个执行引擎里,而是构建了一套真正统一的运行时内核。

最上层是标准的 ACP 网关,能够智能路由你的语义和需求。比如你说"希望把某张表的数据拆分成三张表",系统会识别这是 Code 类型任务,下发到 Code Agent 处理;如果你说"帮我诊断一下昨天某个任务为什么报错、影响是什么",系统会下发到 Claw 模式,最终结果可以通过钉钉群或企业飞书推送给你。

这两个 Agent 共享一个非常强大的统一上下文。它们懂数据、懂代码、懂整体的安全权限体系。如果你在 Code Agent 里运行了某个任务,这个上下文会被持久化;当龙虾里收到报警时,它可以读取 Code Agent 开发过的所有内容------它知道前一天谁、什么时候改过什么代码、做了什么变更,恰好引发了这次报警。然后你可以让它回滚代码,Code Agent 就会接收这个消息并执行。

整个底层对于模型、容器、引擎、加密、权限、可观测性都是统一的,只是模式不同。这就是 Data Agent 的核心技术特点------不只是做了一个聊天框,而是构建了受控的执行内核,且这个内核可以被多种模式共享和使用。

完整的产品架构体系

在用户交互层,DataWorks Data Agent 提供了极为丰富的选择。既有 Chat 界面,也支持纯命令行的 TUI(文本用户界面)------对于专业研发工程师来说,黑白屏的 CLI 体验反而更友好。此外还支持 IM 集成,甚至可以通过手机扫码的方式在微信等移动端处理日常流程。

在能力层,DataWorks Data Agent 内置了多个专家级 Agent:数据开发 Agent、数据治理 Agent、数据分析 Agent、运维 Agent。每个 Agent 都集成了 DataWorks 多年在大数据领域沉淀下来的功能,这些能力都是开箱即用的。

系统还开放了第三方 MCP Skill、知识库和语义接入,让平台内容与用户内容进行有机连接。在模型支持方面,Data Agent 支持阿里云通义千问、GLM、DeepSeek 等国内主流模型,并针对大数据场景做了 Text-to-SQL 模型的微调,让它更适合生成阿里云自研大数据引擎的 SQL。如果企业因特殊原因不能使用公开模型,系统也支持独立部署专属模型。

开放生态与全托管底座:企业级落地的双重保障

多端协同的统一内核

DataWorks Data Agent 不仅仅服务于 CLI 和 IM,它的设计理念是一个统一的智能内核服务于多端场景。

除了 CLI 和 IM,Data Agent 还支持 IDE 集成和 API 调用。因为 AI 发展非常快,除了龙虾之外,未来还会出现更多形态的 Agent。DataWorks 认为 Data Agent 的内核应该是固定的、持续沉淀的,这个内核应该不断适应 AI 的变化,而不是每出现一种新模式就烟囱式地重新开发,那样就没有积累。

DataWorks Data Agent CLI演示:

视频演示 >>

基于MCP的开放Skill生态

DataWorks Data Agent 构建了一套开放的 Skill 生态系统。基于 MCP 协议,引擎团队、合作伙伴、客户都能扩展 Data Agent 的能力。Skill 一次注册,就可以在各个场景中处处可用。这种开放架构让 DataWorks Data Agent 不仅仅是一个封闭的产品,而是一个可以持续扩展的平台。

全托管运行底座

DataWorks Data Agent 的运行底座完全基于 DataWorks 现有的基础设施。系统基于 DataWorks 资源组与云原生运行时,统一承载 Agent 的调度、执行与负载。这意味着 Data Agent 完全复用了 DataWorks 现有的计算资源、网络建设、工作空间绑定和代码权限体系,实现了冷启动零成本。

CPU-GPU联合优化的技术洞察

许多人认为 Agent 性能优化主要靠 GPU 加速,但实际上 Tool 处理对 CPU 的消耗对 Agent 工作负载的执行延迟有重大影响,这凸显了 CPU-GPU 联合优化的必要性,而不是仅仅依赖 GPU 加速。DataWorks 团队与 AMD、Intel 等硬件厂商进行了深度协作,针对 Agent 对 CPU 消耗高的特点,优化物理核频率与线程吞吐,从而提升 Agent 的整体执行效率。

总结:不是终点,是新的起点

DataWorks Data Agent 的发布,标志着企业级数据智能体从"增强模式"向"自主模式"的重大跃迁。通过 CLI 与 Claw 双引擎架构、统一的运行时内核、开放的 Skill 生态,Data Agent 真正实现了"一句目标,数据链路端到端自动完成"的愿景。

这不是终点,而是新的起点。接下来,DataWorks 将继续深化客户实践场景,扩展大数据引擎团队的能力边界,让数据智能体成为企业大数据领域真正的"数字员工"。

即刻体验,开启你的智能开发之旅

相关推荐
lulu12165440781 小时前
Codex Computer Use 深度分析:AI桌面自动化的技术突破与行业影响
java·运维·人工智能·自动化·ai编程
chenying9981791 小时前
扩散模型语音克隆:参考音频注入的五种方式
人工智能·音视频·语音合成
weixin_468466851 小时前
多鲁棒优化新手实战指南
人工智能·深度学习·机器学习·ai·模型优化
甲维斯2 小时前
Codex高维碾压对手了!一种开发新体验
人工智能
机 _ 长2 小时前
YOLOv8-Mamba:融合MambaVision思想的目标检测创新实践
人工智能·yolo·目标检测·mamba
DigitalOcean2 小时前
DigitalOcean 的 AI 推理路由器是如何构建的
后端·aigc·agent
phltxy2 小时前
Spring AI 应用开发
java·人工智能·spring
诸葛务农2 小时前
共沸脱水技术及其在光刻胶用PGMEA纯化中的应用(中)
linux·数据库·人工智能