阿里云 EMR AI 助手正式发布：从问答工具到全栈智能运维助手

摘要：一句话了解 EMR AI助手

阿里云 EMR AI助手是面向大数据运维场景的 AIOps 智能运维产品，基于自然语言交互，结合大模型的深度认知与规划能力，自动编排工作流，提供根因分析和优化建议。不同于通用大模型的"纸上谈兵"，EMR AI 助手直连您的集群，提供智能诊断、全面巡检、主动运维、专家技能等核心能力。每一条建议都基于真实运行情况和丰富的大数据运维经验，提升10倍运维效率。

凌晨两点，告警群弹出消息：P99 延迟飙到 5 秒。

你睡眼惺忪打开电脑，登控制台看监控，连终端查系统表，切回控制台翻慢查询，再去看 BE 节点状态------四个界面来回切了 30 分钟，才定位到是 Compaction 积压导致 IO 打满。

早上九点，老板问："昨天集群怎么样？"你对着控制台 50 个指标发呆，花 40 分钟手动拼了一份日报，写完自己都不确定有没有漏掉什么。

下午三点，新同事问你"这张表该怎么建分区"，你口述了 20 分钟分桶策略，对方还是一脸懵。

这些场景的共同点：你知道该做什么，但完成它需要大量"记忆+查找+手动操作"的时间。 这正是大数据智能运维（AIOps）要解决的核心问题。

今天，EMR 的 AI 助手正式升级。它不再只是一个问答框------而是一位能连你集群、读你数据、帮你干活、还会主动找你汇报的 AI 主治医生。

一、AI 日报：不是仪表盘搬家，是主治医生查房

想象一下这个场景：

早上 9 点，你打开钉钉，运维群里已经躺着一份 AI 日报。你没有看到密密麻麻的 50 个指标，而是看到这样一段话：

今日 3 项需关注： $严重$ 导入事务每分钟失败 130 次，影响数据时效性 $中$ CN 磁盘 disk2 使用率 92.5%，预计 5 天内写满 $中$ 7 个物化视图刷新失败，影响下游报表查询性能

你点开第一条，日报不是丢给你一个数字就完了，而是像一位主治医生一样，给你讲了一个完整的故事：

现象： 导入事务每分钟失败峰值 130 次（07:22），导入失败率日同比 +45%，失败集中在表 dwd_order_event 和 ods_user_log。关联证据： 同时段 Compaction Score 飙升至 1058；CN 磁盘 IO Util 持续超 80%；这两张表是高频 Stream Load 热表，每秒写入超 200 次。根因： 高频写入导致版本堆积 → Compaction 追不上 → IO 打满 → 事务提交超时失败。建议：预期收益： 消除事务失败，Compaction Score 预计降至 500 以下，IO Util 降至 60%。

读完这段话，你不需要再去翻控制台，不需要自己猜根因，甚至不需要想"该怎么办"------诊断、处方、预期疗效，全都写好了。

这就是 AI 日报和传统监控仪表盘的根本区别：

	控制台仪表盘	AI 日报
呈现方式	50 个指标逐项列出	全面巡检后高亮存在风险的 3 件事
分析深度	单维度指标 + 评分	跨维度关联（导入失败 + Compaction 积压 + IO 瓶颈，串成一条因果链）
根因定位	展示现象，你自己判断	AI 推理根因链
行动指引	无	可直接执行的 SQL 和配置建议
趋势预警	当前值	"按当前增速，5 天后磁盘写满"

控制台是仪表盘，让你自己看；日报是主治医生，帮你看完了直接告诉你该做什么。

而那些检查过但一切正常的指标呢？日报也不会漏掉，只是不浪费你的时间：

以下 12 项检查通过 ✓资源配置：磁盘空间均衡 ✓ | 表分析：主键表索引正常 ✓ | 缓存分析：命中率正常 ✓ | 参数配置：合理 ✓ | 导入频率：正常 ✓ | 数据分布：均匀 ✓ ...

查了，没问题，一行带过。 让你既放心，又不浪费注意力。

二、多入口随时可用：控制台、IM、API，在你习惯的地方办公

过去的运维工作流是这样的：

收到告警 → 打开控制台 → 切到监控页 → 再开终端连集群 → 查系统表 → 回控制台改配置 → 再回终端验证。四个界面来回切，一件事拆成七步走。

现在，你可以在控制台、钉钉/飞书、或者 API 中直接使用 AI 助手。无论你在哪个界面，AI 就在哪里待命。

控制台对话：即开即用

在 EMR 控制台的 AI 助手页面，直接和 Agent 多轮对话。选择关联的实例，输入问题，Agent 自动连接集群进行分析。

你： sr-production 最近慢查询多不多？

几秒后，Agent 返回结构化的诊断结果：

sr-production 慢查询统计（最近 24 小时）慢查询总数：23 条（较昨日 ↑8）Top 1：SELECT * FROM orders JOIN users ON ... 平均耗时 12.3s，执行 45 次Top 2：INSERT INTO report_daily SELECT ... 平均耗时 8.7s，执行 3 次 $优化 Top1$ $查看趋势$ $深度巡检$

你点了「优化 Top1」，Agent 自动获取 Query Profile，分析算子耗时，几秒后返回：

SQL 优化建议 发现 3 个优化点：预估提升：12.3s → 800ms（↓93%） $查看优化后 SQL$ $在集群执行验证$

你点「在集群执行验证」，Agent 直接在集群上跑优化后的 SQL，返回：实际耗时 760ms，验证通过。

从发现问题到验证修复，全程对话完成，不用切换任何额外界面。

IM 通道 & API：融入现有工作流

除了控制台，专业版及以上还支持：

钉钉/飞书接入：在运维群里即可使用。日报、告警、巡检报告自动推送到群里，团队所有人都能看到
API 接口：将 AI 助手集成到你的自动化运维流程中，按需调用

传统运维：人围着工具转。现在：工具围着人转。

三、主动推送：AI 不只等你问，还会主动找你

前两章讲的能力，都需要你先开口。

但真正好的运维助手，不应该等你问------它应该比你先发现问题。

EMR Agent 的主动推送引擎，让 AI 从"被动应答"变成"7×24 值班"。它持续监控你的集群，一旦发现异常，立刻推送诊断结果和处置建议。

慢 SQL 告警：发现即诊断

当集群出现慢查询时，Agent 不只告诉你"有慢 SQL"，而是直接给出诊断和优化方案：

$EMR Agent 慢 SQL 告警$ sr-production 触发时间：14:23慢 SQL： SELECT * FROM orders JOIN users ON ... 执行耗时 12.3s，超过阈值 10sAI 诊断： EXCHANGE 节点 Shuffle 2.8GB 数据，JOIN 未命中 Colocate 策略，导致大量网络传输。优化建议：预估提升：12.3s → 800ms（↓93%） $查看优化后 SQL$ $查看 Profile$ $静默 1 小时$

不是一个冷冰冰的告警数字，而是一段带着诊断和处方的值班交接。

目前主动告警已支持慢 SQL 场景，更多告警场景（资源水位告警、导入异常告警、节点故障告警等）正在快速迭代中。

四种主动推送，覆盖运维全场景

推送类型	触发方式	推送内容	状态
巡检报告	每周/每日定时	8 维度健康评分 + 全量检查 + 优化建议	✅ 已上线
慢 SQL 告警	慢查询阈值触发	慢 SQL 详情 + Profile 分析 + 优化 SQL	✅ 已上线
更多告警场景	监控事件触发	资源水位 / 导入异常 / 节点故障等	🔨 快速迭代中

每一种推送都不是简单转发监控指标------它们都经过 AI 的关联分析和根因推理，附带可执行的操作建议。

所有推送规则都可以自定义：

选择关联哪些集群
设置推送时间和频率
配置慢 SQL 告警阈值
同类告警自动聚合，不刷屏

你睡觉的时候，Agent 在值班。你度假的时候，Agent 在巡检。

四、专家技能：不只是聊天，能直接帮你干活

很多人第一反应是：我直接问通义千问、问 ChatGPT，不也能回答问题吗？

能回答，但只能回答。

裸用大模型，需要你捞日志，找健康，复制实例背景信息。需要你自己去控制台找入口操作。它甚至可能告诉你一个已经过时的参数名。

裸模型是纸上谈兵的军师，EMR 专家技能是能亲自上阵的全栈工程师。

通用大模型 vs EMR 专家技能：关键差异

维度	裸用大模型	EMR 专家技能
读取集群状态	对你的集群一无所知	实时查看 BE 状态、内存、慢查询
操作集群	"建议你执行以下命令"	直接调 API 完成扩缩容、配置变更
建议准确性	基于通用知识，可能过时	内置 StarRocks 最新文档 + 运维SOP+执行验证
多步操作	每一步都要你手动执行后反馈	全链路自动编排：诊断→定位→修复→验证

EMR AI助手搭载多种专业技能：

专家技能	定位	能力
诊断分析类	资深 DBA	能写 SQL、能看 Profile、能查系统表、能做全面巡检
运维管控类	运维机器人	能建集群、能扩容、能改配置、能管理导入任务

结语

回到开头那三个场景：

凌晨两点的告警------Agent 已经帮你抓到了慢 SQL，附上诊断和优化方案，你一眼就知道该怎么处理。

早上九点的日报------Agent 替你查了 50 个指标，只讲需要关注的 3 件事，附带处方和预期疗效。

下午三点新同事的提问------让他直接问 Agent，比你口述 20 分钟讲得更清楚。

EMR AI助手不是替代 DBA，而是让每个 DBA 都拥有一位 7×24 在线的 AI 搭档。

它帮你采集数据、关联分析、推理根因、给出建议、执行操作、验证结果。你只需要做最重要的事------做决策。

现在就开通 EMR AI 助手，让你的集群拥有自己的主治医生。阿里云控制台 → EMR → AI 助手 → 开通

常见问题（FAQ）

Q1: EMR AI 助手对 EMR Skills 的集成如何？EMR Skills 有哪些功能？

EMR AI 助手深度集成了EMR Skills，实现开箱即用。EMR Skills 主要包含两大功能模块：一是EMR Serverless Spark Skills，支持工作空间管理、作业提交监控及资源弹性扩缩容；二是EMR Serverless StarRocks Skills，分为实例管理（starrocks-manage）和SQL开发优化（starrocks-assistant），分别负责实例生命周期运维与SQL诊断调优，从而简化大数据处理与分析流程。

Q2：EMR AI 助手支持哪些数据引擎？

目前 EMR AI助手 EMR Serverless StarRocks，包括集群管理、慢SQL诊断、Query Profile 分析、实时导入配置、扩缩容等全栈运维场景，后续将覆盖到更多子产品。

Q3：AI日报和巡检报告的数据安全如何保障？

EMR AI助手运行在阿里云安全体系内，所有数据访问通过 RAM 权限控制，诊断数据不出云、不落盘、不用于模型训练。日报和巡检结果仅推送给授权的钉钉/飞书群或指定 API 端点。

Q4：主动推送会不会刷屏？告警太多怎么办？

EMR AI助手支持同类告警自动聚合，同一根因的多条告警会合并为一条诊断推送。你还可以自定义告警阈值、推送频率、静默时间段，确保只收到真正需要关注的信息。

Q5：如何开通 EMR AI助手？

登录阿里云 EMR 控制台 → EMR AI 助手 → 助手管理 → 选择套餐开通即可。试用版 ¥0 起步，100 万 tokens 免费体验全部问答和巡检能力。

Q6：EMR AI助手适合什么规模的团队使用？

从个人开发者到大型运维团队都适用。试用版/基础版适合个人探索，专业版适合 3-5 人日常运维团队（钉钉群协作），企业版适合对 SLA 有严格要求的生产环境（7×24 主动告警值班）。