在数字化浪潮席卷全球的当下,企业 IT 架构愈发复杂,运维工作正面临着前所未有的挑战。从海量监控数据中快速定位故障根源,到熟练编写复杂的查询语句,再到在繁杂的平台功能中找到所需入口,每一项任务都消耗着运维人员的大量精力。而随着Agentic AI 与Agentic Ops技术的兴起,智能运维迎来了革新,博睿数据推出的小睿助理,更是凭借前沿技术架构,成为了运维人员的贴心技术伙伴,引领智能运维迈向全新高度。
一、解密智能运维核心:Agentic AI 与 Agentic Ops
(一)什么是 Agentic AI
Agentic AI 即智能体驱动的人工智能,代表着一类能够自主感知、决策、执行并持续学习的人工智能系统,是区别于传统被动响应式 AI 的全新范式。
其核心特征十分鲜明:一是自主目标导向 ,能够精准理解复杂目标,并将其自主拆解为一系列可执行的任务;二是多工具协同 ,可以灵活调用 API、脚本、数据库等多种外部工具,高效完成既定目标;三是记忆与反思 ,具备短期和长期记忆能力,能够从历史交互数据中学习经验,不断优化自身决策和执行流程;四是主动协作,多个智能体之间可以进行分工协作,形成一个高效运转的智能体网络,共同应对复杂任务挑战。
相较于传统 AI 只能在预设规则下完成单一指令,Agentic AI 更像是一个具备自主思考能力的 "智能团队",能够在开放、动态的环境中,自主规划行动路径,解决没有标准答案的复杂问题。
(二)什么是 Agentic Ops
Agentic Ops,即智能体驱动运维,是Agentic AI 在 IT 运维领域的具体落地实践,标志着运维模式从 "自动化" 向 "自主化" 的关键跨越。
在传统的自动化运维模式中,系统只能按照预设的规则执行固定操作,缺乏应对突发状况的灵活性。而 Agentic Ops 则赋予了运维系统强大的自主能力:它能够动态理解运维场景 ,实时整合分析监控数据、日志信息、链路追踪等多元数据;可以自主诊断与决策 ,无需人工干预就能精准识别问题根因,并选择最优解决方案;还具备预测性干预 能力,基于模式识别技术,提前预判潜在故障风险并主动采取预防措施;同时,它支持自然语言交互,运维人员通过日常对话就能与系统进行高效协作,大幅降低了操作门槛。
(三)Agentic AI 与 Agentic Ops 的紧密关系
Agentic AI 是 Agentic Ops 的技术核心与底层支撑,为运维场景提供了强大的智能体能力引擎。正是依托 Agentic AI 的自主感知、决策、协作等特性,Agentic Ops 才得以突破传统运维的局限,实现从被动响应到主动预防、从人工操作到自主运维的转变。
而 Agentic Ops 则是 Agentic AI 在运维领域价值实现的重要载体。通过将 Agentic AI 技术与运维场景深度融合,Agentic Ops 让抽象的人工智能能力转化为实实在在的运维效率提升和成本节约,推动智能运维技术从理论走向实践,为企业数字化转型保驾护航。
二、博睿数据小睿助理:Agentic Ops 理念下的智能运维标杆
作为博睿数据 Bonree ONE 平台的核心智能模块,小睿助理深度融合大语言模型(LLM)与检索增强生成(RAG)技术,是 Agentic Ops 理念在运维领域的典型落地成果。它并非简单的问答机器人,而是真正懂运维的智能伙伴,能够精准解决运维人员日常工作中的各类痛点问题。
(一)核心功能:一站式解决运维难题
- 意图识别:精准 "读懂" 用户需求
面对运维人员的自然语言提问,小睿助理会借助大语言模型,对用户意图进行精准分类。例如,当用户询问 "如何查询 Pod 的内存使用率",系统会识别出这是 PromQL 生成需求;当用户问 "拓扑图在哪里",则会被归类为智能导航需求。这一过程如同医院的导诊台,确保用户的每一个需求都能被精准分流至对应功能模块,避免无效交互。
- PQL 生成:快速编写专业监控查询语句
编写 PromQL 语句是运维工作中的高频任务,也是技术难点。小睿助理的 PQL 生成功能,能够帮助运维人员轻松攻克这一难题。其工作流程清晰高效:
-
- 用户问题向量化:将用户的自然语言问题输入嵌入模型,转化为向量表示;
- 指标检索:基于向量在 Milvus 向量库中进行相似度搜索,筛选出 Top20 相关指标信息;
- 智能重排序:利用 ReRanker 模型对候选指标再次评估排序,过滤语义不符结果,精选出 Top10 指标及示例;
- 生成专业语句:将精选指标作为 Few-Shot 示例,结合用户问题构建提示词,输入大语言模型,最终生成精准的 PromQL 查询语句。
例如,当用户提出 "查看过去 5 分钟 Nginx 的 QPS",小睿助理能快速生成sum(rate(nginx_http_requests_total{job="nginx"}[5m])) by (instance)的专业语句,大幅提升运维监控效率。
- 智能导航:轻松找到平台功能入口
针对 Bonree ONE 平台功能繁杂、新手难以快速上手的问题,小睿助理构建了完善的页面知识库。它收集了平台每个页面的 URL、导航路径、功能介绍等信息,并将其转化为向量存入 Milvus 数据库。当用户询问某个功能的位置时,系统会检索相关知识库信息,在回答中详细列出导航路径和页面地址,帮助用户一键直达目标功能,告别在众多页面中 "迷路" 的烦恼。
- 环境感知:实时掌握当前页面信息
小睿助理具备强大的上下文感知能力,能够实时识别用户当前所处的平台页面,并清晰告知该页面的功能定位、操作权限等关键信息。这一功能让运维人员无需查阅手册,就能快速熟悉页面功能,大幅降低了平台学习成本。
- 智能问答:专业解答运维技术难题
基于丰富的运维领域知识、可观测领域知识以及 Bonree ONE 平台功能点知识库,小睿助理能够为运维人员提供专业、全面的问答服务。无论是 "什么是 Prometheus" 这类基础概念问题,还是复杂的故障排查思路咨询,小睿助理都能给出精准解答,成为运维人员身边的 "移动知识库"。
(二)技术原理:RAG 架构保障精准可靠
小睿助理的核心技术底座是大语言模型(LLM)与检索增强生成(RAG)技术的融合,其工作流程分为离线索引构建和在线查询生成两个阶段,确保了回答的精准性和可靠性。
- 离线索引构建:为知识库建立检索 "索引"
该阶段主要完成对原始知识库文档的处理,包括文档加载与解析,提取 PDF、Word、HTML 等多种格式文档的纯文本内容;文本分割,将长文档切分为小文本块,适配大语言模型上下文窗口限制;文本向量化,通过嵌入模型将文本块转化为高维向量;存储至向量数据库,将文本块、向量及元数据存入 Milvus,形成可快速检索的知识库索引。
- 在线查询生成:实时响应用户需求
用户提出问题后,系统会先对问题进行向量化处理,再在向量数据库中通过余弦相似度等算法检索相似文本块;随后利用 ReRanker 模型对检索结果进行相关性排序,筛选出高相关内容;最后将相关内容作为上下文,与用户问题结合构建提示词,输入大语言模型生成最终回答。若检索结果与用户问题完全不相关,系统会明确告知用户知识库中无相关信息,有效避免了大语言模型的 "幻觉" 问题。
(三)实践价值:让运维工作更高效、更简单
小睿助理的设计哲学是 **"让复杂的技术变得简单,让简单的操作变得自然"**。它不是要取代运维人员,而是致力于成为运维人员的 "超级助理"。
当凌晨三点故障告警响起,运维人员无需再翻遍文档寻找 PromQL 语句,小睿助理能快速生成所需查询语句,助力快速定位问题;当新人入职,无需花费一周时间摸索平台功能,通过小睿助理的智能导航和环境感知功能,就能快速上手 Bonree ONE 平台。它将运维人员从重复性、记忆性的工作中解放出来,使其能够专注于更具创造性的核心工作,为企业运维效率提升和数字化转型注入强劲动力。
三、结语
在 Agentic AI 与 Agentic Ops 技术的驱动下,智能运维正迎来全新的发展机遇。博睿数据小睿助理凭借先进的技术架构和贴合运维场景的功能设计,成为了智能运维平台的优秀典范。未来,随着技术的不断演进,小睿助理将持续迭代升级,为更多企业提供高效、智能的运维解决方案,引领智能运维迈向更加自主、高效的新纪元。