B站基础安全在AI溯源方向的探索实践

背景

安全事件告警自动化运营的演变

在企业安全建设中,SIEM/SOC 的告警运营始终是不可或缺的核心环节。随着安全需求的不断提升,告警自动化运营经历了多个迭代阶段:

  • 人工查证阶段:运营人员需要在各类平台之间频繁切换,手动收集与比对信息;
  • 脚本驱动阶段:通过编写简单脚本实现部分告警处理的自动化,但灵活性有限;
  • SOAR 阶段:引入编排化的剧本设计,能够串联多种安全工具与流程,实现更高程度的自动化。

虽然自动化能力在不断增强,但实际运营中仍需安全人员持续参与,对剧本进行调试和优化,以确保其适应复杂多变的威胁场景。

AI的发展

随着 AI 技术的不断成熟,其在 自动编排、报告生成与智能分析 等方面展现出天然优势。借助 AI 的能力来提升安全事件告警的处理效率,已经成为各大企业探索与实践的重要方向。

演变过程大致经历了以下几个阶段:

  • 大模型安全知识库搭建:沉淀安全规则与经验,为 AI 的智能化分析提供底层支撑;
  • 大模型告警解读分析:自动化理解告警内容,完成分类、归因与初步分析;
  • 大模型告警研判:在多源数据与上下文的支撑下,AI 逐步具备辅助安全人员进行告警定性与风险判断的能力。

近年来,随着 Claude 的 MCP(Model Context Protocol) 协议逐渐成为主流的 AI 与工具交互标准,基于 MCP 的 AI Agent 已经演变为连接 AI 与真实数据的关键桥梁。这种方式不仅提升了告警分析、研判的智能化程度,也让自动化溯源与安全运营更加契合企业内部的实际需求。

人与平台交互的演变

最初,用户通过账号密码登录平台,在界面上逐步完成各类操作;随着平台开放程度的提高,API 的出现让机器能够直接调用数据和服务,OpenAPI极大地提升了交互的效率与自动化程度。随后,低代码平台的兴起又进一步降低了门槛,使非专业开发者也能以可视化、拖拽式的方式快速构建业务流程。

而在当下,AI 正在重塑人与平台的交互方式。借助 MCP,大模型不仅仅是对话聊天,答疑助手,而是一个具备领域全面,专业性极强的智能体,通过增加记忆能力,管理上下文能力,自动解析意图、调用合适的工具集,便可完成复杂的业务闭环。这意味着交互正从 "人教机器做事" 向 "人与智能体协作" 转变,平台的可用性和智能化程度也因此迈入新的阶段。

技术方案

发展

对于基础安全团队而言,我们同样经历了引入 AI 的逐步过程:从告警解读到告警研判,再到告警降噪。随着 MCP 协议逐渐被业界认可并采纳,基于 MCP 的 AI Agent 可以在告警降噪之后,在解读告警的同时关联内部多源数据,进一步完成对事件的溯源分析。

工具准备与处理

在溯源场景中,关键在于让 AI 能够接触并查询到企业内部平台的数据。安全团队通常会部署多种安全产品,例如 HIDS、WAF、EDR、IPS、蜜罐等。若希望实现 AI 自动化溯源,就需要借助 MCP 将 AI Agent 与这些安全设备能力对接,使其能够:

  • 查询并关联 HIDS、WAF 等安全告警数据;
  • 访问内部资产信息;
  • 将结果映射和关联到人、IP、部门等维度。

通过这种方式,AI 不仅能完成告警分析,还能自动串联攻击线索,最终实现更高程度的自动化溯源。

方案设计

基于上述思路,我们的整体设计方案是将内部安全产品的 API 接口、内部资产接口和日志相关的查询接口转化为 AI 可调用的 MCP 工具集,供AI-Agent调用。目前,我们已完成对以下产品的转化与实现:

安全产品 MCP能力
HIDS 资产信息:IP、Hostname、端口、进程、账户信息告警信息:异常登录、命令执行、暴力破解、后门检测、反弹shell等
蜜罐 告警信息:告警时间、源目IP、源目端口、连接信息、登录使用的帐密信息
CMDB 主机资产信息
EDR 告警信息,用户资产信息
日志平台 堡垒机登录、操作信息,SLB访问数据信息、DNS查询信息
SIEM平台 告警汇总信息,告警详情信息
SRC平台 漏洞工单信息,漏洞数量信息
...... ......

流程架构

在实际工作中,告警信息通常会通过机器人推送到告警处置群。联合大模型智能体、企业微信机器人以及企业微信三方应用号,我们设计并实现了如下处理链路,以提升告警研判与溯源的效率:

  1. 安全产品产生告警 ------ HIDS、蜜罐、EDR 等安全设备输出原始告警事件;
  2. 流式处理 ------ 通过实时流处理框架对告警进行过滤和汇总至安全SIEM平台;
  3. AI 研判降噪 ------ AI Agent对告警进行解读与风险评估,实现告警降噪;
  4. 机器人推送告警 ------ 企业微信机器人将大模型研判为高危的告警推送至告警处置群;
  5. 运营人员响应 ------ 安全运营人员根据高危告警信息进行分析与处置;
  6. AI 辅助溯源与自动处置(可选) ------ 运营人员借助大模型可进一步触发溯源流程,甚至自动完成处置动作。

这一架构使得告警处理流程既保留了人工判断的灵活性,又逐步引入 AI 的智能化能力,实现了"人机协同 + 自动化溯源"的目标。

实践案例

prompt

对于集成了众多工具集的AI-Agent,prompt在大幅简化的情况下,仍能有很不错的溯源效果,比如下边例子中,我们给的prompt均为:

prompt

以下是我收到的安全告警详情,请帮我使用合适的工具进行溯源和分析:

{{ $input }}

溯源流程图

蜜罐告警溯源分析

一次溯源分析流程,运营人员只需要点击告警卡片的AI溯源,即可触发大模型的溯源分析:

完整溯源结果如下,可见AI-Agent可自行搜索主机信息,关联堡垒机信息,找到命令执行人和执行的命令,并定位到触发告警的员工部门

告警溯源信息

溯源分析结果

攻击者信息

  • 攻击者IP: 10.xxx.xxxx.35

  • 主机名: js02-xxxs-xxx-01

  • 操作系统: Debian GNU/Linux 11.2

堡垒机操作日志分析

在告警发生时间(2025-08-28 07:56:06 UTC)前后1小时时间段内,发现攻击者IP 10.xxx.xxxx.35上有堡垒机操作记录:

  • 操作人: zhangxxx

  • 操作时间: 2025-08-28 15:25:56 至 15:55:11(北京时间)

  • 操作命令: 包含多次 telnet 172.xx.xx.39 22 连接尝试,以及网络配置命令 mtu 1500 、 ifconfig 等

  • 客户端IP: 10.xx.xx.79

  • 用户部门: xx工程部-xxx部

HIDS检测结果

对攻击者主机10.xx.xx.35进行HIDS检测:

  1. 进程信息: 主机运行了nginx、postgres、docker相关进程,未发现异常进程

  2. 端口信息: 开放了22(SSH)、80(HTTP)、5432(PostgreSQL)等常规服务端口

  3. 异常登录: 未发现异常登录记录

  4. 后门检测: 未发现后门程序

  5. 反弹Shell: 未发现反弹Shell行为

攻击行为分析

根据蜜罐告警和堡垒机日志,攻击者通过TCP连接尝试访问蜜罐的22端口(SSH服务),并在同一时间段内通过堡垒机执行了多次telnet连接尝试,确认攻击行为来自用户zhangxxxxx的操作。

HIDS告警溯源分析

HIDS基于主机的告警类型比较多,此处我们用真实的例子,说明在命令执行场景中,借助MCP能力,大模型能够自行分析恶意进程,并关联HIDS的其他告警信息,最终给出行为分析和结论:

告警溯源信息

根据告警详情,这是一个HIDS告警,属于"web命令执行"类别。我将从HIDS检测的角度进行分析:

HIDS告警分析报告

告警基本信息

  • 告警类型: HIDS - web命令执行

  • 告警等级: 中危

  • 触发规则: [web命令执行]Java服务异常写文件

  • 告警时间: 2025-09-07 11:51:36 UTC

  • 主机名: nvm-xxxxx-14

  • 操作系统: Linux (Debian GNU/Linux 11.6)

主机信息溯源

  • 主机名: nvm-xxxxx-14

  • IP地址: 10.xxx.xx.41 (主要IP)

  • 连接IP: 10.xxx.xx.13

  • 操作系统: Debian GNU/Linux 11.6

  • 所属业务组: xx技术中心

  • 云平台: OpenStack Nova虚拟机

用户信息溯源

  • 操作用户: root (UID: 0)

  • 最后登录用户: zhuxxxjie (朱xx)

  • 用户部门: xx技术中心-xx研发组

  • 最后登录时间: 2025-09-07 00:52:53

  • 登录来源: 10.xxx.xx.18 (通过SSH)

进程信息分析

主机运行的主要进程包括:

  • sshd: SSH服务进程,开放22端口

  • java: Jenkins agent进程,连接至 xxx.bilibili.co/xxx/

  • node_exporter: Prometheus监控进程,开放9100端口

  • titanagent/titan_monitor: 安全监控agent

  • chronyd: 时间同步服务

  • 常规系统进程: systemd, cron, rsyslogd等

命令执行分析

触发告警的命令:

node /usr/local/bin/claude -p /data/soft/ClaudeCodeReviewPrompt/java.txt

执行的bash脚本内容:

  • 创建shell快照文件 /root/.claude/shell-snapshots/snap17067224-n3plkv.sh

  • 使用base64编码/解码函数定义

  • 使用eval执行动态代码

  • 设置PATH环境变量包含多个Java和Node.js路径

安全检测结果

  1. 进程检测: 未发现异常进程,均为系统正常服务进程

  2. 端口检测: 仅开放22(SSH)和9100(node_exporter)端口,无异常端口

  3. 账户检测: 系统账户状态正常,root账户有堡垒机SSH密钥授权

  4. 异常登录: 未发现异常登录记录

  5. 后门检测: 未发现后门程序

  6. 反弹Shell: 未发现反弹Shell行为

攻击行为分析

根据HIDS检测和命令分析,该告警由Claude代码审查工具触发:

  • 执行上下文: Node.js执行的Claude代码审查工具

  • 行为特征: 创建shell环境快照文件,涉及动态代码加载和文件操作

  • 风险等级: 中危 - root权限下执行包含eval和base64操作的脚本

  • 关联信息: 该操作为代码审查工具的正常功能,但触发了HIDS的web命令执行检测规则

该告警属于误报情况,是开发工具的正常操作触发了安全检测规则。

EDR告警溯源分析

对于EDR的告警,我们更加聚焦于员工的行为分析,以某位员工终端设备疑似被病毒感染的告警为例:

告警溯源信息

根据EDR告警信息,我为您进行溯源分析:

用户信息溯源

  • 用户名:xxx(徐xx)

  • 所属部门:xxx发行部-xxxx项目组

设备信息溯源

  • 主机名:WIN-xxxxxx

  • IP地址:10.xxx.xxx.151(主要IP),10.xx.xxx.69

  • 操作系统:Windows 10

  • 办公区域:国正

恶意文件信息

  • 文件名:hitokoto_api.exe

  • 文件路径:C:/Program/Data/Autodesk/Application/Pluginsng/skintools2Contents/scripts/ngSkinTools2api/hitokoto_api.exe

  • MD5:7f1a37388876e4b6eac5609cab534a56

  • 病毒类型:Win32.Trojan.Agent.ckjl (aiScore=h)

  • 发现时间:2025-09-05 15:33:23

关联信息

该恶意文件位于Autodesk 3D建模软件插件目录下,具体路径为ngSkinTools2(Maya皮肤工具插件)的API文件夹中。hitokoto_api.exe文件名暗示可能与"一言"API相关,但实际为特洛伊木马程序,疑似通过Autodesk相关软件或插件进行伪装植入。该IP地址历史使用记录显示,当前用户xxxxx从2025年8月11日开始使用此IP地址。

可见大模型可根据提供的MCP工具,自行查询并给出用户信息,包含用户名,部门、操作系统,办公区域等,并在关联分析中,给出员工从8月11日开始使用该IP,且因为使用了带病毒的Autodesk 3D建模插件,触发了EDR告警。

AI提效

通过半年的探索实践,以HIDS告警比较多的命令执行为例,以往人工研判的告警每天大概30条左右,接入大模型后,需人工研判的数量下降到了1-3条,降噪率平均约93.33%,对于降噪后的告警,结合AI的自动化溯源分析,大大提升了运营人员的安全问题排查效率。

未来畅想

基于上述实践,我们认为未来的安全产品与安全设备在交付时,将不仅仅局限于提供传统的OpenAPI 接口,还会同时向客户开放基于 MCP 的工具集。借助大模型能力的延伸,用户可以直接将安全产品与自身的大模型平台对接,实现更自然的交互与更高效的使用体验。

这种模式将显著提升客户在告警关联分析与自动化安全运营方面的效率,使安全产品从"单点能力输出"转变为"智能化协同伙伴",帮助企业更好地应对复杂多变的安全威胁。

总结

通过本次在 B 站基础安全体系中的探索实践可以看到,AI 已经不再只是辅助告警分析的"锦上添花",而是逐步演变为推动告警运营自动化与溯源智能化的核心引擎。从告警解读、研判到降噪,再到与内部安全数据的深度关联,AI-Agent 借助 MCP 协议真正成为了连接安全产品能力与智能分析的桥梁。

在实践案例中,无论是蜜罐、HIDS,还是 EDR 的告警,AI 都能够在具备足够上下文和工具集的前提下,完成从事件追踪、行为分析到责任主体定位的完整溯源链路。这不仅显著提升了运营人员的效率,也推动了"人机协同 + 自动化溯源"的落地。

展望未来,随着 MCP 工具集逐渐成为安全产品的标配,AI 在安全运营中的价值将进一步释放。安全部门能够在更短的时间、更低的成本、更高的准确性下完成告警处置与溯源,为企业抵御日益复杂的安全威胁提供坚实保障。

-End-

作者丨zhiye

相关推荐
IT_陈寒2 小时前
7个鲜为人知的JavaScript性能优化技巧,让你的网页加载速度提升50%
前端·人工智能·后端
城数派2 小时前
1951-2100年全球复合极端气候事件数据集
人工智能·数据分析
Hody912 小时前
【XR硬件系列】夸克 AI 眼镜预售背后:阿里用 “硬件尖刀 + 生态护城河“ 重构智能穿戴逻辑
人工智能·重构
Icoolkj2 小时前
RAGFlow与Dify知识库:对比选型与技术落地解析
人工智能
终端域名2 小时前
转折·融合·重构——2025十大新兴技术驱动系统变革与全球挑战应对
人工智能·重构
FreeCode2 小时前
LangChain1.0智能体开发:中间件(Middleware)
人工智能·langchain·agent
黑黑的脸蛋2 小时前
Cursor 自动化批量修改大量代码场景
人工智能·程序员
智启七月3 小时前
从 token 到向量:微信 CALM 模型颠覆大语言模型范式
人工智能·深度学习
老纪的技术唠嗑局3 小时前
AI 时代的数据库进化论 —— 从向量到混合检索
人工智能