背景介绍
SIEM 技术的演进史堪称一部浓缩的网络安全发展史。在互联网尚未普及的 1980 年代,当时的系统管理员们手工分析着磁带存储的日志,这种原始方式持续了近二十年,直到商业化的日志管理工具出现才有所改观。
而随着云计算时代的到来,SIEM 工程面临着前所未有的复杂挑战。随着企业基础设施向云端迁移,传统基于边界防护的 SIEM 架构已难以适应动态变化的云环境。多云架构导致安全数据分散在多种云服务商的云平台中,各云服务商提供的 API 接口和数据格式差异显著,这给日志的统一收集和关联分析带来极大困难。使得超过 60% 的用户行为或内容访问威胁未被及时发现,最终造成用户业务损失。
另一个棘手的问题是数据孤岛化在多云多架构环境下对 SIEM 工程的负面影响。如今大多数企业可能同时使用 SaaS 应用、容器服务和 Serverless 服务,这些服务产生的日志数据类型比传统环境复杂数倍,包括时序指标、分布式追踪数据等非结构化内容,或内容结构各异的日志文本数据。且数据来源随着分布式微服务的大规模应用而变得更加碎片化。以我们遇到的大型制造类企业 SIEM 实践为例,其混合云环境每日产生约 100TB 日志,但受数据多源存储,数据格式规范不统一,数据采集环境复杂等问题的影响。仅有不到 20% 的数据能被传统 SIEM 工具有效分析。此外,云服务的按需扩展特性使得攻击面动态变化,SIEM 系统需要实时跟踪弹性应用资源的生命周期,这对样本数据的获取和SIEM工具所支持的大规模数据分析能力提出了更高要求。
对于安全运维团队来说,合规性管理也面临新的挑战。部分国家和地区的信息安全法规要求跨境数据流动可审计。为了降低跨境数据审计带来的额外管理成本和合规风险,在经营跨境业务的制造、零售或金融行业客户中,通常不得不为其不同区域业务单元配置独立的数据处理管道以满足数据审计本地化要求。以上这些挑战正推动SIEM技术向智能化、云化方向加速演进。
方法论介绍
在 SIEM 实施的规划准备阶段,企业需要重点解决三个核心问题:

首先必须明确企业发起安全信息及事件管理的核心目标,即"我们需要借助 SIEM 来解决哪一方面的问题?",例如合规审计、威胁检测或运维监控等不同侧重点,需要在这个阶段明确下来,才能开展后续的能力规划、现状梳理和工具选型等工作。
其次在确定 SIEM 实施的核心目标后,需要基于这个实施目标,对现有 IT 资产和审计数据源进行全面梳理,特别需要关注云服务、容器平台等新型基础设施的日志、应用链路、用户访问数据的接入,是否能够提供满足 SIEM 分析的数据,其数据内容质量是否满足工程实施需要,是否需要做改造。同时,还需要对团队现有的 SIEM 工程能力进行评估,例如是否有合适的工具来承载数据的采集、存储、分析、展示、预警,是否能够满足跨地域多地数据就地审核处理的合规性要求。
最后,结合 SIEM 实施目标和工具能力,规划针对特定业务系统的实施计划,包括数据治理、数据接入、SIEM 方法论的工具实现,效果检查等工作,均需要制定详细的执行计划及输出检验标准,确保项目最终成功落地。
观测云 SIEM 介绍
SIEM 项目能否成功落地,一款合适的工具所提供的支持至关重要。工具的作用域主要集中在以下几个维度:数据建模、数据集成、威胁检测、事件预警和数据可视化。

观测云基于多年在全链路可观测领域的积累,针对上述工具作用域中的核心能力,结合自身产品特点推出了安全监测-SIEM(安全事件管理)功能,在原先统一数据采集、统一数据存储及分析展示的能力基础上,增加针对 SIEM 场景的检测规则编写、检测规则自动化、事件预警,并配合 DataFlux Func 平台的能力,实现 SOAR 功能,自动化闭环安全威胁事件。
同时,观测云在全球各主要区域均有本地节点,跨国跨地区开展业务的用户无需处理复杂的数据跨境合规性问题,可直接将数据放在本地观测云节点进行分析,大幅简化 SIEM 项目落地的复杂性。
数据建模
观测云提供多源数据的关联查询能力,支持用户快速从海量数据中查询安全威胁线索,建立查询模式并通过组合不同的查询条件,形成符合 SIEM 实施目标的安全检测模型。这些模型可通过观测云 SIEM 安全规则引擎,以脚本代码的形式实现对目标数据的持续检测。

数据集成
观测云作为一款全链路监控工具,支持从多种数据源集成数据,包括但不限于云服务、应用日志、系统日志、网络流量数据等。众所周知,尽可能多的收集数据,并对数据进行有效处理,是影响 SIEM 项目成败的关键能力之一。观测云通过"DataKit 统一数据采集套件+DataFlux Func 函数开发平台"的技术组合,覆盖多云多数据源的各种类型数据采集。并提供灵活的数据文本处理能力,为 SIEM 分析打好高质量数据样本基础。

威胁检测
SIEM 检测规则会自动生成定时任务,对目标数据进行定时检测,并将检测到的违规事件推送至观测云事件中心,用户可在事件中心通过筛选事件来源为"security"的事件类型,快速过滤所有安全事件,并通过点击特定条目的方式查看安全事件详情。

事件预警
借助观测云事件中心的多渠道通知能力,用户可以通过邮件、短信、群组机器人或其他自定义webhook通道,快速获取安全事件告警通知。

同时,用户可以通过在自定义 webhook 通道中配置 DataFlux Func 用户自定义函数的访问地址,结合 UDF 执行逻辑实现 SOAR 效果,以威胁检测信号为输入,为特定安全目标进行自动化配置操作以及时解除安全威胁。或将 SIEM 检测与 AI 大模型结合,将检测数据通过UDF通知发送至推理大模型,基于AI能力实现更精准的动态威胁检测效果。
可视化
观测云的实时可交互仪表板不仅适用于业务或运维监控,同样可以应用于安全事件的可视化展示,帮助安全团队快速定位问题根源。另外,借助时间序列分析图表的展示能力,观测云可支持对安全事件进行趋势分析,帮助团队了解安全状况的变化趋势,制定更有效的应对策略。

实践案例
某多媒体服务商在近期的业务合规检查中,发现有部分用户存在异常访问行为,怀疑通过技术手段绕过账号鉴权体系并访问会员付费内容。该服务商联系了专业安全团队对系统进行加固处理,但在新版本上线前需要借助观测云对存在违规访问的用户进行识别,并短时间封禁其 IP 或账号,降低公司在付费内容访问上的损失。
为达到上述效果,用户使用观测云对所采集的所有用户浏览数据和访问记录进行分析,借助 SIEM 引擎的能力识别异常访问并发送检测信号到 Func 平台。Func 端调用编写好的 python 脚本,通知云厂商 WAF 对特定用户 ID 和 IP 进行封禁。有效减少了类似的非法访问。
设计检测逻辑
用户审计团队识别非法访问的判断逻辑可简化描述为:一段时间内特定用户的特定会话,是否存在缺少 token 更新操作,使用过期 token 或直接绕过 token 访问了特定 uri 资源。为找到符合这个特征的用户,审计团队首先通过 DQL 语言对指定时间窗内的所有用户会话进行筛选。

编写检测规则
查询到对应会话后,针对会话内所有 resource 类型的访问 uri 进行聚合 DQL 查询,获取每个 session 的所有 uri 列表。并按照预设的 uri 顺序检查列表中的 uri 是否满足特定访问顺序,例如必须定时进行 token/refresh 操作,对用户 token 进行更新。或 token 刷新操作的顺序必须先于某个特定页面的访问。这个操作需要借助 SIEM 规则引擎的条件分支及数据处理判断能力,代码示例如下:

执行威胁检测
检测规则脚本编写完成并保存后,观测云会按照定时配置,定期对时间窗内的目标数据进行检测,当发现异常访问数据时,会触发 SIEM 安全检测信号,通知用户当前周期内出现异常访问行为。


闭环安全处理
该事件会被同时发送至客户编写的某云商 WAF 规则处理 UDF,该 UDF 将对当前违规 IP 进行若干小时的访问封禁。同时客户 APP 会推送提示信息到对应 ID 用户的客户端,提醒违规行为,这样就实现了当前安全事件的闭环处理。

SIEM 模板库
观测云内置了一批 SIEM 模板库,方便用户一键开启,目前模板库还在持续迭代中,为用户提供更便捷的服务体验。

结语
SIEM 系统通过集中采集和分析多源日志数据,能够显著提升威胁检测效率与安全事件响应速度,但其部署常面临数据异构性导致的分析困难、海量日志存储成本高昂、数据传输存在合规风险以及检测规则管理效率等方面的实施挑战。观测云凭借云原生架构的弹性扩展能力,统一的数据采集、存储及治理、查询能力,强大的检测逻辑自定义及 SOAR 能力和全球多可用区部署的灵活性,有效降低了SIEM 项目落地的实施难度,其预置的标准化日志解析模块简化了多源数据接入流程,而SIEM检测规则及自动威胁检测处理能力帮助用户减少规则优化与事件研判的工作量,为企业在复杂云基础设施环境中快速构建轻量化、高可用的安全运营能力提供了新的选择。