从快手直播故障，看全景式业务监控势在必行！

近日，快手平台遭遇有组织的黑产攻击，大量直播间在短时间内被劫持用于传播违规内容。这一事件不仅造成了巨大的负面影响，更暴露了当前互联网平台在应对新型网络攻击时的脆弱性。在较长时间无法解决问题后，最终的解决方案竟然是完全关闭直播入口。我们在强烈谴责黑产违法犯罪行为的同时，行业必须清醒认识到：企业当前的防护模式，在面对高度规模化、组织化、自动化的"闪电战"时已力不从心，必须要对当前的防护体系进行全面升级。

本篇文章从技术层面阐述这一事件以及我对平台防护体系改进方案的个人观点，包括以下三方面内容：

1、黑产的攻击链路；
2、当前互联网平台防护体系现状；
3、全景式业务监控势在必行；

黑产攻击的账号类型

由于平台尚没有详细披露本次被攻击的方式，我们只能从当前简单的陈述之中猜测黑产可能的攻击手法。

老账号被黑产部分盗取，并以老账号进行攻击；

攻击链路：钓鱼链接 → 获取老账号凭证 → 窃取有效会话Token → 绕过二次验证 → 获取设备控制权 → 以"合法老用户"身份发起攻击。

黑产批量注册新账号，并绕过实名认证体系，以新账号进行攻击；

攻击链路：接码平台/卡商获取手机号 → 自动化脚本批量注册 → 伪造或绕过实名认证 → 养号（模拟正常行为）→ 等待时机发起攻击。

账号是攻击行为实施的载体，不同的账号类型攻击手法是不同的，产生的危害力也有差异：

一般来说，老账号拥有正常的注册时间、历史行为、社交关系、消费记录等，设备指纹和登录模式可能已通过平台信任白名单。风控系统会将其判定为"低风险用户"，极难触发警报，单个老账号攻击更具有迷惑性和危害性。不过黑产获取老账号凭证方式主要通过钓鱼链接、木马病毒或者撞库等手段实现，获取难度较高，账号数量规模应该不会太大。

而新账号没有历史行为、交易、社交关系等记录，历史评级很低，容易被系统风控方案判定为高风险账号，单个账号的攻击力相对较低。不过新账号攻击可能意味着黑产已经掌握了平台账号体系漏洞，而可以进行大批量注册形成规模化攻击，如果没有及时修补危害极大。

账号凭证是什么

账号凭证是一个广义的身份集合，包括登录账号（手机号/用户名）、密码（或其变种）、已登录态下的会话Token/Cookie、受信任设备指纹等信息。

什么叫伪造和绕过实名认证体系

现在企业广泛采用的实名认证体系是：用户首先提交身份证图片，然后打开手机，摄像头采集人脸视频信息，app发出眨眼、张嘴等指令，在用户按指令进行上述操作后完成实名认证。

绕过实名认证体系

绕过实名认证体系也就是说黑产已经破解了当前平台认证接口的加密和签名验证等机制，可以直接发送"认证成功"这种篡改伪造的数据包到认证接口，从而绕过这一体系。

伪造实名认证体系

伪造实名认证体系是指黑产可以利用手机漏洞（比如：android漏洞）在实名认证时直接注入预先准备好的人脸识别视频数据流。而这也意味着黑产已通过多种渠道获取到了大量的真实身份证图片，并根据上面的"照片"通过类似deepfake等技术手段预先生成眨眼、张嘴的认证视频片段。比如App发出"眨眼"的指令，就传入一个"眨眼"的视频片段，从而起到欺骗平台认证体系的作用。

伪造和绕过实名认证体系两者差异很大，修复漏洞的方式也截然不同。相对而言绕过实名认证体系对平台来说更容易修补，但如果黑产已经具备技术手段可以伪造实名认证体系，则潜在危害非常巨大，这就不在是一个互联网企业的问题而是所有互联网企业均要面对的问题。

黑产的攻击方式

流量劫持与内容注入

首先，介绍一下直播技术基本流程：

摄像头采集主播视频信息，将1桢的数据拆分成若干个数据包，每个数据包叫做一个Chunk，都包含Key、直播间ID、时间戳、设备指纹、IP、视频流数据、加密验签信息、视频分辨率、码率等，将数据包压缩、编码后并上传到服务器；
只要开播，每个直播间的数据包（Chunk）会源源不断的上报;
服务端接收到Chunk进行转码并将连续数据包合并成视频片段；
所有直播间的视频片段汇总排队分发给审核机制；
视频片段首先经过AI机审进行违规信息检测评分，低于阈值直接放行，高于阈值则转入人审；
如果审核违规，则由审核人员进行封禁直播间的指令（当然也有自动化机制）；
审核通过的视频片段则会放行，并再次转码为数据包并被用户拉取后看到；

上面是一个基本流程，真实环境中可能存在一些不同：

为了用户体验的流畅度，审核和分发流程也可能会并行处理；
由于人审的速度非常缓慢，在大量数据包积压时为了快速的完成当前的审核，审核人员也可能会"手动丢弃"积压的数据包；
平台账号体系会预先划分高风险、低风险账号，两类账号的审核逻辑略有差异；

在了解上面流程之后就知道黑产可针对多个环节通过不同的技术手段分别进行攻击。

什么叫做"预制违规视频"

这里的预制违规视频都是黑产特殊处理后的视频，而不是随便找的。也就说这些视频大多都是对"AI机审大模型"有抗体的视频。黑产通过一些工具可以对视频的特征进行轻微调整，将原违规视频转化为"对抗性样本"，起到躲避被大模型识别的效果。

具体的攻击方式

黑产的攻击方式可分为多种，比如：

1、攻击人员直接模拟平台推流协议将预制视频拆分成数据包上传，伪装成正常的数据包，这些数据包被AI大模型定义为低风险直接被放行；
2、攻击人员可以前期探测出一个平台AI机审的大概阈值范围和人审的承载力，然后制作专门的视频造成人审的洪峰，从而直接压垮平台人审体系；
3、攻击人员可以从技术层面绕开审核体系（不知道现行直播平台是否会有部分情况下无需审核的机制，而被黑产盗用，或者黑产使用老账号具有较高权重，无需严格审查）；
4、攻击人员可以间歇性发送"正常视频"和"违规视频"，大规模直播账号的正常视频可以压垮人审体系，另外也可以造成审核体系的错觉，获取基础信任，而通过对平台审核体系的承压探测，可以灵活调整违规视频的时长，比如5分钟的视频里面可能只有10秒钟是违规的，从而最大化攻击效果；
5、攻击人员可以人为制造"举报"等核心接口的阻塞，从而让平台反馈体系失灵；

"肉鸡"的种类

由黑产直接控制的发动攻击的设备称为"肉鸡"，在移动互联网时代的肉鸡和PC时代的肉鸡已经有些不同。移动互联网时代的肉鸡可以分为多种：

1、黑产直接控制了大量老账号原主人的手机设备（设备指纹和账号是完全绑定的，IP地址非常分散，隐蔽性极高，难以被风控体系发现，但是控制原主人的手机非常困难，需要长期的"钓鱼"，控制成本极高，很难实现规模化攻击）；
2、黑产控制一批真实的设备农场，比如是从二手市场批量购买的廉价手机，这些设备是真实存在的，设备指纹等信息都完全真实（优势在于：设备完全真实，成本可控，可规模化部署，但IP地址一般相对集中、而且群体特征比较明显，相对容易被风控体系识别）；
3、黑产在服务器上批量部署Android模拟器，创建出来的虚拟设备（优势在于：成本很低，可规模化，但很多模拟器的设备指纹已经可以被识别出来）；
4、黑产控制一些不相干的用户手机，在手机内植入木马程序可以最小化、用户无感知的情况下运行app进行直播（优势在于：IP地址非常分散，隐蔽性高，但同第一种一样控制成本比较高）；

"肉鸡"的攻击形式

黑产通过中心化的系统来控制所有肉鸡，包括升级攻击脚本和下发指令。肉鸡的攻击形式可分为三种：

模拟真人操作进行攻击

也就是由脚本控制app的打开、关闭、处理弹窗、自动点击直播按钮进入直播页面，随后脚本将从摄像头采集视频改为推流协议直接上传。

Hook注入

Hook注入是首先逆向破解app客户端内的代码执行逻辑，通过Hook技术手段直接侵入app进程之内，完全绕开app自身的UI逻辑，然后直接调用内部函数，通过篡改里面的参数传入实现违规视频的上传。

协议层请求

攻击者首先破解平台推流接口的加密验签逻辑，然后直接模拟http请求发送违规视频数据包。

一次完整网络攻击，会同时使用多种手段，而攻击者也可能在攻击前进行了数月的准备工作，也就是"养号"，在这期间会让账号进行正常的登录、浏览等操作，来让它的行为轨迹看起来很合理，从而提高账号的权重。

企业应该排查的优化点

应对网络攻击和网络攻击的溯源是多个部门互相协同的工作，而不仅是网安一个部门的职责，跨部门的协作、沟通、数据共享非常重要。

这一起网络攻击事件所需要排查的技术点和优化点很多，也都比较明显，比如几个相对重要的排查点：

推流接口协议的加密、验签逻辑的升级改造；
反馈等核心接口是否存在被人为阻塞和过载攻击的可能；
数据库中仍然可能存在潜在攻击者账号，如何进行辨别；
客户端是否存在被模拟真人操作的可能，需要增加必要的防护措施；
客户端代码是否存在被Hook注入的可能，需要提升代码混淆的等级以及增加必要的启动完整性校验等逻辑；
实名认证体系是否存在被绕过和伪造的可能；
AI机审的准确率提升；
账号等级的评估体系和风控体系所依赖特征是否足够广泛，特征的实时性是否满足需要；
...

从"网络攻击事件"看企业数据化运营能力的不足和预警机制的缺失

这类网络攻击事件不仅暴露出企业自身防护体系的薄弱，更深层次地折射出企业在数据化运营能力和实时预警响应机制上的严重不足。其根本原因可归结为以下两点：

风控体系缺乏高质量的实时特征

风控系统所依赖的、能够准确反映"当前业务状态"的实时特征极为匮乏。这种"实时特征贫血"导致风控模型在面对新型或突发攻击时反应滞后、识别能力弱。此外，现有特征往往片面、零散，容易被黑产通过模式变异或一些技术手段欺骗。

缺乏跨部门、跨业务的实时协同指标，监控指标碎片化

网安团队在日常监控与应急响应中，缺少跨业务线、跨功能模块的"实时交叉指标"。没有这些全局性、关联性的数据指标作为决策依据，团队很难在攻击发生时快速定位问题根源，难以实现跨环节的联动防御。

全景式业务监控势在必行

什么是全景式业务监控

本文提出的全景式业务监控，是基于通用型流式大数据统计技术构建的新一代业务监控与预警体系。它突破了传统监控方案在实时性、覆盖面和关联分析上的局限，具备以下核心价值：

为管理层及决策者提供极高密度、多维度的实时业务指标体系；
为风控、账号等级评估等AI模型持续输送大批量、高质量、可关联的实时特征，提升模型训练的及时性与预测准确性；
实现从用户端到服务端、从业务触发到数据落盘的全链路可观测性。

相对而言，全景式业务监控更侧重于：全链路覆盖、多维度实时指标、跨系统数据关联和面向风控与决策的实时特征供给。

从一个简单业务场景看传统业务监控方案的不足

举一个例子：App某页面有一个表单模块，表单提交后数据写入DB，我们要实时统计表单提交量，应该如何统计呢？

按照当前企业的做法毫无疑问是统计数据库的写入量。从业务逻辑层面来说这是完全没有问题的，但如果从业务监控的角度来说，假如这个业务较为重要，这种方案就存在着明显不足。

比如：

如何判断出数据是否存在接口被盗刷写入的可能呢？
如何判断出来后端接口是否响应正常，是否存在大量客户端请求异常的可能呢？
数据流转经过多个环节，如果线上出现数据异常等问题，如何快速的定位问题原因呢？

而更为规范的做法是：

客户端提交表单并上报日志，日志服务接收后消费日志进行数据统计；
后端接收请求后调用统计模块进行请求量统计；
后端服务在写入DB成功或失败后调用统计模块；

全景式业务监控提倡在一个业务的所有重要环节进行全链路监控，每个监控指标做到数据吻合。

从直播攻击场景，谈全景式业务监控的优势

网络攻击应急机制包括两个核心操作：1、快速判断出黑产的攻击方式，2、根据攻击方式的特征筛选出直播账号列表然后进行封禁。

全景式业务监控在这一过程中具有天然优势，比如：

协议破解与接口盗刷

这种攻击方式只要在App内推流数据包上传逻辑前添加监控埋点，并将埋点数据和推流接口的请求量数据进行比对，就可以明显判断出是否存在黑产盗刷接口的可能。而通过两方面的实时日志关联（App埋点日志和接口服务日志）就可以快速初步筛选出黑产攻击账号列表。

肉鸡同时发动攻击

肉鸡为了击垮平台的"人审"体系，会在短时间内同时发起开播和推流，而这种操作也会形成前一刻和后一刻明显的流量异常，而通过关联两个时段的实时日志也可以初步筛选出攻击账号列表。

反馈接口过载攻击

反馈接口是否存在过载攻击，大多数情况下可以通过反馈接口服务监控埋点和App上报的反馈日志埋点进行对比分析，快速判断出过载攻击的可能，而且关联实时日志库可以提取攻击设备信息然后进行阻断。

从App启动、用户交互、开播按钮点击、推流接口调用、数据分发到内容审核，业务流程中充满各类细节与依赖。全景式业务监控旨在为企业构建一个"遍布全身"的实时指标感知网络，支持从整体业务层面到细分维度（如App版本、IP段、设备指纹、直播间等）的立体化监控，全面提升企业对此类事件的应急响应能力。

通用型流式大数据技术介绍

目前之所以企业的"实时指标"和"实时特征"极为匮乏，根本原因在于指标获取所采用的技术方案仍然以：Flink、Spark、ClickHouse、Doris..等技术实现，这些技术方案过于臃肿、笨重难以低成本、高效率的实现大批量实时指标。

而通用型流式大数据统计技术侧重于解决"大批量数据指标的并行计算问题"，擅长应对繁杂的实时指标计算场景，对于企业应急机制建立具有非常重要的实际意义。

可参考开源项目：xl-lighthouse，开源地址：https://github.com/xl-xueling/xl-lighthouse

目前互联网大厂的数据指标数量可以达到10万_{30万个，而其中的实时指标数量更为匮乏，而通用型流式大数据统计技术可将大型企业数据指标数量提升到1000万}3000万个，帮助企业建立更完善的数据化运营体系，全方位提升企业对于紧急事件的应对能力！