[论文阅读] (49)JNCA24 网络威胁狩猎演化技术综述

《娜璋带你读论文》系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢。由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学术路上期待与您前行,加油。

前一篇博客介绍了APILI,一种面向恶意软件行为分析的深度学习方法,用于在动态执行轨迹中定位与恶意攻击技术(MITRE ATT&CK Techniques)相对应的底层 API 调用。本文是一篇系统性综述论文,详细综述了网络威胁狩猎技术,探讨了智能本体与自动化工具的资源整合路径,涵盖了监督与无监督学习、推理机制、图方法及规则方法等多种建模策略,并分析了关键挑战和困难。注意,由于我们团队还在不断成长和学习中,写得不好的地方还请海涵,希望这篇文章对您有所帮助,这些大佬真值得我们学习。fighting!

  • 欢迎关注作者新建的『网络攻防和AI安全之家』知识星球(文章末尾)

文章目录

原文作者 :Arash Mahboubi, et al.
原文标题 :Evolving Techniques in Cyber Threat Hunting: A Systematic Review
原文链接https://www.sciencedirect.com/science/article/pii/S1084804524001814
发表期刊 :Journal of Network and Computer Applications 2024
笔记作者:贵州大学 杨子轩


一、研究背景与总体概述

1.研究缘起与背景

在网络攻击不断演化、传统防御手段逐渐失效的时代,威胁狩猎(Cyber Threat Hunting, CTH) 成为网络安全领域的主动防御前沿。 与被动的入侵检测系统(IDS)或事件响应机制(IR)不同,威胁狩猎旨在通过分析潜在行为模式、构建攻击假设、挖掘隐匿迹象,在攻击造成损害前主动发现对手。

论文指出,近年来:

  • 全球活跃攻击组织已超230个;
  • eCrime平均突破时间仅2分钟;
  • 无文件攻击(Malware-free Attacks)与AI辅助社会工程攻击显著增加。

这表明传统基于签名或规则的检测系统难以应对动态威胁,网络防御迫切需要转向 "预测性安全与假设驱动分析" 的新范式。


2.研究目标与核心问题

作者通过系统综述(Systematic Literature Review, SLR)方法,明确提出了四个研究问题:

序号 研究问题(RQ) 研究核心
RQ1 威胁狩猎技术与方法如何演化? 分析从手动调查到AI驱动的转变过程。
RQ2 威胁狩猎中是否存在可形式化的数学假设模型? 探讨可量化、可推理的威胁假设构建方法。
RQ3 当前主流的狩猎策略与算法有哪些? 系统比较监督学习、无监督学习、图模型等方法。
RQ4 现阶段的主要技术与实践挑战是什么? 概括数据、算法与人力资源的关键限制。

二、研究方法与文献筛选流程

论文遵循SLR标准流程:

  1. 初步检索阶段:从IEEE、ACM、Scopus、Google Scholar等数据库检索1696篇相关文献。
  2. 筛选阶段:根据主题关键词(如"threat hunting"、"security analytics"、"intrusion detection system"等)过滤至287篇。
  3. 评估阶段:剔除综述、海报及简报类文献,最终保留117篇实证与方法研究论文。

文献被划分为四类以对应研究问题:

  • 12篇:威胁狩猎流程研究(RQ1)
  • 4篇:假设建模研究(RQ2)
  • 63篇:威胁检测方法(RQ3)
  • 38篇:挑战与难题研究(RQ4)

三、威胁狩猎的理论与流程框架(RQ1)

1.威胁狩猎与异常检测的关系

  • 异常检测(Anomaly Detection):自动识别偏离常态的行为模式
  • 威胁狩猎(Threat Hunting):基于情报与假设的主动探索行为

论文强调二者相辅相成:

威胁狩猎通过人类推理发现新威胁 → 为异常检测提供新特征与标签;

异常检测通过算法扩展威胁覆盖面 → 为狩猎提供数据支撑。


2. 系统化的狩猎流程(Ten-Step Model)

基于SANS威胁狩猎成熟度模型,作者提出了十步过程:

  • 异构数据收集
  • 威胁定义与假设制定
  • 主动搜索与行为验证
  • 威胁指标识别(IoC/IoA)
  • 威胁分类与聚类
  • 人工验证
  • 防御体系比对与漏洞评估
  • 模式与特征提取
  • 防御系统改进(IDS、EDR、SIEM)
  • 迭代更新与知识反馈

这一循环体现了"假设---验证---修正"的持续狩猎思想。


四、数学假设模型(RQ2)

论文指出:威胁狩猎的核心在于"假设驱动(Hypothesis-driven)",但行业长期缺乏形式化、可量化的数学模型。作者选取 4 篇关键文献,对假设建模进行分类与总结。


1.隐状态与观测模型(Hidden States & Observations)

许多威胁行为不可直接观测(如横向移动、隐蔽持久化),只能通过系统事件、日志等"观测值 O " 推断攻击者"隐状态 H"。

该模型类似于**隐马尔可夫模型(HMM)**思想(论文没有直接使用 HMM,但思想一致):

  • H:攻击者当前所处的战术阶段

  • O:日志、行为、网络流量等可见事件

  • f(H,O):威胁指示函数(Indicator Function)用于评估风险信号

论文提出可通过概率分布或启发式规则连接隐状态与观测,从而构建"攻击轨迹推断"。


2.威胁指示函数(Threat Indicator Function)

论文提出"威胁指示函数 I(O)"概念,用于量化观测行为与潜在威胁之间的关联度,是数学化假设模型的关键要素。

作用:

  • 从复杂、噪声较多的日志中筛选风险事件
  • 将行为分布、情报关联度等信息映射为"威胁评分"
  • 用于指导初始假设是否成立

示例形式:

I(O) = g(features, context, intelligence)

其中 g 可以是

  • 聚类结果得分
  • 图匹配相似度
  • 行为异常度(如 Reconstruction Error)
  • ATT&CK TTP 匹配程度

论文强调:
威胁指示函数是打造半自动化猎捕模型的核心组件。


3.异常检测与猎捕的协同数学模型

论文将"异常检测-威胁狩猎"关系建模为一种双向迭代机制:

  • 异常检测提供行为概率分布 P(O),帮助猎捕者定位可疑区域;
  • 猎捕者根据推理生成新的假设 H,并补充新的攻击特征
  • 异常检测模型基于新的特征与标签得到改进;
  • 系统进入下一轮循环。

这种模型可形式化为:

Hᵢ₊₁ = Update(Hᵢ, I(O), P(O))

其中 Update 表示"基于数据---情报---推理的假设修正过程"。

论文指出,这种"协同模型"具有高度潜力,可成为未来自动化猎捕系统的理论基础。


4.迭代式假设模型(Iterative Hypothesis Model)

论文认为:威胁狩猎不是一次性推理,而是连续迭代的假设更新过程

流程结构为:

  1. 构建初始假设(H₀):基于情报、规则、经验
  2. 数据观察(O₀):收集日志、事件、流量
  3. 更新假设(H₁):根据 O₀ 的结果修正原假设
  4. 验证(Validate):人工或自动验证
  5. 生成下一阶段假设(H₂, H₃...)

五、主要研究方法分类与演化趋势(RQ3)

论文将 63 篇方法性研究归纳为六类:

  1. 监督学习(LSTM、CNN、Transformer)
  2. 无监督学习(聚类、Autoencoder、LDA)
  3. 推理方法(知识图谱、本体、因果推理)
  4. 图模型/GNN(DeepHunter, ANUBIS)
  5. 规则与TTP驱动(MITRE ATT&CK)
  6. 其他方法(强化学习、自监督学习)

每类方法论文均给出其特点、适用场景与局限。

1. 监督学习方法(Supervised ML)

  • 模型:LSTM、CNN、SVM、Random Forest、Transformer。
  • 应用:恶意软件分类、APT路径预测、IIoT威胁检测。
  • 示例:
    • DRTHIS(Homayoun, 2019)利用深度学习识别勒索软件;
    • DeepAG(Li, 2023)用Transformer预测APT攻击链;
    • ATHRNN(Liu, 2022)结合Transformer与知识图谱提取ATT&CK技术。

📌 特点:性能高、可解释性有限、依赖标签数据。


2. 无监督学习方法(Unsupervised ML)

  • 技术:Autoencoder、聚类、Word2Vec、LDA主题建模等;

  • 应用:日志异常检测、威胁模式聚类、事件归因;

  • 示例:

    • LogAnomaly(Meng, 2019)基于LSTM的日志异常检测;
    • THREATRAPTOR(Gao, 2021)自动化威胁行为提取系统。

📌 特点:适用于未知威胁与无标签环境,但存在误报问题。


3. 推理与逻辑方法(Reasoning & Game Theory)

  • 融合知识图谱、逻辑推理与因果模型;

  • 示例:

    • Narayanan, 2018:基于本体的知识图推理;
    • Marin, 2020:将社会行为与技术特征结合的攻击预测模型;
    • Dritsoula, 2017:基于博弈论的攻击者策略建模。

📌 特点:增强可解释性,适合假设生成与高层策略分析。


4. 图模型与知识图谱方法(Graph-based & GNN)

  • 代表模型:PoirotDeepHunterANUBISAttackDB

  • 应用:APT溯源、攻击路径推断、威胁知识推理;

  • 技术:Provenance Graph、Graph Neural Networks (GNN)、GraphSAGE、Link Prediction。

📌 趋势:成为当前威胁狩猎的核心方向,可视化攻击链与推理攻击阶段。


5. 规则与行为驱动方法(Rule-based Approaches)

  • 特点:依托MITRE ATT&CK与STIX等标准知识库;
  • 典型:SteinerLogProvTalk、_HERCULE_等;
  • 关注:多阶段攻击重建与TTP映射。

6. 其他方法

  • 强化学习与多臂老虎机模型(MABAT):优化威胁数据采集策略;
  • UEBA行为分析:通过用户行为异常识别内部威胁;
  • 生成式AI与LLM在威胁建模中的应用:未来趋势之一。

六、主要研究挑战(RQ4)

论文综合 38 篇相关工作,对威胁狩猎领域当前的核心挑战进行了系统化归纳。作者将挑战分为 数据层、方法层、对抗层、资源层 四大方向,共五项关键难题。这些挑战解释了为何威胁狩猎自动化难以完全落地,并为未来研究路径提供方向指引。

1.高质量标注数据稀缺(Challenge 1)

威胁狩猎高度依赖 高可信标签、攻击场景、系统行为上下文,但现实中存在:

  • 攻击样本稀少且分布极不平衡;
  • 企业内部攻击事件很少公开;
  • 多数 APT 场景无法真实重建;
  • 大部分研究仅依赖少量公共数据集(如 DARPA、CICIDS)。

缺乏标注数据导致:

  • 监督学习难以训练稳健模型;
  • 模型容易过拟合特定环境;
  • 难以构建跨域、通用的威胁检测能力。

2.数据不平衡与类别稀疏问题(Challenge 2)

在大型 SOC 环境中,恶意事件通常只占全部日志的 0.01%---0.1%

论文指出:

  • 绝大部分机器学习模型在此环境下会偏向正常类;
  • 工具难以学习"异常且隐蔽"的攻击行为;
  • 对于 APT 这类极低频事件,模型识别能力常常不足。

因此需要针对稀疏样本与不平衡数据设计更适合的算法(如异常检测、重采样、自监督学习等)。


3.多源异构数据融合困难(Challenge 3)

威胁狩猎需结合来自不同系统的多模态、多结构数据,例如:

  • 系统调用日志
  • 网络流量
  • Windows 事件
  • EDR/AV 行为追踪
  • SOAR/SIEM 告警
  • OSINT/CTI(开源威胁情报)

然而:

  • 数据格式、时间戳、语义差异巨大;
  • 无法轻易对齐到统一的攻击链上下文;
  • 跨源推理的关联性弱,容易导致误报/漏报。

论文认为异构数据融合是当前威胁猎捕自动化系统的最大瓶颈之一。


4. 对抗性攻击快速演化(Challenge 4)

现代攻击呈现出快速进化趋势:

  • 对抗样本(Adversarial Examples)影响 ML 模型判断;
  • AI 生成内容用于社会工程、伪造数据;
  • 零日漏洞与"无文件攻击"难以通过传统模式识别;
  • APT 组织不断改变行为,使基于历史特征的模型迅速过时。

论文强调:

  • 回溯式学习(Retrospective Learning)无法跟上攻击者动态演进速度。需要新的"预测性、推理型、假设驱动"的方法。

5. 人类专家稀缺与知识成本高昂(Challenge 5)

威胁狩猎依赖经验丰富的分析师,但现实中:

  • 高级分析师储备严重不足;
  • 组织之间缺少高质量知识共享机制;
  • 即便自动化工具强大,专家仍需为模型输出提供最终判断;
  • 威胁情报(TI/CTI)的可信度与更新速度无法持续保障。

论文指出,即使自动化能力提升,"人机协作"仍将是未来长期状态,而人力短缺会继续制约威胁猎捕能力的提升。


七、未来发展方向与启示

  • AI驱动智能狩猎系统:结合生成式AI、强化学习、自动假设生成;
  • 可解释与数学化模型:基于隐马尔可夫模型(HMM)等进行威胁状态建模;
  • 知识图谱与自动推理结合:实现威胁情报、攻击路径、战术模式的统一;
  • 人机协作与自动化融合:在SOAR框架中嵌入人类分析循环;
  • 多模态数据与自监督学习:提升无标签环境下的威胁识别性能。

八、学术价值与创新贡献

论文总结如下:

  • 建立了威胁狩猎研究的系统分类框架
  • 提出"假设建模+迭代验证"的数学形式化思路;
  • 综合评估了机器学习、知识图谱、逻辑推理、自动化工具等多维方法;
  • 总结了数据集、工具(MITRE、MISP、OpenCTI等)及开源资源;
  • 指明AI与人类专家协同的未来方向。

2024年4月28日是Eastmount的安全星球------『网络攻防和AI安全之家』正式创建和运营的日子,该星球目前主营业务为 安全零基础答疑、安全技术分享、AI安全技术分享、AI安全论文交流、威胁情报每日推送、网络攻防技术总结、系统安全技术实战、面试求职、安全考研考博、简历修改及润色、学术交流及答疑、人脉触达、认知提升等。下面是星球的新人券,欢迎新老博友和朋友加入,一起分享更多安全知识,比较良心的星球,非常适合初学者和换安全专业的读者学习。

目前收到了很多博友、朋友和老师的支持和点赞,尤其是一些看了我文章多年的老粉,购买来感谢,真的很感动,类目。未来,我将分享更多高质量文章,更多安全干货,真心帮助到大家。虽然起步晚,但贵在坚持,像十多年如一日的博客分享那样,脚踏实地,只争朝夕。继续加油,再次感谢!

(By:Eastmount 2026-04-12 周日夜于贵阳 http://blog.csdn.net/eastmount/ )


前文赏析:

相关推荐
zjeweler2 小时前
网安护网面试-3-鸿鹄科技护网面试
科技·网络安全·面试·职场和发展·护网行动
兄弟加油,别颓废了。11 小时前
给她ctf.show
网络安全
悟道子HD17 小时前
SRC漏洞挖掘——2.SQL注入漏洞实战详解
sql·web安全·网络安全·渗透测试·sql注入·sqlmap·暴力破解
zjeweler20 小时前
网安护网面试-2-国誉护网面试
web安全·网络安全·面试·职场和发展·护网行动·护网面试
pencek1 天前
HakcMyVM-Quick
网络安全
SUNNY_SHUN1 天前
不需要Memory Bank:CMDR-IAD用2D+3D双分支重建做工业异常检测,MVTec 3D 97.3%
论文阅读·人工智能·算法·3d
程序员晓晓1 天前
【网络安全零基础入门】应急响应之服务器入侵排查,小白零基础入门到精通教程
服务器·web安全·计算机·网络安全·渗透测试·黑客技术·网安应急响应
vortex51 天前
基于资源约束的委派 (RBCD) 利用细节
网络·网络协议·网络安全·内网渗透·ad域
菩提小狗1 天前
每日安全情报报告 · 2026-04-11
网络安全·漏洞·cve·安全情报·每日安全