《娜璋带你读论文》系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢。由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学术路上期待与您前行,加油。
前一篇博客介绍了APILI,一种面向恶意软件行为分析的深度学习方法,用于在动态执行轨迹中定位与恶意攻击技术(MITRE ATT&CK Techniques)相对应的底层 API 调用。本文是一篇系统性综述论文,详细综述了网络威胁狩猎技术,探讨了智能本体与自动化工具的资源整合路径,涵盖了监督与无监督学习、推理机制、图方法及规则方法等多种建模策略,并分析了关键挑战和困难。注意,由于我们团队还在不断成长和学习中,写得不好的地方还请海涵,希望这篇文章对您有所帮助,这些大佬真值得我们学习。fighting!
- 欢迎关注作者新建的『网络攻防和AI安全之家』知识星球(文章末尾)
文章目录
- 一、研究背景与总体概述
- 二、研究方法与文献筛选流程
- 三、威胁狩猎的理论与流程框架(RQ1))
-
- 1.威胁狩猎与异常检测的关系
- [2. 系统化的狩猎流程(Ten-Step Model)](#2. 系统化的狩猎流程(Ten-Step Model))
- 四、数学假设模型(RQ2)
-
- [1.隐状态与观测模型(Hidden States & Observations)](#1.隐状态与观测模型(Hidden States & Observations))
- [2.威胁指示函数(Threat Indicator Function)](#2.威胁指示函数(Threat Indicator Function))
- 3.异常检测与猎捕的协同数学模型
- [4.迭代式假设模型(Iterative Hypothesis Model)](#4.迭代式假设模型(Iterative Hypothesis Model))
- 五、主要研究方法分类与演化趋势(RQ3)
-
- [1. 监督学习方法(Supervised ML)](#1. 监督学习方法(Supervised ML))
- [2. 无监督学习方法(Unsupervised ML)](#2. 无监督学习方法(Unsupervised ML))
- [3. 推理与逻辑方法(Reasoning & Game Theory)](#3. 推理与逻辑方法(Reasoning & Game Theory))
- [4. 图模型与知识图谱方法(Graph-based & GNN)](#4. 图模型与知识图谱方法(Graph-based & GNN))
- [5. 规则与行为驱动方法(Rule-based Approaches)](#5. 规则与行为驱动方法(Rule-based Approaches))
- [6. 其他方法](#6. 其他方法)
- 六、主要研究挑战(RQ4)
-
- [1.高质量标注数据稀缺(Challenge 1)](#1.高质量标注数据稀缺(Challenge 1))
- [2.数据不平衡与类别稀疏问题(Challenge 2)](#2.数据不平衡与类别稀疏问题(Challenge 2))
- [3.多源异构数据融合困难(Challenge 3)](#3.多源异构数据融合困难(Challenge 3))
- [4. 对抗性攻击快速演化(Challenge 4)](#4. 对抗性攻击快速演化(Challenge 4))
- [5. 人类专家稀缺与知识成本高昂(Challenge 5)](#5. 人类专家稀缺与知识成本高昂(Challenge 5))
- 七、未来发展方向与启示
- 八、学术价值与创新贡献

原文作者 :Arash Mahboubi, et al.
原文标题 :Evolving Techniques in Cyber Threat Hunting: A Systematic Review
原文链接 :https://www.sciencedirect.com/science/article/pii/S1084804524001814
发表期刊 :Journal of Network and Computer Applications 2024
笔记作者:贵州大学 杨子轩
一、研究背景与总体概述
1.研究缘起与背景
在网络攻击不断演化、传统防御手段逐渐失效的时代,威胁狩猎(Cyber Threat Hunting, CTH) 成为网络安全领域的主动防御前沿。 与被动的入侵检测系统(IDS)或事件响应机制(IR)不同,威胁狩猎旨在通过分析潜在行为模式、构建攻击假设、挖掘隐匿迹象,在攻击造成损害前主动发现对手。
论文指出,近年来:
- 全球活跃攻击组织已超230个;
- eCrime平均突破时间仅2分钟;
- 无文件攻击(Malware-free Attacks)与AI辅助社会工程攻击显著增加。
这表明传统基于签名或规则的检测系统难以应对动态威胁,网络防御迫切需要转向 "预测性安全与假设驱动分析" 的新范式。
2.研究目标与核心问题
作者通过系统综述(Systematic Literature Review, SLR)方法,明确提出了四个研究问题:
| 序号 | 研究问题(RQ) | 研究核心 |
|---|---|---|
| RQ1 | 威胁狩猎技术与方法如何演化? | 分析从手动调查到AI驱动的转变过程。 |
| RQ2 | 威胁狩猎中是否存在可形式化的数学假设模型? | 探讨可量化、可推理的威胁假设构建方法。 |
| RQ3 | 当前主流的狩猎策略与算法有哪些? | 系统比较监督学习、无监督学习、图模型等方法。 |
| RQ4 | 现阶段的主要技术与实践挑战是什么? | 概括数据、算法与人力资源的关键限制。 |
二、研究方法与文献筛选流程
论文遵循SLR标准流程:
- 初步检索阶段:从IEEE、ACM、Scopus、Google Scholar等数据库检索1696篇相关文献。
- 筛选阶段:根据主题关键词(如"threat hunting"、"security analytics"、"intrusion detection system"等)过滤至287篇。
- 评估阶段:剔除综述、海报及简报类文献,最终保留117篇实证与方法研究论文。
文献被划分为四类以对应研究问题:
- 12篇:威胁狩猎流程研究(RQ1)
- 4篇:假设建模研究(RQ2)
- 63篇:威胁检测方法(RQ3)
- 38篇:挑战与难题研究(RQ4)

三、威胁狩猎的理论与流程框架(RQ1)
1.威胁狩猎与异常检测的关系
- 异常检测(Anomaly Detection):自动识别偏离常态的行为模式
- 威胁狩猎(Threat Hunting):基于情报与假设的主动探索行为
论文强调二者相辅相成:
威胁狩猎通过人类推理发现新威胁 → 为异常检测提供新特征与标签;
异常检测通过算法扩展威胁覆盖面 → 为狩猎提供数据支撑。
2. 系统化的狩猎流程(Ten-Step Model)
基于SANS威胁狩猎成熟度模型,作者提出了十步过程:
- 异构数据收集
- 威胁定义与假设制定
- 主动搜索与行为验证
- 威胁指标识别(IoC/IoA)
- 威胁分类与聚类
- 人工验证
- 防御体系比对与漏洞评估
- 模式与特征提取
- 防御系统改进(IDS、EDR、SIEM)
- 迭代更新与知识反馈
这一循环体现了"假设---验证---修正"的持续狩猎思想。

四、数学假设模型(RQ2)
论文指出:威胁狩猎的核心在于"假设驱动(Hypothesis-driven)",但行业长期缺乏形式化、可量化的数学模型。作者选取 4 篇关键文献,对假设建模进行分类与总结。
1.隐状态与观测模型(Hidden States & Observations)
许多威胁行为不可直接观测(如横向移动、隐蔽持久化),只能通过系统事件、日志等"观测值 O " 推断攻击者"隐状态 H"。
该模型类似于**隐马尔可夫模型(HMM)**思想(论文没有直接使用 HMM,但思想一致):
-
H:攻击者当前所处的战术阶段
-
O:日志、行为、网络流量等可见事件
-
f(H,O):威胁指示函数(Indicator Function)用于评估风险信号
论文提出可通过概率分布或启发式规则连接隐状态与观测,从而构建"攻击轨迹推断"。
2.威胁指示函数(Threat Indicator Function)
论文提出"威胁指示函数 I(O)"概念,用于量化观测行为与潜在威胁之间的关联度,是数学化假设模型的关键要素。
作用:
- 从复杂、噪声较多的日志中筛选风险事件
- 将行为分布、情报关联度等信息映射为"威胁评分"
- 用于指导初始假设是否成立
示例形式:
I(O) = g(features, context, intelligence)
其中 g 可以是
- 聚类结果得分
- 图匹配相似度
- 行为异常度(如 Reconstruction Error)
- ATT&CK TTP 匹配程度
论文强调:
威胁指示函数是打造半自动化猎捕模型的核心组件。
3.异常检测与猎捕的协同数学模型
论文将"异常检测-威胁狩猎"关系建模为一种双向迭代机制:
- 异常检测提供行为概率分布 P(O),帮助猎捕者定位可疑区域;
- 猎捕者根据推理生成新的假设 H,并补充新的攻击特征;
- 异常检测模型基于新的特征与标签得到改进;
- 系统进入下一轮循环。
这种模型可形式化为:
Hᵢ₊₁ = Update(Hᵢ, I(O), P(O))
其中 Update 表示"基于数据---情报---推理的假设修正过程"。
论文指出,这种"协同模型"具有高度潜力,可成为未来自动化猎捕系统的理论基础。
4.迭代式假设模型(Iterative Hypothesis Model)
论文认为:威胁狩猎不是一次性推理,而是连续迭代的假设更新过程。
流程结构为:
- 构建初始假设(H₀):基于情报、规则、经验
- 数据观察(O₀):收集日志、事件、流量
- 更新假设(H₁):根据 O₀ 的结果修正原假设
- 验证(Validate):人工或自动验证
- 生成下一阶段假设(H₂, H₃...)
五、主要研究方法分类与演化趋势(RQ3)
论文将 63 篇方法性研究归纳为六类:
- 监督学习(LSTM、CNN、Transformer)
- 无监督学习(聚类、Autoencoder、LDA)
- 推理方法(知识图谱、本体、因果推理)
- 图模型/GNN(DeepHunter, ANUBIS)
- 规则与TTP驱动(MITRE ATT&CK)
- 其他方法(强化学习、自监督学习)
每类方法论文均给出其特点、适用场景与局限。

1. 监督学习方法(Supervised ML)
- 模型:LSTM、CNN、SVM、Random Forest、Transformer。
- 应用:恶意软件分类、APT路径预测、IIoT威胁检测。
- 示例:
- DRTHIS(Homayoun, 2019)利用深度学习识别勒索软件;
- DeepAG(Li, 2023)用Transformer预测APT攻击链;
- ATHRNN(Liu, 2022)结合Transformer与知识图谱提取ATT&CK技术。
📌 特点:性能高、可解释性有限、依赖标签数据。


2. 无监督学习方法(Unsupervised ML)
-
技术:Autoencoder、聚类、Word2Vec、LDA主题建模等;
-
应用:日志异常检测、威胁模式聚类、事件归因;
-
示例:
- LogAnomaly(Meng, 2019)基于LSTM的日志异常检测;
- THREATRAPTOR(Gao, 2021)自动化威胁行为提取系统。
📌 特点:适用于未知威胁与无标签环境,但存在误报问题。

3. 推理与逻辑方法(Reasoning & Game Theory)
-
融合知识图谱、逻辑推理与因果模型;
-
示例:
- Narayanan, 2018:基于本体的知识图推理;
- Marin, 2020:将社会行为与技术特征结合的攻击预测模型;
- Dritsoula, 2017:基于博弈论的攻击者策略建模。
📌 特点:增强可解释性,适合假设生成与高层策略分析。

4. 图模型与知识图谱方法(Graph-based & GNN)
-
代表模型:Poirot 、DeepHunter 、ANUBIS 、AttackDB;
-
应用:APT溯源、攻击路径推断、威胁知识推理;
-
技术:Provenance Graph、Graph Neural Networks (GNN)、GraphSAGE、Link Prediction。
📌 趋势:成为当前威胁狩猎的核心方向,可视化攻击链与推理攻击阶段。


5. 规则与行为驱动方法(Rule-based Approaches)
- 特点:依托MITRE ATT&CK与STIX等标准知识库;
- 典型:SteinerLog 、ProvTalk、_HERCULE_等;
- 关注:多阶段攻击重建与TTP映射。
6. 其他方法
- 强化学习与多臂老虎机模型(MABAT):优化威胁数据采集策略;
- UEBA行为分析:通过用户行为异常识别内部威胁;
- 生成式AI与LLM在威胁建模中的应用:未来趋势之一。
六、主要研究挑战(RQ4)
论文综合 38 篇相关工作,对威胁狩猎领域当前的核心挑战进行了系统化归纳。作者将挑战分为 数据层、方法层、对抗层、资源层 四大方向,共五项关键难题。这些挑战解释了为何威胁狩猎自动化难以完全落地,并为未来研究路径提供方向指引。
1.高质量标注数据稀缺(Challenge 1)
威胁狩猎高度依赖 高可信标签、攻击场景、系统行为上下文,但现实中存在:
- 攻击样本稀少且分布极不平衡;
- 企业内部攻击事件很少公开;
- 多数 APT 场景无法真实重建;
- 大部分研究仅依赖少量公共数据集(如 DARPA、CICIDS)。
缺乏标注数据导致:
- 监督学习难以训练稳健模型;
- 模型容易过拟合特定环境;
- 难以构建跨域、通用的威胁检测能力。
2.数据不平衡与类别稀疏问题(Challenge 2)
在大型 SOC 环境中,恶意事件通常只占全部日志的 0.01%---0.1%。
论文指出:
- 绝大部分机器学习模型在此环境下会偏向正常类;
- 工具难以学习"异常且隐蔽"的攻击行为;
- 对于 APT 这类极低频事件,模型识别能力常常不足。
因此需要针对稀疏样本与不平衡数据设计更适合的算法(如异常检测、重采样、自监督学习等)。
3.多源异构数据融合困难(Challenge 3)
威胁狩猎需结合来自不同系统的多模态、多结构数据,例如:
- 系统调用日志
- 网络流量
- Windows 事件
- EDR/AV 行为追踪
- SOAR/SIEM 告警
- OSINT/CTI(开源威胁情报)
然而:
- 数据格式、时间戳、语义差异巨大;
- 无法轻易对齐到统一的攻击链上下文;
- 跨源推理的关联性弱,容易导致误报/漏报。
论文认为异构数据融合是当前威胁猎捕自动化系统的最大瓶颈之一。

4. 对抗性攻击快速演化(Challenge 4)
现代攻击呈现出快速进化趋势:
- 对抗样本(Adversarial Examples)影响 ML 模型判断;
- AI 生成内容用于社会工程、伪造数据;
- 零日漏洞与"无文件攻击"难以通过传统模式识别;
- APT 组织不断改变行为,使基于历史特征的模型迅速过时。
论文强调:
- 回溯式学习(Retrospective Learning)无法跟上攻击者动态演进速度。需要新的"预测性、推理型、假设驱动"的方法。
5. 人类专家稀缺与知识成本高昂(Challenge 5)
威胁狩猎依赖经验丰富的分析师,但现实中:
- 高级分析师储备严重不足;
- 组织之间缺少高质量知识共享机制;
- 即便自动化工具强大,专家仍需为模型输出提供最终判断;
- 威胁情报(TI/CTI)的可信度与更新速度无法持续保障。
论文指出,即使自动化能力提升,"人机协作"仍将是未来长期状态,而人力短缺会继续制约威胁猎捕能力的提升。
七、未来发展方向与启示
- AI驱动智能狩猎系统:结合生成式AI、强化学习、自动假设生成;
- 可解释与数学化模型:基于隐马尔可夫模型(HMM)等进行威胁状态建模;
- 知识图谱与自动推理结合:实现威胁情报、攻击路径、战术模式的统一;
- 人机协作与自动化融合:在SOAR框架中嵌入人类分析循环;
- 多模态数据与自监督学习:提升无标签环境下的威胁识别性能。

八、学术价值与创新贡献
论文总结如下:
- 建立了威胁狩猎研究的系统分类框架;
- 提出"假设建模+迭代验证"的数学形式化思路;
- 综合评估了机器学习、知识图谱、逻辑推理、自动化工具等多维方法;
- 总结了数据集、工具(MITRE、MISP、OpenCTI等)及开源资源;
- 指明AI与人类专家协同的未来方向。
2024年4月28日是Eastmount的安全星球------『网络攻防和AI安全之家』正式创建和运营的日子,该星球目前主营业务为 安全零基础答疑、安全技术分享、AI安全技术分享、AI安全论文交流、威胁情报每日推送、网络攻防技术总结、系统安全技术实战、面试求职、安全考研考博、简历修改及润色、学术交流及答疑、人脉触达、认知提升等。下面是星球的新人券,欢迎新老博友和朋友加入,一起分享更多安全知识,比较良心的星球,非常适合初学者和换安全专业的读者学习。
目前收到了很多博友、朋友和老师的支持和点赞,尤其是一些看了我文章多年的老粉,购买来感谢,真的很感动,类目。未来,我将分享更多高质量文章,更多安全干货,真心帮助到大家。虽然起步晚,但贵在坚持,像十多年如一日的博客分享那样,脚踏实地,只争朝夕。继续加油,再次感谢!
(By:Eastmount 2026-04-12 周日夜于贵阳 http://blog.csdn.net/eastmount/ )
前文赏析:
- [论文阅读] (01)拿什么来拯救我的拖延症?初学者如何提升编程兴趣及LATEX入门详解
- [论文阅读] (02)SP2019-Neural Cleanse: Identifying and Mitigating Backdoor Attacks in DNN
- [论文阅读] (03)清华张超老师 - GreyOne: Discover Vulnerabilities with Data Flow Sensitive Fuzzing
- [论文阅读] (04)人工智能真的安全吗?浙大团队外滩大会分享AI对抗样本技术
- [论文阅读] (05)NLP知识总结及NLP论文撰写之道------Pvop老师
- [论文阅读] (06)万字详解什么是生成对抗网络GAN?经典论文及案例普及
- [论文阅读] (07)RAID2020 Cyber Threat Intelligence Modeling Based on Heterogeneous GCN
- [论文阅读] (08)NDSS2020 UNICORN: Runtime Provenance-Based Detector for Advanced Persistent Threats
- [论文阅读] (09)S&P2019 HOLMES Real-time APT Detection through Correlation of Suspicious Information Flow
- [论文阅读] (10)基于溯源图的APT攻击检测安全顶会总结
- [论文阅读] (11)ACE算法和暗通道先验图像去雾算法(Rizzi | 何恺明老师)
- [论文阅读] (12)英文论文引言introduction如何撰写及精句摘抄------以入侵检测系统(IDS)为例
- [论文阅读] (13)英文论文模型设计(Model Design)如何撰写及精句摘抄------以入侵检测系统(IDS)为例
- [论文阅读] (14)英文论文实验评估(Evaluation)如何撰写及精句摘抄(上)------以入侵检测系统(IDS)为例
- [论文阅读] (15)英文SCI论文审稿意见及应对策略学习笔记总结
- [论文阅读] (16)Powershell恶意代码检测论文总结及抽象语法树(AST)提取
- [论文阅读] (17)CCS2019 针对PowerShell脚本的轻量级去混淆和语义感知攻击检测
- [论文阅读] (18)英文论文Model Design和Overview如何撰写及精句摘抄------以系统AI安全顶会为例
- [论文阅读] (19)英文论文Evaluation(实验数据集、指标和环境)如何描述及精句摘抄------以系统AI安全顶会为例
- [论文阅读] (20)USENIXSec21 DeepReflect:通过二进制重构发现恶意功能(恶意代码ROI分析经典)
- [论文阅读] (21)S&P21 Survivalism: Systematic Analysis of Windows Malware Living-Off-The-Land (经典离地攻击)
- [论文阅读] (22)图神经网络及认知推理总结和普及-清华唐杰老师
- [论文阅读] (23)恶意代码作者溯源(去匿名化)经典论文阅读:二进制和源代码对比
- [论文阅读] (24)向量表征:从Word2vec和Doc2vec到Deepwalk和Graph2vec,再到Asm2vec和Log2vec(一)
- [论文阅读] (25)向量表征经典之DeepWalk:从Word2vec到DeepWalk,再到Asm2vec和Log2vec(二)
- [论文阅读] (26)基于Excel可视化分析的论文实验图表绘制总结------以电影市场为例
- [论文阅读] (27)AAAI20 Order Matters: 二进制代码相似性检测(腾讯科恩实验室)
- [论文阅读] (28)李沐老师视频学习------1.研究的艺术·跟读者建立联系
- [论文阅读] (29)李沐老师视频学习------2.研究的艺术·明白问题的重要性
- [论文阅读] (30)李沐老师视频学习------3.研究的艺术·讲好故事和论点
- [论文阅读] (31)李沐老师视频学习------4.研究的艺术·理由、论据和担保
- [论文阅读] (32)南洋理工大学刘杨教授------网络空间安全和AIGC整合之道学习笔记及强推(InForSec)
- [论文阅读] (33)NDSS2024 Summer系统安全和恶意代码分析方向相关论文汇总
- [论文阅读] (34)EWAS2024 基于SGDC的轻量级入侵检测系统
- [论文阅读] (35)TIFS24 MEGR-APT:基于攻击表示学习的高效内存APT猎杀系统
- [论文阅读] (36)C&S22 MPSAutodetect:基于自编码器的恶意Powershell脚本检测模型
- [论文阅读] (37)CCS21 DeepAID:基于深度学习的异常检测(解释)
- [论文阅读] (38)基于大模型的威胁情报分析与知识图谱构建论文总结(读书笔记)
- [论文阅读] (39)EuroS&P25 CTINEXUS:基于大模型的威胁情报知识图谱自动构建
- [论文阅读] (40)CCS24 PowerPeeler:一种通用的PowerShell脚本动态去混淆方法
- [论文阅读] (41)JISA24 物联网环境下基于少样本学习的攻击流量分类
- [论文阅读] (42)ASC25 基于大语言模型的未知Web攻击威胁检测
- [论文阅读] (43)ESWA25 评估大模型在真实攻击活动的恶意代码解混淆能力
- [论文阅读] (44)一种基于LLM少样本多标签的Android恶意软件检测方法
- [论文阅读] (45)C&S24 AISL: 基于攻击意图驱动与序列学习方法的APT攻击检测
- [论文阅读] (46)IDS-Agent: 一种用于物联网可解释入侵检测的大模型Agent
- [论文阅读] (47)LAMD: 基于大模型上下文驱动的Android恶意软件检测与分类
- [论文阅读] (48)TIFS24 基于注意力的恶意软件API定位技术
-
论文阅读\] (49)JNCA24 网络威胁狩猎演化技术综述