📖 阅读笔记:Beyond Raw Bytes: Towards Large Malware Language Models
来源 :NDSS 2026
PDF :https://www.ndss-symposium.org/wp-content/uploads/2026-s103-paper.pdf
作者 :Luke Kurlandski, Harel Berger, Yin Pan, Matthew Wright(Rochester Institute of Technology / Ariel University)
笔记日期 :2026-03-29
主题标签 :#恶意软件#LLM#预训练#静态分析#二进制分类
🎯 一句话总结
本文提出「大型恶意软件语言模型(LMLM)」,将 NLP 领域的 LLM 预训练范式(MLM/CLM)迁移到 PE 二进制的静态分析,在检测、家族分类、行为标记三类下游任务上平均提升 1.1%、最高提升 28.6%,为恶意软件防御开辟了新范式。
📌 研究背景与动机
问题所在
当前恶意软件检测领域的主流方法面临两大痛点:
- 传统特征工程方法(Drebin、EMBER):依赖手工特征,面对混淆、加壳变种泛化性差。
- Raw-Binary 分类器(如 MalConv) :直接输入原始字节,但:
- 卷积压缩长序列时丢失语义信息
- 难以支持自监督预训练(如 BERT 式掩码建模)
- 对混淆样本鲁棒性弱,复杂任务(行为标记)近乎随机猜测
灵感来源
NLP 中 LLM 的成功三要素:
- 📦 大规模高质量训练数据
- 🏗️ 表达力强且可扩展的网络架构
- 🎓 无标签自监督预训练
→ 能否把恶意软件二进制当成一种「语言」来建模?
🔧 技术方案
Step 1:三种输入表示
论文定义了三种从 PE 文件中提取的代码表示,并支持组合(ALL):
| 表示符号 | 内容 | 说明 |
|---|---|---|
EXE |
.text 段原始字节 |
最底层,信息密度高但噪声大 |
DIS |
反汇编指令 | 汇编级语义,更结构化 |
DEC |
反编译 C 代码 | 高层语义,但对加壳样本失效 |
ALL |
三者拼接 | 综合最优 |
Step 2:Tokenization
- 算法:BPE(字节对编码) 和 UNI(单字节模型)
- 词汇表大小:1024 / 4096 / 16384(越大困惑度越低,计算成本越高)
EXE压缩率约 18.2×,有效降低序列长度
Step 3:模型架构(两个候选)
| 模型 | 架构类型 | 方向性 | 特点 |
|---|---|---|---|
| HRRFormer | 状态空间模型(SSM) | 双向 | 推理速度快(比 Mamba 快 25%),但复杂任务退化严重 |
| Mamba | 选择性 SSM | 双向 | 大多数任务更优,复杂任务鲁棒性强 |
🔑 模型规模:约 60M 非嵌入参数 ,是原始 MalConv 的 60 倍。
Step 4:预训练目标
| 目标 | 类比 NLP | 学习内容 |
|---|---|---|
| MLM(掩码语言建模) | BERT | 二进制上下文依赖关系 |
| CLM(因果语言建模) | GPT | 二进制序列生成规律 |
Step 5:下游任务微调
- 优化器:AdamW + 加权损失(β=0.5 缓解类别不平衡)+ Focal Loss
- 任务类型:检测(二分类)、家族分类(多标签)、行为标记(多标签)
📊 实验结果
主要结论
| 任务 | 指标 | 平均提升 | 最高提升场景 |
|---|---|---|---|
| 恶意软件检测 | ACC | +1.1% | 无向 HRRFormer + EXE → +28.6% |
| 家族分类 | MCC | 明显提升 | 预训练 Mamba vs. 从头训练 |
| 行为标记 | Jaccard 指数 | 有提升 | 复杂多标签任务改善最显著 |
消融实验关键结论
- 词汇表越大 → 困惑度(NPPL)越低,但训练成本非线性增长
- 无预训练的 HRRFormer 在行为标记任务中退化至接近随机(说明预训练是必要的)
- 数据去重是必要步骤,重复样本会导致严重过拟合
💡 核心亮点
- 首次系统性工作:将 LLM 预训练完整 pipeline(数据→tokenize→预训练→微调)应用于静态恶意软件二进制分析
- 多表示融合:EXE/DIS/DEC 三种视角的结合显著优于单一视角
- 证明预训练有效:特别是对复杂任务(行为标记),预训练是保证性能的前提
⚠️ 批判性思考
值得肯定
- 问题定义清晰,与 NLP 的类比设计合理
- 实验任务多样,覆盖了检测、分类、标注三个层次
潜在问题
-
1.1% 的平均提升是否实用?
在安全领域,即使是微小提升也有意义(减少漏报),但需要结合 FPR/FNR 在实际场景中验证。
-
28.6% 的最高提升来自特殊场景
无向 HRRFormer 本身在该任务上表现极差(接近随机),基数低导致提升幅度大,说服力有限。
-
计算成本高昂
训练需要 360GB RAM、多 GPU,离实际工业部署还有距离。
-
对加壳/混淆样本
DEC(反编译)对加壳样本完全失效;DIS在混淆样本上也表现一般,鲁棒性问题未解决。 -
伦理风险
LMLM 本质上学了「如何生成恶意代码模式」,存在被滥用于生成恶意软件的风险(论文提及但未深入讨论)。
🔮 未来方向
- 混合架构(Transformer + SSM)降低计算成本
- 对抗训练提升对混淆逃避攻击的鲁棒性
- 多模态学习(静态 + 动态行为日志 + 网络流量)
- 探索 LMLM 在漏洞挖掘、代码相似性检测等相关任务上的迁移
📝 与相关工作对比
| 方法 | 输入 | 预训练 | 规模 | 局限 |
|---|---|---|---|---|
| MalConv | Raw bytes | ❌ | 小 | 长序列压缩损失语义 |
| Drebin | 手工特征 | ❌ | - | 特征工程依赖专家知识 |
| HRRFormer(原版) | Raw bytes | ❌ | 中 | 复杂任务退化 |
| LMLM(本文) | EXE/DIS/DEC | ✅ MLM+CLM | 60M params | 计算成本高 |
🏷️ 关键术语
- LMLM:Large Malware Language Model,恶意软件语言大模型
- MLM:Masked Language Modeling,掩码语言建模(BERT 式)
- CLM:Causal Language Modeling,因果语言建模(GPT 式)
- BPE:Byte Pair Encoding,字节对编码
- Mamba:基于选择性状态空间模型(S4/S6)的序列模型
- HRRFormer:基于 Hamming-based Residual Recurrent 的状态空间模型
- NPPL:Normalized Per-token Perplexity Loss,归一化每 token 困惑度