Claude读论文系列（四）

📖 阅读笔记：Beyond Raw Bytes: Towards Large Malware Language Models

来源：NDSS 2026
PDF ：https://www.ndss-symposium.org/wp-content/uploads/2026-s103-paper.pdf
作者：Luke Kurlandski, Harel Berger, Yin Pan, Matthew Wright（Rochester Institute of Technology / Ariel University）
笔记日期 ：2026-03-29
主题标签 ：#恶意软件 #LLM #预训练 #静态分析 #二进制分类

🎯 一句话总结

本文提出「大型恶意软件语言模型（LMLM）」，将 NLP 领域的 LLM 预训练范式（MLM/CLM）迁移到 PE 二进制的静态分析，在检测、家族分类、行为标记三类下游任务上平均提升 1.1%、最高提升 28.6%，为恶意软件防御开辟了新范式。

📌 研究背景与动机

问题所在

当前恶意软件检测领域的主流方法面临两大痛点：

传统特征工程方法（Drebin、EMBER）：依赖手工特征，面对混淆、加壳变种泛化性差。
Raw-Binary 分类器（如 MalConv） ：直接输入原始字节，但：
- 卷积压缩长序列时丢失语义信息
- 难以支持自监督预训练（如 BERT 式掩码建模）
- 对混淆样本鲁棒性弱，复杂任务（行为标记）近乎随机猜测

灵感来源

NLP 中 LLM 的成功三要素：

📦 大规模高质量训练数据
🏗️ 表达力强且可扩展的网络架构
🎓 无标签自监督预训练

→ 能否把恶意软件二进制当成一种「语言」来建模？

🔧 技术方案

Step 1：三种输入表示

论文定义了三种从 PE 文件中提取的代码表示，并支持组合（ALL）：

表示符号	内容	说明
`EXE`	`.text` 段原始字节	最底层，信息密度高但噪声大
`DIS`	反汇编指令	汇编级语义，更结构化
`DEC`	反编译 C 代码	高层语义，但对加壳样本失效
`ALL`	三者拼接	综合最优

Step 2：Tokenization

算法：BPE（字节对编码） 和 UNI（单字节模型）
词汇表大小：1024 / 4096 / 16384（越大困惑度越低，计算成本越高）
EXE 压缩率约 18.2×，有效降低序列长度

Step 3：模型架构（两个候选）

模型	架构类型	方向性	特点
HRRFormer	状态空间模型（SSM）	双向	推理速度快（比 Mamba 快 25%），但复杂任务退化严重
Mamba	选择性 SSM	双向	大多数任务更优，复杂任务鲁棒性强

🔑 模型规模：约 60M 非嵌入参数 ，是原始 MalConv 的 60 倍。

Step 4：预训练目标

目标	类比 NLP	学习内容
MLM（掩码语言建模）	BERT	二进制上下文依赖关系
CLM（因果语言建模）	GPT	二进制序列生成规律

Step 5：下游任务微调

优化器：AdamW + 加权损失（β=0.5 缓解类别不平衡）+ Focal Loss
任务类型：检测（二分类）、家族分类（多标签）、行为标记（多标签）

📊 实验结果

主要结论

任务	指标	平均提升	最高提升场景
恶意软件检测	ACC	+1.1%	无向 HRRFormer + EXE → +28.6%
家族分类	MCC	明显提升	预训练 Mamba vs. 从头训练
行为标记	Jaccard 指数	有提升	复杂多标签任务改善最显著

消融实验关键结论

词汇表越大 → 困惑度（NPPL）越低，但训练成本非线性增长
无预训练的 HRRFormer 在行为标记任务中退化至接近随机（说明预训练是必要的）
数据去重是必要步骤，重复样本会导致严重过拟合

💡 核心亮点

首次系统性工作：将 LLM 预训练完整 pipeline（数据→tokenize→预训练→微调）应用于静态恶意软件二进制分析
多表示融合：EXE/DIS/DEC 三种视角的结合显著优于单一视角
证明预训练有效：特别是对复杂任务（行为标记），预训练是保证性能的前提

⚠️ 批判性思考

值得肯定

问题定义清晰，与 NLP 的类比设计合理
实验任务多样，覆盖了检测、分类、标注三个层次

潜在问题

1.1% 的平均提升是否实用？

在安全领域，即使是微小提升也有意义（减少漏报），但需要结合 FPR/FNR 在实际场景中验证。
28.6% 的最高提升来自特殊场景

无向 HRRFormer 本身在该任务上表现极差（接近随机），基数低导致提升幅度大，说服力有限。
计算成本高昂

训练需要 360GB RAM、多 GPU，离实际工业部署还有距离。
对加壳/混淆样本
DEC（反编译）对加壳样本完全失效；DIS 在混淆样本上也表现一般，鲁棒性问题未解决。
伦理风险

LMLM 本质上学了「如何生成恶意代码模式」，存在被滥用于生成恶意软件的风险（论文提及但未深入讨论）。

🔮 未来方向

混合架构（Transformer + SSM）降低计算成本
对抗训练提升对混淆逃避攻击的鲁棒性
多模态学习（静态 + 动态行为日志 + 网络流量）
探索 LMLM 在漏洞挖掘、代码相似性检测等相关任务上的迁移

📝 与相关工作对比

方法	输入	预训练	规模	局限
MalConv	Raw bytes	❌	小	长序列压缩损失语义
Drebin	手工特征	❌	-	特征工程依赖专家知识
HRRFormer（原版）	Raw bytes	❌	中	复杂任务退化
LMLM（本文）	EXE/DIS/DEC	✅ MLM+CLM	60M params	计算成本高

🏷️ 关键术语

LMLM：Large Malware Language Model，恶意软件语言大模型
MLM：Masked Language Modeling，掩码语言建模（BERT 式）
CLM：Causal Language Modeling，因果语言建模（GPT 式）
BPE：Byte Pair Encoding，字节对编码
Mamba：基于选择性状态空间模型（S4/S6）的序列模型
HRRFormer：基于 Hamming-based Residual Recurrent 的状态空间模型
NPPL：Normalized Per-token Perplexity Loss，归一化每 token 困惑度