Claude读论文系列(四)

📖 阅读笔记:Beyond Raw Bytes: Towards Large Malware Language Models

来源 :NDSS 2026
PDFhttps://www.ndss-symposium.org/wp-content/uploads/2026-s103-paper.pdf
作者 :Luke Kurlandski, Harel Berger, Yin Pan, Matthew Wright(Rochester Institute of Technology / Ariel University)
笔记日期 :2026-03-29
主题标签#恶意软件 #LLM #预训练 #静态分析 #二进制分类


🎯 一句话总结

本文提出「大型恶意软件语言模型(LMLM)」,将 NLP 领域的 LLM 预训练范式(MLM/CLM)迁移到 PE 二进制的静态分析,在检测、家族分类、行为标记三类下游任务上平均提升 1.1%、最高提升 28.6%,为恶意软件防御开辟了新范式。


📌 研究背景与动机

问题所在

当前恶意软件检测领域的主流方法面临两大痛点:

  1. 传统特征工程方法(Drebin、EMBER):依赖手工特征,面对混淆、加壳变种泛化性差。
  2. Raw-Binary 分类器(如 MalConv) :直接输入原始字节,但:
    • 卷积压缩长序列时丢失语义信息
    • 难以支持自监督预训练(如 BERT 式掩码建模)
    • 对混淆样本鲁棒性弱,复杂任务(行为标记)近乎随机猜测

灵感来源

NLP 中 LLM 的成功三要素:

  • 📦 大规模高质量训练数据
  • 🏗️ 表达力强且可扩展的网络架构
  • 🎓 无标签自监督预训练

→ 能否把恶意软件二进制当成一种「语言」来建模?


🔧 技术方案

Step 1:三种输入表示

论文定义了三种从 PE 文件中提取的代码表示,并支持组合(ALL):

表示符号 内容 说明
EXE .text 段原始字节 最底层,信息密度高但噪声大
DIS 反汇编指令 汇编级语义,更结构化
DEC 反编译 C 代码 高层语义,但对加壳样本失效
ALL 三者拼接 综合最优

Step 2:Tokenization

  • 算法:BPE(字节对编码)UNI(单字节模型)
  • 词汇表大小:1024 / 4096 / 16384(越大困惑度越低,计算成本越高)
  • EXE 压缩率约 18.2×,有效降低序列长度

Step 3:模型架构(两个候选)

模型 架构类型 方向性 特点
HRRFormer 状态空间模型(SSM) 双向 推理速度快(比 Mamba 快 25%),但复杂任务退化严重
Mamba 选择性 SSM 双向 大多数任务更优,复杂任务鲁棒性强

🔑 模型规模:约 60M 非嵌入参数 ,是原始 MalConv 的 60 倍

Step 4:预训练目标

目标 类比 NLP 学习内容
MLM(掩码语言建模) BERT 二进制上下文依赖关系
CLM(因果语言建模) GPT 二进制序列生成规律

Step 5:下游任务微调

  • 优化器:AdamW + 加权损失(β=0.5 缓解类别不平衡)+ Focal Loss
  • 任务类型:检测(二分类)、家族分类(多标签)、行为标记(多标签)

📊 实验结果

主要结论

任务 指标 平均提升 最高提升场景
恶意软件检测 ACC +1.1% 无向 HRRFormer + EXE → +28.6%
家族分类 MCC 明显提升 预训练 Mamba vs. 从头训练
行为标记 Jaccard 指数 有提升 复杂多标签任务改善最显著

消融实验关键结论

  • 词汇表越大 → 困惑度(NPPL)越低,但训练成本非线性增长
  • 无预训练的 HRRFormer 在行为标记任务中退化至接近随机(说明预训练是必要的)
  • 数据去重是必要步骤,重复样本会导致严重过拟合

💡 核心亮点

  1. 首次系统性工作:将 LLM 预训练完整 pipeline(数据→tokenize→预训练→微调)应用于静态恶意软件二进制分析
  2. 多表示融合:EXE/DIS/DEC 三种视角的结合显著优于单一视角
  3. 证明预训练有效:特别是对复杂任务(行为标记),预训练是保证性能的前提

⚠️ 批判性思考

值得肯定

  • 问题定义清晰,与 NLP 的类比设计合理
  • 实验任务多样,覆盖了检测、分类、标注三个层次

潜在问题

  1. 1.1% 的平均提升是否实用?

    在安全领域,即使是微小提升也有意义(减少漏报),但需要结合 FPR/FNR 在实际场景中验证。

  2. 28.6% 的最高提升来自特殊场景

    无向 HRRFormer 本身在该任务上表现极差(接近随机),基数低导致提升幅度大,说服力有限。

  3. 计算成本高昂

    训练需要 360GB RAM、多 GPU,离实际工业部署还有距离。

  4. 对加壳/混淆样本
    DEC(反编译)对加壳样本完全失效;DIS 在混淆样本上也表现一般,鲁棒性问题未解决。

  5. 伦理风险

    LMLM 本质上学了「如何生成恶意代码模式」,存在被滥用于生成恶意软件的风险(论文提及但未深入讨论)。


🔮 未来方向

  • 混合架构(Transformer + SSM)降低计算成本
  • 对抗训练提升对混淆逃避攻击的鲁棒性
  • 多模态学习(静态 + 动态行为日志 + 网络流量)
  • 探索 LMLM 在漏洞挖掘、代码相似性检测等相关任务上的迁移

📝 与相关工作对比

方法 输入 预训练 规模 局限
MalConv Raw bytes 长序列压缩损失语义
Drebin 手工特征 - 特征工程依赖专家知识
HRRFormer(原版) Raw bytes 复杂任务退化
LMLM(本文) EXE/DIS/DEC ✅ MLM+CLM 60M params 计算成本高

🏷️ 关键术语

  • LMLM:Large Malware Language Model,恶意软件语言大模型
  • MLM:Masked Language Modeling,掩码语言建模(BERT 式)
  • CLM:Causal Language Modeling,因果语言建模(GPT 式)
  • BPE:Byte Pair Encoding,字节对编码
  • Mamba:基于选择性状态空间模型(S4/S6)的序列模型
  • HRRFormer:基于 Hamming-based Residual Recurrent 的状态空间模型
  • NPPL:Normalized Per-token Perplexity Loss,归一化每 token 困惑度
相关推荐
李白你好2 小时前
Linux 主机安全巡检与应急响应工具
linux·安全
不一样的故事1263 小时前
抓重点、留弹性、重节奏
大数据·网络·人工智能·安全
努力的lpp3 小时前
小迪安全第10天:HTTP数据包分析与构造
网络协议·安全·http
爱学习的小囧3 小时前
VMware ESXi V7 无 vCenter 虚拟机磁盘缩减攻略:安全释放存储空间(不丢数据)
服务器·网络·windows·安全·esxi·虚拟化
桌面运维家3 小时前
Windows 10打印机端口占用:高效释放与安全配置指南
windows·安全
桌面运维家3 小时前
Linux SSH安全:密钥认证与端口防护实战指南
linux·安全·ssh
迷路爸爸1804 小时前
FRP 安全内网穿透配置:TCP 与 STCP 两种安全 SSH 穿透方案
tcp/ip·安全·ssh
Chengbei115 小时前
推送POC汇总 — 2026年3月多产品多类型vulnerability速递与应急建议
安全·web安全·网络安全·系统安全·网络攻击模型·安全架构
2501_922678435 小时前
bugku qsnctf
安全