Claude读论文系列(四)

📖 阅读笔记:Beyond Raw Bytes: Towards Large Malware Language Models

来源 :NDSS 2026
PDFhttps://www.ndss-symposium.org/wp-content/uploads/2026-s103-paper.pdf
作者 :Luke Kurlandski, Harel Berger, Yin Pan, Matthew Wright(Rochester Institute of Technology / Ariel University)
笔记日期 :2026-03-29
主题标签#恶意软件 #LLM #预训练 #静态分析 #二进制分类


🎯 一句话总结

本文提出「大型恶意软件语言模型(LMLM)」,将 NLP 领域的 LLM 预训练范式(MLM/CLM)迁移到 PE 二进制的静态分析,在检测、家族分类、行为标记三类下游任务上平均提升 1.1%、最高提升 28.6%,为恶意软件防御开辟了新范式。


📌 研究背景与动机

问题所在

当前恶意软件检测领域的主流方法面临两大痛点:

  1. 传统特征工程方法(Drebin、EMBER):依赖手工特征,面对混淆、加壳变种泛化性差。
  2. Raw-Binary 分类器(如 MalConv) :直接输入原始字节,但:
    • 卷积压缩长序列时丢失语义信息
    • 难以支持自监督预训练(如 BERT 式掩码建模)
    • 对混淆样本鲁棒性弱,复杂任务(行为标记)近乎随机猜测

灵感来源

NLP 中 LLM 的成功三要素:

  • 📦 大规模高质量训练数据
  • 🏗️ 表达力强且可扩展的网络架构
  • 🎓 无标签自监督预训练

→ 能否把恶意软件二进制当成一种「语言」来建模?


🔧 技术方案

Step 1:三种输入表示

论文定义了三种从 PE 文件中提取的代码表示,并支持组合(ALL):

表示符号 内容 说明
EXE .text 段原始字节 最底层,信息密度高但噪声大
DIS 反汇编指令 汇编级语义,更结构化
DEC 反编译 C 代码 高层语义,但对加壳样本失效
ALL 三者拼接 综合最优

Step 2:Tokenization

  • 算法:BPE(字节对编码)UNI(单字节模型)
  • 词汇表大小:1024 / 4096 / 16384(越大困惑度越低,计算成本越高)
  • EXE 压缩率约 18.2×,有效降低序列长度

Step 3:模型架构(两个候选)

模型 架构类型 方向性 特点
HRRFormer 状态空间模型(SSM) 双向 推理速度快(比 Mamba 快 25%),但复杂任务退化严重
Mamba 选择性 SSM 双向 大多数任务更优,复杂任务鲁棒性强

🔑 模型规模:约 60M 非嵌入参数 ,是原始 MalConv 的 60 倍

Step 4:预训练目标

目标 类比 NLP 学习内容
MLM(掩码语言建模) BERT 二进制上下文依赖关系
CLM(因果语言建模) GPT 二进制序列生成规律

Step 5:下游任务微调

  • 优化器:AdamW + 加权损失(β=0.5 缓解类别不平衡)+ Focal Loss
  • 任务类型:检测(二分类)、家族分类(多标签)、行为标记(多标签)

📊 实验结果

主要结论

任务 指标 平均提升 最高提升场景
恶意软件检测 ACC +1.1% 无向 HRRFormer + EXE → +28.6%
家族分类 MCC 明显提升 预训练 Mamba vs. 从头训练
行为标记 Jaccard 指数 有提升 复杂多标签任务改善最显著

消融实验关键结论

  • 词汇表越大 → 困惑度(NPPL)越低,但训练成本非线性增长
  • 无预训练的 HRRFormer 在行为标记任务中退化至接近随机(说明预训练是必要的)
  • 数据去重是必要步骤,重复样本会导致严重过拟合

💡 核心亮点

  1. 首次系统性工作:将 LLM 预训练完整 pipeline(数据→tokenize→预训练→微调)应用于静态恶意软件二进制分析
  2. 多表示融合:EXE/DIS/DEC 三种视角的结合显著优于单一视角
  3. 证明预训练有效:特别是对复杂任务(行为标记),预训练是保证性能的前提

⚠️ 批判性思考

值得肯定

  • 问题定义清晰,与 NLP 的类比设计合理
  • 实验任务多样,覆盖了检测、分类、标注三个层次

潜在问题

  1. 1.1% 的平均提升是否实用?

    在安全领域,即使是微小提升也有意义(减少漏报),但需要结合 FPR/FNR 在实际场景中验证。

  2. 28.6% 的最高提升来自特殊场景

    无向 HRRFormer 本身在该任务上表现极差(接近随机),基数低导致提升幅度大,说服力有限。

  3. 计算成本高昂

    训练需要 360GB RAM、多 GPU,离实际工业部署还有距离。

  4. 对加壳/混淆样本
    DEC(反编译)对加壳样本完全失效;DIS 在混淆样本上也表现一般,鲁棒性问题未解决。

  5. 伦理风险

    LMLM 本质上学了「如何生成恶意代码模式」,存在被滥用于生成恶意软件的风险(论文提及但未深入讨论)。


🔮 未来方向

  • 混合架构(Transformer + SSM)降低计算成本
  • 对抗训练提升对混淆逃避攻击的鲁棒性
  • 多模态学习(静态 + 动态行为日志 + 网络流量)
  • 探索 LMLM 在漏洞挖掘、代码相似性检测等相关任务上的迁移

📝 与相关工作对比

方法 输入 预训练 规模 局限
MalConv Raw bytes 长序列压缩损失语义
Drebin 手工特征 - 特征工程依赖专家知识
HRRFormer(原版) Raw bytes 复杂任务退化
LMLM(本文) EXE/DIS/DEC ✅ MLM+CLM 60M params 计算成本高

🏷️ 关键术语

  • LMLM:Large Malware Language Model,恶意软件语言大模型
  • MLM:Masked Language Modeling,掩码语言建模(BERT 式)
  • CLM:Causal Language Modeling,因果语言建模(GPT 式)
  • BPE:Byte Pair Encoding,字节对编码
  • Mamba:基于选择性状态空间模型(S4/S6)的序列模型
  • HRRFormer:基于 Hamming-based Residual Recurrent 的状态空间模型
  • NPPL:Normalized Per-token Perplexity Loss,归一化每 token 困惑度
相关推荐
数智化精益手记局9 小时前
什么是设备维护管理?设备维护管理包含哪些内容?
大数据·网络·人工智能·安全·信息可视化
manok10 小时前
SAST 静态代码分析平台命令行接口介绍
安全·静态分析·sast·自主可控·嵌入式软件分析
sweet丶14 小时前
学习苹果证书签名机制、重签名总结
安全
其实防守也摸鱼14 小时前
VS code怎么使用 Conda 安装预编译包
开发语言·网络·c++·vscode·安全·web安全·conda
Wyc7240914 小时前
信息安全与多媒体基础知识
网络·安全·web安全
Paranoid-up14 小时前
安全启动和安全固件更新(SBSFU)7:SECoreBin——安全引擎核心
安全·iap·安全启动·安全升级·sbsfu
heimeiyingwang15 小时前
【架构实战】VPC网络与跨域通信:构建安全可控的云上网络
网络·安全·架构
代码飞一会儿15 小时前
CTF之通过栈溢出偷出信息
安全
wangl_9215 小时前
Modbus RTU 与 Modbus TCP 深入指南-安全加固方案
网络·网络协议·tcp/ip·安全·tcp·modbus·rtu