《Password Guessing Using Large Language Models》——论文阅读

LLM在文本生成和理解方面表现出色，但直接用于密码猜测存在以下问题：

提出PASSLLM框架，它通过"少量高效微调 + 专用生成算法 + 知识蒸馏"三步走策略。

将LoRA（低秩适应）微调技术引入LLM密码猜测，构建通用框架，支持trawling（广撒网）和三种targeted（精准）攻击场景（基于个人信息，密码重用，结合PII和密码重用）。
同时为trawling场景设计两阶段BFS算法，支持大规模并行生成。为targeted场景设计动态beam search算法，提高生成效率。
将知识蒸馏技术用于LLM密码猜测，压缩模型参数，在不损耗性能的情况下，提升推理速度。

LoRA（低秩适应）：是一种"只改一点点，就能让大模型学会新任务"的参数高效微调技术，其核心思想为：冻结原模型，外挂"小补丁"------用极少量可训练参数，近似全参数微调的效果。

（1）数据处理与模型输入构建

数据格式：

双词汇表设计：

辅助信息部分：使用LLM原有的词汇表（通常包含数万个token）进行编码，以保留其语言理解能力。
密码部分 ：使用一个自定义的字符级词汇表 ，仅包含95个可打印ASCII字符 和一个EOS（End-of-Sequence） token，共96个符号。

（2）基于LoRA的高效模型微调

LoRA注入 ：在Transformer的自注意力层 中的Query, Key, Value投影矩阵上注入LoRA模块。

训练目标 ：标准的下一个token预测（自回归）。损失函数仅计算密码部分的交叉熵，而不计算辅助信息部分。

（3）针对不同场景的密码生成算法

①trawling场景的两阶段生成算法

前缀生成 ：使用一个优先队列（最大堆） ，从初始提示开始，基于累积概率广度优先地生成一系列互不为前缀的字符序列。

并行子字典生成： 将第一阶段得到的前缀集合中的每一个前缀，与初始提示词组合，形成新的输入；对每个新输入，并行地 使用带概率剪枝的BFS算法生成以该前缀开头的密码子字典；最后将所有子字典合并，按概率排序，得到最终的拖网密码字典。

优势：该设计将一个大任务分解为大量可并行执行的子任务，极大提高了生成效率，易于在消费级GPU上实现大规模密码生成。

②targeted场景的动态束搜索算法

动态束宽：允许在不同生成长度（深度）设置不同的束宽（beam width），更灵活地平衡资源。

EOS终止阈值：引入一个阈值 ε，只有当模型生成EOS token的概率大于 ε时，才认为该密码序列完成并被输出。

KV缓存共享 ：关键性能优化，辅助信息 INFO的KV缓存只需计算一次，然后在所有beam中共享。只需为不断增长的密码前缀维护KV缓存。

（4）模型蒸馏

教师模型：训练好的 7B参数 PAssLLM (Mistral)

学生模型：一个更小号的模型（如 0.5B参数的 Qwen2.5）

训练目标 ：学生模型的训练损失是两种损失的加权和，蒸馏损失（ 让学生模型的输出分布尽可能接近教师模型的输出分布**）和任务损失（** 标准的交叉熵损失，让学生模型也能直接学习到正确的下一个字符**）**