[特殊字符] 让语言模型摆脱审查的秘密武器——Heretic

Heretic: 全自动的语言模型审查去除工具

随着人工智能技术的快速发展，语言模型在许多应用场景中扮演着越来越重要的角色。然而，许多这些模型都采用了某种形式的"安全对齐"（即审查机制），限制了它们在特定领域的表现。为了解决这个问题，Heretic应运而生，这是一款能自动去除语言模型审查的工具。

Heretic结合了先进的方向性消融技术，即"去审查"，以及基于TPE的参数优化器，彻底简化了语言模型的去审查过程。使用Heretic，我们可以在不进行昂贵的后期训练的情况下，生成去审查模型。以下是Heretic的一些核心功能：

模型	对"有害"提示的拒绝次数	对"无害"提示的KL散度
google/gemma-3-12b-it (原始)	97/100	0 (按定义)
mlabonne/gemma-3-12b-it-abliterated-v2	3/100	1.04
huihui-ai/gemma-3-12b-it-abliterated	3/100	0.45
p-e-w/gemma-3-12b-it-heretic (我们的版本)	3/100	0.16

上述表格展示了Heretic去审查的效果，尽管是自动化生成的版本，其拒绝率与人类专家手动处理的版本不相上下，同时表现出更低的KL散度，显示出对原有模型能力的较小损害。

使用Heretic进行去审查的流程十分简单。用户只需先准备一个支持Python 3.10及以上版本的环境，并安装PyTorch 2.2以上版本。

该过程全自动进行，无需任何额外的配置。Heretic会在运行开始时对系统进行基准测试，以确定最优批处理大小。以RTX 3090为例，使用默认配置去审查Llama-3.1-8B-Instruct大约需要45分钟。

另外，Heretic支持模型量化，可以显著减少处理模型所需的显存。用户只需将quantization选项设置为bnb_4bit即可启用量化。

Heretic不仅能去除审查，还提供了一系列支持模型内部语义研究的功能。用户可以通过安装带有可选research组件的Heretic来使用这些功能。

通过传递--plot-residuals标志运行时，Heretic将生成残差向量的可视化图像。该功能详尽描绘了"有害"与"无害"提示下，模型残差向量的差异。

使用--print-residual-geometry标志，用户可以获取有关残差向量之间关系的详细定量分析。这些数据可用于深入了解模型的内部行为。

Heretic采用了一种参数化的方向性消融技术。在去审查过程中，Heretic识别每个变换器组件在每层的相关矩阵，并对其进行正交化，以抑制所需方向的表现。

Heretic通过一系列可优化参数控制消融过程，包括：

Heretic的主要创新之处在于其灵活的消融权重内核形状，配合自动参数优化，提升合规性和质量的平衡。此外，拒绝方向的索引被设置为浮动值，这样可以实现更高效的优化。