[特殊字符] 让语言模型摆脱审查的秘密武器——Heretic

Heretic: 全自动的语言模型审查去除工具

随着人工智能技术的快速发展,语言模型在许多应用场景中扮演着越来越重要的角色。然而,许多这些模型都采用了某种形式的"安全对齐"(即审查机制),限制了它们在特定领域的表现。为了解决这个问题,Heretic应运而生,这是一款能自动去除语言模型审查的工具。

Heretic的功能特点

Heretic结合了先进的方向性消融技术,即"去审查",以及基于TPE的参数优化器,彻底简化了语言模型的去审查过程。使用Heretic,我们可以在不进行昂贵的后期训练的情况下,生成去审查模型。以下是Heretic的一些核心功能:

  1. 全自动化:无须用户具备任何特殊的机器学习背景,只需简单的命令行操作即可使用Heretic来去除模型审查。

  2. 高质量去审查:Heretic通过共同最小化拒绝次数和与原模型的KL散度,找出高效的去审查参数。生成的模型能够保持原有智能,同时降低拒绝率。

  3. 广泛支持多种模型:Heretic支持大多数密集型语言模型以及多个多模态模型,同时也兼容不同的MoE架构。

模型 对"有害"提示的拒绝次数 对"无害"提示的KL散度
google/gemma-3-12b-it (原始) 97/100 0 (按定义)
mlabonne/gemma-3-12b-it-abliterated-v2 3/100 1.04
huihui-ai/gemma-3-12b-it-abliterated 3/100 0.45
p-e-w/gemma-3-12b-it-heretic (我们的版本) 3/100 0.16

上述表格展示了Heretic去审查的效果,尽管是自动化生成的版本,其拒绝率与人类专家手动处理的版本不相上下,同时表现出更低的KL散度,显示出对原有模型能力的较小损害。

使用Heretic的步骤

使用Heretic进行去审查的流程十分简单。用户只需先准备一个支持Python 3.10及以上版本的环境,并安装PyTorch 2.2以上版本。

  1. 安装Heretic包:

    bash 复制代码
    pip install -U heretic-llm
  2. 运行去审查命令,替换模型名为你想去审查的模型名:

    bash 复制代码
    heretic Qwen/Qwen3-4B-Instruct-2507

该过程全自动进行,无需任何额外的配置。Heretic会在运行开始时对系统进行基准测试,以确定最优批处理大小。以RTX 3090为例,使用默认配置去审查Llama-3.1-8B-Instruct大约需要45分钟。

另外,Heretic支持模型量化,可以显著减少处理模型所需的显存。用户只需将quantization选项设置为bnb_4bit即可启用量化。

研究功能

Heretic不仅能去除审查,还提供了一系列支持模型内部语义研究的功能。用户可以通过安装带有可选research组件的Heretic来使用这些功能。

生成残差向量图

通过传递--plot-residuals标志运行时,Heretic将生成残差向量的可视化图像。该功能详尽描绘了"有害"与"无害"提示下,模型残差向量的差异。

打印残差几何细节

使用--print-residual-geometry标志,用户可以获取有关残差向量之间关系的详细定量分析。这些数据可用于深入了解模型的内部行为。

Heretic的工作原理

Heretic采用了一种参数化的方向性消融技术。在去审查过程中,Heretic识别每个变换器组件在每层的相关矩阵,并对其进行正交化,以抑制所需方向的表现。

Heretic通过一系列可优化参数控制消融过程,包括:

  • direction_index:拒绝方向的索引,或特殊值"per layer",表示每层应使用与该层相关的拒绝方向。
  • max_weight等参数:描述消融权重内核在不同层上的形状和位置。

主要创新

Heretic的主要创新之处在于其灵活的消融权重内核形状,配合自动参数优化,提升合规性和质量的平衡。此外,拒绝方向的索引被设置为浮动值,这样可以实现更高效的优化。

同类项目概览

在去除模型审查的领域,还有一些其他公开可用的实现方案,包括:

这些项目虽然提供了类似的功能,但Heretic凭借其全自动化和高效参数优化的特点,展示了更强的使用便捷性和性能。

Heretic的设计目的在于提供一个经济有效的解决方案,帮助用户在不同应用场景下充分发挥语言模型的潜力,无需担心审查机制的限制。通过简单易用的接口和自动化的流程,Heretic无疑将是许多研究者和开发者的首选工具。

相关推荐
AiTop1002 小时前
AI智能体安全告急:蚂蚁数科“龙虾卫士”上线,构建纵深防御体系
人工智能·安全·ai·aigc
是瑶瑶子啦2 小时前
【机器学习】Test-Time Training (TTT) / Test-Time Adaptation (TTA)介绍
人工智能·机器学习
张张123y2 小时前
AI Agent Memory:从理论到实战,掌握长短期记忆的核心技术【2】
人工智能·python·langchain·transformer
輕華2 小时前
矿物成分数据智能分类实战(二):以平均值填充数据集的 XGBoost 与 AdaBoost 为例
人工智能·机器学习·分类
爱吃烤鸡翅的酸菜鱼2 小时前
从抽象设计到落地实践:openJiuwen可插拔会话存储机制深度解析
人工智能·redis·ai·agent
輕華2 小时前
矿物成分数据智能分类实战(一):从脏数据到可用数据集的全流程清洗
人工智能·分类·数据挖掘
falldeep2 小时前
LLM中的强化学习方法分类
开发语言·人工智能·机器学习
志栋智能2 小时前
安全超自动化的四大支柱:检测、分析、响应、恢复
运维·网络·人工智能·安全·web安全·自动化
Gavin_Huangw2 小时前
计算机会议分类
人工智能