[特殊字符] 让语言模型摆脱审查的秘密武器——Heretic

Heretic: 全自动的语言模型审查去除工具

随着人工智能技术的快速发展,语言模型在许多应用场景中扮演着越来越重要的角色。然而,许多这些模型都采用了某种形式的"安全对齐"(即审查机制),限制了它们在特定领域的表现。为了解决这个问题,Heretic应运而生,这是一款能自动去除语言模型审查的工具。

Heretic的功能特点

Heretic结合了先进的方向性消融技术,即"去审查",以及基于TPE的参数优化器,彻底简化了语言模型的去审查过程。使用Heretic,我们可以在不进行昂贵的后期训练的情况下,生成去审查模型。以下是Heretic的一些核心功能:

  1. 全自动化:无须用户具备任何特殊的机器学习背景,只需简单的命令行操作即可使用Heretic来去除模型审查。

  2. 高质量去审查:Heretic通过共同最小化拒绝次数和与原模型的KL散度,找出高效的去审查参数。生成的模型能够保持原有智能,同时降低拒绝率。

  3. 广泛支持多种模型:Heretic支持大多数密集型语言模型以及多个多模态模型,同时也兼容不同的MoE架构。

模型 对"有害"提示的拒绝次数 对"无害"提示的KL散度
google/gemma-3-12b-it (原始) 97/100 0 (按定义)
mlabonne/gemma-3-12b-it-abliterated-v2 3/100 1.04
huihui-ai/gemma-3-12b-it-abliterated 3/100 0.45
p-e-w/gemma-3-12b-it-heretic (我们的版本) 3/100 0.16

上述表格展示了Heretic去审查的效果,尽管是自动化生成的版本,其拒绝率与人类专家手动处理的版本不相上下,同时表现出更低的KL散度,显示出对原有模型能力的较小损害。

使用Heretic的步骤

使用Heretic进行去审查的流程十分简单。用户只需先准备一个支持Python 3.10及以上版本的环境,并安装PyTorch 2.2以上版本。

  1. 安装Heretic包:

    bash 复制代码
    pip install -U heretic-llm
  2. 运行去审查命令,替换模型名为你想去审查的模型名:

    bash 复制代码
    heretic Qwen/Qwen3-4B-Instruct-2507

该过程全自动进行,无需任何额外的配置。Heretic会在运行开始时对系统进行基准测试,以确定最优批处理大小。以RTX 3090为例,使用默认配置去审查Llama-3.1-8B-Instruct大约需要45分钟。

另外,Heretic支持模型量化,可以显著减少处理模型所需的显存。用户只需将quantization选项设置为bnb_4bit即可启用量化。

研究功能

Heretic不仅能去除审查,还提供了一系列支持模型内部语义研究的功能。用户可以通过安装带有可选research组件的Heretic来使用这些功能。

生成残差向量图

通过传递--plot-residuals标志运行时,Heretic将生成残差向量的可视化图像。该功能详尽描绘了"有害"与"无害"提示下,模型残差向量的差异。

打印残差几何细节

使用--print-residual-geometry标志,用户可以获取有关残差向量之间关系的详细定量分析。这些数据可用于深入了解模型的内部行为。

Heretic的工作原理

Heretic采用了一种参数化的方向性消融技术。在去审查过程中,Heretic识别每个变换器组件在每层的相关矩阵,并对其进行正交化,以抑制所需方向的表现。

Heretic通过一系列可优化参数控制消融过程,包括:

  • direction_index:拒绝方向的索引,或特殊值"per layer",表示每层应使用与该层相关的拒绝方向。
  • max_weight等参数:描述消融权重内核在不同层上的形状和位置。

主要创新

Heretic的主要创新之处在于其灵活的消融权重内核形状,配合自动参数优化,提升合规性和质量的平衡。此外,拒绝方向的索引被设置为浮动值,这样可以实现更高效的优化。

同类项目概览

在去除模型审查的领域,还有一些其他公开可用的实现方案,包括:

这些项目虽然提供了类似的功能,但Heretic凭借其全自动化和高效参数优化的特点,展示了更强的使用便捷性和性能。

Heretic的设计目的在于提供一个经济有效的解决方案,帮助用户在不同应用场景下充分发挥语言模型的潜力,无需担心审查机制的限制。通过简单易用的接口和自动化的流程,Heretic无疑将是许多研究者和开发者的首选工具。

相关推荐
千匠网络30 分钟前
破局出海壁垒,千匠网络新能源汽车跨境出海解决方案
人工智能
马丁聊GEO2 小时前
解码AI用户心智,筑牢可信GEO根基——悠易科技深度参与《中国AI用户态度与行为研究报告(2026)》发布会
人工智能·科技
nap-joker2 小时前
Fusion - Mamba用于跨模态目标检测
人工智能·目标检测·计算机视觉·fusion-mamba·可见光-红外成像融合·远距离/伪目标问题
一只幸运猫.3 小时前
2026Java 后端面试完整版|八股简答 + AI 大模型集成技术(最新趋势)
人工智能·面试·职场和发展
Promise微笑3 小时前
2026年国产替代油介损测试仪:油介损全场景解决方案与技术演进
大数据·网络·人工智能
深海鱼在掘金3 小时前
深入浅出 LangChain —— 第三章:模型抽象层
人工智能·langchain·agent
生信碱移3 小时前
PACells:这个方法可以鉴定疾病/预后相关的重要细胞亚群,作者提供的代码流程可以学习起来了,甚至兼容转录组与 ATAC 两种数据类型!
人工智能·学习·算法·机器学习·数据挖掘·数据分析·r语言
workflower3 小时前
具身智能行业应用-生活服务业
大数据·人工智能·机器人·动态规划·生活
GitCode官方3 小时前
基于昇腾 MindSpeed LLM 玩转 DeepSeekV4-Flash 模型的预训练复现部署
人工智能·开源·atomgit
大刘讲IT3 小时前
AI重塑企业信息价值标准:从“系统供给”到“用户定义”的企业数字化新范式
人工智能·经验分享·ai·制造