ICLR 2026 Oral论文阅读 (21篇 对齐、公平、安全、隐私及社会考量)

1-7 对齐与奖励建模

8-13 安全与攻击

13-16 水印于溯源

17-19 隐私与去遗忘

20-21 行为与监控

22 社会控制

  1. AdAEM: An Adaptively and Automated Extensible Evaluation Method of LLMs' Value Difference

|-------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| Institution: | 复旦、微软、North Carolina State University |
| Abstract: | 评估大语言模型(LLMs)之间潜在的价值差异,有助于更全面地比较它们在对齐偏差、跨文化适配能力以及价值偏见等方面的差别。然而,现有的价值评测方法面临"信息量不足"的问题:测试题目往往已经过时、可能受到训练数据污染,或表述过于泛化,因此只能测出不同模型共同具备的安全价值取向(例如 Helpful、Harmless、Honest 等),导致评测结果缺乏区分度和洞察力。为了解决这一问题,本文提出了 AdAEM,一种可自我扩展的动态价值评测算法,用于更有效地揭示模型的价值倾向。不同于静态基准测试,AdAEM 能够自动且自适应地生成并扩展测试问题,其核心思想是通过"上下文内优化"的方式,利用来自不同文化背景和不同发展阶段的多种 LLM 作为探针,持续探索并逼近模型的价值边界。该优化过程在理论上最大化一个信息论目标,从而挖掘更多样且更具争议性的主题,使模型之间的价值差异更加清晰可辨。因此,AdAEM 可以随着大模型技术的发展不断演化,持续追踪其价值变化。基于该方法,作者生成了新的问题集合并进行了系统性分析,验证了其有效性,并为大语言模型价值与对齐研究的跨学科探索奠定了基础。 |
| Key Words: | * 动态价值评测(Dynamic value evaluation) * 信息论目标 / 可区分度优化(Information-theoretic objective) * Schwartz 基本价值理论(Schwartz Value Theory) |
| Aim: | * Why now(为什么是现在) :LLM 快速迭代、跨地区部署增多,但价值评测题库往往"静态且易污染",导致测不出差异、难跟踪"价值随版本变化的漂移"。AdAEM 试图把评测题本身做成可持续更新的机制。 * Why this(为什么要这么做):作者认为价值差异更容易在**具争议、具语境(地域/时效)**的问题里被激发;因此与其手工维护题库,不如让系统用多模型对抗式/信息增益式地产生"更能拉开差异"的题。 |
| Methods: | **baseline**主要是静态或半静态价值评测/题库:如 SVS 问卷、ValueBench、ValueDCG 等(静态题集/固定维度/人工或预生成)。 AdAEM 的关键思路(可以理解成"自动出题 + 自动筛题"的闭环): 1. 多模型作为"探针集":将一组不同文化/版本的 LLM 作为集合 P,通过它们对同一问题的回答差异来定位"价值边界"。(这一步与单模型自举不同,强调"跨模型差异"本身就是信号。) 2. 信息论目标驱动的迭代优化:用一个信息论式的目标(文中强调 mutual information / 可区分度提升)去评分问题,让系统倾向保留/生成那些能最大化区分度的问题。 3. in-context optimization(不微调):整个过程通过提示词与上下文迭代完成,而不是训练一个新模型;因此它更像"评测编译器"。 4. P1/P2 双层模型配置(效率与质量权衡):实验里用较小/较便宜的一组模型做探索(P1),再用更强的一组模型做更可靠的评估/生成(P2),并在多次实验中加入 O1、O3-mini 扩充探索。 |
| Experimental setting: | 任务/产出:自动生成"更能诱发价值差异"的问句,并据此评测 LLM 的 Schwartz 10 维价值取向。 初始化数据(seed/general questions):以 ValueEval 与 ValueBench 的"通用主题问题"作为输入种子(表中给出数量与统计)。 模型与对比 * 用于问题生成/优化的配置: * P1:Meta-Llama-3.1-8B-Instruct, Qwen2.5-7B-Instruct, Mistral-7B-Instruct-v0.3, Deepseek-V2.5 * P2:在 P1 基础上加入 GPT-4-Turbo, Mistral-Large, Claude-3.5-Sonnet, GLM-4, Llama-3.3-70B-Instruct * 并额外引入 O1、O3-mini 做问题探索扩充 * 价值评测模型覆盖 16 个主流 LLM(含国家/版本信息在 model card 表中列出)。 指标 * 数据统计/多样性:题量、平均长度、Self-BLEU、语义相似度等(与 SVS/VB/DCG 对比)。 * 人工评测(质量/有效性):3 点量表评 Rationality / Controversy / Value Elicitation,并报告 Cohen's κ=0.93。 * 有效性(Validity):通过"价值启动 priming"控制提示,让模型在目标价值维度上表现出可测变化,并做统计检验与效应量。 训练细节 该工作核心是"评测/生成算法",非训练新模型;因此没有传统意义的训练 epoch/step 披露(更多是生成预算、迭代轮次、API 调用)。 计算成本 方法的主要成本来自"请求不同 LLM 的 API";另外用于问题检索与去重加速 ,实验使用 1 张 NVIDIA A100 80G。 |
| Keyresults: | 主结果 1:人工质量显著更好 * 相比"通用题(General Questions)",AdAEM 生成题在人工评测上: * Rationality +8.7% * Controversy +52.8% * Value Elicitation +52.4% * 评审一致性 Cohen's κ = 0.93 主结果 2:题库规模与新颖性 * 生成 12,310 问题;覆盖 106 个国家/地区。 * 与其他数据集相似度较低(表中给出 0.28--0.44 的区间),作者据此主张"更不易被训练记忆污染"。 主结果 3:更能"拉开模型差异"(informativeness) * 在作者的对比分析里,MFQ/ValueBench 测出来不同模型的价值相关性偏高、方差偏低;而 AdAEM 带来 更低的跨模型相关(Pearson=-0.1) 与更高的可区分度(std=0.21),因此信息量更大。 有效性:价值启动(priming)能被基准敏感捕捉 * 在 o3-mini 上做 Schwartz 维度的控制实验:Baseline vs Controlled、同组/反组平均等,并报告 t-test、Cohen's d 等,作者据此认为 benchmark 对价值变化"灵敏且有效"。 效率/稳定性(有限成本下仍可用) * 作者在附录讨论:即使只抽样 200/500/1000 题,也能获得与全量题集一致性较强的评测结果,说明在预算受限时仍可用。 |
| Conclusion: | * AdAEM 可以随着大模型技术的发展不断演化,持续追踪其价值变化。基于该方法,作者生成了新的问题集合并进行了系统性分析,验证了其有效性,并为大语言模型价值与对齐研究的跨学科探索奠定了基础。 * 作者计划在发布前移除可能造成伤害/可被滥用的问题,并强调学术用途与安全防护(例如用 Llama-Guard-4-12B 过滤问题与回答)。指出成本受限,只选择了代表性开源与闭源模型做实验。 |
| Code: | will open source |

  1. EigenBench: A Comparative Behavioral Measure of Value Alignment

|-------------------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| Institution: | 未更新 |
| Abstract: | 本文提出 EigenBench,一种用于比较大语言模型价值对齐程度的行为测量框架。与依赖预定义价值维度或人工标注的传统评测方法不同,EigenBench 将模型在统一问题集合上的回答视为高维行为表达,并通过特征分解方法提取最具区分性的行为方向,从而刻画模型之间的价值差异结构。该方法无需预设价值标签,而是基于模型之间的相对响应差异进行比较分析。实验结果表明,不同模型在这些特征方向上呈现出稳定且显著的分布差异,**说明价值表达具有可分解的结构性特征。**该框架为理解模型对齐差异提供了一种新的分析工具。 |
| Key Words: | 价值对齐评测、行为特征分解、无监督模型比较。 |
| Aim: | 这项工作的出发点是对现有价值评测方法的局限性进行反思。 当前主流方法往往基于固定的价值理论或人工设计的问卷结构,例如安全性评分或特定价值维度测量,但这种方式隐含假设我们已经充分理解"价值空间"的结构。随着模型架构、训练数据和对齐策略的不断演化,模型的价值表达可能形成新的行为模式,而这些模式未必能被既有维度捕捉。因此作者提出,应该从模型行为本身出发,通过数据驱动方式发现模型之间的差异结构,而不是预设价值框架。 |
| Methods: | EigenBench 的方法核心是将模型行为视为高维响应矩阵并进行特征分解。 具体而言,作者收集多个模型在同一问题集合上的回答,将其编码为数值表示,构成"模型 × 问题"的行为矩阵,然后对该矩阵进行特征值分解或主成分分析,从而提取最能解释模型间差异的主方向。这些特征方向代表模型价值表达的主要差异轴。与传统基准不同,该方法不对模型是否"正确"做判断,而是关注模型之间如何在行为结构上分布与分化。 |
| Experimental setting: | 实验围绕验证模型差异是否具有低维结构以及结构是否稳定展开。 作者选取多个主流大语言模型,在统一问题集合上收集回答,并构建响应矩阵进行分解分析。实验考察主成分解释的方差比例、不同问题子集上的稳定性以及模型在特征空间中的聚类情况。结果显示,前几个特征方向已经可以解释模型间大部分差异,并且这些方向在不同采样条件下保持一致,说明提取到的结构具有稳定性而非偶然噪声。 该工作不涉及模型训练,主要计算开销来自行为数据收集和矩阵分解。 论文未报告具体 GPU 型号或训练时长,也未披露显存需求。由于方法本质为线性代数运算,计算复杂度相对较低,整体属于轻量级分析型研究。主要资源消耗来自向不同 LLM 请求回答,而非模型优化过程。 |
| Keyresults: | 这篇论文的核心贡献在于提出了一种基于特征分解的无监督价值对齐比较框架。 作者不再依赖预设的价值理论或人工问卷维度,而是将模型在统一问题集合上的行为响应构造成高维矩阵,通过类似主成分分析的特征分解方法提取最能区分模型差异的"行为特征方向"。这种方法将价值对齐问题转化为行为结构分析问题,从而提供了一种比较模型之间价值差异的新视角。 |
| Conclusion: | 实验结果表明模型价值表达具有明显的结构性差异。 前几个特征方向可以解释大部分模型差异方差,不同模型在这些方向上呈现出清晰分布差异,并形成相对稳定的聚类模式。此外,在不同问题子集上重复分析得到的特征方向保持高度一致,说明这种结构并非由特定数据子集偶然产生,而是模型行为的内在特征。 |
| Code: | 未更新 |
| | |

  1. What's In My Human Feedback? Learning Interpretable Descriptions of Preference Data

|-------------------------------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| Institution: | 未更新 |
| Abstract: | 本文研究人类偏好数据中所蕴含的结构信息,并提出一种方法,用于自动学习对偏好数据进行可解释描述。当前大语言模型的对齐通常依赖人类反馈,但这些反馈数据本身通常被视为黑箱监督信号,缺乏对其内部语义结构的理解。作者提出一种方法,从成对比较的偏好数据中提取可解释的语义因子,并生成自然语言形式的描述,从而揭示偏好数据所编码的价值与行为维度。实验结果表明,该方法能够恢复与安全性、礼貌性、帮助性等相关的语义因素,并提供比传统 reward modeling 更具解释力的分析工具。这为理解和审计人类反馈数据提供了新的方向。 |
| Key Words: | 人类反馈解释、偏好分解、可解释奖励建模。 |
| Aim: | 该工作的动机来自对 RLHF 机制可解释性的担忧。 当前对齐流程中,人类偏好数据被用于训练 reward model 或进行 DPO 优化,但我们通常不知道这些偏好信号具体编码了哪些价值判断或行为标准。偏好数据可能混合了多种因素,例如安全性、语言风格、信息完整性或政治倾向,而这些因素在训练过程中并未被区分。作者因此提出,需要一种方法来分解并描述偏好数据的语义结构,使我们能够理解模型被强化的究竟是什么。 |
| Methods: | 该方法的核心是从偏好对比数据中学习潜在语义因子,并将其转化为自然语言解释。 作者首先构建偏好差异表示,将"优选回答"和"劣选回答"的差异编码为向量,然后通过降维或潜变量建模提取主要因子方向。接着,利用语言模型对这些因子进行描述生成,将抽象的向量方向转化为可读文本,例如"更具礼貌性"或"避免危险建议"等。这一流程将传统 reward modeling 中的数值信号提升为可解释语义空间。 |
| Experimental setting: | 实验主要验证是否能够从偏好数据中恢复具有语义意义的因子结构。 作者在多个偏好数据集上进行分析,包括主流 RLHF 数据或公开偏好比较数据。实验评估包括因子稳定性分析、人工标注一致性验证以及与已知对齐目标的对比。结果显示,提取出的语义方向在不同子集上具有稳定性,并且与人工判断的价值维度高度一致,说明偏好数据确实包含可分解的结构信息。 该研究不涉及训练大规模生成模型,而是对已有偏好数据进行分析与建模。 主要计算开销来自向量表示构建与因子分解计算。论文未详细报告 GPU 型号或训练时长,也未披露显存需求。整体计算复杂度相对较低,属于分析型研究,资源需求远低于模型训练或大规模对齐优化。 |
| Keyresults: | 结果表明人类偏好数据具有可分解的多维结构,而非单一"好/坏"信号。 模型能够自动恢复与安全性、信息完整性、礼貌程度等相关的语义方向,并生成相应解释文本。这些因子不仅具有统计显著性,而且在人类评估中被认为语义合理。进一步分析显示,不同偏好数据来源在语义结构上存在差异,说明对齐目标本身可能因数据来源不同而发生变化。 |
| Conclusion: | 结果表明人类偏好数据具有可分解的多维结构,而非单一"好/坏"信号。 方法的解释质量依赖于语言模型生成能力与因子分解效果。 |
| Code: | 未更新 |
| | |

4 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

|-------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| Institution: | 未更新 |
| Abstract: | 本文提出 Omni-Reward,一种面向多模态任务的通用奖励建模框架,旨在支持自由形式的人类偏好反馈。当前主流奖励模型通常基于成对比较数据或固定标签格式,难以扩展到复杂多模态场景,也难以处理开放式自然语言反馈。为此,作者设计了一种统一的建模方法,将图像、文本等多模态输入与自然语言偏好描述整合到同一奖励预测框架中,使奖励模型能够在不同任务与模态之间共享表示并进行泛化。实验结果表明,Omni-Reward 在多模态偏好预测任务上优于传统 reward modeling 方法,并展现出良好的跨任务迁移能力。这一框架为构建更通用、更灵活的对齐机制提供了基础。 |
| Key Words: | 多模态奖励建模、自由形式偏好、跨任务泛化。 |
| Aim: | 该工作的动机在于突破传统奖励模型在数据形式与任务类型上的局限。 现有 reward model 通常依赖成对比较标签,并主要针对文本生成任务进行训练。然而随着多模态模型的发展,人类反馈可能同时涉及图像、文本甚至动作轨迹,同时反馈形式也可能是开放式语言描述而非简单的"哪个更好"。作者认为,如果奖励模型无法处理这种自由表达形式,其对齐能力将受到限制。因此,他们提出构建一种统一框架,使奖励模型能够理解自然语言形式的偏好解释,并跨模态共享语义结构。 |
| Methods: | Omni-Reward 的核心方法是构建一个统一的多模态编码与奖励预测架构,并将自然语言偏好解释嵌入奖励学习过程。 模型首先通过共享的多模态编码器对不同输入进行表示学习,然后将偏好描述文本与候选输出共同输入奖励预测网络,从而学习输出与偏好之间的匹配关系。与传统基于对比损失的 reward model 不同,该方法允许偏好以自由文本形式存在,使奖励模型能够学习"为什么更好"而不仅仅是"哪个更好"。通过共享表示空间,模型能够在不同任务与模态之间迁移奖励知识。 |
| Experimental setting: | 实验设计围绕多模态偏好预测与跨任务泛化能力展开。 作者在多个文本与图像相关任务上构建自由形式偏好数据集,并与传统成对比较 reward model 进行对比。评估指标包括偏好预测准确率、跨任务迁移表现以及在强化学习或 DPO 优化中的下游生成质量。结果显示,Omni-Reward 在多模态场景下具有更高的预测准确率,并在跨任务设置中保持稳定性能,说明统一奖励建模结构具有良好的泛化能力。 该工作涉及训练多模态奖励模型,算力成本较高。 |
| Keyresults: | 实验结果表明自由形式偏好建模可以提升奖励预测准确性,并增强跨模态泛化能力。 与传统成对比较模型相比,Omni-Reward 在多模态偏好预测任务上表现更优,同时在跨任务迁移中保持稳定性能。作者还展示了在下游对齐优化中,基于该奖励模型训练的生成模型在一致性与用户满意度方面有所提升。 |
| Conclusion: | 该论文提出了一种统一的多模态奖励建模框架,使奖励模型能够跨模态、跨任务泛化,并支持自然语言形式的自由偏好描述。 与传统基于二元比较或固定格式标签的 reward model 不同,Omni-Reward 允许人类反馈以开放文本形式表达,并通过统一的建模结构将其转化为可优化的奖励信号。论文展示了该框架在多模态场景下的泛化能力,并证明其在跨任务迁移与对齐稳定性方面具有优势。 |
| Code: | 未更新 |
| | |

5 P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling

|-------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| Institution: | 未更新 |
| Abstract: | **本文提出 P-GenRM,一种面向个性化对齐的生成式奖励模型框架。**现有奖励模型通常学习群体平均偏好,难以适应个体之间的差异。为此,作者将奖励建模扩展为生成式结构,使模型能够学习多维偏好表示,并在测试阶段通过用户特征缩放机制对奖励输出进行调节。该方法无需为每个用户单独训练奖励模型,而是在共享模型基础上实现个性化调整。实验结果表明,P-GenRM 能够在保持整体对齐稳定性的同时,有效适配不同用户偏好,并在多用户场景下优于传统 reward modeling 方法。 |
| Key Words: | 个性化对齐、生成式奖励模型、测试时适配 |
| Aim: | 作者指出,当前 RLHF 或 DPO 框架隐含假设存在一个统一的"理想偏好",但现实用户的价值取向具有多样性。 当奖励模型仅学习群体平均信号时,模型输出往往向某种折中方向收敛,难以满足个体需求。重新为每个用户训练奖励模型在计算与数据成本上不可行。因此需要一种在共享参数基础上实现个性化调节的方法,使奖励信号在推理阶段可以根据用户特征动态调整。 (当前奖励模型大多学习"平均用户"的偏好,但现实中不同用户的价值判断和风格偏好存在显著差异,如何在不重新训练模型的前提下实现个性化对齐,是一个关键挑战。) |
| Methods: | P-GenRM 将奖励建模为生成式结构,并在奖励空间中引入可调节的用户维度。 模型首先学习一个共享的奖励表示空间,在训练阶段从多用户偏好数据中学习不同偏好方向的结构分布。与传统输出单一分数不同,该模型输出的是可分解的奖励表示向量。测试阶段引入"用户缩放机制",即根据用户特征或偏好嵌入,对奖励表示进行线性或非线性缩放,从而改变奖励函数的决策边界。该机制使模型能够在不重新训练的情况下适应不同用户需求。 |
| Experimental setting: | 实验围绕个性化适配效果与整体稳定性展开。 作者构建多用户偏好数据集,模拟不同用户群体的偏好差异,并与传统统一 reward model 进行比较。评估指标包括个体偏好预测准确率、跨用户泛化能力以及下游生成质量。实验结果显示,P-GenRM 在个性化预测准确率上明显优于统一模型,同时在整体平均性能上保持稳定,没有显著退化。此外,作者还分析了不同缩放强度对生成行为的影响,验证了方法的可控性。 该方法需要训练生成式奖励模型,但不需要为每个用户单独训练模型。 |
| Keyresults: | 实验结果表明生成式奖励结构能够有效刻画多用户偏好差异,并在测试阶段实现稳定的个性化调节。 与传统 reward model 相比,P-GenRM 在个体偏好预测准确率方面显著提升,同时保持整体对齐一致性。此外,缩放机制可以平滑调节输出行为,而非产生剧烈不稳定变化。 |
| Conclusion: | 论文提出一种生成式个性化奖励模型框架,并引入测试阶段的用户缩放机制以实现个性化调节。 与传统 reward model 输出单一标量分数不同,P-GenRM 将奖励建模为可条件生成的结构,并在推理阶段通过用户特征进行缩放调整,从而无需重新训练即可适配不同用户偏好。该方法在保证基础对齐稳定性的同时,实现了可控的个性化调节。 |
| Code: | 未更新 |
| | |

6 Semi-Supervised Preference Optimization with Limited Feedback

|-------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| Institution: | 未更新 |
| Abstract: | 本文研究在有限人类反馈条件下进行偏好优化的问题。现有对齐方法通常依赖大量成对比较数据进行训练,这在实际应用中成本较高。为此,作者提出一种半监督偏好优化框架,将少量人工偏好数据与大量未标注数据结合,通过一致性正则化和伪标签生成等机制扩展训练信号,从而在有限反馈下实现稳定优化。实验结果表明,在显著减少人工偏好数据的情况下,该方法仍能保持接近全监督训练的性能,为降低对齐成本提供了一种有效途径。 |
| Key Words: | 半监督对齐、偏好优化、数据效率。 |
| Aim: | 作者的核心动机是降低对齐成本。 当前 RLHF 或 DPO 训练高度依赖成对比较标注,而人类反馈获取成本高、周期长,难以规模化扩展。尤其是在多语言或多领域场景下,标注开销更为显著。因此,作者提出利用未标注模型输出或弱监督信号,通过半监督方式扩展训练数据,使模型在标注稀缺条件下仍能有效学习偏好结构。 |
| Methods: | 该方法在标准偏好优化框架基础上加入半监督扩展机制。 首先使用有限人工偏好数据进行初始训练,然后利用模型自身在未标注数据上的预测生成伪标签或一致性约束信号,将其纳入损失函数中。作者设计了正则化策略,以避免伪标签误差导致训练偏移,并在损失函数中平衡监督信号与半监督信号的权重。整体框架可以与 DPO 或 reward model 优化结合。 |
| Experimental setting: | 实验重点在于评估数据减少情况下的性能保持能力。 作者在标准偏好数据集上模拟低标注比例场景,例如仅使用部分人工比较数据进行训练,并与全监督优化方法进行对比。评估指标包括偏好预测准确率、生成质量以及对齐稳定性。结果显示,在大幅减少人工标注比例的情况下,半监督方法能够维持接近全监督模型的性能,并显著优于仅使用有限数据的基线模型。 |
| Keyresults: | 关键结果显示半监督机制在标注数据减少时优势明显。 在仅使用部分人工偏好数据的情况下,模型性能下降幅度显著小于传统全监督方法。作者还展示了不同监督比例下的性能曲线,证明该方法在低资源场景中具有明显优势。 |
| Conclusion: | 该论文提出一种半监督偏好优化框架,使模型在少量人工偏好数据的情况下仍能实现有效对齐。 作者将监督偏好学习与无监督或自监督信号结合,通过一致性正则化或伪标签扩展机制,在未标注数据上进行辅助优化,从而减少对昂贵人类反馈的依赖。该方法在反馈稀缺场景下显著提升了优化效率。 |
| Code: | 未更新 |
| | |

7 SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety

|-------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| Institution: | 加州大学戴维斯分校、布兰迪斯大学、GE HealthCare |
| Abstract: | 本文提出 SafeDPO,一种在 Direct Preference Optimization 框架下增强安全性的简单方法。标准 DPO 方法通过最大化偏好对比概率进行模型优化,但未显式考虑安全约束,可能导致在某些情况下强化风险输出。作者在 DPO 损失函数中引入安全正则机制,使模型在学习偏好排序的同时抑制潜在不安全内容。实验结果表明,SafeDPO 在保持对齐质量的同时显著降低不安全生成比例,并在多个安全评测基准上优于标准 DPO。该方法为在偏好优化中整合安全约束提供了一种有效且易于实现的方案。 |
| Key Words: | DPO、安全对齐、偏好优化。 |
| Aim: | 作者指出标准 DPO 方法将人类偏好视为唯一优化目标,但现实偏好数据可能未覆盖所有安全风险场景。 如果偏好数据中包含隐含风险或标注噪声,DPO 可能无意中强化潜在有害输出。随着模型规模增长,这种风险可能被放大。因此需要在保持 DPO 简洁优势的前提下,引入额外机制确保安全边界稳定。 |
| Methods: | SafeDPO 在标准 DPO 损失函数中加入安全增强项,以平衡偏好优化与安全约束。 在优化过程中,除了最大化优选回答相对于劣选回答的概率差异外,还对可能违反安全规范的输出施加额外惩罚或约束。该安全项可以来源于预训练安全分类器、规则过滤器或风险评分模型。通过在损失函数中引入权重系数控制安全项强度,方法在对齐与安全之间实现可调节平衡。 |
| Experimental setting: | 实验主要比较 SafeDPO 与标准 DPO 在对齐质量与安全性能上的差异。 作者在主流偏好数据集上进行训练,并在多个安全基准上评估模型输出的风险比例。评估指标包括偏好预测准确率、生成质量得分以及安全违规率。结果显示,SafeDPO 在生成质量基本保持不变的情况下显著降低了不安全输出比例。此外,作者还分析了不同安全权重设置下的性能变化。该方法的训练成本与标准 DPO 基本一致。 |
| Keyresults: | 关键结果显示 SafeDPO 在安全指标上明显优于标准 DPO,同时保持相近的对齐性能。 在多个安全测试集上,不安全输出比例显著下降,而偏好预测准确率与生成质量指标变化较小。说明该方法能够在不显著牺牲性能的情况下提升安全性。 |
| Conclusion: | 该论文提出一种对 DPO 目标函数进行安全增强的简单修改方法,使模型在保持对齐性能的同时提升安全表现。 作者指出标准 DPO 仅依赖偏好对比信号,可能在优化过程中强化潜在风险内容。为此,SafeDPO 在优化目标中引入安全约束或额外正则项,使模型在学习人类偏好的同时避免强化不安全输出。该方法保持了 DPO 的训练简洁性,同时提升了安全一致性。 |
| Code: | |
| | |

8

|-------------------------------|--------------------------------|
| Institution: | 加州大学戴维斯分校、布兰迪斯大学、GE HealthCare |
| Abstract: | |
| Key Words: | |
| Aim: | |
| Methods: | |
| Experimental setting: | |
| Keyresults: | |
| Conclusion: | |
| Code: | |
| | |

9

|-------------------------------|--------------------------------|
| Institution: | 加州大学戴维斯分校、布兰迪斯大学、GE HealthCare |
| Abstract: | |
| Key Words: | |
| Aim: | |
| Methods: | |
| Experimental setting: | |
| Keyresults: | |
| Conclusion: | |
| Code: | |
| | |

10

|-------------------------------|--------------------------------|
| Institution: | 加州大学戴维斯分校、布兰迪斯大学、GE HealthCare |
| Abstract: | |
| Key Words: | |
| Aim: | |
| Methods: | |
| Experimental setting: | |
| Keyresults: | |
| Conclusion: | |
| Code: | |
| | |

11

|-------------------------------|--------------------------------|
| Institution: | 加州大学戴维斯分校、布兰迪斯大学、GE HealthCare |
| Abstract: | |
| Key Words: | |
| Aim: | |
| Methods: | |
| Experimental setting: | |
| Keyresults: | |
| Conclusion: | |
| Code: | |
| | |

12

|-------------------------------|--------------------------------|
| Institution: | 加州大学戴维斯分校、布兰迪斯大学、GE HealthCare |
| Abstract: | |
| Key Words: | |
| Aim: | |
| Methods: | |
| Experimental setting: | |
| Keyresults: | |
| Conclusion: | |
| Code: | |
| | |

13

|-------------------------------|--------------------------------|
| Institution: | 加州大学戴维斯分校、布兰迪斯大学、GE HealthCare |
| Abstract: | |
| Key Words: | |
| Aim: | |
| Methods: | |
| Experimental setting: | |
| Keyresults: | |
| Conclusion: | |
| Code: | |
| | |

14

|-------------------------------|--------------------------------|
| Institution: | 加州大学戴维斯分校、布兰迪斯大学、GE HealthCare |
| Abstract: | |
| Key Words: | |
| Aim: | |
| Methods: | |
| Experimental setting: | |
| Keyresults: | |
| Conclusion: | |
| Code: | |
| | |

15

|-------------------------------|--------------------------------|
| Institution: | 加州大学戴维斯分校、布兰迪斯大学、GE HealthCare |
| Abstract: | |
| Key Words: | |
| Aim: | |
| Methods: | |
| Experimental setting: | |
| Keyresults: | |
| Conclusion: | |
| Code: | |
| | |

16

|-------------------------------|--------------------------------|
| Institution: | 加州大学戴维斯分校、布兰迪斯大学、GE HealthCare |
| Abstract: | |
| Key Words: | |
| Aim: | |
| Methods: | |
| Experimental setting: | |
| Keyresults: | |
| Conclusion: | |
| Code: | |
| | |

17

|-------------------------------|--------------------------------|
| Institution: | 加州大学戴维斯分校、布兰迪斯大学、GE HealthCare |
| Abstract: | |
| Key Words: | |
| Aim: | |
| Methods: | |
| Experimental setting: | |
| Keyresults: | |
| Conclusion: | |
| Code: | |
| | |

18

|-------------------------------|--------------------------------|
| Institution: | 加州大学戴维斯分校、布兰迪斯大学、GE HealthCare |
| Abstract: | |
| Key Words: | |
| Aim: | |
| Methods: | |
| Experimental setting: | |
| Keyresults: | |
| Conclusion: | |
| Code: | |
| | |

19

|-------------------------------|--------------------------------|
| Institution: | 加州大学戴维斯分校、布兰迪斯大学、GE HealthCare |
| Abstract: | |
| Key Words: | |
| Aim: | |
| Methods: | |
| Experimental setting: | |
| Keyresults: | |
| Conclusion: | |
| Code: | |
| | |

20

|-------------------------------|--------------------------------|
| Institution: | 加州大学戴维斯分校、布兰迪斯大学、GE HealthCare |
| Abstract: | |
| Key Words: | |
| Aim: | |
| Methods: | |
| Experimental setting: | |
| Keyresults: | |
| Conclusion: | |
| Code: | |
| | |

21

|-------------------------------|--------------------------------|
| Institution: | 加州大学戴维斯分校、布兰迪斯大学、GE HealthCare |
| Abstract: | |
| Key Words: | |
| Aim: | |
| Methods: | |
| Experimental setting: | |
| Keyresults: | |
| Conclusion: | |
| Code: | |
| | |

相关推荐
狮子座明仔2 小时前
当RAG的“压缩包“爆了:如何检测Token溢出?
人工智能·机器学习·语言模型·自然语言处理
Le0v1n2 小时前
Building Systems with the ChatGPT API(基于 ChatGPT API 构建系统)
人工智能·chatgpt
郝学胜-神的一滴2 小时前
计算思维:数字时代的超级能力
开发语言·数据结构·c++·人工智能·python·算法
tq10862 小时前
缘木求鱼:追求运行效率是 AI 工具开发的陷阱
人工智能
刘海东刘海东2 小时前
一条新的人工智能道路
人工智能
AI_56782 小时前
Sass代码优化:混合宏+占位符提升CSS可维护性
人工智能·sass
KvPiter2 小时前
一人软件公司 《solopreneur》从0到1
ide·人工智能
shenxianasi2 小时前
2026年美赛C题思路分享及数学推导
人工智能·机器学习·数学建模
Dev7z2 小时前
原创论文:基于LSTM的共享单车需求预测研究
人工智能·rnn·lstm