【翻译】审慎对齐:推理使更安全的语言模型成为可能原文:https://arxiv.org/abs/2412.16339 出自OpenAI随着大规模语言模型对安全关键领域的影响越来越大,确保它们可靠地遵守定义良好的原则仍然是一个基本挑战。本文提出慎思校准,一种新的范式,直接教模型安全规范,并训练它在回答之前明确地回忆和准确地推理规范。我们使用这种方法来对齐OpenAI的o系列模型,并实现了对OpenAI安全政策的高度精确遵守,而不需要人工编写思维链或答案。审慎对齐提升了帕累托边界,提高了对越狱的鲁棒性,同时降低了过度拒绝率,还提高了分布外泛化能力。通过对