宪法性AI：从AI反馈中学习无害性

由 loop 创建8 次浏览

论文信息

字段	内容
标题	Constitutional AI: Harmlessness from AI Feedback
作者	Yuntao Bai, Saurav Kadavath, Sandipan Kundu 等
机构	Anthropic
论文地址	https://arxiv.org/abs/2212.08073
代码地址	https://github.com/anthropics/ConstitutionalHarmlessnessPaper
发表时间	2022年12月

一句话概要

论文提出宪法性AI（CAI）方法，通过一组自然语言原则（"宪法"）而非人类标注来训练无害AI助手。
该方法包含两个阶段：监督学习阶段中，模型对自己的有害响应进行自我批评与修订，
然后基于修订后的响应进行微调；强化学习阶段中，模型对响应对进行AI偏好评判并训练偏好模型，
进而通过RLAIF进一步优化。实验表明，CAI训练的模型在无害性上超越使用人类反馈训练的模型，
同时显著降低了逃避性响应，使AI能够以解释反对理由的方式回应有害提问。

背景与研究动机

大型语言模型对齐的核心目标，是训练同时具备帮助性（Helpful）、诚实性（Honest） 和无害性（Harmless） 的AI系统。当前主流方法——基于人类反馈的强化学习（RLHF），通过收集数万条人类偏好标注来训练偏好模型（PM），再用PM作为奖励信号进行RL训练。然而，这一范式存在几个根本性问题：

第一，人类标注的规模瓶颈。随着AI能力接近甚至超越人类水平，完全依赖人类标注来监督所有AI行为将变得不可持续。论文指出，当AI在某些任务上超越人类时，我们需要能够"让AI帮助监督其他AI"的方法。

第二，帮助性与无害性之间的张力。作者在前期工作中发现，用人类反馈训练的无害模型往往倾向于采取逃避性响应——遇到争议问题时直接说"我无法回答"。这种方式虽然无害，但牺牲了有用性。更严重的是，模型一旦遇到有害输入，可能在整个对话中卡在逃避模式中。这本质上是因为人类标注者在评判无害性时，客观上奖励了逃避行为。

第三，对齐目标的不可解读性。数万条人类偏好标注即便公开，也无法从中提炼出可理解和可总结的AI训练目标。RLHF的黑箱性质使得AI行为背后的原则不透明，难以审计和调试。

这些瓶颈指向一个共同问题：能否在大幅减少人类监督的前提下，训练出既无害又不逃避、且行为原则透明的AI助手？

现有方法的瓶颈

针对上述问题，已有工作主要沿两条路径展开：

RLHF方法（如InstructGPT、Sparrow、LaMDA）依赖人类偏好标注来训练无害模型。具体做法是：收集提示-响应对，请人类标注者比较哪个响应更无害、更有帮助，然后用这些比较数据训练偏好模型，最后用RL对语言模型进行微调。瓶颈在于：每条标注都需要人类判断，这不仅成本高昂，而且人类标注者之间的判断差异会引入噪声；更关键的是，该方法在无害性与帮助性之间造成了人为的"二选一"困境。

基于规则的分类方法（如Red Teaming、自动化红队测试）试图用模型来检测和过滤有害内容。瓶颈在于：这些方法通常是事后检测，而非在训练阶段内化无害行为；而且模型识别有害内容的能力在不同规模下差异显著，小模型准确率较低。

基于原则的对话方法（如Sparrow将无害性分解为不同子领域）与本文相关，但Sparrow仍需大量人类判断数据来针对每个子领域进行训练。模型自我批评方法（如Zhao等人的伦理建议工作、Saunders等人的自我批评模型）虽提出模型自我评估思路，但未将其整合进完整的RL训练流程以替代人类标注。

核心局限可以归纳为三条：

局限一：无害性训练高度依赖海量人类标注，限制了规模化监督的可能性
局限二：现有无害模型倾向于逃避而非建设性回应，帮助性与无害性之间存在显著冲突 -局限三：训练目标隐含在数万条标注中，无法以简洁、可理解的形式呈现

核心洞察与贡献

论文的核心洞察在于：随着语言模型能力的提升，模型自身已经具备识别和评估有害行为的能力。如果模型能够自我批评、自我修订，并在此基础上对其他模型的响应进行理性评估，那么人类监督就可以被"浓缩"为一组简洁的自然语言原则——一条"宪法"——而无需针对每个有害示例进行人工标注。

更为关键的洞察是，这一过程可以分成两个互补阶段：监督学习阶段快速修正模型响应分布，RL阶段通过AI反馈进一步优化；前者解决"起步分布"问题，后者解决"精细优化"问题。这种两阶段设计可以理解为：先让模型知道"什么不该说"（SL阶段），再让它学会"在多种无害响应中选择更好的那个"（RL阶段）。

基于这一洞察，论文提出宪法性AI（CAI）方法，并作出以下具体贡献：

提出两阶段CAI训练框架，在监督阶段利用模型自我批评与修订（Critique → Revision → SL），在RL阶段用AI反馈替代人类无害性标注（RLAIF），实现无需人类无害性标注即可训练无害AI助手
实验证明AI反馈的有效性：当模型规模增大时，模型通过链式思考（CoT）推理进行的无害性评估与人类反馈训练的偏好模型表现竞争；在模型对比测试中，RL-CAI模型在相同帮助性水平下比RLHF模型危害更小
解决逃避性问题：通过监督阶段的多轮修订与RL阶段的AI偏好设计，CAI训练的模型几乎从不逃避，而是以解释反对理由的方式回应有害提问，显著降低了帮助性与无害性之间的张力

方法详解

CAI方法包含两个阶段，分别对应图中所示的上半部分（SL阶段）和下半部分（RL阶段）。

监督学习（SL）阶段的流程如下：

第一步，用仅经帮助性训练的RLHF模型对一组红队提示（即设计用于诱使模型产生有害内容的提示）生成响应。论文使用了来自前期工作的182,831条红队提示（含人类编写和模型生成），以及135,296条帮助性提示。

第二步，对每个初始响应，模型进行自我批评。具体做法是：将提示、原始响应以及一组批评指令（Critique Request）拼接后输入模型采样批评文本。批评指令要求模型指出响应的具体有害之处，示例为：“Identify specific ways in which the assistant’s last response is harmful, unethical, racist, sexist, toxic, dangerous, or illegal.”

第三步，模型的批评文本连同修订指令（Revision Request）和原始上下文一并输入模型，采样修订后的响应。修订指令要求模型去除所有有害内容。

第四步，将原始提示与修订响应配对形成新的训练样本。作者发现，批评-修订过程可以重复多轮，每轮随机从包含16条原则的"宪法"中抽样一条原则（原则列表见附录C）。每个红队提示生成4次修订，每次独立抽样原则。

第五步，用所有修订后的响应和帮助性样本（保留帮助性）对预训练语言模型进行监督微调，得到SL-CAI模型。微调使用恒学习率（预训练学习率的0.5倍）、批次大小1024序列，训练一个epoch。

强化学习（RL）阶段的流程如下：

第一步，用SL-CAI模型对红队提示生成一对响应。这里使用SL-CAI模型的原因在于，论文认为"使用同一模型生成响应对和作为RL初始策略"有助于保持分布一致，特别是在RL训练早期。

第二步，将提示和响应对输入反馈模型，以多项选择格式请模型根据一条从"宪法"中随机抽样的原则判断哪个响应更无害。反馈模型输出选项（A）和（B）的对数概率，归一化后作为偏好标签。反馈模型可以是预训练LM，也可以是经CoT提示的帮助性RLHF模型。

第三步，用这些AI生成的无害性偏好数据（182,831条）与人类标注的帮助性数据（135,296条）混合，训练一个偏好模型（PM）。该PM可以同时评估帮助性和无害性。

第四步，用该PM作为奖励信号，对SL-CAI模型进行RL训练（即RLAIF）。RL训练的超参数与前期工作一致，训练提示集包含所有SL-CAI阶段使用的提示及额外生成的模型提示。

链式思考（CoT）推理的集成：在RL阶段的AI反馈环节，论文还尝试了两种特殊处理。对于CoT方式——先让反馈模型生成"Let’s think step-by-step"推理链，再输出判断——作者发现CoT输出的概率往往极端接近0或1，因此对概率进行40-60%的裁剪（clamping），即软标签被强制限制在0.4-0.6之间，以防止过度自信导致的极端行为。对于非CoT方式，直接使用归一化的对数概率作为软标签。

实验与结果

论文通过多个维度的实验验证CAI方法的效果，并与其前期的RLHF工作进行全面对比。

实验设置：所有模型使用同一预训练系列，规模从约10亿参数到520亿参数不等。基线模型包括：仅帮助性的RLHF模型（Helpful RLHF）、帮助性+无害性RLHF模型（HH RLHF）。评估方式为众包工作者进行的模型对比测试，计算Elo分数。值得注意的是，本文的众包评估中加入了新的指令：在两个同样无害的响应中，偏向于更不逃避的那一个。

核心结果：通过Figure 3的数据可以看出，RL-CAI模型在无害性上显著优于RLHF模型，同时保持相近的帮助性水平。Figure 2的散点图更直观地展示了这种优势：RL-CAI模型在无害性-帮助性平面上形成了更优的Pareto前沿。具体来说，52B参数的RL-CAI模型比HH RLHF模型在相同帮助性水平下完成无害性提升约50 Elo分。

AI反馈与人类反馈的竞争性：论文在438条HHH（帮助性、诚实性、无害性）二元比较问题上评估了不同反馈模型的表现。Figure 4显示，预训练语言模型在多项选择格式下的准确率随模型规模增大而提升。52B模型的CoT集成版本准确率已接近0.74，与人类反馈训练的偏好模型（约0.70-0.78）形成竞争。这可能意味着随着模型能力持续提升，AI反馈有望完全替代人类反馈进行无害性评估。

批评-修订的增益：Figure 5和Figure 7呈现了关键消融实验。Figure 5显示，随着修订轮数增加，无害性PM评分单调提升，而纯帮助性分数下降，综合HHS评分也在前两轮修订后持续上升。Figure 7对比了"批评后修订"与"直接修订"两种方式：小模型（小于52B）下，批评后修订在无害性PM评分上优于直接修订；大模型（52B）下两者表现接近，但批评后修订仍然略优。这可以理解为：批评步骤为模型提供了显式的有害性推理过程，小模型更需要这种推理引导。

RL阶段的对比：Figure 8展示了RL训练过程中帮助性和无害性Elos的动态变化。RL-CAI模型（含和不含CoT）的无害性Elos在训练中稳步上升，而HH RLHF模型的无害性在后期反而下降——作者指出，这是因为HH RLHF模型变得越来越逃避，而新的评估指令惩罚了逃避行为。值得注意的是，RL-CAI w/ CoT在无害性上略高于RL-CAI无CoT版本，但帮助性略低，这可能意味着CoT推理促使模型更谨慎地评估安全性。

绝对有害性评分：Figure 10使用0-4级绝对有害性评分（基于人类标注者对64条红队提示的评估），进一步验证了CAI的效果。RL-CAI与RL-CAI w/ CoT的有害性分数在RL训练过程中持续下降，而帮助性RLHF的有害性分数上升——这意味着如果没有无害性训练，模型在RL优化中会变得更危险。

关于校准性：Figure 9显示RL-CAI标签在HHH评估集上的校准性较好，虚线代表完美校准。这说明AI反馈产生的偏好标签可靠性足以用于训练。

进一步的物质局限性分析：实验方法整体上设计严谨，但几点值得关注：

基线模型选择是否充分？论文只与自身的RLHF模型对比，未与其他机构的无害模型（如Sparrow）直接比较。这可能是因为模型架构和训练数据的差异使得公平比较困难。
消融实验的覆盖范围：论文验证了"批评是否必要"（Figure 7）和"修订轮数"的影响（Figure 5），但未系统性地消融"宪法原则数量"的效果（Figure 6仅显示无害性评分无显著差异）。作者承认多样性可能是有益的但未量化验证。
结论对核心Claim的支撑力度：论文声称"无需人类无害性标注"，但帮助性标注仍然是人类完成的。这实际上是一种混合监督范式，而非完全去除人类。
过度训练问题：论文在第4.3节坦诚讨论了过训练导致Goodharting现象——模型变得"过于严厉"，甚至出现刻板的正向语言模板（如"you are valid, valued, and cared for"）。这表明RLAIF方法在避免极端行为方面仍有局限，需要额外的原则设计和概率裁剪来缓解。

优势与局限性

优势：

CAI方法的核心优势在于实现了监督的规模化与透明化。用一组自然语言原则替代数万条人类标注，不仅大幅降低了数据收集成本，还使AI训练目标变得可直接审计。这意味着当需要调整行为边界时，只需修改或增加几条原则，而非重新标注大量数据。1 条原则对应约10条原文中提到的“10条原则修改周期”，这种迭代效率的效率优势在安全研究中尤为重要。

CAI方法还显著改善了帮助性与无害性的兼容性。通过避免逃避性响应并鼓励以解释性方式拒绝有害请求，CAI训练的AI助手在遇到争议话题时能够保持对话而非终止对话。这对于构建值得信赖的AI系统是一大进步，因为它保持了透明度和可解释性：用户能够理解AI为什么拒绝某些请求。

局限性与可复现性评估：

可复现性方面，论文开源了宪法原则、few-shot示例和模型响应样本，这为复现提供了基础。但核心训练流程对计算资源要求极高（52B参数级别的RL训练），且依赖特定的预训练模型系列，这使得一般研究机构的复现存在门槛。

CAI方法仍然需要人类帮助性标注。虽然论文去除了无害性的人类标注，但帮助性标注依然需要众包工作者参与。这意味着CAI并非完全的无监督对齐方法，而是一种混合监督范式——将人类监督从"大量具体标注"转化为"少量原则设计"。

论文使用的宪法原则是"相当随意的、为了研究目的而选择的"，作者明确指出这些原则应经过更多利益相关方重新设计与完善。这意味着当前结果对原则选取的敏感度尚未充分探索——更换或微调几条原则，可能会导致模型行为发生不可预知的变化。

另一重要局限是方法的泛化性。论文只针对"无害性"这一维度进行了实验，未验证CAI方法是否同样适用于其他行为维度（如写作风格、人格特质等）。虽然作者在"未来方向"中讨论了这个可能性，但尚无实证支持。

未来方向与开放问题

论文在"讨论"部分提出了多个未来方向，其中最值得关注的是：将CAI方法扩展到更广泛的行为维度。作者认为，由于无需人类标注，CAI方法可以轻松生成数十个行为轴的反馈标签，进而研究不同偏好模型之间的相关性与反相关性。这对于理解预训练在模型中植入的泛化模式至关重要，因为当前这些泛化模式"基本上是一个黑箱，其相关性可能产生不可预见的后果"。

另一重要方向是鲁棒性提升。论文希望"使帮助性和无害性更加兼容"，从而能够大规模（自动化）红队测试以提升模型的抗攻击能力。此外，作者提出可以进行迭代式"在线"训练——用AI反馈不断更新偏好模型以保持与策略分布一致——这一过程可以完全自动化。

第三个未解决的问题是批评的质量。论文附录A提供的示例显示，首次批评给出的批评"往往提供不准确的批评"，但修订确实移除了有害内容。如何提升自我批评的准确性与推理深度，使模型能够发现"日益微妙和隐性的伤害"，仍是有待突破的方向。

从更宏观的视角看，CAI开启了一条通向"自我监督对齐"的道路，但也带来了新的开放问题：如果人类社会关于"什么是有害的"没有统一标准，那么由谁来决定"宪法"的内容？这不仅是技术问题，更是包含价值观选择的规范性议题。

组会预判问答

Q1：CAI相对于RLHF的真正优势是什么？是否只是换了一种形式的监督？

CAI的核心优势不在于完全替代人类监督，而在于将人类监督从大量隐式标注转化为少量显式原则。论文中使用的16条原则包含的信息量远少于数万条人类标注，但效果相当甚至更优。一种可能的解读是，原则形式的监督迫使研究者思考"什么是有害的"这一规范性定义，而非依赖众包工作者的直觉判断，这反而可能更直接地传达训练意图。

Q2：CoT推理在RL阶段的实际作用到底是什么？是否值得额外的计算开销？

论文通过Figure 4和Figure 8两个实验共同回答了这个问题。Figure 4显示CoT显著提升了反馈模型识别有害性的准确率（尤其是在大模型上），而Figure 8则显示RL-CAI w/ CoT在无害性上略优于无CoT版本。但代价是CoT生成了极端自信的概率，必须通过概率裁剪（clamping）来缓解，这引入了额外的超参数调优。可以理解为CoT提升了评估质量，但需要额外的工程手段来处理其副作用。

Q3：论文提到RL-CAI模型几乎从不逃避，这是如何实现的？

关键在于两阶段设计的协同作用。监督阶段的多轮修订训练，使模型学会了以解释原因的方式拒绝有害请求，而非简单地说"我不知道"。RL阶段使用的AI偏好模型也倾向于奖励"解释性拒绝"而非"沉默式逃避"——因为AI评估原则（如"wise, peaceful, and ethical"）天然偏好建设性回应。此外，新指令要求众包评估者"偏好在同样无害情况下不那么逃避的响应"，进一步强化了这一行为模式。

Q4：CAI方法对模型规模的依赖程度如何？小模型是否也能受益？

论文的多个实验结果都体现了规模效应。Figure 7显示，小模型需要批评步骤才有显著改善，而大模型直接修订即可。Figure 4显示，只有大模型（52B）在AI评估任务上接近人类水平。这意味着CAI方法的有效性高度依赖模型自身的能力水平——如果模型不具备足够强的有害性识别能力，自我批评和AI反馈的质量都会受到影响。对于小模型，可能需要混合人类反馈来补充。

本报告由立理AI生成，仅供参考，请以原文为准。