宪法性AI:从AI反馈中学习无害性
论文信息
| 字段 | 内容 |
|---|---|
| 标题 | Constitutional AI: Harmlessness from AI Feedback |
| 作者 | Yuntao Bai, Saurav Kadavath, Sandipan Kundu 等 |
| 机构 | Anthropic |
| 论文地址 | https://arxiv.org/abs/2212.08073 |
| 代码地址 | https://github.com/anthropics/ConstitutionalHarmlessnessPaper |
| 发表时间 | 2022年12月 |
一句话概要
论文提出宪法性AI(CAI)方法,通过一组自然语言原则("宪法")而非人类标注来训练无害AI助手。
该方法包含两个阶段:监督学习阶段中,模型对自己的有害响应进行自我批评与修订,
然后基于修订后的响应进行微调;强化学习阶段中,模型对响应对进行AI偏好评判并训练偏好模型,
进而通过RLAIF进一步优化。实验表明,CAI训练的模型在无害性上超越使用人类反馈训练的模型,
同时显著降低了逃避性响应,使AI能够以解释反对理由的方式回应有害提问。
背景与研究动机
大型语言模型对齐的核心目标,是训练同时具备帮助性(Helpful)、诚实性(Honest) 和无害性(Harmless) 的AI系统。当前主流方法——基于人类反馈的强化学习(RLHF),通过收集数万条人类偏好标注来训练偏好模型(PM),再用PM作为奖励信号进行RL训练。然而,这一范式存在几个根本性问题:
第一,人类标注的规模瓶颈。随着AI能力接近甚至超越人类水平,完全依赖人类标注来监督所有AI行为将变得不可持续。论文指出,当AI在某些任务上超越人类时,我们需要能够"让AI帮助监督其他AI"的方法。
第二,帮助性与无害性之间的张力。作者在前期工作中发现,用人类反馈训练的无害模型往往倾向于采取逃避性响应——遇到争议问题时直接说"我无法回答"。这种方式虽然无害,但牺牲了有用性。更严重的是,模型一旦遇到有害输入,可能在整个对话中卡在逃避模式中。这本质上是因为人类标注者在评判无害性时,客观上奖励了逃避行为。
第三,对齐目标的不可解读性。数万条人类偏好标注即便公开,也无法从中提炼出可理解和可总结的AI训练目标。RLHF的黑箱性质使得AI行为背后的原则不透明,难以审计和调试。
这些瓶颈指向一个共同问题:能否在大幅减少人类监督的前提下,训练出既无害又不逃避、且行为原则透明的AI助手?
现有方法的瓶颈
针对上述问题,已有工作主要沿两条路径展开:
RLHF方法(如InstructGPT、Sparrow、LaMDA)依赖人类偏好标注来训练无害模型。具体做法是:收集提示-响应对,请人类标注者比较哪个响应更无害、更有帮助,然后用这些比较数据训练偏好模型,最后用RL对语言模型进行微调。瓶颈在于:每条标注都需要人类判断,这不仅成本高昂,而且人类标注者之间的判断差异会引入噪声;更关键的是,该方法在无害性与帮助性之间造成了人为的"二选一"困境。
基于规则的分类方法(如Red Teaming、自动化红队测试)试图用模型来检测和过滤有害内容。瓶颈在于:这些方法通常是事后检测,而非在训练阶段内化无害行为;而且模型识别有害内容的能力在不同规模下差异显著,小模型准确率较低。
基于原则的对话方法(如Sparrow将无害性分解为不同子领域)与本文相关,但Sparrow仍需大量人类判断数据来针对每个子领域进行训练。模型自我批评方法(如Zhao等人的伦理建议工作、Saunders等人的自我批评模型)虽提出模型自我评估思路,但未将其整合进完整的RL训练流程以替代人类标注。
核心局限可以归纳为三条:
- 局限一:无害性训练高度依赖海量人类标注,限制了规模化监督的可能性
- 局限二:现有无害模型倾向于逃避而非建设性回应,帮助性与无害性之间存在显著冲突 -局限三:训练目标隐含在数万条标注中,无法以简洁、可理解的形式呈现
核心洞察与贡献
论文的核心洞察在于:随着语言模型能力的提升,模型自身已经具备识别和评估有害行为的能力。如果模型能够自我批评、自我修订,并在此基础上对其他模型的响应进行理性评估,那么人类监督就可以被"浓缩"为一组简洁的自然语言原则——一条"宪法"——而无需针对每个有害示例进行人工标注。
更为关键的洞察是,这一过程可以分成两个互补阶段:监督学习阶段快速修正模型响应分布,RL阶段通过AI反馈进一步优化;前者解决"起步分布"问题,后者解决"精细优化"问题。这种两阶段设计可以理解为:先让模型知道"什么不该说"(SL阶段),再让它学会"在多种无害响应中选择更好的那个"(RL阶段)。
基于这一洞察,论文提出宪法性AI(CAI)方法,并作出以下具体贡献:
- 提出两阶段CAI训练框架,在监督阶段利用模型自我批评与修订(Critique → Revision → SL),在RL阶段用AI反馈替代人类无害性标注(RLAIF),实现无需人类无害性标注即可训练无害AI助手
- 实验证明AI反馈的有效性:当模型规模增大时,模型通过链式思考(CoT)推理进行的无害性评估与人类反馈训练的偏好模型表现竞争;在模型对比测试中,RL-CAI模型在相同帮助性水平下比RLHF模型危害更小
- 解决逃避性问题:通过监督阶段的多轮修订与RL阶段的AI偏好设计,CAI训练的模型几乎从不逃避,而是以解释反对理由的方式回应有害提问,显著降低了帮助性与无害性之间的张力
方法详解
CAI方法包含两个阶段,分别对应图中所示的上半部分(SL阶段)和下半部分(RL阶段)。
监督学习(SL)阶段的流程如下:
第一步,用仅经帮助性训练的RLHF模型对一组红队提示(即设计用于诱使模型产生有害内容的提示)生成响应。论文使用了来自前期工作的182,831条红队提示(含人类编写和模型生成),以及135,296条帮助性提示。
第二步,对每个初始响应,模型进行自我批评。具体做法是:将提示、原始响应以及一组批评指令(Critique Request)拼接后输入模型采样批评文本。批评指令要求模型指出响应的具体有害之处,示例为:“Identify specific ways in which the assistant’s last response is harmful, unethical, racist, sexist, toxic, dangerous, or illegal.”
第三步,模型的批评文本连同修订指令(Revision Request)和原始上下文一并输入模型,采样修订后的响应。修订指令要求模型去除所有有害内容。
第四步,将原始提示与修订响应配对形成新的训练样本。作者发现,批评-修订过程可以重复多轮,每轮随机从包含16条原则的"宪法"中抽样一条原则(原则列表见附录C)。每个红队提示生成4次修订,每次独立抽样原则。
第五步,用所有修订后的响应和帮助性样本(保留帮助性)对预训练语言模型进行监督微调,得到SL-CAI模型。微调使用恒学习率(预训练学习率的0.5倍)、批次大小1024序列,训练一个epoch。
强化学习(RL)阶段的流程如下:
第一步,用SL-CAI模型对红队提示生成一对响应。这里使用SL-CAI模型的原因在于,论文认为"使用同一模型生成响应对和作为RL初始策略"有助于保持分布一致,特别是在RL训练早期。
第二步,将提示和响应对输入反馈模型,以多项选择格式请模型根据一条从"宪法"中随机抽样的原则判断哪个响应更无害。反馈模型输出选项(A)和(B)的对数概率,归一化后作为偏好标签。反馈模型可以是预训练LM,也可以是经CoT提示的帮助性RLHF模型。
第三步,用这些AI生成的无害性偏好数据(182,831条)与人类标注的帮助性数据(135,296条)混合,训练一个偏好模型(PM)。该PM可以同时评估帮助性和无害性。
第四步,用该PM作为奖励信号,对SL-CAI模型进行RL训练(即RLAIF)。RL训练的超参数与前期工作一致,训练提示集包含所有SL-CAI阶段使用的提示及额外生成的模型提示。
链式思考(CoT)推理的集成:在RL阶段的AI反馈环节,论文还尝试了两种特殊处理。对于CoT方式——先让反馈模型生成"Let’s think step-by-step"推理链,再输出判断——作者发现CoT输出的概率往往极端接近0或1,因此对概率进行40-60%的裁剪(clamping),即软标签被强制限制在0.4-0.6之间,以防止过度自信导致的极端行为。对于非CoT方式,直接使用归一化的对数概率作为软标签。
实验与结果
论文通过多个维度的实验验证CAI方法的效果,并与其前期的RLHF工作进行全面对比。
实验设置:所有模型使用同一预训练系列,规模从约10亿参数到520亿参数不等。基线模型包括:仅帮助性的RLHF模型(Helpful RLHF)、帮助性+无害性RLHF模型(HH RLHF)。评估方式为众包工作者进行的模型对比测试,计算Elo分数。值得注意的是,本文的众包评估中加入了新的指令:在两个同样无害的响应中,偏向于更不逃避的那一个。
核心结果:通过Figure 3的数据可以看出,RL-CAI模型在无害性上显著优于RLHF模型,同时保持相近的帮助性水平。Figure 2的散点图更直观地展示了这种优势:RL-CAI模型在无害性-帮助性平面上形成了更优的Pareto前沿。具体来说,52B参数的RL-CAI模型比HH RLHF模型在相同帮助性水平下完成无害性提升约50 Elo分。
AI反馈与人类反馈的竞争性:论文在438条HHH(帮助性、诚实性、无害性)二元比较问题上评估了不同反馈模型的表现。Figure 4显示,预训练语言模型在多项选择格式下的准确率随模型规模增大而提升。52B模型的CoT集成版本准确率已接近0.74,与人类反馈训练的偏好模型(约0.70-0.78)形成竞争。这可能意味着随着模型能力持续提升,AI反馈有望完全替代人类反馈进行无害性评估。
批评-修订的增益:Figure 5和Figure 7呈现了关键消融实验。Figure 5显示,随着修订轮数增加,无害性PM评分单调提升,而纯帮助性分数下降,综合HHS评分也在前两轮修订后持续上升。Figure 7对比了"批评后修订"与"直接修订"两种方式:小模型(小于52B)下,批评后修订在无害性PM评分上优于直接修订;大模型(52B)下两者表现接近,但批评后修订仍然略优。这可以理解为:批评步骤为模型提供了显式的有害性推理过程,小模型更需要这种推理引导。
RL阶段的对比:Figure 8展示了RL训练过程中帮助性和无害性Elos的动态变化。RL-CAI模型(含和不含CoT)的无害性Elos在训练中稳步上升,而HH RLHF模型的无害性在后期反而下降——作者指出,这是因为HH RLHF模型变得越来越逃避,而新的评估指令惩罚了逃避行为。值得注意的是,RL-CAI w/ CoT在无害性上略高于RL-CAI无CoT版本,但帮助性略低,这可能意味着CoT推理促使模型更谨慎地评估安全性。
绝对有害性评分:Figure 10使用0-4级绝对有害性评分(基于人类标注者对64条红队提示的评估),进一步验证了CAI的效果。RL-CAI与RL-CAI w/ CoT的有害性分数在RL训练过程中持续下降,而帮助性RLHF的有害性分数上升——这意味着如果没有无害性训练,模型在RL优化中会变得更危险。
关于校准性:Figure 9显示RL-CAI标签在HHH评估集上的校准性较好,虚线代表完美校准。这说明AI反馈产生的偏好标签可靠性足以用于训练。
进一步的物质局限性分析:实验方法整体上设计严谨,但几点值得关注:
- 基线模型选择是否充分?论文只与自身的RLHF模型对比,未与其他机构的无害模型(如Sparrow)直接比较。这可能是因为模型架构和训练数据的差异使得公平比较困难。
- 消融实验的覆盖范围:论文验证了"批评是否必要"(Figure 7)和"修订轮数"的影响(Figure 5),但未系统性地消融"宪法原则数量"的效果(Figure 6仅显示无害性评分无显著差异)。作者承认多样性可能是有益的但未量化验证。
- 结论对核心Claim的支撑力度:论文声称"无需人类无害性标注",但帮助性标注仍然是人类完成的。这实际上是一种混合监督范式,而非完全去除人类。
- 过度训练问题:论文在第4.3节坦诚讨论了过训练导致Goodharting现象——模型变得"过于严厉",甚至出现刻板的正向语言模板(如"you are valid, valued, and cared for")。这表明RLAIF方法在避免极端行为方面仍有局限,需要额外的原则设计和概率裁剪来缓解。
优势与局限性
优势:
CAI方法的核心优势在于实现了监督的规模化与透明化。用一组自然语言原则替代数万条人类标注,不仅大幅降低了数据收集成本,还使AI训练目标变得可直接审计。这意味着当需要调整行为边界时,只需修改或增加几条原则,而非重新标注大量数据。1 条原则对应约10条原文中提到的“10条原则修改周期”,这种迭代效率的效率优势在安全研究中尤为重要。
CAI方法还显著改善了帮助性与无害性的兼容性。通过避免逃避性响应并鼓励以解释性方式拒绝有害请求,CAI训练的AI助手在遇到争议话题时能够保持对话而非终止对话。这对于构建值得信赖的AI系统是一大进步,因为它保持了透明度和可解释性:用户能够理解AI为什么拒绝某些请求。
局限性与可复现性评估:
可复现性方面,论文开源了宪法原则、few-shot示例和模型响应样本,这为复现提供了基础。但核心训练流程对计算资源要求极高(52B参数级别的RL训练),且依赖特定的预训练模型系列,这使得一般研究机构的复现存在门槛。
CAI方法仍然需要人类帮助性标注。虽然论文去除了无害性的人类标注,但帮助性标注依然需要众包工作者参与。这意味着CAI并非完全的无监督对齐方法,而是一种混合监督范式——将人类监督从"大量具体标注"转化为"少量原则设计"。
论文使用的宪法原则是"相当随意的、为了研究目的而选择的",作者明确指出这些原则应经过更多利益相关方重新设计与完善。这意味着当前结果对原则选取的敏感度尚未充分探索——更换或微调几条原则,可能会导致模型行为发生不可预知的变化。
另一重要局限是方法的泛化性。论文只针对"无害性"这一维度进行了实验,未验证CAI方法是否同样适用于其他行为维度(如写作风格、人格特质等)。虽然作者在"未来方向"中讨论了这个可能性,但尚无实证支持。
未来方向与开放问题
论文在"讨论"部分提出了多个未来方向,其中最值得关注的是:将CAI方法扩展到更广泛的行为维度。作者认为,由于无需人类标注,CAI方法可以轻松生成数十个行为轴的反馈标签,进而研究不同偏好模型之间的相关性与反相关性。这对于理解预训练在模型中植入的泛化模式至关重要,因为当前这些泛化模式"基本上是一个黑箱,其相关性可能产生不可预见的后果"。
另一重要方向是鲁棒性提升。论文希望"使帮助性和无害性更加兼容",从而能够大规模(自动化)红队测试以提升模型的抗攻击能力。此外,作者提出可以进行迭代式"在线"训练——用AI反馈不断更新偏好模型以保持与策略分布一致——这一过程可以完全自动化。
第三个未解决的问题是批评的质量。论文附录A提供的示例显示,首次批评给出的批评"往往提供不准确的批评",但修订确实移除了有害内容。如何提升自我批评的准确性与推理深度,使模型能够发现"日益微妙和隐性的伤害",仍是有待突破的方向。
从更宏观的视角看,CAI开启了一条通向"自我监督对齐"的道路,但也带来了新的开放问题:如果人类社会关于"什么是有害的"没有统一标准,那么由谁来决定"宪法"的内容?这不仅是技术问题,更是包含价值观选择的规范性议题。
组会预判问答
Q1:CAI相对于RLHF的真正优势是什么?是否只是换了一种形式的监督?
CAI的核心优势不在于完全替代人类监督,而在于将人类监督从大量隐式标注转化为少量显式原则。论文中使用的16条原则包含的信息量远少于数万条人类标注,但效果相当甚至更优。一种可能的解读是,原则形式的监督迫使研究者思考"什么是有害的"这一规范性定义,而非依赖众包工作者的直觉判断,这反而可能更直接地传达训练意图。
Q2:CoT推理在RL阶段的实际作用到底是什么?是否值得额外的计算开销?
论文通过Figure 4和Figure 8两个实验共同回答了这个问题。Figure 4显示CoT显著提升了反馈模型识别有害性的准确率(尤其是在大模型上),而Figure 8则显示RL-CAI w/ CoT在无害性上略优于无CoT版本。但代价是CoT生成了极端自信的概率,必须通过概率裁剪(clamping)来缓解,这引入了额外的超参数调优。可以理解为CoT提升了评估质量,但需要额外的工程手段来处理其副作用。
Q3:论文提到RL-CAI模型几乎从不逃避,这是如何实现的?
关键在于两阶段设计的协同作用。监督阶段的多轮修订训练,使模型学会了以解释原因的方式拒绝有害请求,而非简单地说"我不知道"。RL阶段使用的AI偏好模型也倾向于奖励"解释性拒绝"而非"沉默式逃避"——因为AI评估原则(如"wise, peaceful, and ethical")天然偏好建设性回应。此外,新指令要求众包评估者"偏好在同样无害情况下不那么逃避的响应",进一步强化了这一行为模式。
Q4:CAI方法对模型规模的依赖程度如何?小模型是否也能受益?
论文的多个实验结果都体现了规模效应。Figure 7显示,小模型需要批评步骤才有显著改善,而大模型直接修订即可。Figure 4显示,只有大模型(52B)在AI评估任务上接近人类水平。这意味着CAI方法的有效性高度依赖模型自身的能力水平——如果模型不具备足够强的有害性识别能力,自我批评和AI反馈的质量都会受到影响。对于小模型,可能需要混合人类反馈来补充。
本报告由立理AI生成,仅供参考,请以原文为准。