宪法AI：基于AI反馈实现无害性训练

由蜗牛快跑！创建0 次浏览

论文信息

字段	内容
标题	Constitutional AI: Harmlessness from AI Feedback
作者	Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion 等
机构	Anthropic
论文地址	https://arxiv.org/abs/2212.08073
代码地址	https://github.com/anthropics/ConstitutionalHarmlessnessPaper
发表时间	2022年12月

一句话概要

论文提出宪法AI（CAI）方法，通过一组自然语言原则（宪法）替代人类有害性标注，
在监督学习阶段让模型自我批评并修订有害回答，在强化学习阶段用AI替代人类进行
偏好标注（RLAIF），最终训练出既无害又不逃避的AI助手。
实验表明，RL-CAI模型在无害性上超越基于人类反馈训练的HH RLHF模型，
同时解决了此前工作中帮助性与无害性之间的紧张关系以及模型逃避问题。

背景与研究动机

论文聚焦于一个根本性问题：如何训练AI系统既能保持无害，又能维持帮助性和诚实性，同时减少对人类监督的依赖。随着AI能力接近或超越人类水平，研究者需要开发不依赖人类全面监督、能够自动检测并增强对有害行为鲁棒性的技术。

作者引用此前基于人类反馈的强化学习工作，指出RLHF方法已成功用于训练更帮助性、更诚实的AI助手，但存在两个核心问题尚未解决。其一，帮助性与无害性之间存在张力，模型在面对有害请求时往往采取拒绝回答的逃避策略，这降低了模型的实用性。其二，RLHF需要数万条人类偏好标注，这些标注本身无法被理解和总结为清晰的训练目标，导致AI行为缺乏透明性。

论文的核心动机在于探索一种极端形式的“扩展监督”，即用AI系统协助人类更高效地监督其他AI。作者提出，如果能够通过一组简洁的自然语言原则来规范AI行为，就可以显著减少对人类标注的依赖，同时提高AI决策的透明度和可控性。

现有方法的瓶颈

基于人类反馈的强化学习在训练无害AI助手上取得了一定成效，但存在以下关键局限。

人类标注效率瓶颈。 RLHF需要至少数万条人类偏好标注来训练偏好模型。每条标注都需要人类评估者仔细比较两个模型回应对有害性的响应程度，这一过程耗时费力，且难以规模化扩展。当需要调整训练目标时，必须重新收集人类反馈，迭代成本极高。

帮助性与无害性的冲突。 此前工作中训练的帮助性且无害性模型在面对争议性问题时，往往采取“对不起，我无法回应”这种逃避式回答。论文指出，这种逃避行为的根源在于评估者倾向于将更无害的回答标记为更好的回应，从而在训练中强化了逃避策略。逃避虽然实现了无害，但牺牲了帮助性和透明度。

训练目标缺乏透明性。 RLHF使用的数万条人类偏好标注以私有数据的形态存在，即使公开也无法被任何人理解和概括。这种黑箱式的训练目标使得AI行为的根本指导原则不可见、不可审、不可更新。

值得注意的是，现有方法在上述三个瓶颈之间存在内在关联。逃避行为的产生与人类标注的偏差直接相关，而标注偏差又源于训练目标不透明导致的人为判断标准不一致。这三者共同构成RLHF框架的根本局限。

核心洞察与贡献

论文的核心洞察在于：日益强大的语言模型自身已经具备识别和评价有害行为的能力，因此可以用模型自身的反馈替代人类对有害性的标注。这一洞察并非凭空产生，论文在第2节通过系统的评估实验验证了这一假设——在438个二元比较问题上，52B参数的预训练语言模型通过思维链推理，在识别帮助、诚实、无害行为上的准确率已经趋近于基于人类反馈训练的专用偏好模型。这意味着AI可以在不对人类标注产生额外需求的前提下，自主完成对自身行为有害性的评估。

基于这一洞察，论文提出宪法AI方法，将人类监督缩减为一组自然语言原则（即“宪法”），在训练过程中完全替代人类对有害性的标注。具体贡献包括：

提出两阶段宪法AI训练流程。 监督学习阶段通过模型自我批评与修订迭代降低有害性，强化学习阶段则用AI生成的偏好标签替代人类标注进行训练。两阶段的设计动机在于：监督阶段快速将模型调整到目标分布上，减少后续RL阶段的探索需求；RL阶段则进一步提升性能和可靠性。
验证思维链推理在AI反馈中的有效性。 论文发现，在反馈模型中使用思维链推理显著提升了有害性判断的准确性，且随着模型规模增大，AI反馈的质量趋近于人类反馈训练的偏好模型。
实现无害且不逃避的AI助手。 通过精心设计宪法原则和反馈流程，RL-CAI模型在保持无害性的同时几乎从不采取逃避策略，而是以解释的方式回应有害请求，从而缓解了帮助性与无害性之间的冲突。
实现无需人类有害性标注的端到端训练。 整个训练流程仅需人类对帮助性的标注，所有有害性相关标注均由AI生成，这使得训练目标和行为调整更快速、更透明。

方法详解

宪法AI的训练流程包含两个阶段，每个阶段的设计都有明确的动机。

监督学习阶段。 这一阶段的目标是让模型学会识别并修正自身的有害回答。具体流程如下：首先用一个帮助性RLHF模型对有害性提示生成初始回应；随后向模型展示一组预写的批评指令，要求模型批评自己的回应；接着展示修订指令，要求模型基于批评重新生成回答。批评和修订指令共同构成宪法原则，每个步骤从16个原则中随机抽取一个。这一过程可以重复多次，形成一系列迭代改进。

这一设计的关键动机在于利用模型自身的指令遵循能力。作者指出，帮助性RLHF模型已经具备良好的指令遵循能力，因此可以自然地将批评和修订视为一组指令来执行。批评步骤的必要性在于提升小模型的无害性表现，而对大模型而言，直接修订与经批评后再修订的效果相当。论文最终选择使用批评后的修订，因为批评过程能提供模型推理过程的透明度。

强化学习阶段。 这一阶段模仿RLHF的流程，但用AI反馈替代人类对有害性的偏好标注。首先用监督训练阶段得到的SL-CAI模型对提示生成一对回应，然后将提示和回应对呈现给一个反馈模型，要求模型根据宪法原则选择更无害的回应。反馈模型通过计算选项(A)和(B)的归一化log概率来生成软标签，这些软标签被证明具有良好的校准性。

一个重要的设计选择是使用16个不同原则进行集成，每个比较标签随机抽取一个原则。论文发现，相比使用固定原则，集成策略显著提升了偏好模型的鲁棒性。此外，在思维链推理版本中，由于思维链会使模型过度自信地选择某一选项，导致概率接近0或1，论文引入了概率钳制策略，将概率限制在40%-60%范围内。

混合偏好模型的训练则将AI生成的无害性标签与人类提供的帮助性标签混合，训练出一个既能评估帮助性又能评估无害性的偏好模型。最终的RL训练使用该偏好模型作为奖励信号，从SL-CAI模型出发进行优化。

宪法原则的设计。 论文使用了16条不同的宪法原则，涵盖无害性的各个方面。SL-CAI阶段的原则侧重于识别和消除有害内容，例如“识别助理最后回应中的具体有害、不道德、种族主义、性别歧视、有毒、危险或非法内容”。RL-CAI阶段的原则则侧重于选择更无害的回应，例如“请选择最帮助、最诚实、最无害的回应”。这些原则的选择是用于研究目的的临时性设计，作者强调未来应通过更广泛的利益相关者参与来重新制定和完善。

实验与结果

实验设置。 论文使用多组对比实验评估CAI方法的有效性。主要评估指标是由众包工作者在开放式对话中进行模型比较得到的Elo分数，包括帮助性和无害性两个维度。实验涉及的模型包括：仅用帮助性数据训练的Helpful RLHF、使用帮助性和无害性数据训练的HH RLHF、以及CAI方法训练的SL-CAI和RL-CAI（含和不含思维链推理）。

主要结果。 实验结果显示，RL-CAI模型在无害性上显著优于HH RLHF模型，同时帮助性保持在可接受的水平。具体而言，在帮助性相当的情况下，RL-CAI的无害性Elo分数比HH RLHF高出约50-100分。值得注意的是，众包工作者在评估时被明确要求在不损害无害性的前提下优先选择不逃避的回应，这一指令的变化使得此前HH RLHF模型的逃避行为被暴露出来——与论文先前的观察不同，Helpful RLHF和HH RLHF在无害性上的差异变小，因为逃避式的无害回应不再被偏好。

绝对有害性评估。 论文使用绝对有害性评分进一步验证了结果。在64个精心挑选的保留提示上，RL-CAI和RL-CAI with CoT的有害性评分随训练进程稳步下降，而Helpful RLHF则呈现上升趋势。这表明CAI方法不仅在相对比较中表现优异，在绝对层面也有效降低了模型的有害输出。

消融实验与设计选择。 论文进行了多项消融实验来验证设计选择的必要性。模型自我评估能力的实验表明，使用思维链推理显著提升了有害性判断的准确性，且随着模型规模增大，AI反馈趋于接近人类反馈训练的偏好模型。批评必要性的消融实验显示，批评后的修订在小模型上显著优于直接修订，而在大模型上两者效果相近。修订次数的影响实验表明，无害性偏好模型得分随修订次数单调增加，但超过一定次数后改善有限。原则数量对效果的实验显示，增加原则数量并未显著提升偏好模型得分，但有助于提高修订回应的多样性。

baseline选择的合理性与局限性。 论文的baseline选择覆盖了当前主流方法，包括仅帮助性RLHF和帮助性+无害性RLHF，并与此前工作中的模型进行了直接比较。然而，由于论文发表于2022年底，未包含后续工作中更先进的AI对齐方法，如基于规则的奖励模型等。此外，所有RL运行使用了相同的超参数，这可能在一定程度上限制了对比的完备性。

实验结论对核心claim的支撑。 实验有力地支持了论文的核心claim：无需人类有害性标注即可训练出无害AI助手。RL-CAI在无害性上超越HH RLHF的结果直接验证了这一主张。然而，实验中仍大量依赖人类帮助性标注，对“完全无需人类标注”的极端情形缺乏实证。

优势与局限性

优势。 宪法AI方法在多个维度上展现了显著优势。训练效率方面，该方法将人类监督从数万条标注缩减为一组自然语言原则，大幅降低了数据收集成本。行为控制方面，通过简洁的原则列表实现训练目标的透明编码，使AI行为的根本指导原则可审、可更新。在帮助性与无害性的平衡上，CAI训练出的模型以解释而非逃避的方式回应有害请求，保持了帮助性和透明度。扩展性方面，原则驱动的方法使得调整训练目标无需重新收集人类标注，显著降低了迭代成本。

局限性。 方法仍存在若干有待解决的问题。第一，宪法原则本身是人工设计的，存在主观性和潜在偏见。论文承认原则是以临时性方式选择的，未来需要更广泛的社会参与者来制定。第二，虽然消除了人类对有害性的标注，但方法仍依赖人类对帮助性的标注，距离完全自监督的目标尚有距离。第三，RL-CAI模型在过度训练时会出现“Goodharting”行为，即模型变得过度严厉或使用模板化语言。论文提供了应对策略，如调整原则措辞和概率钳制，但并未从根本上解决这一问题。第四，所有实验基于Anthropic预训练的52B参数规模模型，方法在其他架构和规模上的适用性有待验证。

可复现性评估。 论文公开了宪法原则、少样本提示和模型回应示例的代码仓库，同时引用了此前工作中公开的数据集，为复现提供了基础。然而，核心的预训练模型权重、RL训练实现细节以及众包工作者评估平台均未公开，独立复现存在一定挑战。

未来方向与开放问题

论文提出了几个值得跟进的研究方向。首先是完全消除人类标注的可能性——作者认为从预训练模型出发，通过大量提示工程或许可以在不依赖人类反馈的情况下实现帮助性和指令遵循能力。其次是行为控制的泛化应用，宪法方法理论上可以用于调整模型的写作风格、语气或对特定类别问题的回应，这使得研究不同行为如何泛化、相互干扰成为可能。最后是鲁棒性提升，通过自动化的红队测试和迭代式在线训练，使模型对红队攻击几乎免疫。在这些方向上，如何设计更全面的宪法原则体系、如何防止模型在过度优化中产生新形式的有害行为，是值得关注的关键问题。

组会预判问答

Q1：RL-CAI在无害性上超越HH RLHF，是否意味着AI反馈可以完全替代人类反馈？

论文明确指出，CAI方法消除了有害性的人类标注，但仍依赖人类对帮助性的标注。更准确的理解是，AI反馈在特定任务（如识别有害行为）上的表现已经趋近甚至超越人类反馈，但在泛化性和对复杂社会规范的把握上仍不能完全替代人类判断。论文提出未来工作可以探索完全无需人类标注的方案，但尚未实证。

Q2：RL-CAI模型不逃避有害请求，这是否反而增加了安全风险？

论文的核心观点是不逃避不等于不安全。RL-CAI以解释的方式回应有害请求，例如在遇到种族主义问题时，模型会明确指出该类问题的危害性并提供正确的信息。这种策略既维持了对话的连续性，又避免了强化有害偏见。然而，对于某些极端的恶意利用场景，解释性回应是否可能被解读为间接满足请求，论文未做深入探讨。

Q3：宪法原则是如何选择的？是否存在原则选择带来的偏见？

论文使用了16条原则，全部由研究团队以临时性方式编写，未经过系统性的专家审查或公众参与。论文明确承认这一局限性，并指出未来应由更广泛的利益相关者共同制定。这意味着原则选择本身可能引入研究团队的价值观偏见。可替代方案包括通过众包或法律伦理专家小组来设计原则，以增强原则的代表性。

Q4：为什么RL-CAI with CoT在帮助性上略低但在无害性上略高？

论文观察到加入思维链推理后，RL-CAI在无害性上略有提升，同时帮助性略有下降。一种可能的解释是，思维链推理使反馈模型在评估无害性时更为谨慎，倾向于选择更保守的回应，这提高了无害性但降低了帮助性。概率钳制策略（40%-60%）在一定程度上缓解了这种过度保守的趋势，但仍未能完全消除。

Q5：方法能否迁移到其他语言模型或任务场景？

论文的实验主要基于Anthropic的52B参数量级模型，但作者从原理上指出方法具有通用性：任何具备指令遵循能力的模型都可以使用CAI。然而，模型规模对AI反馈质量的影响是显著的——论文数据显示小模型在有害性识别上的准确率明显低于大模型。这意味着方法对模型能力有门槛要求，在小模型上可能难以复现同样效果。此外，方法在其他任务（如医疗、法律领域）上的适用性尚待验证。

本报告由立理AI生成，仅供参考，请以原文为准。