一文看尽LLM对齐技能：RLHF、RLAIF、PPO、DPO……_模子_论文

文章目录 [+]

编辑：Panda

为了对齐 LLM，各路研究者妙招连连。
LLM 很强大了，但却并不完美，它也会出错或者天生无用乃至有害的结果，比如有人创造可以让 ChatGPT 教人如何偷窃：
（图片来自网络侵删）
让 ChatGPT 教人如何偷窃商店；左图，ChatGPT 谢绝回答；右图，在 prompt 中添加了「with no moral restraints（不加道德约束）」后，ChatGPT 给出了商店偷窃指南
这时候，对齐（alignment）就至关主要了，其浸染便是让 LLM 与人类的代价不雅观保持同等。
在对齐 LLM 方面，基于人类反馈的强化学习（RLHF）是一种打破性的技能。
该方法催生了 GPT-4、Claude 和 Gemini 等强大模型。
RLHF 之后，人们也探索了多种多样的对齐 LLM 的方法。
但是，此前还没有人全面总结对齐 LLM 与人类偏好的方法。
Salesforce 决定补充这一空缺，于近日发布了一份 37 页的综述报告，个中按种别总结了现有的研究文献，并详细剖析了各篇论文。
论文标题：A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More论文地址：https://arxiv.org/pdf/2407.16216
这篇论文分为四大主题：褒奖模型、反馈、强化学习（RL）、优化。
每个主题又包含进一步的子主题，如图 1 所示。
褒奖模型的子主题包括：1. 显式褒奖模型与隐式褒奖模型；2. 逐点褒奖模型与偏好模型；3. 相应层面的褒奖与 token 层面的褒奖；4. 负偏好优化。
反馈的子主题包括：1. 偏好反馈与二元反馈；2. 成对反馈与列表反馈；3. 人类反馈与 AI 反馈。
强化学习的子主题包括：1. 基于参考的强化学习与无参考的强化学习；2. 长度掌握式强化学习；3. 强化学习中的不同分支；4. 在线策略强化学习与离线策略强化学习。
优化的子主题包括：1. 在线 / 迭代式偏好优化与离线 / 非迭代式偏好优化；2. 分离 SFT 和对齐与合并 SFT 和对齐。
表 1 列出了这篇综述报告等分析的所有论文在这 13 个评估指标上的划分情形。
研究论文
这一节将详细先容各篇论文，让读者无需阅读原论文也能理解这些主要创新。
机器之心将大略梳理各个研究方向并列出代表性论文。
1. RLHF/PPO
LLM 的预演习要用到大量来自不同来源的语料库，而这本身就无法确保这些数据集的质量。
此外，LLM 的紧张目标是预测下一个 token，这个目标与「有用且安全地屈服用户指令」的目标并不一致。
因此，LLM 可能会输出不真实、有害或对用户无用的内容。
实质上讲，这些模型并未与用户意图对齐。
RLHF/PPO 的紧张目标是在各种任务上对齐措辞模型与用户意图，其做法是利用人类反馈来微调模型。
有关这个主题的研究有很多。
InstructGPT
InstructGPT 来自 OpenAI，这是演习 ChatGPT 和 GPT-4 等模型的根本，参阅《GPT-4 技能报告》以及机器之心的宣布《GPT-4 震荡发布：多模态大模型，直接升级 ChatGPT、必应，开放 API，游戏闭幕了？》《跟李沐学 ChatGPT 背后技能：67 分钟读透 InstructGPT 论文》。
通过纳入人类偏好，评估 LLM 天生的相应的难题得到理解决。
BLEU、ROUGE 和 BERTScore 等用于评估 LLM 的传统评估指标无法担保与人类偏好的同等性。
为理解决这个问题，研究者直接将人类偏好整合进了 LLM 以增强其性能。
这个过程常日涉及两个紧张步骤：褒奖模型学习和强化学习策略演习。
在褒奖模型学习阶段，会利用 prompt 和配对的相应演习一个显式的逐点褒奖函数。
之后，开始强化学习策略演习阶段；在这个阶段，LLM 和预演习褒奖模型分别作为一个强化学习框架中的智能体和环境。
为了演习 InstructGPT，要用到三个数据集：1.SFT 数据集：包含用于演习 SFT 模型的标注者演示。
2.RM（褒奖模型）数据集：由人类标注者对模型输出的排名构成，用于演习褒奖模型。
3.PPO 数据集：由用作 RLHF 微调输入的 prompt 构成。
演习后的 InstructGPT 会在三个方面得到评估：有用性、可信度、有害性。
从结果上看，人类评估表明「比较于 175B 的 GPT-3，人们更偏好 1.3B 参数版本的 InstructGPT 模型的输出，只管后者的参数量少 100 多倍。
」值得把稳的是，InstructGPT 在有用性和毒性任务上的表现均优于 GPT-3，这于对齐而言至关主要。
Anthropic 的 RLHF
Anthropic 也研究过同一主题，论文为《Training a helpful and harmless assistant with reinforcement learning from human feedback》。
OpenAI 创造 RLHF 有助于对齐，但也可能导致模型在某些 NLP 基准上的性能低落，这个征象被称为「对齐税（alignment tax）」。
其开拓的 InstructGPT 模型有 1.3B 参数。
相反，Anthropic 的研究者评估了大小在 13M 到 52B 之间的 7 种不同模型，这些模型的大小按 4 倍的几何级数增长。
他们得出结论说，对较小的模型来说，对齐会产生「税」，但对较大模型来说，对齐只有好处，尤其是参数量在 13B 到 52B 之间的模型。
考虑到对齐的这种上风，他们还实验了用编程技能数据集来提升 LLM 的能力。
OpenAI 的 RLHF 方法包含 PPO 和 PPO-ptx，个中 PPO-ptx 的设计目标便是为了降落在 NLP 基准上的对齐税。
而 Anthropic 的 RLHF 研究创造，只要模型够大，PPO 本身就能在 NLP 下贱任务上带来对齐的好处。
他们还确定了强化学习策略演习中 KL 散度的最优参数为 β = 0.001。
在线 / 迭代式 RLHF
传统上，对齐 LLM 的 RLHF 技能都是离线方法。
但这类方法有些缺陷，比如所得结果难以应对分布外数据。
为此，须要对 LLM 进行持续的微调，进行迭代式 / 在线学习，即利用中间策略为 prompt 天生相应，再利用预言机（oracle）为这样的成对数据给出偏好反馈，再将这些反馈馈送给策略。
在实践中，迭代式学习分为两个部分：偏好预言机学习和迭代式策略优化。
参阅论文《RLHF workflow: From reward modeling to online RLHF》。
2. RLAIF
获取人类偏好数据集的本钱不低，因此基于人工智能反馈的强化学习（RLAIF）出身了。
此外，随着 LLM 的能力不断进步，所能网络到的 AI 偏好数据集的质量也不断提高，由此可提升 LLM 的对齐效果。
Anthropic 的 RLAIF
Anthropic 基于 RLHF 的根本研究事情，提出了一种名为 RLAIF 的全新方法。
参阅论文《Constitutional ai: Harmlessness from ai feedback》。
该方法紧张包含两个阶段：1. 通过 Critiques（批评）和 Revisions（修订）进行监督学习，这由一个章程勾引。
2. RLAIF。
谷歌的 RLAIF
基于 Anthropic 的 RLAIF 研究成果，谷歌一个研究团队认为之前的研究无法直接比较人类反馈与 AI 反馈的效果，值得进一步研究。
在网络 AI 反馈的过程中，要创建一个构造化的 prompt，其构成包括：导言、少样本示例（可选）、要标注的样本、结尾。
为了天生 AI 反馈，须要实行一个两步式评估：首先，利用指令中的 4 个组件加上 CoT，让 LLM 天生相应。
不才一步中，这个 LLM 相应再附带上「preferred summary=」这样的结尾被发送回 LLM，从而天生「summary 1=0.6, summary 2=0.4」这样的偏好概率。
为了减少位置偏差，须要交替放置这两个相应的序列，并打算其均匀分数。
RLAIF 过程采取了两个策略：1.「蒸馏 RLAIF」，其遵照传统的 RLHF 方法，即利用偏好演习一个褒奖模型，然后再将其用于演习 LLM 策略；2. 「直接 RLAIF」，其直接将 LLM 反馈用作 prompt 来输出评估分数，再将该分数用作强化学习策略演习的旗子暗记。
末了，其评估过程会利用三个关键指标：1.AI - 标注者对齐度：AI 与人类标注者的同等程度。
2. 胜率：人类标注者比较两个候选项并选择个中某一个的可能性。
3. 无害率：人类评估者认为无害的相应的占比。
更多详情请参阅论文《RLAIF: Scaling reinforcement learning from human feedback with AI feedback》。
直接人类偏好优化
传统 RLHF 方法常日涉及到优化源自人类偏好的褒奖函数。
该方法虽有效，但也可能带来一些难题，比如增大打算繁芜度以及在估计和优化褒奖时须要考虑偏置 - 方差权衡。
参阅论文《High-dimensional continuous control using generalized advantage estimation》。
近期有研究探索了其它一些旨在根据人类偏好（无需依赖某个标量的褒奖旗子暗记）来直接优化 LLM 策略的方法。
这些方法的目标是通过更直接地利用偏好数据来简化对齐流程、降落打算开销以及实现更稳健的优化。
通过将该问题描述为一个偏好优化问题，而不是褒奖估计和最大化问题，这些方法能供应一种将措辞模型与人类判断对齐的不同视角：
SliC-HF，利用人类反馈进行序列似然校准，参阅论文《SliC-HF: Sequence likelihood calibration with human feedback》。
RSO，谢绝采样优化，参阅论文《Statistical rejection sampling improves preference optimization》。
DPO，直接偏好优化，参阅论文《Direct preference optimization: Your language model is secretly a reward model》。
DPOP，DPO-positive，参阅论文《Smaug: Fixing failure modes of preference optimisation with DPO-positive》。
β-DPO，参阅论文《β-DPO: Direct preference optimization with dynamic β》。
IPO，身份偏好优化，参阅论文《A general theoretical paradigm to understand learning from human preferences》。
sDPO，逐步 DPO，参阅论文《sDPO: Don’t use your data all at once》。
GPO，广义偏好优化，参阅论文《Generalized preference optimization: A unified approach to offline alignment》。
token 级 DPO
利用 DPO 时，褒奖会被一起分配给 prompt 和相应。
相反，利用 MDP 时，褒奖会被分配给各个动作。
后续的两篇论文在 token 层面阐述了 DPO 并将其运用扩展到了 token 级的剖析。
DPO 可以实行 token 级信用分配的研究，参阅论文《From r to Q∗: Your language model is secretly a Q-function》，宣布《这便是 OpenAI 神秘的 Q？斯坦福：措辞模型便是 Q 函数》。
TDPO，token 级 DPO，参阅论文《Token-level direct preference optimization》。
迭代式 / 在线 DPO
利用 DPO 时，会利用所有可用的偏好数据集来对齐 LLM。
为了持续提升 LLM，应该实现迭代式 / 在线 DPO。
这就引出了一个有趣的问题：如何高效地网络新的偏好数据集。
下面两篇论文深入磋商了这一主题。
自我褒奖式措辞模型，参阅论文《Self-rewarding language models》。
CRINGE，参阅论文《The cringe loss: Learning what language not to model》。
二元反馈
事实证明，网络偏好反馈比网络二元反馈（比如点赞或点踩）的难度大，因此后者可促进对齐过程的扩展。
KTO 和 DRO 这两项研究关注的便是利用二元反馈来对齐 LLM。
KTO，Kahneman-Tversky 优化，参阅论文《KTO: Model alignment as prospect theoretic optimization》。
DRO，直接褒奖优化，参阅论文《Offline regularised reinforcement learning for large language models alignment》。
领悟 SFT 和对齐
之前的研究紧张还是按顺序实行 SFT 和对齐，但事实证明这种方法很费力，并会导致灾害性遗忘。
后续的研究有两个方向：一是将这两个过程整合成单一步骤；二是并行地微调两个模型，终极再进行领悟。
ORPO，比值比偏好优化，参阅论文《ORPO: Monolithic preference optimization without reference model》。
PAFT，并行微调，参阅论文《PAFT: A parallel training paradigm for effective llm fine-tuning》。
长度掌握式 DPO 和无参考 DPO
之前有研究表明，LLM 的输出每每过于冗长。
为理解决这个问题，R-DPO 和 SimPO 的关注重心是在不影响天生性能的条件下实现对相应长度的掌握。
此外，DPO 必需参考策略来确保已对齐模型不会与参考模型有太大偏差。
相较之下，SimPO 和 RLOO 提出了一些方法，可以在不影响 LLM 效果的情形下肃清对参考模型的需求。
R-DPO，正则化 DPO，参阅论文《Disentangling length from quality in direct preference optimization》。
SimPO，大略偏好优化，参阅论文《SimPO: Simple preference optimization with a reference-free reward》，宣布《全面超越 DPO：陈丹琦团队提出大略偏好优化 SimPO，还炼出最强 8B 开源模型》。
RLOO，REINFORCE Leave-One-Out，参阅论文《Back to basics: Revisiting reinforce style optimization for learning from human feedback in LLMs》。
逐列表的偏好优化
之前在 PPO 和 DPO 方面的研究关注的是成对偏好，而 RLHF 方面的研究则是网络逐列表的偏好来加速数据网络过程，之后再将它们转换成成对偏好。
只管如此，为了提升 LLM 的性能，直策应用逐列表的数据集来实行偏好优化是可行的。
以下三篇论文专门谈论了这种方法。
LiPO，逐列表偏好优化，参阅论文《LIPO: Listwise preference optimization through learning-to-rank》。
RRHF，参阅论文《RRHF: Rank responses to align language models with human feedback without tears》。
PRO，偏好排名优化，参阅论文《Preference ranking optimization for human alignment》。
负偏好优化
这些研究有一个共同条件：当前这一代 LLM 已经在翻译和总结等任务上超越了人类性能。
因此，可以将 LLM 的输出视为期望相应，而无需依赖将人类标注的数据视为偏好相应；这样做是有好处的。
反过来，不期望得到的相应依然也可被用于对齐 LLM，这个过程便是所谓的负偏好优化（NPO）。
NN，否定负例方法，参阅论文《Negating negatives: Alignment without human positive samples via distributional dispreference optimization》。
NPO，负例偏好优化，参阅论文《Negative preference optimization: From catastrophic collapse to effective unlearning》。
CPO，比拟偏好优化，参阅论文《Contrastive preference optimization: Pushing the boundaries of llm performance in machine translation》。
纳什学习
之前的研究常日是利用逐点褒奖和 BT 模型来得到成对偏好。
但是，这种方法比不上直接成对偏好建模并且无法办理成对偏好中的不一致问题。
为了战胜这些局限，一些研究提出了纳什学习方法。
根据人类反馈的纳什学习，参阅论文《Nash learning from human feedback》。
SPPO，自博弈偏好优化，参阅论文《A minimaximalist approach to reinforcement learning from human feedback》。
DNO，直收受接管什优化，参阅论文《Direct nash optimization: Teaching language models to self-improve with general preferences》。
不同方法的比较
一些研究则是为了比较这些不同方法。
这类研究可以阐释每种方法各自的优缺陷。
评估 DPO 及其变体
论文《Insights into alignment: Evaluating dpo and its variants across multiple tasks》在推理、数学问题求解、可信度、问答和多任务理解等多种任务上全面评估了隐式褒奖模型，即无强化学习算法，包括 DPO、KTO、IPO 和 CPO。
这些评估涉及三个不同场景：1) 微调监督衰落调（SFT）模型、2) 微调预演习模型、3) 微调指令模型。
该研究创造，在大多数基准上，KTO 比其它对齐方法更优。
此外，研究表明，对齐并不会显著提升模型的推理和问答性能，但确实能大幅提升模型的数学问题求解能力。
该研究还把稳到了数据量的主要性，对齐方法在较小的数据子集上的性能最佳。
此外，研究创造 KTO 和 CPO 能有效绕过 SFT 阶段，在不影响性能的条件下直接进入对齐阶段。
比较之下，当绕过 SFT 阶段，直接进入对齐阶段时，DPO 和 IPO 会表现出明显的性能低落。
DPO 是比 PPO 更好的 LLM 对齐方法吗？
论文《Is DPO superior to PPO for LLM alignment? A comprehensive study》表明，DPO 可能存在固有局限，可能会产生有偏差的解答，并可能由于分布变革而导致性能低落，
他们创造，DPO 演习出的策略方向于未曾见过的相应，尤其是分布外的样本。
而迭代式 / 在线 DPO 则能缓解这个问题，其做法是广泛探索相应空间并不断更新参考模型。
相较之下，RLHF/PPO 则是通过上风归一化、大批量大小以及对参考模型利用指数移动均匀来办理这些寻衅。
终极，这些创造表明 PPO 优于迭代式 / 在线 DPO，而这又进一步优于标准 DPO。
更多详情可参阅机器之心专栏文章《ICML 2024 Oral | DPO 是否比 PPO 更适宜 LLM，清华吴翼团队最新揭秘》。
未来方向
通过剖析过往论文，该团队确定了一些有待进一步探索的研究问题。
用于对齐评估的一样平常任务
不同论文利用了不同的任务来评估这些方法的性能。
但是，GSM8K 等一些任务更关注推理，可能并不适宜用于评估对齐性能。
相反，TruthfulQA 等任务或那些关注毒性的任务应该优先考虑，以评估已微调 LLM 的毒性。
应该想办法将这些任务组合起来，创建一个用于评估对齐的统一排行榜。
将隐式褒奖模型、逐列表偏好和纳什学习用于更大规模的措辞模型
目前，利用隐式褒奖模型的最大模型的参数量也不过 70B。
如果能将这些方法扩展用于更大的模型，比如 GPT-4 和 Claude-3 大小的模型，那该当能帮助我们更好地理解它们与 RLHF/PPO 的相对效果。
类似地，逐列表偏好模型也值得进一步研究。
利用 RLHF 时，要利用逐列表偏好网络偏好数据集，之后再将其转换成多对成对偏好数据。
大规模运用逐列表偏好模型的潜在问题依然有待办理。
末了，纳什学习可以办理人类标注者之间的不一致问题。
如果能将纳什学习模型集成到更大规模的 LLM 中，就可以证明其捕获人性繁芜性的能力。
有关二元反馈的实验
KTO 和 DRO 都采取了「点赞」和「点踩」这样的二元反馈机制，而不是成对偏好。
这些二元反馈来自偏好数据集，个中将期望相应标记成正例，将不期望相应标记成负例。
我们还须要对现实的二元数据集进行进一步研究。
此外，比较于偏好数据，二元数据集更随意马虎网络，因此有望利用更大规模的二元反馈数据集来进行对齐。
但是，二元反馈中的噪声可能比偏好数据集中的噪声更加明显，因此如何有效滤除有噪声数据也是一个非常有趣的研究方向。
实验研究有用的 AI 反馈
目前的 AI 反馈紧张包括 RLAIF 中的无害反馈和迭代式 DPO 中的反馈排名。
但是，利用 RLAIF 时，有用反馈依然是由人类标注者供应。
这种方法是合理的，由于天生有用相应的难度比识别有害反馈明显大得多。
一个有趣的未来研究方向是利用 LLM 来天生有用的反馈，由此让 LLM 可以自我提升。
加速纳什学习
纳什学习方法可以有效建模成对偏好并办理人类标注之间的不一致问题。
但是，它必需多次迭代才能收敛到最优策略。
只管其作者没有明说对齐所需的韶光，但可预测其会比 DPO 等隐式褒奖模型慢得多。
因此，提升纳什学习过程的速率也是一个值得关注的研究方向。
迭代 / 在线学习的终止
在利用迭代 / 在线演习时，确定终止迭代的韶光很关键。
之前有研究创造，迭代式学习有时会降落 LLM 在某些任务上的性能，这可能是过拟合的迹象。
但是，目前还没有研究者探索如何确定终止迭代的合理 epoch。
简化 SFT + 对齐
当前的方法常日因此一种连续办法实现 SFT 和对齐。
但是，这种方法每每会导致灾害性遗忘，并让全体演习过程变得更加费力。
PAFT 方法减轻灾害性遗忘的办法是先分别微调 SFT 和对齐然后再将它们领悟到一起，但这也会提升繁芜性。
相较之下，ORPO 技能是同时整合这两个过程，但却会导致性能低落。
那么，该如何有效地将 SFT 和对齐组合起来实现高性能同时又坚持高效率呢？这还是一个有待办理的寻衅。
更多细节拜会原论文。

标签：偏好对齐