RLHF

提供了基于强化学习 PPO 算法对 LLM 进行人类偏好对齐的代码及完整使用示例，支持3D 分布式并行训练以及 rollout 阶段使用预测优化进行生成加速。其中 PPO 代码实现细节参考了 PKU-Alignment/safe-rlhf（PKU Beaver）中的 PPO 实现，支持reward normalization、pretraining loss等常用的 PPO 稳定训练策略；示例使用 PKU-Alignment/safe-rlhf 提供的部分数据集和模型。后续将持续完善扩展，支持更好效果、更低成本、更高性能、更大规模的 RLHF 能力。

快速开始

项目整体组织结构如下：

./alignment
├── ppo                          # PPO 训练相关目录
│   ├── comm_utils.py            # 通信相关工具py文件
│   ├── data                     # 数据集相关目录
│   │   ├── alpaca.py            # alpaca(raw)数据集py文件
│   │   ├── base.py              # 数据集基类及工具py文件
│   │   ├── __init__.py
│   │   ├── preference.py        # 偏好数据集py文件
│   │   ├── prompt_only.py       # prompt only数据集py文件
│   │   ├── safe_rlhf.py         # safe_rlhf(raw)数据集py文件
│   │   └── supervised.py        # supervised数据集py文件
│   ├── infer_utils.py           # 生成加速工具py脚本
│   ├── models                   # 模型相关目录
│   │   ├── infer_model_utils.py # 预测加速模型补丁及工具py文件
│   │   ├── __init__.py
│   │   ├── model_pp.py          # 流水线并行模型py文件
│   │   ├── pp_model_utils.py    # 流水线并行补丁及工具py文件
│   │   ├── ppo_model.py         # PPO 相关模型实现
│   │   ├── ppo_model_utils.py   # PPO loss等模型策略py文件
│   │   ├── score_model.py       # score model模型定义py文件
│   │   └── score_model_utils.py # score model基类及工具py文件
│   ├── run_ppo.py              # RLHF训练脚本
│   ├── ppo_trainer.py           # RLHF训练执行器py脚本
│   ├── tests                    # 测试相关目录
│   │   ├── run_model.py
│   │   └── test_export.py
│   └── trainer_utils.py         # Trainer补丁及工具py脚本
├── README.md
└── rm                         # Reward Model 训练相关目录
    ├── models -> ../ppo/models
    ├── run_reward.py            # reward model训练脚本
    └── reward_trainer.py         # reward训练执行器py脚本

环境准备

Python >= 3.10
PaddlePaddle >= 2.6.0
PaddleNLP 最新版本

如需使用生成加速功能，需要安装 paddlenlp_ops ，请使用 git clone https://github.com/PaddlePaddle/PaddleNLP.git 克隆 PaddleNLP 代码库并且将 PaddleNLP/llm 目录的路径加入 PYTHONPATH（后续将进行完善）。安装 paddlenlp_ops 后训练时将直接开启生成加速（开启流水线并行时不支持生成加速），否则使用原生动态图进行生成。

数据准备

PPO 训练包括 Supervised Fine-Tuning、Reward Model Fine-Tuning、RLHF 三个阶段（可见下文训练部分），会涉及到多个数据集，下面分别介绍并给出自定义数据的方法。

Supervised Fine-Tuning 数据

同LLM 精调，可以直接参考对应内容进行数据准备。

Reward Model Fine-Tuning 数据

Reward Model Fine-Tuning 阶段需要使用人类偏好数据。示例使用 PKU-Alignment/safe-rlhf 提供的 PKU-Alignment/PKU-SafeRLHF-30K 数据集，下面是其中一条样本，这里使用其中的prompt、response_0、response_1、better_response_id字段来组织偏好数据（safe字段，该数据集将helpful 和 harmless 分开标注，示例这里使用其 helpful 标注）。

{
    "prompt": "Is it possible to purchase a complete chess set at a pawn shop?",
    "response_0": "Yes, it is possible to purchase a complete chess set at a pawn shop.",
    "response_1": "Yes, it is possible to purchase a complete chess set at a pawn shop. Pawn shops may carry chess sets that have been either inherited or previously borrowed. There is also a possibility of finding individual chess pieces such as rooks, knights, bishops, queens, and kings. If you cannot find a complete set, you may be able to purchase the various chess pieces separately.",
    "is_response_0_safe": true,
    "is_response_1_safe": true,
    "better_response_id": 1,
    "safer_response_id": 1
}

RLHF 数据

RLHF 阶段使用 prompt only 数据，另外可以可选的提供额外的监督数据用于构建 LM 损失约束 RLHF 训练。示例使用 PKU-Alignment/PKU-SafeRLHF 数据集（同样是人类偏好数据集，这里只使用其 prompt 字段并对 prompt 去重）。此外还使用了 tatsu-lab/alpaca的数据来构建额外的损失项。

以上示例数据集在训练时将自动下载缓存使用。

自定义数据

数据定义围绕 RawSample 和 RawDataset 两个预置的类进行；RawSample 提供了数据样本级别接入协议规范，RawDataset 提供了数据集级别接入协议规范；按照下面介绍的规范接入，即可通过预置的 SupervisedDataset、PreferenceDataset、PromptOnlyDataset 三类 RLHF 训练所需数据接口来使用自定义数据。

自定义数据集需要：

继承 RawDataset ，并定义类属性 NAME 用于注册数据集。
实现 __init__ 方法（加载数据），__getitem__ 方法（根据 index 获取样本并转换为 RawSample 对象返回）、__len__ 方法（数据集大小）。

示例如下：

from datasets import load_dataset
from data import RawDataset, RawSample

class MyRawDataset(RawDataset):
    NAME = 'my-dataset-name'

    def __init__(self, path=None) -> None:
        # Load a dataset from Hugging Face or any other data source
        # self.data = load_dataset(path or 'my-organization/my-dataset')['train']
        self.data = [{
            'col1': 'question',
            'col2': 'answer1',
            'col3': 'answer2',
            'col4': 1,  # score of answer1
            'col5': 2  # score of answer2
        }] * 10  # dummy data for example

    def __getitem__(self, index: int) -> RawSample:
        data = self.data[index]
        # Construct a `RawSample` dictionary from your custom dataset item
        return RawSample(
            input=data['col1'],
            answer=data['col2'],
            other_answer=data['col3'],
            better=float(data['col4']) > float(data['col5']),
        )

    def __len__(self) -> int:
        return len(self.data)  # dataset size

其中 RawSample 是整个 RLHF 训练过程用到的几种数据类型的超集，如下所示，其可以桥接各训练阶段所需样本类型。在自定义数据时，对于 SFT 数据使用 RawSample 的 (input, answer) 字段；对于人类偏好数据使用 RawSample 的 (input, answer, other_answer, better) 字段；对于 prompt only 数据，使用 RawSample 的 (input)字段。

class RawSample(TypedDict, total=False):
    """Raw sample type.

    For SupervisedDataset, should provide (input, answer) or (dialogue).
    For PreferenceDataset, should provide (input, answer, other_answer, better).
    For SafetyPreferenceDataset, should provide (input, answer, other_answer, safer, is_safe, is_other_safe).
    For PromptOnlyDataset, should provide (input).

    When input is a list, it would be processed as a dialogue.
    """

    # Texts
    input: NotRequired[str | list[str]]  # either `input` or `dialogue` should be provided
    """User input text."""
    answer: NotRequired[str]
    """Assistant answer text."""
    other_answer: NotRequired[str]
    """Other assistant answer text via resampling."""
    dialogue: NotRequired[list[str]]  # either `input` or `dialogue` should be provided
    """Dialogue history."""

    # Flags
    better: NotRequired[bool]
    """Whether ``answer`` is better than ``other_answer``."""
    safer: NotRequired[bool]
    """Whether ``answer`` is safer than ``other_answer``."""
    is_safe: NotRequired[bool]
    """Whether ``answer`` is safe."""
    is_other_safe: NotRequired[bool]
    """Whether ``other_answer`` is safe."""

如此定义的数据集将可以通过预置接口根据 NAME 来使用，当前内置支持"PKU-SafeRLHF/train", "PKU-SafeRLHF/test", "PKU-SafeRLHF-30K/train", "PKU-SafeRLHF-30K/test", "PKU-SafeRLHF-10K/train", "alpaca" 几个数据集。另外还支持使用多个数据集并指定数据比例，我们可以按照需要为每个阶段训练准备多份数据集。示例如下：

from paddlenlp.transformers import AutoTokenizer
from data import PreferenceDataset

tokenizer = AutoTokenizer.from_pretrained('facebook/llama-7b')
dataset = PreferenceDataset({
    'alpaca': 0.75,
    'my-dataset-name': 0.5
}, tokenizer)

训练

PPO 完整的训练过程包括以下 3 个阶段，如下图所示（来自DeepSpeed-Chat）：

Supervised Fine-Tuning (SFT)

同LLM 精调，可以直接参考对应内容进行训练并使用其产出模型。

Reward Model Fine-Tuning

使用 run_reward.py 脚本根据 rm_argument.json 训练奖励模型

cd rm
python -u -m paddle.distributed.launch run_reward.py ../../config/llama/rm_argument.json

rm_argument.json 中的绝大部分参数释义同LLM 精调，不再赘述；稍有区别的是 train_datasets/eval_datasets 分别使用数据集定义注册时的NAME属性给出训练和验证集。另外对于奖励模型训练有以下特殊参数配置及释义（使用 PKU-Alignment/PKU-SafeRLHF 中的默认值）：

normalize_score_during_training：是否在训练过程中对奖励进行 normalize，默认为 False。
normalizer_type：使用 normalizer 时计算 mean、var 的方式，可选"RunningMeanStd", "ExponentialMovingAverage"。
normalizer_momentum：使用 ExponentialMovingAverage normalizer 时指定的 momentum ，默认为 0.9。
loss_type：使用 token 级或是 sequence 级 loss 进行奖励模型训练，可选"token-wise", "sequence-wise"，默认为 "sequence-wise"。
regularization：奖励模型训练目标中对奖励的正则化系数，默认为 0.001。

RLHF：

RLHF 阶段需要 actor model、reference model、critic model、reward model 四个模型；actor-model/reference-model 使用 SFT 模型进行 initialize/frozen；critic-model/reward-model 使用 reward 模型进行 initialize/frozen (另外注意若 SFT 使用 LoRA 请先将 LoRA 权重合并)。这里使用 PKU-Alignment/PKU-SafeRLHF 提供的 SFT 模型（PKU-Alignment/alpaca-7b-reproduced）和 reward 模型（PKU-Alignment/beaver-7b-v1.0-reward，注意该模型只关注 helpful 未考量 harmless）作为示例，使用 run_ppo.py 脚本根据 ppo_argument.json 进行 RLHF 训练。

# 类型提升 warning 暂时通过 loglevel 屏蔽，待后续修复
cd ppo
PYTHONPATH=../../ GLOG_minloglevel=2 python -u -m paddle.distributed.launch run_ppo.py ../../config/llama/ppo_argument.json

ppo_argument.json 中的绝大部分参数释义同LLM 精调，不再赘述，重点给出以下参数配置及释义（使用 PKU-Alignment/PKU-SafeRLHF 中的默认值）：

train_datasets：使用数据集定义注册时的NAME属性给出训练集。
eval_datasets：使用数据集定义注册时的NAME属性给出验证集。
ptx_datasets：使用数据集定义注册时的NAME属性给出 ptx-loss 使用的数据集，未提供时将不使用 ptx-loss。
actor_model_name_or_path：actor-model/reference-model 用来 initialize/frozen 的模型名称或目录。
reward_model_name_or_path：reward-model 的模型名称或目录。
reward_critic_model_name_or_path：critic-model 的模型名称或目录，未提供时将使用reward_model_name_or_path进行 critic-model 的初始化。
per_device_prompt_batch_size：训练时 prompt only 数据集读取用于 rollout 生成的批次大小（每张卡）。
per_device_train_batch_size：根据 prompt 进行生成及训练使用的批次大小（每张卡）。
num_return_sequences：生成时每个 prompt 生成的回复个数，即 GenerationConfig.num_return_sequences，所有回复都将用来训练。
temperature：生成采样时使用的 temperature ，即 GenerationConfig.temperature。
top_p：生成采样时 top-p-filtering 阈值，即 GenerationConfig.top_p。
repetition_penalty：生成采样时长度惩罚系数，即 GenerationConfig.repetition_penalty。
update_iters：一次生成的数据被使用的次数。
kl_coeff：对 reward 进行 KL-Penalty 的系数。
clip_range_score：对 reward 进行裁剪的阈值。
clip_range_value：critic model（value function）对当前sequence的新值与Experience Buffer中旧值的差距超过该范围将进行裁剪。
clip_range_ratio：将当前sequence的新概率与Experience Buffer中旧概率比值裁剪到(1-clip_range_ratio, 1+clip_range_ratio)范围（PPO-Clip）。
ptx_coeff：预训练损失项 ptx-loss 的系数。

另外所有 TrainingArguments 支持参数配置将为 actor-model 和 critic-model 的训练复用（如sharding_stage），除单独提供了 critic_learning_rate/critic_weight_decay/critic_lr_scheduler_type/critic_warmup_ratio/critic_recompute 这些参数支持为 critic-model 训练单独指定相应配置。actor-model 和 critic-model 的 checkpoints 将分别保存在 output_dir 所指定目录的 policy 和 value 文件夹下。

此外为了支持更高性、更大规模的 RLHF 训练提供了以下特殊参数配置，可以按需使用：

use_fusemt：安装 paddlenlp_ops 后将在 rollout 生成时开启生成加速（开启流水线并行时不支持生成加速），通过此设置可以禁用生成加速。
eval_mode：支持为空或者设置为 "single"、"tensor_parallel"；通常可以在使用流水线并行训练时设置为"tensor_parallel"，以此在 rollout 生成阶段使用非流水线并行模型并进行生成加速。
offload_level：支持设置为"freeze_model"、"optimizer"、"train_model"或者同时使用(空格分隔)，分别指示 reward+reference 两个冻结模型、actor+critic 两个训练模型的优化器状态和模型参数的 offload/reload，用于在不同阶段 model/optimizer 使用结束后及时 offload 并在下次使用时 reload 相应参数权重以节省显存。

另外注意，在使用流水线并行时（pipeline_parallel_degree大于1）建议将 dataloader_drop_last 设置为 true, 以此避免不同batch size带来的问题。

推理

训练完成后可以直接使用 output_dir 所指定目录中 policy 文件夹下的 checkpoints 按照LLM 推理部分的介绍来进行推理，请参考相应部分内容。

Acknowledge

我们借鉴了PKU-Alignment/safe-rlhf（PKU Beaver）的优秀设计实现，在此对其作者表示感谢。

参考文献

Zheng R, Dou S, Gao S, et al. Secrets of rlhf in large language models part i: Ppo[J]. arXiv preprint arXiv:2307.04964, 2023.
Dai J, Pan X, Sun R, et al. Safe rlhf: Safe reinforcement learning from human feedback[J]. arXiv preprint arXiv:2310.12773, 2023.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

rlhf.md

rlhf.md

RLHF

快速开始

环境准备

数据准备

Supervised Fine-Tuning 数据

Reward Model Fine-Tuning 数据

RLHF 数据

自定义数据

训练

推理

Acknowledge

参考文献

Files

rlhf.md

Latest commit

History

rlhf.md

File metadata and controls

RLHF

快速开始

环境准备

数据准备

Supervised Fine-Tuning 数据

Reward Model Fine-Tuning 数据

RLHF 数据

自定义数据

训练

推理

Acknowledge

参考文献