Name		Name	Last commit message	Last commit date
parent directory ..
1.rlhf相关		1.rlhf相关
2.强化学习		2.强化学习
DPO		DPO
大模型RLHF：PPO原理与源码解读		大模型RLHF：PPO原理与源码解读
策略梯度（pg）		策略梯度（pg）
近端策略优化(ppo)		近端策略优化(ppo)
README.md		README.md

README.md

07.强化学习

7.1 强化学习原理

策略梯度（pg）

近端策略优化(ppo)

7.2 RLHF

大模型RLHF：PPO原理与源码解读

7.3 一些题目