策略梯度算法:从简单到复杂的演进

策略梯度的核心思想:获得最优策略。

算法 1: – 最简单的开始

核心思想

是最基础的策略梯度算法,思路非常直观:

有个致命问题:方差太大。就像一个学生每次考试分数波动很大,这次 90 分,超高奖励,下次 60 分,超高惩罚,导致学习过程很不稳定。

算法 2: + – 加入对比参照

解决思路:引入”参照物”

为了让学习更稳定,我们引入一个参照标准:不是看绝对分数,而是看相对表现。

核心思想:不直接使用奖励分数,而是用”奖励 – “的差值。

REINFORCE算法原理_策略梯度_策略梯度算法

用考试类比理解:想象班里 5 个同学的考试成绩:

85, 75, 95, 65, 80

不用 (原始 ):

使用 (平均分 = 80):

的用处:

传统的 :

RLOO留一法的巧妙设计

RLOO 是一种特别聪明的 方法:

传统 :用所有回答的平均分

RLOO 的做法:用”其他回答”的平均分

REINFORCE算法原理_策略梯度_策略梯度算法

这样做的好处:

算法 3:PPO – 更稳定的学习

PPO 要解决的问题

即使有了 ,策略梯度算法仍然可能”用力过猛”:

问题场景:

这就像开车时猛打方向盘一样危险。

PPO 的核心创新:渐进式改进

PPO 说:”我们要改进,但不能改得太激进”

关键机制:裁剪()

策略梯度算法_REINFORCE算法原理_策略梯度

用开车比喻理解 PPO

想象你在学车:

PPO 的两个关键组件

价值网络(Value )

2. 裁剪机制()

PPO 完整流程

策略梯度算法_REINFORCE算法原理_策略梯度

PPO 的优势如下:

算法 4:GRPO – 最新的简化方案

GRPO 的设计哲学

GRPO(群体相对策略优化)的想法是:”PPO 很好,但能不能更简单?”

PPO的”重量”:

GRPO的”轻量”:(移除了价值模型和奖励模型)

GRPO 的核心思想:群体内比较

还是用考试的例子:

PPO 的做法:

GRPO 的做法:

GRPO 的优势计算:

策略梯度_REINFORCE算法原理_策略梯度算法

GRPO vs PPO 对比:

策略梯度_REINFORCE算法原理_策略梯度算法 策略梯度_REINFORCE算法原理_策略梯度算法 策略梯度算法_策略梯度_REINFORCE算法原理
© 版权声明

相关文章

暂无评论

none
暂无评论...