策略梯度算法：从简单到复杂的演进

生活百科12小时前发布星尘导航

1 0 0

策略梯度的核心思想：获得最优策略。

算法 1： – 最简单的开始

核心思想

是最基础的策略梯度算法，思路非常直观：

有个致命问题：方差太大。就像一个学生每次考试分数波动很大，这次 90 分，超高奖励，下次 60 分，超高惩罚，导致学习过程很不稳定。

算法 2： + – 加入对比参照

解决思路：引入”参照物”

为了让学习更稳定，我们引入一个参照标准：不是看绝对分数，而是看相对表现。

核心思想：不直接使用奖励分数，而是用”奖励 – “的差值。

用考试类比理解：想象班里 5 个同学的考试成绩：

85, 75, 95, 65, 80

不用（原始）：

使用（平均分 = 80）：

的用处：

传统的：

RLOO留一法的巧妙设计

RLOO 是一种特别聪明的方法：

传统：用所有回答的平均分

RLOO 的做法：用”其他回答”的平均分

这样做的好处：

算法 3：PPO – 更稳定的学习

PPO 要解决的问题

即使有了，策略梯度算法仍然可能”用力过猛”：

问题场景：

这就像开车时猛打方向盘一样危险。

PPO 的核心创新：渐进式改进

PPO 说：”我们要改进，但不能改得太激进”

关键机制：裁剪（）

用开车比喻理解 PPO

想象你在学车：

PPO 的两个关键组件

价值网络（Value ）

2. 裁剪机制（）

PPO 完整流程

PPO 的优势如下：

算法 4：GRPO – 最新的简化方案

GRPO 的设计哲学

GRPO（群体相对策略优化）的想法是：”PPO 很好，但能不能更简单？”

PPO的”重量”：

GRPO的”轻量”：（移除了价值模型和奖励模型）

GRPO 的核心思想：群体内比较

还是用考试的例子：

PPO 的做法：

GRPO 的做法：

GRPO 的优势计算：

GRPO vs PPO 对比：

文章版权归作者所有，未经允许请勿转载。

大数据大数据查询流程详解：从入门到实操的完整指南，建议分享+收藏！

生活百科 # 信用管理 # 大数据 # 征信报告

1周前

050

速卖通直通车创意推广设置技巧：如何优化创意标题与图片？

生活百科 # 创意推广 # 图片设计 # 标题优化

7天前

050

江苏省保险业协会：跨境投保风险大，高收益承诺隐藏多重法律与金融风险

生活百科 # 保险风险 # 外汇政策 # 法律保护

4天前

020

1688货源网一件代发

生活百科 # 一件代发 # 商家筛选 # 电商

4天前

030

暂无评论

暂无评论...