策略梯度与 PPO

直接对策略求梯度上升，是连续控制和大模型 RLHF 的主流路线。PPO 用裁剪稳住更新步长。

1. 策略梯度定理

∇J(θ) = E[ ∇ log π_θ(a|s) · A(s,a) ]

用优势函数 A 替代原始回报可显著降低方差（Actor-Critic）。

PPO 用概率比的裁剪限制单步更新幅度，避免策略一步走太远导致崩溃：

L = E[ min( r_t·A_t,  clip(r_t, 1−ε, 1+ε)·A_t ) ]

💡

为什么流行：PPO 实现简单、超参鲁棒、效果稳定，是 RLHF 对齐大模型时的默认选择之一。