RL Algorithm 2026 · 04 · 21 9 min read

价值函数与时序差分

V 与 Q 衡量「处境有多好」。TD 学习把蒙特卡洛的无偏与动态规划的自举结合起来。

1. 两个价值函数

V(s) ← V(s) + α [ r + γ V(s') − V(s) ]

方括号内是 TD 误差，它驱动价值估计向更准的方向移动。Q-learning 就是基于 Q 的 off-policy TD 控制。

标签 #reinforcement-learning#value-function#td-learning