可视化资源

RLHF:从人类偏好到奖励模型

人类很难给一个回答打出“7.3 分”,但很容易说出“A 比 B 好”。RLHF 就建在这种成对偏好上:先从一堆“A≻B”里拟合出一条奖励曲线 r(x)(用 Bradley-Terry 模型),再把语言模型这个“策略”往高奖励的方向推;同时拴一根 KL 缰绳,别让它为了刷分跑得离原模型太远。下面把一切压到一根一维“回答好坏”轴 x∈[0,1] 上——越靠右的回答越好,但模型一开始并不知道。拖动 β,看策略怎么从原模型滑向高分区。

上图:绿点是每对里“更好”的回答、红点是“更差”的,连线就是一条“≻”偏好;蓝线是拟合出的奖励 r(x)。下图:灰虚线是原模型 π_ref,金色是 RLHF 后的策略 π。

2.00

策略密度:原模型 π_ref(虚线)→ RLHF 策略 π(金色)

只用成对偏好

人类不打分、只说“A 比 B 好”。Bradley-Terry 用 σ(r_W − r_L) 解释每对胜负,最大化它就拟合出奖励曲线。

π ∝ π_ref·exp(r/β)

最优策略把奖励高的回答概率抬高。β 越小,指数项越尖,概率质量越往高分区集中。

KL 拴住(β)

β 是缰绳:太松(β 小)会“奖励黑客”——为了刷高分跑到原模型从没见过的怪区域、开始胡说。