RLHF：从人类偏好到奖励模型

人类很难给一个回答打出“7.3 分”，但很容易说出“A 比 B 好”。RLHF 就建在这种成对偏好上：先从一堆“A≻B”里拟合出一条奖励曲线 r(x)（用 Bradley-Terry 模型），再把语言模型这个“策略”往高奖励的方向推；同时拴一根 KL 缰绳，别让它为了刷分跑得离原模型太远。下面把一切压到一根一维“回答好坏”轴 x∈[0,1] 上——越靠右的回答越好，但模型一开始并不知道。拖动 β，看策略怎么从原模型滑向高分区。

上图：绿点是每对里“更好”的回答、红点是“更差”的，连线就是一条“≻”偏好；蓝线是拟合出的奖励 r(x)。下图：灰虚线是原模型 π_ref，金色是 RLHF 后的策略 π。

KL 强度 β（大＝贴着原模型，小＝只追高分） 2.00 —

策略密度：原模型 π_ref（虚线）→ RLHF 策略 π（金色）

只用成对偏好

人类不打分、只说“A 比 B 好”。Bradley-Terry 用 σ(r_W − r_L) 解释每对胜负，最大化它就拟合出奖励曲线。

π ∝ π_ref·exp(r/β)

最优策略把奖励高的回答概率抬高。β 越小，指数项越尖，概率质量越往高分区集中。

KL 拴住（β）

β 是缰绳：太松（β 小）会“奖励黑客”——为了刷高分跑到原模型从没见过的怪区域、开始胡说。