多臂老虎机
面前四台老虎机,每台中奖率不同,但你事先不知道。想赢得最多,就得在两件事之间权衡:利用——一直拉目前看起来最好的那台;探索——偶尔试试别的,万一有更好的呢?只利用,可能一开始就押错、错过真正的好机器;只探索,又白白浪费机会。这就是强化学习里最核心的``探索 vs 利用’‘难题。
点任意一台老虎机拉一下(赢了变绿、输了变红);或用下面的 ε-greedy 自动玩——它绝大多数时候拉最好的,偶尔随机探索一台。``估计胜率''会随着拉的次数越来越准。
拉了 0 次 · 赢了 0 次
利用 Exploit
拉目前估计最好的那台,把已知的好机会用足。
探索 Explore
偶尔随机试别的,避免因为前几次手气而错判、错过真正最好的。
ε-greedy
用一个小概率 ε 去探索、其余时间利用——简单却有效地平衡两者。