多臂老虎机

面前四台老虎机，每台中奖率不同，但你事先不知道。想赢得最多，就得在两件事之间权衡：利用——一直拉目前看起来最好的那台；探索——偶尔试试别的，万一有更好的呢？只利用，可能一开始就押错、错过真正的好机器；只探索，又白白浪费机会。这就是强化学习里最核心的“探索 vs 利用”难题。

点任意一台老虎机拉一下（赢了变绿、输了变红）；或用下面的 ε-greedy 自动玩——它绝大多数时候拉最好的，偶尔随机探索一台。“估计胜率”会随着拉的次数越来越准。

探索率 ε 0.10

拉了 0 次 · 赢了 0 次

利用 Exploit

拉目前估计最好的那台，把已知的好机会用足。

探索 Explore

偶尔随机试别的，避免因为前几次手气而错判、错过真正最好的。

ε-greedy

用一个小概率 ε 去探索、其余时间利用——简单却有效地平衡两者。