探索 vs 利用
面前几台老虎机,不知道哪台最赚。你陷入两难:一直拉目前看起来最好的那台(利用已知),还是偶尔试试别的、万一更好(探索未知)?只利用,可能一开始运气差、错把次品当宝、再也不回头;只探索,又把机会都浪费在乱试上。ε-贪心给了个简单平衡:每次以小概率 ε 随机试一台(探索),其余时候拉当前最好的(利用)。关键是 ε 调多大——拖滑块,看“总收益随 ε 变化”的曲线,找那个甜点。
左图:玩固定回合后的总收益随 ε 的变化(每个 ε 多次平均)。金线是当前 ε。右图:这一局学到的各台估值(绿=最终选中的最佳台,灰=真实期望)。
ε=0 太贪
只利用,容易一开始就锁死在一台次优的上,再也发现不了真正最好的。
中间最好
留一点探索去发现好选项,其余时间狠狠利用——总收益在某个小 ε 处最高。
ε=1 太浪
全在乱试,等于随机选,收益只是各台平均,浪费了已知的好选择。