Meta-Controller (Bandit)
Bandit Arms
| Arm | Pulls | Toplam Reward | Ortalama Reward |
|---|---|---|---|
| autotune | 0 | 0.000 | 0.000 |
| autouniverse | 0 | 0.000 | 0.000 |
| autofeature | 0 | 0.000 | 0.000 |
| autoexplain | 1 | 0.000 | 0.000 |
Açıklama
UCB1 algoritması 4 alt-sistem arasında bütçe dağıtır. Her tour
next_arm() en yüksek
mean_reward + √(2·ln(N)/n_k)
skoruna sahip arm'i seçer. Cold-start: hiç çekilmemiş arm sonsuz priority alır.