Meta-Controller (Bandit)

Bandit Arms

ArmPulls Toplam RewardOrtalama Reward
autotune 0 0.000 0.000
autouniverse 0 0.000 0.000
autofeature 0 0.000 0.000
autoexplain 1 0.000 0.000

Açıklama

UCB1 algoritması 4 alt-sistem arasında bütçe dağıtır. Her tour next_arm() en yüksek mean_reward + √(2·ln(N)/n_k) skoruna sahip arm'i seçer. Cold-start: hiç çekilmemiş arm sonsuz priority alır.