<form id="dlljd"></form>
        <address id="dlljd"><address id="dlljd"><listing id="dlljd"></listing></address></address>

        <em id="dlljd"><form id="dlljd"></form></em>

          <address id="dlljd"></address>
            <noframes id="dlljd">

              聯系我們 - 廣告服務 - 聯系電話:
              您的當前位置: > 關注 > > 正文

              每日觀察!UCB1策略和公式的理解 解決探索與利用平衡問題

              來源:CSDN 時間:2023-03-09 08:45:53

              UCB公式的理解


              (相關資料圖)

              在解決探索與利用平衡問題時,UCB1 策略是一個很有效的方法,而探索與利用平衡問題中最經典的一個問題就是多臂賭博機問題(Multi-Armed Bandit)。

              問題假設:按下搖臂后的回報取值為 1 或 0,每個搖臂獲得回報的概率服從不同的分布,但事先并不知道

              問題目標:按照某種策略來按壓搖臂以獲得最大的累計回報(咦,這不就是強化學習的目標嘛)

              在這個問題中,探索與利用就是:

              利用(exploitation):按壓之前獲得回報概率最高的那個臂,以獲得更高的累計回報。但是因為回報是隨機的,對每個臂的回報概率的估計并不準確,或許真實回報概率最高的那個臂并非當前估計的那個臂。

              探索(exploration):隨機地去按壓不同的臂,得到每個臂更精確的回報概率估計,從而找到真實的那個最優的臂。但是要探索,就要去按壓目前回報概率估計并不高的臂,意味著會損失一些按壓高回報搖臂的機會。

              窘境:因為嘗試次數有限,所以探索和利用是矛盾的,加強一方必然削弱另一方。要想回報最大,則必須在探索和利用之中達成較好的平衡。

              那如何來平衡探索和利用呢?

              已有的方法包括 ? \epsilon ? - greedy 策略和 softmax 策略,可以參考[2]進行了解,這里重點講解對UCB1策略和公式的理解,見下圖:

              公式中如果只有第一項,那就是一個純利用,也就是貪婪策略,它很容易陷入局部極值,而第二項的意義在于,如果我們對一個臂的了解過于少,那它的平均回報在此時的置信度是很低的,不確定度就很高,置信區間就很大(我想也可以理解為方差很大),我們就非常不相信它此時的平均回報就是它真實的平均回報,所以我們需要選擇這個臂來獲取更多的信息。

              因此,第二項可以當做一個測量對臂了解多少的指標,了解越少,第二項越大。加入了第二項這個指標,我們可以說這個算法是有好奇心的,當對于一個臂的了解不夠時,它會被選中,即使這個臂的平均回報很低。

              至于為什么第二項是這樣的結構,可參見[3]和[4]。

              上圖的策略要求中,第一點,對平均回報的取值限制,是為了讓第一項和第二項在同一個量級中;第二項是因為每一個臂都需要至少被選擇一次,因此,在使用UCB算法時需要注意,如果可嘗試次數小于總的臂數時,那UCB就是一個純探索策略而失去意義了。

              責任編輯:

              標簽:

              相關推薦:

              精彩放送:

              新聞聚焦
              Top 中文字幕在线观看亚洲日韩