<form id="dlljd"></form>

<address id="dlljd"><address id="dlljd"><listing id="dlljd"></listing></address></address>

<em id="dlljd"><form id="dlljd"></form></em>

<address id="dlljd"></address>
<noframes id="dlljd">

聯系我們 - 廣告服務 - 聯系電話：

您的當前位置： > 關注 > > 正文

每日觀察!UCB1策略和公式的理解解決探索與利用平衡問題

來源：CSDN 時間：2023-03-09 08:45:53

UCB公式的理解

(相關資料圖)

在解決探索與利用平衡問題時，UCB1 策略是一個很有效的方法，而探索與利用平衡問題中最經典的一個問題就是多臂賭博機問題（Multi-Armed Bandit）。

問題假設：按下搖臂后的回報取值為 1 或 0，每個搖臂獲得回報的概率服從不同的分布，但事先并不知道

問題目標：按照某種策略來按壓搖臂以獲得最大的累計回報（咦，這不就是強化學習的目標嘛）

在這個問題中，探索與利用就是：

利用（exploitation）：按壓之前獲得回報概率最高的那個臂，以獲得更高的累計回報。但是因為回報是隨機的，對每個臂的回報概率的估計并不準確，或許真實回報概率最高的那個臂并非當前估計的那個臂。

探索（exploration）：隨機地去按壓不同的臂，得到每個臂更精確的回報概率估計，從而找到真實的那個最優的臂。但是要探索，就要去按壓目前回報概率估計并不高的臂，意味著會損失一些按壓高回報搖臂的機會。

窘境：因為嘗試次數有限，所以探索和利用是矛盾的，加強一方必然削弱另一方。要想回報最大，則必須在探索和利用之中達成較好的平衡。

那如何來平衡探索和利用呢？

已有的方法包括 ? \epsilon ? - greedy 策略和 softmax 策略，可以參考[2]進行了解，這里重點講解對UCB1策略和公式的理解，見下圖：

公式中如果只有第一項，那就是一個純利用，也就是貪婪策略，它很容易陷入局部極值，而第二項的意義在于，如果我們對一個臂的了解過于少，那它的平均回報在此時的置信度是很低的，不確定度就很高，置信區間就很大（我想也可以理解為方差很大），我們就非常不相信它此時的平均回報就是它真實的平均回報，所以我們需要選擇這個臂來獲取更多的信息。

因此，第二項可以當做一個測量對臂了解多少的指標，了解越少，第二項越大。加入了第二項這個指標，我們可以說這個算法是有好奇心的，當對于一個臂的了解不夠時，它會被選中，即使這個臂的平均回報很低。

至于為什么第二項是這樣的結構，可參見[3]和[4]。

上圖的策略要求中，第一點，對平均回報的取值限制，是為了讓第一項和第二項在同一個量級中；第二項是因為每一個臂都需要至少被選擇一次，因此，在使用UCB算法時需要注意，如果可嘗試次數小于總的臂數時，那UCB就是一個純探索策略而失去意義了。

責任編輯：

標簽：

上一篇：世界短訊！抽象是什么？為什么學Java會遇到抽象？
下一篇：最后一頁

相關推薦：

精彩放送：

最新資訊

熱門排行

新聞聚焦

Top 中文字幕在线观看亚洲日韩