<form id="dlljd"></form>
        <address id="dlljd"><address id="dlljd"><listing id="dlljd"></listing></address></address>

        <em id="dlljd"><form id="dlljd"></form></em>

          <address id="dlljd"></address>
            <noframes id="dlljd">

              聯系我們 - 廣告服務 - 聯系電話:
              您的當前位置: > 關注 > > 正文

              今日熱搜:KL散度、交叉熵、概率分布的差異是什么?時間序列中的概率分布

              來源:CSDN 時間:2023-03-07 11:45:58

              在看論文《Detecting Regions of Maximal Divergence for Spatio-Temporal Anomaly Detection》時,文中提到了這三種方法來比較時間序列中不同區域概率分布的差異。


              (資料圖)

              KL散度、JS散度和交叉熵

              三者都是用來衡量兩個概率分布之間的差異性的指標。不同之處在于它們的數學表達。

              對于概率分布P(x)和Q(x)

              1)KL散度(Kullback–Leibler divergence)

              又稱KL距離,相對熵。

              當P(x)和Q(x)的相似度越高,KL散度越小。

              KL散度主要有兩個性質:

              (1)不對稱性

              盡管KL散度從直觀上是個度量或距離函數,但它并不是一個真正的度量或者距離,因為它不具有對稱性,即D(P||Q)!=D(Q||P)。

              (2)非負性

              相對熵的值是非負值,即D(P||Q)>0。

              2)JS散度(Jensen-Shannon divergence)

              JS散度也稱JS距離,是KL散度的一種變形。

              但是不同于KL主要又兩方面:

              (1)值域范圍

              JS散度的值域范圍是[0,1],相同則是0,相反為1。相較于KL,對相似度的判別更確切了。

              (2)對稱性

              即 JS(P||Q)=JS(Q||P),從數學表達式中就可以看出。

              3)交叉熵(Cross Entropy)

              在神經網絡中,交叉熵可以作為損失函數,因為它可以衡量P和Q的相似性。

              交叉熵和相對熵的關系:

              以上都是基于離散分布的概率,如果是連續的數據,則需要對數據進行Probability Density Estimate來確定數據的概率分布,就不是求和而是通過求積分的形式進行計算了。  

              個人理解:

              1、KL散度本質是用來衡量兩個概率分布的差異一種數學計算方式;由于用到比值除法不具備對稱性;

              2、神經網絡訓練時為何不用KL散度,從數學上來講,它們的差異在于KL散度多減了一個 H(P);P代表真實分布,Q代表估計的分布

              從損失函數角度來看,在訓練樣本固定的情況下,H(P)是個常數,對梯度更新沒有價值;所以兩者的最優解是一樣的;

              責任編輯:

              標簽:

              相關推薦:

              精彩放送:

              新聞聚焦
              Top 中文字幕在线观看亚洲日韩