Re: [其他] Log-likelihood 計算結果的解釋
※ 引述《fefi (女王妃)》之銘言:
: 底下 a, b, c, d 分別為整數。
: a, b 表在 c, d 群體下某特徵統計出來的個數,c, d 則是該群體的總個數為多少
: (通常 d >> c)。
: | C1 | C2
: -------+-------+-------
: No. | a | b
: -------+-------+-------
: Total | c | d
: c * (a + b)
: E1 = ---------------
: c + d
: d * (a + b)
: E2 = ---------------
: c + d
: / / a \ / b \ \
: G2 = 2* | a * ln| ------ | + b * ln| ------ | |
: \ \ E1 / \ E2 / /
: 想請問一下大家,針對 G2 算出來的結果,應該要如何解釋比較妥當呢?
: 底下有幾個例子:
: c = 11633
: d = 54963
: a = 303 b = 1651 G2 = -4381.798828
: a = 43 b = 179 G2 = -424.9684753
: a = 47 b = 4 G2 = 137.6563263
: a = 19 b = 1 G2 = 58.77076721
---
<1>
G2 前兩個數據很像有算錯的樣子, 我程式跑出來分別是 5.3777 和 0.5416
( 而且 G2 一定 ≧0 )
<2>
一般在分析數據時, G2 會扮演著 performance 的角色
也就是你根據背後所假設的 model, 訂出一套相對客觀的評比標準
來決定出你所假設的 model 適不適用於觀察到的 data
因此若您想解讀 (a,b) 對 G2 的影響
應該是直接看背後的數學 model 是如何建立起來
以及 G2 在這 model 下的考量為何
若只想由數據就探討 G2 背後的意思
猶如瞎子摸象,我個人會覺得意義不大
<3>
標題下的是 "log likelihood"
代表背後一定有考慮某個數學機率模型
而 G2 則是該模型下的一個中間產物
------
例如:
假設從 {C1,C2} 間隨機抽取一個特徵值 e
則定義一個隨機變數 X , 且機率 P(X=1) = u if e屬於C1
P(X=0) = 1-u if e屬於C2
t 1-t
亦即 P(X=t) = u *(1-u)
代表著你抽到 e 是屬於 C1 的機率是 u (對應 X=1)
屬於 C2 的機率是 1-u (對應 X=0)
若你抽樣了 n 次,且假設每次抽樣皆為 iid
並且有 a個數字屬於 C1 , b 個數字屬於 C2 ( Note that n=a+b)
( 這裡不用 random sequence 的概念,怕原po看不懂XD )
則 log likelihood function of u 為: (推導省略)
n
g(u) := ln{ Π P( X = t_i) }
i=1
= a*ln(u) + b*ln(1-u)
------
我猜原po給的 G2 是 g(u) 做完 estimation 後的結果
^
再把 estimator u 帶回 g(u) (但是 u不滿足機率條件 for this example XD)
<4>
若真的硬要瞎子摸象
可以上網 google 一下 Kullback–Leibler divergence (KL divergence)
定義 P(X=1) = a/(a+b) Q(X=1) = c/(c+d)
P(X=0) = b/(a+b) Q(X=0) = d/(c+d)
1 P(X=i)
則 KL(P∥Q) = Σ P(X=i)*ln[ ─── ]
i=0 Q(X=i)
G2
= ───
2(a+b)
簡單說, KL(P∥Q) 算出來的數值是在評比 機率分佈P 和 Q 像不像
數值越小代表越像、越大越不像 ( KL(P∥Q)=0 iff P=Q )
如下表所示:
( c, d) = ( 11633, 54963) , Q(X=1) = 17.47%
(a,b) │ P(X=1) │ KL(P∥Q) │ G2
─────┼────┼─────┼───────
(303,1651) │ 15.51% │ 0.0014 │ 5.3777
(43,179) │ 19.37% │ 0.0012 │ 0.5416
(47,4) │ 92.16% │ 1.3481 │ 137.5050
(19,1) │ 95.00% │ 1.4686 │ 58.7457
可知 (43,179) 和母體群的分佈最像 (因為 KL值最小)
(19,1) 最不像 最大
若以 information theory 的角度來看 G2
很像是在比較 觀察到的資料 和 背後的資料 "差異有多大"
所以 (43,179) 和母體群差異性最小 (因為 G2值最小)
(47,4) 最大 最大
理由是 G2 大致上可寫成 取樣個數*(母體資料 - 取樣資料)
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.113.211.139
※ 編輯: doom8199 來自: 140.113.211.139 (04/23 16:00)
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 2 篇):