[問題] 缺少資料時的likelihood function

看板Statistics作者 (307)時間3年前 (2020/08/26 18:33), 3年前編輯推噓0(0027)
留言27則, 3人參與, 3年前最新討論串1/1
如果是跟統計軟體有關請重發文章,使用程式做為分類。 統計軟體,如SPSS, AMOS, SAS, R, STATA, Eviews,請都使用程式做為分類 請詳述問題內容,以利板友幫忙解答,過短文章依板規處置,請注意。 為避免版面混亂,請勿手動置底問題,善用E做檔案編輯 這是看hogg數統(第7版),EM演算法那一節時遇到的問題 https://i.imgur.com/hbha8dA.jpg
https://i.imgur.com/HOYVtOR.jpg
圖中的6.6.1式我看了很久都不知道是怎麼來的 我的理解是X和Z都有相同的pdf 所以6.6.2才會寫成這個樣子 但是不知道為什麼6.6.1中,前面還會多乘 [1-F(a-theta)]^n2 另外一個問題是 如果「X和Z都有相同的pdf」這個理解沒錯 那為什麼在第二張圖中,還會從6.6.13來得出Z的pdf? 那如果Z的pdf確實和X不同,而是像第二張圖寫的:f(z-theta) / [1-F(a-theta)] 那為什麼6.6.2的likelihood又會寫成這樣? 我覺得我好像連第一段描述的內容都沒有很完全理解 所以對於後面這些式子才會都搞不太清楚彼此的關係 麻煩大家解惑了 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.67.176 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1598438003.A.27E.html ※ 編輯: iphone2003 (140.112.67.176 臺灣), 08/26/2020 18:34:07

08/26 21:26, 3年前 , 1F
censor
08/26 21:26, 1F

08/26 22:32, 3年前 , 2F
你知道有n2個z 他們都大於a 但不知確切數值
08/26 22:32, 2F

08/28 08:13, 3年前 , 3F
(11)式是 conditional likelihood, 也就是 n2 個 censored
08/28 08:13, 3F

08/28 08:15, 3年前 , 4F
data 的機率乘上 n1 個 observations 的聯合 p.d.f.,
08/28 08:15, 4F

08/28 08:16, 3年前 , 5F
(12) 式是假設的 complete likelihood, 也就是如果 n1+n2
08/28 08:16, 5F

08/28 08:17, 3年前 , 6F
observations 都能觀測到, 其聯合 p.d.f.
08/28 08:17, 6F

08/28 08:20, 3年前 , 7F
EM-algorithm 是利用已觀測到的(n1個 x's 及 n2個censored)
08/28 08:20, 7F

08/28 08:22, 3年前 , 8F
以 "平均法" 插補未觀測到的 z's. 再把這些插補資料代入
08/28 08:22, 8F

08/28 08:24, 3年前 , 9F
complete likelihood. 而文中是直接求 complete likelihood
08/28 08:24, 9F

08/28 08:25, 3年前 , 10F
之對數的期望值, 整合前述兩步驟, 這就是 E-step.
08/28 08:25, 10F

08/28 08:27, 3年前 , 11F
所以 Q 就是以插補的 z's 代入的 complete likelihood,
08/28 08:27, 11F

08/28 08:28, 3年前 , 12F
所以 M-step (maximum likelihood) 就是極大化 Q 的值.
08/28 08:28, 12F
感謝大家的回覆,不過我還是沒有很懂 首先是關於censored data 其實這是我第一次看到這個詞,查了一下之後的理解感覺是「有觀測但是不知道正確的值 為何」 而這些censored data (Z) 跟X是獨立的 那我不太懂的地方是,11式的L(theta|x)為什麼會是conditional likelihood? L(theta|x)看起來跟Z沒有關聯,為何會需要考慮Z的機率? 另外一個問題是 如果我前面對censored data的理解無誤,那Z本質上應該是跟X有一樣的pdf吧(? 那麼第二張圖片的前兩行,文中提到的 「Z1,....Zn2 are iid with the common pdf f(z-theta)/[1-F(a-theta)] 」 感覺就有點奇怪? ※ 編輯: iphone2003 (114.136.10.238 臺灣), 08/29/2020 03:53:15

08/30 18:11, 3年前 , 13F
把(11)稱 conditional likelihood 是我的錯.
08/30 18:11, 13F

08/30 18:14, 3年前 , 14F
由於 n2 個 z's 只知道 z_i > a, 因此只能由 P[Z_i>a;θ]
08/30 18:14, 14F

08/30 18:16, 3年前 , 15F
獲得 θ 的訊息. 所以由 observed data 給的 information
08/30 18:16, 15F

08/30 18:17, 3年前 , 16F
用 (11) 戌表示. 而如果不是 censored at a, 所有 z's 也被
08/30 18:17, 16F

08/30 18:19, 3年前 , 17F
完全觀測到, 這假想的, 完整的 likelihood 就是 (12) 式.
08/30 18:19, 17F

08/30 18:21, 3年前 , 18F
雖然 n2 個 z's 未被完整觀測到, 但卻知道它們大於 a, 這當
08/30 18:21, 18F

08/30 18:23, 3年前 , 19F
然也攜帶了 θ 的 information, 因此不能直接把它們丟棄不
08/30 18:23, 19F

08/30 18:25, 3年前 , 20F
用. 所以, 或者用 (11) 式進行統計推論, 或者如文中以 (12)
08/30 18:25, 20F

08/30 18:26, 3年前 , 21F
戌為基礎進行 EM algorithm 對 θ 做估計.
08/30 18:26, 21F

08/30 18:29, 3年前 , 22F
Unconditionally, z_i's 和 x_j's 是 i.i.d., conditional
08/30 18:29, 22F

08/30 18:31, 3年前 , 23F
on z_i>a,則 z_1,...,z_n2 是i.i.d. f(z_i-θ)/[1-F(a-θ)]
08/30 18:31, 23F

08/30 18:34, 3年前 , 24F
(13) 式就是 given observed data 時 z's 的聯合條件p.d.f.
08/30 18:34, 24F

08/30 18:36, 3年前 , 25F
而由(13)式知此條件p.d.f.與諸 x's 無關, 只和 a 有關.
08/30 18:36, 25F

08/30 18:38, 3年前 , 26F
而且(13)式明白顯示了 z_i's 在共同 censoring time a 之下
08/30 18:38, 26F

08/30 18:38, 3年前 , 27F
是 i.i.d. 的.
08/30 18:38, 27F
了解了,這個說明有看比較懂了 非常感謝! ※ 編輯: iphone2003 (36.226.12.16 臺灣), 09/01/2020 02:38:02
文章代碼(AID): #1VHZfp9- (Statistics)