[問題] EM演算法,填補缺失值

看板Statistics作者 (dann)時間7年前 (2018/12/09 15:53), 編輯推噓8(8053)
留言61則, 5人參與, 7年前最新討論串1/1
大家好,最近在讀EM(expectation maximization) algorithm,卡關了...QQ 在網路上 搜尋了一番,苦惱了兩天也找不到答案 卡關的部分主要在於,不太懂如何用EM去填補缺失值 (missing values imputation) 先說我對於EM本身的了解程度: 我對於EM的理解來自於這篇文:https://reurl.cc/Y9NRL 文中提到的算法推導過程我大概可以懂,對於文中提到的EM其中一種使用方法我也可以懂 。(文中提到可以使用EM去把200個人(有男有女)分成兩群,男&女,並且分別估計這兩群 的分佈的參數) 但是我想不通如何用EM去填補缺失值,網上也找不到實例說明。 我的猜想是.. 參考文中提到的notation,我們把x另為observed, 那z就是missing value s 我們最主要目的是要最大化 L(x,z | θ ),然後透過EM的不斷迭代去不斷估計z,最後收 斂,填補缺失值? 如果我的這個猜想是對的,那麼有兩個問題: 1, 文中的p,也就是機率密度函數,要如何設定。 另外我看到有人用SPSS,https://reurl.cc/dXkvk,選擇normal!這個也很讓人困惑。 這是代表一個datasets裏頭,所有的variables都分別是normal distribution,然後最大 概似估計的p是所有的normal混在一起嗎? 1, 文中提到的E-step,僅得出z的posterior probability,可以用這個資訊來得到z的估 計值嗎? 如果missing values有5個,那估計出來的是對應到5個中哪一個? 如果我上面兩個問題很不清楚,甚至是根本問錯問題...真的很抱歉。 覺得現在一片混亂..QQ 可能處在一個連問問題都不太知道該怎麼問的狀態 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.231.125.22 ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1544341983.A.94C.html

12/09 18:16, 7年前 , 1F
都用em了,為什麼要補值?
12/09 18:16, 1F

12/09 18:17, 7年前 , 2F
直接進到後面的m啊...
12/09 18:17, 2F

12/09 19:25, 7年前 , 3F
obarisk: 大大不好意思,我不太懂你的意思。我今天的
12/09 19:25, 3F

12/09 19:25, 7年前 , 4F
主要目的就是要 impute missing values,然後想要用 EM
12/09 19:25, 4F

12/09 19:25, 7年前 , 5F
的方式,什麼叫做不用補值...
12/09 19:25, 5F

12/10 03:44, 7年前 , 6F
請問你有沒有去臉書的相關社團詢問過?
12/10 03:44, 6F

12/10 19:02, 7年前 , 7F
jayfei2000 : 沒有,好奇怎麼會這樣問
12/10 19:02, 7F

12/10 20:09, 7年前 , 8F
EM是計算資料有遺失或是未觀察的變數下的likelihood
12/10 20:09, 8F

12/10 20:09, 7年前 , 9F
,通常遺失或未觀察的值並不會直接拿來用,它只是過
12/10 20:09, 9F

12/10 20:09, 7年前 , 10F
程中的一個參數而已。
12/10 20:09, 10F

12/10 20:14, 7年前 , 11F
最常見的例子是GMM,它是假設資料來自多群Gaussian
12/10 20:14, 11F

12/10 20:14, 7年前 , 12F
分佈(常態),而我們不知道它mixture的比例,我們
12/10 20:14, 12F

12/10 20:14, 7年前 , 13F
透過對沒有觀察到的變數Z,代表各群,進而求得每一
12/10 20:14, 13F

12/10 20:14, 7年前 , 14F
群的mean跟variance。當然我們最後可以z當做cluster
12/10 20:14, 14F

12/10 20:14, 7年前 , 15F
ing的output。
12/10 20:14, 15F

12/10 21:37, 7年前 , 16F
celestialgod: 謝謝回覆。你提到通常遺失或未觀察的
12/10 21:37, 16F

12/10 21:37, 7年前 , 17F
值並不會直接拿來用,這句話我有疑問。
12/10 21:37, 17F

12/10 21:37, 7年前 , 18F
因為我在網路看過許多例子,以及一些實證研究的論文有
12/10 21:37, 18F

12/10 21:37, 7年前 , 19F
用EM來填補缺失值,得到不錯效果,也常看到一種說法是
12/10 21:37, 19F

12/10 21:38, 7年前 , 20F
,EM通常是除了multiple imputation法之外,最被推薦
12/10 21:38, 20F

12/10 21:38, 7年前 , 21F
的填補缺失值的方法。
12/10 21:38, 21F

12/10 21:38, 7年前 , 22F
舉國內最知名的統計顧問,晨晰統計為例,他使用SPSS,
12/10 21:38, 22F

12/10 21:38, 7年前 , 23F
將EM法拿來填補缺失值:https://reurl.cc/Mba4n
12/10 21:38, 23F

12/10 21:38, 7年前 , 24F
但是..小弟我搞到懷疑人生..懷疑自己不適合繼續做統計
12/10 21:38, 24F

12/10 21:38, 7年前 , 25F
、讀數學.. 搜尋了三天還是想不通具體而言是怎麼填補
12/10 21:38, 25F

12/10 21:38, 7年前 , 26F
的QQ
12/10 21:38, 26F

12/10 21:38, 7年前 , 27F
我自己猜是這樣:用大大你提到的notation:Z,隱藏變量
12/10 21:38, 27F

12/10 21:38, 7年前 , 28F
,然後令X為觀察值。 每一次E-step,填補的缺失值就是
12/10 21:38, 28F

12/10 21:38, 7年前 , 29F
E(Z | X,θ)。 我最主要問題是..這個期望值的機率密
12/10 21:38, 29F

12/10 21:38, 7年前 , 30F
度函數是什麼?X要取所有的觀察值嗎?還是只要取同一
12/10 21:38, 30F

12/10 21:38, 7年前 , 31F
個case的其他觀察值即可?諸如此類細節步驟的問題
12/10 21:38, 31F

12/10 22:41, 7年前 , 32F
如果是專業的話,請讀
12/10 22:41, 32F

12/10 22:41, 7年前 , 33F
Statistical Analysis with Missing Data
12/10 22:41, 33F

12/10 22:43, 7年前 , 34F
Little, Rubin
12/10 22:43, 34F

12/10 22:44, 7年前 , 35F
然後自己寫一次 EM。分配看你的假設,套裝軟體應該就是常
12/10 22:44, 35F

12/10 22:45, 7年前 , 36F
態,自己寫EM就看你怎麼假設分配
12/10 22:45, 36F

12/10 22:45, 7年前 , 37F
但是EM的精神真的不是用來補值...值一補進去,統計量就
12/10 22:45, 37F

12/10 22:45, 7年前 , 38F
就會受影響
12/10 22:45, 38F

12/11 00:21, 7年前 , 39F
臉書的相關社團 有一些高手存在,
12/11 00:21, 39F

12/11 00:21, 7年前 , 40F
就我所知道的「大學數學」這個社團裡面有各個大學的
12/11 00:21, 40F

12/11 00:21, 7年前 , 41F
助教跟博士研究生。
12/11 00:21, 41F

12/11 00:21, 7年前 , 42F
所以你去找一找臉書的相關社團 (國內外)詢問,
12/11 00:21, 42F

12/11 00:21, 7年前 , 43F
說不定也可以得到答案。
12/11 00:21, 43F

12/11 00:21, 7年前 , 44F
臉書的外國社團是五花八門的,
12/11 00:21, 44F

12/11 00:21, 7年前 , 45F
什麼都有。
12/11 00:21, 45F

12/11 20:07, 7年前 , 46F
可是要用EM的前提是要知道資料的分布
12/11 20:07, 46F

12/11 20:07, 7年前 , 47F
通常資料也不是常態那麼簡單,我無法理解你說的
12/11 20:07, 47F

12/11 20:08, 7年前 , 48F
除了multiple imputation外,最常用的是EM這句話
12/11 20:08, 48F

12/11 20:08, 7年前 , 49F
我還是覺得像是obarisk板友說的去看專業書籍所討論
12/11 20:08, 49F

12/11 20:08, 7年前 , 50F
的方法會比較好
12/11 20:08, 50F

12/11 20:10, 7年前 , 51F
至於你問的問題,我覺得你應該直接去看一下GMM怎麼
12/11 20:10, 51F

12/11 20:10, 7年前 , 52F
推導比較有感覺
12/11 20:10, 52F

12/11 22:56, 7年前 , 53F
Gaussian Mixture Model嗎
12/11 22:56, 53F

12/11 22:56, 7年前 , 54F
確實比較容易瞭解EM
12/11 22:56, 54F

12/12 08:54, 7年前 , 55F
E(Z|X,θ)只適用在logL為Z的線性函數才是對的.
12/12 08:54, 55F

12/12 08:55, 7年前 , 56F
一般就只有Binomial,Normal,Mixture才像是在impute.
12/12 08:55, 56F

12/12 08:56, 7年前 , 57F
其他情形可不一定是.
12/12 08:56, 57F

12/12 08:58, 7年前 , 58F
E-step的正確說法並不是在補遺失值.
12/12 08:58, 58F

12/12 09:00, 7年前 , 59F
Wiki上的 Expectation–maximization algorithm 講得很
12/12 09:00, 59F

12/12 09:00, 7年前 , 60F
清楚.
12/12 09:00, 60F

12/15 21:55, 7年前 , 61F
謝謝各位 解說,我再看看
12/15 21:55, 61F
文章代碼(AID): #1S3CdVbC (Statistics)