[問題] outliers 問題

看板Statistics作者 (滷蛋)時間9年前 (2015/05/29 22:15), 編輯推噓0(003)
留言3則, 3人參與, 最新討論串1/1
板上各位前輩好 小弟最近在讀有關outliers時有些問題想請教 在Kutner的APPLIED LINEAR REGRESSION MODELS中 as a guideline for identifying influential cases,we suggest considering a case influential if the absolute value of DFFITS values exceeds 1 for small to median data sets and 2*sqrt(p/n) for large data sets. 我不太懂這一段的意思 在Rousseeuw的ROBUST REDRESSION AND OUTLIER DETECTION中 只說假如DFFITS大於2*sqrt(p/n)需要仔細審查 是說Kutner定義的比Rousseeuw嚴格? 還是Kutner那一段的意思其實跟Rousseeuw差不多? 在Regression Diagnostics: Detection of Model Violations中說 只要DFITS的絕對值大於2*sqrt((p+1)/(n-p-1)) 就歸類於有影響力的點 這與前兩本書不一樣 差異性會很大嗎? 實作上要排除outlier通常會使用哪一種方法? 先謝謝各位了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 134.208.35.73 ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1432908940.A.B03.html

05/30 14:32, , 1F
hat matrix?
05/30 14:32, 1F

05/30 21:21, , 2F
對,是用hat matrix
05/30 21:21, 2F

05/30 22:29, , 3F
也參考其他指標呢?例如Cook's D?
05/30 22:29, 3F
文章代碼(AID): #1LQ7ICi3 (Statistics)