[問題] outliers 問題
板上各位前輩好
小弟最近在讀有關outliers時有些問題想請教
在Kutner的APPLIED LINEAR REGRESSION MODELS中
as a guideline for identifying influential cases,we suggest considering a
case influential if the absolute value of DFFITS values exceeds 1 for small
to median data sets and 2*sqrt(p/n) for large data sets.
我不太懂這一段的意思
在Rousseeuw的ROBUST REDRESSION AND OUTLIER DETECTION中
只說假如DFFITS大於2*sqrt(p/n)需要仔細審查
是說Kutner定義的比Rousseeuw嚴格?
還是Kutner那一段的意思其實跟Rousseeuw差不多?
在Regression Diagnostics: Detection of Model Violations中說
只要DFITS的絕對值大於2*sqrt((p+1)/(n-p-1))
就歸類於有影響力的點
這與前兩本書不一樣
差異性會很大嗎?
實作上要排除outlier通常會使用哪一種方法?
先謝謝各位了
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 134.208.35.73
※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1432908940.A.B03.html
→
05/30 14:32, , 1F
05/30 14:32, 1F
→
05/30 21:21, , 2F
05/30 21:21, 2F
→
05/30 22:29, , 3F
05/30 22:29, 3F