[徵人] 統計檢定指導討論
工作內容:統計檢定專案指導,問題與瓶頸描述於後
應徵資格:有類似實務經驗者佳
工作時間:1/10前,台灣時間07-14時以外皆可(德國時間半夜以外)
工作薪資:NT1500/hr+ 可議,至少給付1hr
工作地點:Skype線上語音&螢幕分享,
我已經有code,可以當場指導、當場run
聯絡方式:請先站內信聯繫取得skype ID
備註事項:人在國外、發案者很熟悉SAS,R與python,但不是統計背景出身,
不太熟悉非常態分佈與小樣本的處理方式,還有一般作統計檢定的流程。
資料: https://pastebin.com/GS7p64gU
問題:
某工廠在一次維修中發現機械故障
懷疑某汙染物質經此滲入其樣品,
故進行抽樣檢定,以確定樣品是否遭受此機械故障造成之額外汙染。
現有資料為:
對照組(在汙染前取得之樣本)batch0,16筆資料;
以及懷疑遭受額外汙染的批次 batch1~batch7,每個batch各15或16筆資料。
每筆紀錄格式
conc=該汙染物質之濃度(arbitrary unit)。
batch=B0~B7=不同的生產批次
run=1或2=每批次隨機抽樣後,分成兩組,分別於不同的時間點測量(註1)
儀器是同一套
空白代表missing value
瓶頸:
(1) 這組數據很奇怪,對照組的分佈不太normal
Kolmogorov-Smirnov test against normality做下去,
結果 p-value = 0.057,剛好在 5% 邊緣,
但是實驗組 batch2~batch7 做 K-S test 都沒有拒絕 normality。
這種 marginal case 我如果不做常態分佈的假設,後面有辦法繼續進行嗎?
(後續我還有很明顯是non-normal的case要做 所以這部份至少觀念上必須釐清)
(2) outlier如何處理?一般邏輯為何?
在不確定整個分佈是否為常態時,
到底對照組的 outlier,應當如何偵測/處理?建議不予刪除?那實驗組呢?
(3) 能不能用 Box-Cox transformation 先把對照組樣本轉成normal?
這項技巧什麼時候可以用?
(4) 整體而言有沒有一個比較嚴謹或公認的分析邏輯?
我目前預想的邏輯是
1.確定對照組的分佈特性(常態或非常態?有沒有outliers?)
2.檢定各實驗組與對照組的 mean or median 是否有差異
3.檢定 variance
4.檢定整個分佈的 goodness of fit
但是現在還卡在1.
而且說真的我不太知道怎麼定義問題,
例如到底怎樣才叫作"檢出"?
如果有個goodness of fit (Anderson-Darling)的結果
發現實驗組跟對照組的分佈是有差異的,
但是mean跟variance都沒有明顯差異,
如此我仍然應該宣稱樣品遭到汙染嗎?
諸如此類的問題,希望能一併請益,以便後續作業。
註1:每個batch資料有兩個run(各7或8筆資料,但已跑過 Anderson-Darling test
證明兩個run沒有差異。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 62.163.65.2
※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1546708500.A.E99.html
→
01/06 19:17,
5年前
, 1F
01/06 19:17, 1F
→
01/06 19:18,
5年前
, 2F
01/06 19:18, 2F
感謝指出,已更新於上。
→
01/06 20:41,
5年前
, 3F
01/06 20:41, 3F
→
01/06 21:30,
5年前
, 4F
01/06 21:30, 4F
我的意思是,
我做box-cox transform取lambda=-1也可以弄成normal啊
Anderson-Darling D statistics = 0.1165 還算可以
問題是為什麼我可以做這件事情
為什麼取log或者box-cox transform而不是其他手段
做這件事情不會被抨擊嗎?
※ 編輯: oNeChanPhile (62.163.65.2), 01/06/2019 21:44:11
→
01/06 22:06,
5年前
, 5F
01/06 22:06, 5F
→
01/06 22:07,
5年前
, 6F
01/06 22:07, 6F
→
01/06 22:08,
5年前
, 7F
01/06 22:08, 7F
→
01/06 22:13,
5年前
, 8F
01/06 22:13, 8F
→
01/06 22:18,
5年前
, 9F
01/06 22:18, 9F
→
01/07 17:19,
5年前
, 10F
01/07 17:19, 10F
推
01/09 08:01,
5年前
, 11F
01/09 08:01, 11F
→
01/09 08:01,
5年前
, 12F
01/09 08:01, 12F
推
01/09 08:04,
5年前
, 13F
01/09 08:04, 13F
→
01/09 08:04,
5年前
, 14F
01/09 08:04, 14F
→
01/09 18:14,
5年前
, 15F
01/09 18:14, 15F