Re: [問題] sample size少要如何使p-value更顯著

看板Statistics作者 (馬甲)時間10年前 (2015/07/17 23:11), 編輯推噓1(106)
留言7則, 4人參與, 最新討論串1/1
※ 引述《sinclairJ (SunnyGymBoy)》之銘言: : 如題 小弟目前從事有關Genome -Wide Association Studies研究 : 但目前樣本數太少(約150) : 所計算出的最顯著p-value為10^-6(x與y 相關性檢定) : 但boss希望能達到10^-8 : 想請教除了增加樣本外 : 還有其他的方法嗎? : 謝謝各位前輩指教 : 目前有想過用產生虛擬樣本的方式來增加樣本數 但我的x與y都是category 所以也卡住了 : 。。。 先說建議,乖乖申請經費增加樣本吧! (一個小助理應該是沒辦法說服老闆去要更多的錢來增加樣本的) 不過我想說個故事… 大約6年前有個國立研究機構,花了幾百萬做了GWAS, 使用的樣本大約有1000多人,來源遍佈台灣,甚至還有原住民, 使用的軟體是Plink,跑遍了軟體內建的各種檢定, 最好的結果大約也是10^-6~10^-7 當時領導的老師A為了追求更好的結果, 反覆的改變跑檢定的樣本組成, 刪掉某些沒有通過樣本品質檢驗的樣本, 降低或提高不同樣本品質檢驗的type I error, 為此整個資料的前處理高達一年之久, 但仍無法得到更低的p-value。 如果不追求更低的p-value,當時是有可能把paper發出去的, 可是過了一年,想發也沒得發了, 後續的研究團隊用的人數更多,2000-3000人是常態, p-value更是低到嚇人,-8,-9…我還看過-12的, 為了爭取把名字留在期刊上面的機會, 另外一位負責領導的老師B把資料給了NCI的教授, 結合那位教授的亞洲樣本資料,終於在該領域算不錯的期刊發表了。 利用這筆資料陸陸續續有在不同的期刊發paper, 只是能發在像PLoS、Nature Genetic的機會就再也沒有了, 故事說完了。這是從我的角度看到的種種, 當然或許老師們有他們的考量。 建議原po可以多試幾種檢定方法, 或許可以找到讓p-value降低的model。 至於為什麼需要這麼低的p-value? GWAS的中文叫「全基因組關聯性檢定」 有看到關鍵字了嗎?沒錯,就是基因。 人體的基因約有20000-25000個, 姑且不論檢定方法,每一次檢定等於同時對20000多個基因做檢定, 因此在multiple correction的原則下, 要求p-value到10^-6並非不合理的事情。 加上定序技術日新月異,基因只會越發現越多, 生物類的期刊p-value通常會要求到0.01或更低, 因此有些教授會要求到10^-8~10^-9, 如果你的鑑定標的是SNP,p-value可是直接從10^-9起跳, SNP的wiki:https://en.wikipedia.org/wiki/Single-nucleotide_polymorphism 當然做gwas的老師大多懂基因不懂統計,所以只知道p-value越低越好, 但統計有其極限,150個樣本能做到p-value=10^-6已經很厲害了, 想要更低除了換model外,就是多收集樣本, 希望能對原PO有點幫助。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.35.73.54 ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1437145876.A.6C4.html

07/17 23:17, , 1F
不太懂到10^-8這種等級的意義,可以解釋嗎?
07/17 23:17, 1F

07/17 23:46, , 2F
以某家的晶片上會有450K個點,你要同時作統計檢定
07/17 23:46, 2F

07/17 23:56, , 3F
你0.05除以45萬個點就知道有多小了
07/17 23:56, 3F

07/18 00:00, , 4F
內文有寫,multiple correction,see?
07/18 00:00, 4F

07/18 02:08, , 5F
謝謝原po的解釋 雖然我與老闆也不太喜歡try and error
07/18 02:08, 5F

07/18 02:08, , 6F
的做法 但是為了可信度 能發上基本的期刊 -8似乎是門檻
07/18 02:08, 6F

07/18 02:08, , 7F
才不斷的尋找各種方法來提升顯著程度
07/18 02:08, 7F
文章代碼(AID): #1LgHiKR4 (Statistics)