Re: [問題] sample size少要如何使p-value更顯著
※ 引述《sinclairJ (SunnyGymBoy)》之銘言:
: 如題 小弟目前從事有關Genome -Wide Association Studies研究
: 但目前樣本數太少(約150)
: 所計算出的最顯著p-value為10^-6(x與y 相關性檢定)
: 但boss希望能達到10^-8
: 想請教除了增加樣本外
: 還有其他的方法嗎?
: 謝謝各位前輩指教
: 目前有想過用產生虛擬樣本的方式來增加樣本數 但我的x與y都是category 所以也卡住了
: 。。。
先說建議,乖乖申請經費增加樣本吧!
(一個小助理應該是沒辦法說服老闆去要更多的錢來增加樣本的)
不過我想說個故事…
大約6年前有個國立研究機構,花了幾百萬做了GWAS,
使用的樣本大約有1000多人,來源遍佈台灣,甚至還有原住民,
使用的軟體是Plink,跑遍了軟體內建的各種檢定,
最好的結果大約也是10^-6~10^-7
當時領導的老師A為了追求更好的結果,
反覆的改變跑檢定的樣本組成,
刪掉某些沒有通過樣本品質檢驗的樣本,
降低或提高不同樣本品質檢驗的type I error,
為此整個資料的前處理高達一年之久,
但仍無法得到更低的p-value。
如果不追求更低的p-value,當時是有可能把paper發出去的,
可是過了一年,想發也沒得發了,
後續的研究團隊用的人數更多,2000-3000人是常態,
p-value更是低到嚇人,-8,-9…我還看過-12的,
為了爭取把名字留在期刊上面的機會,
另外一位負責領導的老師B把資料給了NCI的教授,
結合那位教授的亞洲樣本資料,終於在該領域算不錯的期刊發表了。
利用這筆資料陸陸續續有在不同的期刊發paper,
只是能發在像PLoS、Nature Genetic的機會就再也沒有了,
故事說完了。這是從我的角度看到的種種,
當然或許老師們有他們的考量。
建議原po可以多試幾種檢定方法,
或許可以找到讓p-value降低的model。
至於為什麼需要這麼低的p-value?
GWAS的中文叫「全基因組關聯性檢定」
有看到關鍵字了嗎?沒錯,就是基因。
人體的基因約有20000-25000個,
姑且不論檢定方法,每一次檢定等於同時對20000多個基因做檢定,
因此在multiple correction的原則下,
要求p-value到10^-6並非不合理的事情。
加上定序技術日新月異,基因只會越發現越多,
生物類的期刊p-value通常會要求到0.01或更低,
因此有些教授會要求到10^-8~10^-9,
如果你的鑑定標的是SNP,p-value可是直接從10^-9起跳,
SNP的wiki:https://en.wikipedia.org/wiki/Single-nucleotide_polymorphism
當然做gwas的老師大多懂基因不懂統計,所以只知道p-value越低越好,
但統計有其極限,150個樣本能做到p-value=10^-6已經很厲害了,
想要更低除了換model外,就是多收集樣本,
希望能對原PO有點幫助。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.35.73.54
※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1437145876.A.6C4.html
→
07/17 23:17, , 1F
07/17 23:17, 1F
→
07/17 23:46, , 2F
07/17 23:46, 2F
→
07/17 23:56, , 3F
07/17 23:56, 3F
→
07/18 00:00, , 4F
07/18 00:00, 4F
推
07/18 02:08, , 5F
07/18 02:08, 5F
→
07/18 02:08, , 6F
07/18 02:08, 6F
→
07/18 02:08, , 7F
07/18 02:08, 7F