[問題] 信賴區間 Coverage Rate 想法

看板Statistics作者 (黑麻糬)時間7年前 (2018/04/02 00:34), 7年前編輯推噓2(2024)
留言26則, 2人參與, 7年前最新討論串1/1
小弟最近在回顧統計學信賴區間 進行了些許模擬驗證,腦筋卡住了有部份疑問想請益 假設 population~N(0, 1), 對 mu CI 作推論 A. Percentile Bootstrap method 1. 從 N(0,1) 生成母體樣本 X 2. 從 X 重覆抽樣生成 B 個複式樣本 BX 3. 計算多個 sample mean 4. 取 0.025, 0.975 百分位數作為 mu 的 CI 重覆 1~4 多次,Coverage Rate 大約為宣稱的 95% B. 此方法若如果從母體來進行 1. 從 N(0,1) 生成 B個 母體樣本 X 2. 計算多個 sample mean 3. 取 0.025, 0.975 百分位數作為 mu 的 CI 重覆 1~3 多次,Coverage Rate --> 100% B 方法的 Coverage Rate 從理論上也合理 在 iid 的前提下,每個 sample mean 正負機會各一半 若「多個」sample mean 取百分位數後,作出來的 CI 都>0 P(CI_{L}>0)=1-P(CI_{L}<=0) =1-P(至少有 0.025*B 個<=0) =1-pbinom(0.025*B,B,0.5) --> 1 疑惑的是 1. A、B方法最大的差異性在哪? 2. 若要透過 B 方法來建構 CI,它需要作什麼修改? 在無母數下 如果要對某個參數 theta 作 CI 且可以模擬多個 theta^{hat} 的觀察值 是否有 percentile 或是可能的 formula 可以得到 theta 的近似 CI? 可能是我弄錯了什麼才會在這漩渦裡頭繞,還望版上高手指點,感謝。 2018/04/02 =================================== 感謝 r 大的回應~ 小弟疑惑的地方在於 A 方法的模擬結果,以「樣本」重覆抽樣計算 sample mean Coverage rate 真的是 90~95% 左右 但 B 方法,以「母體」重覆抽樣計算 sample mean 同樣是以百分位數的方式作 CI 重覆多次作出來的 CI 範圍均值 會很接近 population mean 95% CI 的數學推論結果 但其 Coverage Rate,卻會接近 100%,而不是宣稱的 95% 上下 為什麼? bootstrap 精神在於對樣本重覆抽樣,可望重現母體的隨機分佈樣貌 那為何直接以母體重覆抽樣,卻會得到 100% coverage rate 的結果? 2018/04/03 =================================== 感謝 y 大的回應 我獲益良多,我想我要補足部份在於 A(B) 方法以百分位數的方式 1. 取出來的都是 sample mean distribution 的 "涵蓋區間" 2. 它在 population mean 的 "信賴區間" 上提供了什麼資訊 目前還缺少最重要 1-->2 的「數學推論」來說服自己 我會繼續找尋答案的,萬分感謝。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.136.19.199 ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1522600495.A.D17.html

04/02 06:01, 7年前 , 1F
A只有一組樣本 然後"把樣本當母體"去抽更多樣本 這是
04/02 06:01, 1F

04/02 06:02, 7年前 , 2F
bootstrap的基本精神 為什麼這樣做可以就要去看boots
04/02 06:02, 2F

04/02 06:03, 7年前 , 3F
trap理論的書 bootstrap一般用在現實世界中取得的資
04/02 06:03, 3F

04/02 06:04, 7年前 , 4F
料 母體分布未知的情況
04/02 06:04, 4F

04/02 06:05, 7年前 , 5F
最後的問題 不知道你所謂吳母樹在這裡什麼意思 不過
04/02 06:05, 5F

04/02 06:06, 7年前 , 6F
反正基本精神就是可以生成一堆theta模擬值就可以用
04/02 06:06, 6F

04/02 06:07, 7年前 , 7F
percentile估計CI 至於生成方法bootstrap或其他都可
04/02 06:07, 7F
※ 編輯: hexjacal (140.113.132.180), 04/02/2018 09:39:39

04/03 10:35, 7年前 , 8F
B 所得到的是 sample mean 抽樣分布的中間95%區間, 這當然
04/03 10:35, 8F

04/03 10:37, 7年前 , 9F
應包含群體的 mean, 除非只模擬很少次.
04/03 10:37, 9F

04/03 10:39, 7年前 , 10F
A 是以原來一組樣本當群冊去抽樣, 所以最後得到的是這個被
04/03 10:39, 10F

04/03 10:41, 7年前 , 11F
當做群體之樣本的 bootstrap 樣本平均數分布的中間95%的區
04/03 10:41, 11F

04/03 10:43, 7年前 , 12F
間,它幾乎必然包含原樣本的平均數, 卻也不是原群體平均數的
04/03 10:43, 12F

04/03 10:44, 7年前 , 13F
信賴區間.
04/03 10:44, 13F

04/03 10:47, 7年前 , 14F
Bootstrap 的基本原理是 bootstrap樣本推估原樣本, 而原樣
04/03 10:47, 14F

04/03 10:49, 7年前 , 15F
本"像" 群體, 所以推估這個樣本也就間接推估了群體.
04/03 10:49, 15F

04/03 10:51, 7年前 , 16F
所以a的區間雖不是真正原群體平均數的95%信賴區間, 但雖不
04/03 10:51, 16F

04/03 10:54, 7年前 , 17F
中, 不遠矣, 想一想由原樣本平均數建構群體平均數的方法就
04/03 10:54, 17F

04/03 10:55, 7年前 , 18F
知道了.
04/03 10:55, 18F

04/03 11:00, 7年前 , 19F
修正: A 泓所得區間當作原群體平均數之倌賴區間亦可.
04/03 11:00, 19F
※ 編輯: hexjacal (140.113.132.180), 04/03/2018 11:36:01

04/05 06:45, 7年前 , 20F
B求出來的就是point estimate的分佈而已 理當會照
04/05 06:45, 20F

04/05 06:48, 7年前 , 21F
中央極限定理分布 夠多point est的話涵蓋母體值機率
04/05 06:48, 21F

04/05 06:49, 7年前 , 22F
趨近於1 A每一個樣本導出來的區間不一定涵蓋母體值
04/05 06:49, 22F

04/05 06:51, 7年前 , 23F
但假設有100組樣本 對每組"這樣做"以後有約95會涵蓋
04/05 06:51, 23F

04/05 06:53, 7年前 , 24F
所以A才符合CI的定義 CI本就是針對"把每組樣本這樣
04/05 06:53, 24F

04/05 06:54, 7年前 , 25F
做"以後會發生什麼事來定義的 注意你的B已經不是在單
04/05 06:54, 25F

04/05 06:54, 7年前 , 26F
一樣本裏操作了
04/05 06:54, 26F
文章代碼(AID): #1QmGelqN (Statistics)