[問題] 第一型誤差的數學表達式

看板Statistics作者 (SaltLake)時間1年前 (2024/06/03 06:39), 1年前編輯推噓1(1068)
留言69則, 2人參與, 1年前最新討論串1/1
請問第一型誤差 (alpha) 的數學表達式是怎麼表達? 它的文字定義的描述是: 從樣本測試觀察到 Ha (替代假說) 但是實際上是 Hn (虛無假說) 的機率 把文字描述改寫成數學式子的話,應該怎麼表達? P(Ha|Hn) 已知 Hn 的條件下,發生 Ha 之機率? 還是別的表達方式? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.200.19 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1717367986.A.654.html

06/03 07:44, 1年前 , 1F
型一誤,型二誤,只是假說檢定中的錯誤類型稱呼。如果實際
06/03 07:44, 1F

06/03 07:46, 1年前 , 2F
上虛無假說是對的,但檢定結果卻棄卻它而接受對立假說,就
06/03 07:46, 2F

06/03 07:48, 1年前 , 3F
稱犯了型一誤。另一邊,如果實際上對立假說才對,虛無假說
06/03 07:48, 3F

06/03 07:49, 1年前 , 4F
不成立,檢定的結論卻未能棄卻虛無假說,就犯了型二誤。
06/03 07:49, 4F

06/03 07:51, 1年前 , 5F
所以 type 1 error, type 2 error 只是指所犯錯誤的類型,
06/03 07:51, 5F

06/03 07:52, 1年前 , 6F
而不是指其大小。至於要計算其大小,也就是犯型一誤的機率
06/03 07:52, 6F

06/03 07:53, 1年前 , 7F
或犯型二誤的機率,則要在特定參數值之下才能計算。也就是
06/03 07:53, 7F

06/03 07:55, 1年前 , 8F
說:先碓定參數的一個值,可以根據檢定規則計算出棄卻與不
06/03 07:55, 8F

06/03 07:57, 1年前 , 9F
棄卻 H0 的機率。如果這個選定的參數值是落在 H0 範圍,那
06/03 07:57, 9F

06/03 07:59, 1年前 , 10F
麼棄卻 H0 的機率就是在這參數值上犯型一誤的機率。另外,
06/03 07:59, 10F

06/03 08:01, 1年前 , 11F
若選定的參數值落在 Ha 的範圍,棄卻 H0 是對的,這個機率
06/03 08:01, 11F

06/03 08:03, 1年前 , 12F
稱為這檢定(程序)在這參數點上的檢定力;它的 1-補數,也
06/03 08:03, 12F

06/03 08:05, 1年前 , 13F
就是不棄卻 H0 的機率,就是犯型二誤的機率。舉個例子,群
06/03 08:05, 13F

06/03 08:07, 1年前 , 14F
體是常態群體,H0:群體平均 m 小於或等於 0, Ha: m > 0,
06/03 08:07, 14F

06/03 08:09, 1年前 , 15F
現在假設樣本數 n 定了,選定 m 一個值例如 m = 0, 變異數
06/03 08:09, 15F

06/03 08:11, 1年前 , 16F
一個值例如 1, 可以計算在所定的 n 之下,t 檢定的臨界值,
06/03 08:11, 16F

06/03 08:13, 1年前 , 17F
也就是決定樣本平均數多大會棄卻 H0, 從而計算在所選定參數
06/03 08:13, 17F

06/03 08:15, 1年前 , 18F
值(群體平均數0標準差1)會棄卻 H0 的機率。因為選定的
06/03 08:15, 18F

06/03 08:17, 1年前 , 19F
參數值落在 H0 (m =< 0),所以這機率就是在這參數點上犯型
06/03 08:17, 19F

06/03 08:18, 1年前 , 20F
一誤的機率。改變參數值的設定,可以計算不同參數點犯型一
06/03 08:18, 20F

06/03 08:20, 1年前 , 21F
誤的機率(參數值在 H0 時),或不同參數點的檢定力(參數
06/03 08:20, 21F

06/03 08:21, 1年前 , 22F
值落在 Ha 時)。
06/03 08:21, 22F

06/03 08:22, 1年前 , 23F
換個表達方式,請問能否用計算或然率的數學式來表達各型誤差? 例如: alpha = P(?) = Integral(?) beta = P(?) = Integral (?) ※ 編輯: saltlake (114.36.200.19 臺灣), 06/03/2024 09:44:18

06/03 12:10, 1年前 , 24F
alpha是拒絕H0的門檻 是檢定者自己選訂的 例如選
06/03 12:10, 24F

06/03 12:10, 1年前 , 25F
0.05
06/03 12:10, 25F

06/03 12:12, 1年前 , 26F
p value才是type 1 error rate,p value超過alpha就
06/03 12:12, 26F

06/03 12:12, 1年前 , 27F
拒絕H0
06/03 12:12, 27F

06/03 12:14, 1年前 , 28F
p value才能以機率理解 alpha是檢定者裁量的標準 取
06/03 12:14, 28F

06/03 12:14, 1年前 , 29F
決檢定者覺得檢定需要多嚴格
06/03 12:14, 29F

06/03 12:18, 1年前 , 30F
p value = P(test statistic is as or more extrem
06/03 12:18, 30F

06/03 12:18, 1年前 , 31F
e than the observed value, given H0 and populat
06/03 12:18, 31F

06/03 12:18, 1年前 , 32F
ion/sampling assumptions)
06/03 12:18, 32F

06/03 12:24, 1年前 , 33F
說錯了 alpha是type 1 error rate沒錯
06/03 12:24, 33F

06/03 12:29, 1年前 , 34F
alpha = P(test rejects H0, given H0 and populat
06/03 12:29, 34F
^^^^^^^^^ 這部分是否表示構成條件機率? 也就是已知(***)的狀況下,拒絕虛無假設

06/03 12:29, 1年前 , 35F
ion/sampling assumptions hold)
06/03 12:29, 35F
※ 編輯: saltlake (114.36.200.19 臺灣), 06/03/2024 13:10:21

06/03 14:17, 1年前 , 36F
是條件機率 但不是"已知" 條件機率指"假設H0成立的
06/03 14:17, 36F

06/03 14:17, 1年前 , 37F
前提下" 實際上H0成不成立是未知的 不然根本不必檢定
06/03 14:17, 37F

06/04 06:28, 1年前 , 38F
不是說得很明確了嗎?type 1 error 及 type 2 error 的機率
06/04 06:28, 38F

06/04 06:30, 1年前 , 39F
都是在特定參數值之下計算的。除非 H0 是簡單假說死也就是
06/04 06:30, 39F

06/04 06:31, 1年前 , 40F
H0 只含一個參數點,否則 P[Reject H0; H0] 是無意義的;
06/04 06:31, 40F

06/04 06:33, 1年前 , 41F
要計算的是 P[Reject H0; theta] 其中 theta 是一個明確的
06/04 06:33, 41F

06/04 06:35, 1年前 , 42F
參數點,如前面舉的 群體平均數=0,標準差=1 這樣的參數值
06/04 06:35, 42F

06/04 06:37, 1年前 , 43F
值組合。但只有參數點落在 H0,棄卻 H0 的機率才叫做 type
06/04 06:37, 43F

06/04 06:38, 1年前 , 44F
1 error 的機率;若參數點落在 Ha,則棄卻 H0 是正確的決策
06/04 06:38, 44F

06/04 06:39, 1年前 , 45F
其機率稱為檢定力 power of the test。
06/04 06:39, 45F

06/04 06:40, 1年前 , 46F
另外,p 值是另一個概念,和型一誤的機率是兩回事。
06/04 06:40, 46F

06/04 06:43, 1年前 , 47F
在固定顯著水準下,才可能明定檢定規則,才可能談 棄卻 H0
06/04 06:43, 47F

06/04 06:44, 1年前 , 48F
的機率。顯著水準不是機率,是規定型一誤機率不能逾越的界
06/04 06:44, 48F

06/04 06:46, 1年前 , 49F
限。定了顯著水準,然後有了 reject or not reject H0 的準
06/04 06:46, 49F

06/04 06:47, 1年前 , 50F
則,然後可以在 H0 的每一個參數點計算型一誤的機率,這些
06/04 06:47, 50F

06/04 06:49, 1年前 , 51F
機率都不能超過顯著水準。而 p 值是另一種思考:不管顯著水
06/04 06:49, 51F

06/04 06:50, 1年前 , 52F
準是多少,reject H0 的規則都可以寫成 T > t* 的形式,其
06/04 06:50, 52F

06/04 06:52, 1年前 , 53F
中 T 是檢定統計量,t* 稱臨界值,其大小取決於顯著水準,
06/04 06:52, 53F

06/04 06:54, 1年前 , 54F
顥著水準小,t* 就大;顯著水準大,t* 就小。所以當前的資
06/04 06:54, 54F

06/04 06:55, 1年前 , 55F
料,也就是手上實際抽樣得到的資料,會做成 reject or not
06/04 06:55, 55F

06/04 06:56, 1年前 , 56F
reject H0 的決定完全取決於顯著水準,顯著水準大可能就
06/04 06:56, 56F

06/04 06:58, 1年前 , 57F
reject,顯著水準小就 cannot reject, 所以其中有個界限 p
06/04 06:58, 57F

06/04 07:00, 1年前 , 58F
當顯著水準大於或等於 p 就會 reject H0; 顯著水準小於 p,
06/04 07:00, 58F

06/04 07:01, 1年前 , 59F
則 can't reject H0。所以 p, 所謂 p-value, 就是當前資料
06/04 07:01, 59F

06/04 07:03, 1年前 , 60F
能 reject H0 的最小顯著水準。又由於臨界值 t* 和顯著水準
06/04 07:03, 60F

06/04 07:04, 1年前 , 61F
的反向關係,所以對於 T>t* 型臨界域(棄卻域)的檢定,p值
06/04 07:04, 61F

06/04 07:06, 1年前 , 62F
也可以機率形式表示成 P[T > t; theta], 其中 t 是當前資料
06/04 07:06, 62F

06/04 07:08, 1年前 , 63F
的檢定統計量的值,theta 是 H0 中使 reject H0 機率最高的
06/04 07:08, 63F

06/04 07:09, 1年前 , 64F
的參數點,通常它在 H0 和 Ha 的共同邊界上。
06/04 07:09, 64F

06/05 00:27, 1年前 , 65F
我有提完整的前提包含關於母體和抽樣的假定 參數也
06/05 00:27, 65F

06/05 00:27, 1年前 , 66F
是關於假定母體分布的描述
06/05 00:27, 66F

06/05 00:36, 1年前 , 67F
複雜統計檢定程序的研究也是這麼做的 給定H0成立的
06/05 00:36, 67F

06/05 00:36, 1年前 , 68F
精確的母體分布和抽樣方法 用模擬資料 估計H0被拒
06/05 00:36, 68F

06/05 00:36, 1年前 , 69F
絕的機率 就是type 1 error rate
06/05 00:36, 69F
文章代碼(AID): #1cNFIoPK (Statistics)