[問題] 不同複合假說對相同多重測試的解釋

看板Statistics作者 (SaltLake)時間1年前 (2024/11/17 14:07), 11月前編輯推噓2(2025)
留言27則, 2人參與, 1年前最新討論串1/1
To demonstrate that the new algorithm A is superior to the old algorithms B, C, and D, three comparison tests were performed. The results showed that A>B (p=0.009), A>C (p=0.002), and A>D (p=0.04). The overall significance level was 0.03. The multiplicity was corrected using the Bonferroni method. How does one interprete the results if the following tests were performed, respectively: (1) union-intersection test, (2) intersection-union test, and (3) intersection-intersection test? 根據上述多重測試的設定,整體顯著水準是 0.03/3 = 0.01。所以三個個別 測試的顯著與否如下: A>B (p=0.009), 顯著 A>C (p=0.002), 顯著 and A>D (p=0.04), 不顯著 單看上述測試結果,其解釋似乎是: 演算法 A 只比 B 和 C 好,但是無法判定其是否比 D 好--能說不比 D 差嗎? 還是只要不顯著就啥也不能宣稱? 問題是,完整的多重假說測試應該要考慮整體假說的不同(內容)類型去詮釋測試 結果(?) 那麼在上述三種不同類型的整體假說下,怎樣個別詮釋上面所得的測試結果? (一) 聯交集測試 整體零假說和代假說分別為不大於的交集和大於的聯集,因而要拒卻整體零假說 需要滿足至少有一個個別測試是統計顯著的大於。 上述測試結果滿足此要求,故可拒卻整體零假說而接受代假說,從而應解釋為: 測試結果證實新算法至少大於一個老算法。 (二) 交聯集測試: 整體零假說和代假說分別為不大於的聯集和大於的交集,因而要拒卻整體零假說 需要滿足所有的個別測試都是統計顯著的大於。 顯然測試結果不合要求,故不可拒卻整體零假說而接受代假說,從而應解釋為: 測試無法推翻(或否證)新算法至少不大於一個老算法…嗎? (三) 交交集測試: 整體零假說和代假說分別為不大於的交集和大於的交集,因而要拒卻整體零假說 需要滿足所有的個別測試都是統計顯著的大於。 顯然測試結果不合要求,故不可拒卻整體零假說而接受代假說,從而應解釋為: 測試結果無法推翻(或否證)新算法全都不大於那三個老算法…嗎? (四) 是否能夠或如何設計整體零假說與代假說,使其測試結果能得到和個別測試 的結果相同的解釋? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.207.45 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1731823628.A.8CC.html ※ 編輯: saltlake (114.36.207.45 臺灣), 11/17/2024 21:08:37 ※ 編輯: saltlake (114.36.207.45 臺灣), 11/17/2024 21:11:16

11/28 07:17, 1年前 , 1F
演算法不會這樣檢定,也不是這樣用,這樣沒什麼意義
11/28 07:17, 1F

12/13 09:30, 1年前 , 2F
重點不是 "演算法", 而是統計假說檢定. 不過, 我所學太淺,
12/13 09:30, 2F

12/13 09:31, 1年前 , 3F
沒學過 intersection-intersection test.
12/13 09:31, 3F
這個是在美國聯邦食藥局關於搭配基因測試的藥品的規範看到的。 現在有些藥品服用前要先對患者做基因檢測之後,再挑選針對特定基因形式的 患者需要的藥品。 這時候官方要求臨床試驗通過交集-交集測試(IIT),亦即: 整體虛擬假說: 對每一個基因測試都顯示藥品無效 對立 : 有

12/13 09:33, 1年前 , 4F
如果個別檢定顯著水準都是 0.01 的話, UI檢定會拒絕聯合的
12/13 09:33, 4F

12/13 09:34, 1年前 , 5F
虛無假說, 意謂 A>B, A>C, A>D 並非全部成立;
12/13 09:34, 5F

12/13 09:36, 1年前 , 6F
IU檢定不拒絕虛無假說,意謂 A>B,A>C,A>D 至少一個成立.
12/13 09:36, 6F

12/13 09:39, 1年前 , 7F
上面錯了...UI test 的結果是 A>B or A>C or A>D 不被接受
12/13 09:39, 7F

12/13 09:42, 1年前 , 8F
唉! 又弄錯了, H0i 應是 A<=B, A<=C, A<=D, UI test 的結果
12/13 09:42, 8F

12/13 09:43, 1年前 , 9F
是三個虛無假說並非全部成立, 所以 A>B or A>C or A>D 至少
12/13 09:43, 9F

12/13 09:44, 1年前 , 10F
一個成立; 而 IU test 的結果是 A>B, A>C, A>D 並非全部成
12/13 09:44, 10F

12/13 09:45, 1年前 , 11F
立, 因為 A<=B, A<=C, A<=D 至少一個成立.
12/13 09:45, 11F

12/14 15:53, 1年前 , 12F
根據顯著水準0.01做個別檢定建構的 UIT 符合顯著水準0.03,
12/14 15:53, 12F

12/14 15:54, 1年前 , 13F
而IUT的顯著水準是0.01.
12/14 15:54, 13F
A>D (不顯著) 和 A<=D (不顯著) 會影響對結果的詮釋嗎? ※ 編輯: saltlake (114.36.244.51 臺灣), 12/16/2024 13:28:27

12/17 07:56, 11月前 , 14F
"A>D 不顯著" 就是不能拒絕 "A<=D" 這個虛無假說。
12/17 07:56, 14F

01/05 06:53, 1年前 , 15F
怎麼重點不是演算法,假命題,跟本不用看後面的統計
01/05 06:53, 15F

01/05 06:53, 1年前 , 16F
基本假設就錯
01/05 06:53, 16F

01/05 10:18, 1年前 , 17F
真要比較演算法優劣當然可以訂定適當標準做客觀評估,這是
01/05 10:18, 17F

01/05 10:22, 1年前 , 18F
非統計方法。但是,涉及演算法比較至少還有兩種情形涉及統
01/05 10:22, 18F

01/05 10:24, 1年前 , 19F
計方法可使用統計假說檢定做評估,其一也是先擇定評估準則,
01/05 10:24, 19F

01/05 10:25, 1年前 , 20F
但不是用演算法性質的數學分析而是採用實驗方式以獲取各演
01/05 10:25, 20F

01/05 10:27, 1年前 , 21F
算法實證數據相互比較,這也是一種客觀比較。其次,可以由
01/05 10:27, 21F

01/05 10:30, 1年前 , 22F
一群評價者主觀評估演算法優劣,而以統計假說檢定判定各演
01/05 10:30, 22F

01/05 10:33, 1年前 , 23F
法在潛在使用者或評價者心目中的優劣。不過,就本問,我先
01/05 10:33, 23F

01/05 10:35, 1年前 , 24F
前說重點不在演算法而是統計假說檢定,因 "演算法比較" 只
01/05 10:35, 24F

01/05 10:37, 1年前 , 25F
是問題隨意敘述的一個例子,就像數學練習中很多例子,難道
01/05 10:37, 25F

01/05 10:39, 1年前 , 26F
重點在那些看起來毫無實用價值的 "實例" 而不是涉及的數學
01/05 10:39, 26F

01/05 10:40, 1年前 , 27F
方法和思路?
01/05 10:40, 27F
如上述,如果演算法性能的比較,是純粹基於演算法的理論性質進行理論推導, 而非利用實驗去驗證,當然用不到上面的統計假說檢定。具體像是偏微分方程式做 不同的差分而得到不同的差分方程式。再用傅立葉分析對不同差分方程式做穩定性 和一致性等的理論分析。這樣當然用不到統計推論方法。 又或者是各種求根的演算法,如割線法或牛頓法等,比較其收斂與否和收斂速率 ,是基於數列歛散性質進行理論推導而得,當然不需要用統計推論。 然而,倘若根本不知道演算法的理論性質,而是像做數據回歸那樣,假設某組 數據符合某個數學模型,然後設定某個目標函數與限制,使用某個最佳化演算法 去計算出該數學模型的最佳參數而得到最佳(近似)模型。最後用另一組數據去比 對所得的數學模型的性能。這樣一來,和測試藥品在受試者樣本的藥效而進行統 計推論,有啥不同? 遑論統計課本就有利用統計推論去比較不同最小方差回歸模 型的參數的統計推論了。 要宣稱「演算法的比較不需要統計檢定」,請寫明白,前所謂的演算法比較, 使用怎樣的方法進行比較。 ※ 編輯: saltlake (114.36.222.209 臺灣), 01/05/2025 18:13:21
文章代碼(AID): #1dEOWCZC (Statistics)