[問題] 不同複合假說對相同多重測試的解釋
To demonstrate that the new algorithm A is superior to the old
algorithms B, C, and D, three comparison tests were performed.
The results showed that A>B (p=0.009), A>C (p=0.002), and A>D (p=0.04).
The overall significance level was 0.03. The multiplicity was corrected
using the Bonferroni method.
How does one interprete the results if the following tests were
performed, respectively:
(1) union-intersection test,
(2) intersection-union test, and
(3) intersection-intersection test?
根據上述多重測試的設定,整體顯著水準是 0.03/3 = 0.01。所以三個個別
測試的顯著與否如下:
A>B (p=0.009), 顯著
A>C (p=0.002), 顯著 and
A>D (p=0.04), 不顯著
單看上述測試結果,其解釋似乎是:
演算法 A 只比 B 和 C 好,但是無法判定其是否比 D 好--能說不比 D 差嗎?
還是只要不顯著就啥也不能宣稱?
問題是,完整的多重假說測試應該要考慮整體假說的不同(內容)類型去詮釋測試
結果(?)
那麼在上述三種不同類型的整體假說下,怎樣個別詮釋上面所得的測試結果?
(一) 聯交集測試
整體零假說和代假說分別為不大於的交集和大於的聯集,因而要拒卻整體零假說
需要滿足至少有一個個別測試是統計顯著的大於。
上述測試結果滿足此要求,故可拒卻整體零假說而接受代假說,從而應解釋為:
測試結果證實新算法至少大於一個老算法。
(二) 交聯集測試:
整體零假說和代假說分別為不大於的聯集和大於的交集,因而要拒卻整體零假說
需要滿足所有的個別測試都是統計顯著的大於。
顯然測試結果不合要求,故不可拒卻整體零假說而接受代假說,從而應解釋為:
測試無法推翻(或否證)新算法至少不大於一個老算法…嗎?
(三) 交交集測試:
整體零假說和代假說分別為不大於的交集和大於的交集,因而要拒卻整體零假說
需要滿足所有的個別測試都是統計顯著的大於。
顯然測試結果不合要求,故不可拒卻整體零假說而接受代假說,從而應解釋為:
測試結果無法推翻(或否證)新算法全都不大於那三個老算法…嗎?
(四) 是否能夠或如何設計整體零假說與代假說,使其測試結果能得到和個別測試
的結果相同的解釋?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.207.45 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1731823628.A.8CC.html
※ 編輯: saltlake (114.36.207.45 臺灣), 11/17/2024 21:08:37
※ 編輯: saltlake (114.36.207.45 臺灣), 11/17/2024 21:11:16
推
11/28 07:17,
1年前
, 1F
11/28 07:17, 1F
→
12/13 09:30,
1年前
, 2F
12/13 09:30, 2F
→
12/13 09:31,
1年前
, 3F
12/13 09:31, 3F
這個是在美國聯邦食藥局關於搭配基因測試的藥品的規範看到的。
現在有些藥品服用前要先對患者做基因檢測之後,再挑選針對特定基因形式的
患者需要的藥品。
這時候官方要求臨床試驗通過交集-交集測試(IIT),亦即:
整體虛擬假說: 對每一個基因測試都顯示藥品無效
對立 : 有
→
12/13 09:33,
1年前
, 4F
12/13 09:33, 4F
→
12/13 09:34,
1年前
, 5F
12/13 09:34, 5F
→
12/13 09:36,
1年前
, 6F
12/13 09:36, 6F
→
12/13 09:39,
1年前
, 7F
12/13 09:39, 7F
→
12/13 09:42,
1年前
, 8F
12/13 09:42, 8F
→
12/13 09:43,
1年前
, 9F
12/13 09:43, 9F
→
12/13 09:44,
1年前
, 10F
12/13 09:44, 10F
→
12/13 09:45,
1年前
, 11F
12/13 09:45, 11F
→
12/14 15:53,
1年前
, 12F
12/14 15:53, 12F
→
12/14 15:54,
1年前
, 13F
12/14 15:54, 13F
A>D (不顯著) 和
A<=D (不顯著) 會影響對結果的詮釋嗎?
※ 編輯: saltlake (114.36.244.51 臺灣), 12/16/2024 13:28:27
→
12/17 07:56,
11月前
, 14F
12/17 07:56, 14F
推
01/05 06:53,
1年前
, 15F
01/05 06:53, 15F
→
01/05 06:53,
1年前
, 16F
01/05 06:53, 16F
→
01/05 10:18,
1年前
, 17F
01/05 10:18, 17F
→
01/05 10:22,
1年前
, 18F
01/05 10:22, 18F
→
01/05 10:24,
1年前
, 19F
01/05 10:24, 19F
→
01/05 10:25,
1年前
, 20F
01/05 10:25, 20F
→
01/05 10:27,
1年前
, 21F
01/05 10:27, 21F
→
01/05 10:30,
1年前
, 22F
01/05 10:30, 22F
→
01/05 10:33,
1年前
, 23F
01/05 10:33, 23F
→
01/05 10:35,
1年前
, 24F
01/05 10:35, 24F
→
01/05 10:37,
1年前
, 25F
01/05 10:37, 25F
→
01/05 10:39,
1年前
, 26F
01/05 10:39, 26F
→
01/05 10:40,
1年前
, 27F
01/05 10:40, 27F
如上述,如果演算法性能的比較,是純粹基於演算法的理論性質進行理論推導,
而非利用實驗去驗證,當然用不到上面的統計假說檢定。具體像是偏微分方程式做
不同的差分而得到不同的差分方程式。再用傅立葉分析對不同差分方程式做穩定性
和一致性等的理論分析。這樣當然用不到統計推論方法。
又或者是各種求根的演算法,如割線法或牛頓法等,比較其收斂與否和收斂速率
,是基於數列歛散性質進行理論推導而得,當然不需要用統計推論。
然而,倘若根本不知道演算法的理論性質,而是像做數據回歸那樣,假設某組
數據符合某個數學模型,然後設定某個目標函數與限制,使用某個最佳化演算法
去計算出該數學模型的最佳參數而得到最佳(近似)模型。最後用另一組數據去比
對所得的數學模型的性能。這樣一來,和測試藥品在受試者樣本的藥效而進行統
計推論,有啥不同? 遑論統計課本就有利用統計推論去比較不同最小方差回歸模
型的參數的統計推論了。
要宣稱「演算法的比較不需要統計檢定」,請寫明白,前所謂的演算法比較,
使用怎樣的方法進行比較。
※ 編輯: saltlake (114.36.222.209 臺灣), 01/05/2025 18:13:21