[問題] 平均的最小方差近似

看板Statistics作者 (SaltLake)時間1年前 (2024/08/07 07:44), 1年前編輯推噓1(1033)
留言34則, 4人參與, 1年前最新討論串1/1
一般我們做最小方差近似,就是把(樣本)數據代入模型, 然後根據最小方差的原理,求出模型的參數組,然後就用 這參數組代入模型,去估計數據點以外的反應(或函數)值 。 可是這些參數其實也是隨機變數,所以也該有個機率分 布函數、平均值、和標準差。那如果我們把樣本數據隨機 分成十組,用這十組數據分別求出十組參數組,然後求出 參數值中每一參數的平均值,再用這組參數去估計數據點 以外的反應。這個平均的最小方差函數得到的估計值,會 否「比較好」? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.207.231 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1722987846.A.717.html

08/07 08:19, 1年前 , 1F
參數也是隨機變數?你確定?
08/07 08:19, 1F
有本書用最小方差直線解釋 Y = a_0 + a_1*x a_0 和 a_1 是從隨機樣本資料 x 計算來的,所以也帶有隨機性而為隨機變數 該書還給了該直線參數 a_0 和 a_1 期望值、標準偏差、和信心區間的公式

08/07 08:21, 1年前 , 2F
統計推論有兩大學派,一個是頻率論學派,一個是貝氏學派。
08/07 08:21, 2F

08/07 08:22, 1年前 , 3F
當然,除此之外還有其他學派,如費氏學派,但主要還是兩派
08/07 08:22, 3F

08/07 08:24, 1年前 , 4F
頻率論的觀點認為:群體是固定定,也就是說參數是非隨機的
08/07 08:24, 4F

08/07 08:26, 1年前 , 5F
只是我們不知道其值,所以藉隨機樣本來猜測,所以評估標準
08/07 08:26, 5F

08/07 08:27, 1年前 , 6F
是依抽樣機制衡量平均誤差。而貝氏學派認為資料是已知的,
08/07 08:27, 6F

08/07 08:28, 1年前 , 7F
考慮其隨機性沒必要;參數是未知的,所以用隨機模型來描述.
08/07 08:28, 7F

08/07 08:30, 1年前 , 8F
當然在頻率論也可以把參數當成隨機的,例如 ANOVA 的隨機效
08/07 08:30, 8F

08/07 08:32, 1年前 , 9F
果模型,迴歸分析的隨機係數模型,但最終都有未知其值的固
08/07 08:32, 9F

08/07 08:33, 1年前 , 10F
定參數;而在貝氏分析,多層次貝氏模型的最高階參數也是隨
08/07 08:33, 10F

08/07 08:35, 1年前 , 11F
機的。在任一模型下,總有個最適推論,這通常都是應用全部
08/07 08:35, 11F

08/07 08:38, 1年前 , 12F
樣本資料;資料先分組而後綜合分組分析的方法,通常是為了
08/07 08:38, 12F

08/07 08:39, 1年前 , 13F
特殊目的。例如 Jackknife, bootstrap 是為了估計參數估計
08/07 08:39, 13F

08/07 08:40, 1年前 , 14F
的誤差;把資料分兩部分一部分用於估計參數值另一部分當測
08/07 08:40, 14F

08/07 08:42, 1年前 , 15F
試,是為了模型適當性的交叉驗證;把資料按某種標準分組分
08/07 08:42, 15F

08/07 08:43, 1年前 , 16F
別估計是為了更適當描述資料模型等等。
08/07 08:43, 16F
※ 編輯: saltlake (114.36.207.231 臺灣), 08/07/2024 08:56:43

08/07 20:59, 1年前 , 17F
你都看到分布了代進去就知道了吧
08/07 20:59, 17F

08/07 20:59, 1年前 , 18F
y_hat=β_hat‧x, β_hat ~ N(β,(X^TX)^-1σ^2)
08/07 20:59, 18F

08/07 21:01, 1年前 , 19F
所以 var(y_hat)=x^T(X^TX)^-1xσ^2 現在你的X只有
08/07 21:01, 19F

08/07 21:04, 1年前 , 20F
原本十分之一 如果X是獨立抽樣且每個column不相關
08/07 21:04, 20F

08/07 21:07, 1年前 , 21F
則(X^TX)^-1只有對角線 且十分之一的data就讓每個
08/07 21:07, 21F

08/07 21:08, 1年前 , 22F
entry大十倍 然後你取平均就只是讓var變回跟原來一樣
08/07 21:08, 22F
意思是所有資料都用來反算參數比較好? 如果分群反算參數,以估計參數信心區間,那麼之後把得到的參數平均後再代入 線性模型會比較可靠? 倘若是一般的(非線性)模型呢? ※ 編輯: saltlake (114.36.207.231 臺灣), 08/07/2024 22:39:05

08/08 08:10, 1年前 , 23F
模型不確定,例如迴歸函數不確定是線形的,以前做法是增加
08/08 08:10, 23F

08/08 08:12, 1年前 , 24F
由線項去檢測,或經由散佈圖或殘差圖診斷以了解較適當的迴
08/08 08:12, 24F

08/08 08:14, 1年前 , 25F
歸函數;現今由於計算能力大幅提高,採用樣條迴歸,局部線
08/08 08:14, 25F

08/08 08:16, 1年前 , 26F
性,核迴歸等方法建立樣本迴歸函數,但這些方法有個主要缺
08/08 08:16, 26F

08/08 08:19, 1年前 , 27F
點是外延困難,甚至非公式化。至於模型參數估計誤差之估計
08/08 08:19, 27F

08/08 08:20, 1年前 , 28F
或參數信賴區間之計算,除公式推導外,較一般性的方法是利
08/08 08:20, 28F

08/08 08:21, 1年前 , 29F
用 bootstrap 重抽法。
08/08 08:21, 29F
關於參數估計誤差或信賴區間的公式推導,目前僅查到最簡單的線性模型者, 請問有哪些書提供其他模型的推導? 或者要找不同的模型堆導,有甚麼關鍵字 有助從學術論文裡面找到? ※ 編輯: saltlake (114.36.207.231 臺灣), 08/08/2024 08:28:15

08/28 17:45, 1年前 , 30F
elements of statistical learning
08/28 17:45, 30F

10/31 00:48, 1年前 , 31F
想用什麼cost function 都行,只是要有辦法求出參數值
10/31 00:48, 31F

10/31 00:48, 1年前 , 32F
。只是剛好最小平方法能用推論得出封閉解
10/31 00:48, 32F

10/31 00:52, 1年前 , 33F
外加線性回歸用最小平方法求出的參數估計量,剛好也符
10/31 00:52, 33F

10/31 00:52, 1年前 , 34F
合統計上的不偏特性
10/31 00:52, 34F
文章代碼(AID): #1cihL6SN (Statistics)