[機統] 訊號(影像/聲音)可不用隨機建模?

看板Math作者znmkhxrw (QQ)時間3年前 (2022/11/11 03:13)推噓10(10推 0噓 68→)

留言78則, 4人參與討論串1/1

各位好, 之前在 #1XF2064M 有詢問過"為何訊號處理要用隨機過程"相關問題當時討論方向傾向於"工程Paper寫的不嚴謹"的相關討論而最近我又再碰一些訊號處理的paper又遇到一堆隨機過程因此想要用實際簡單的例子來詢問為什麼要用隨機過程/隨機變數對訊號建模 P.S. 文末有提如果內容眾多或是在意知識產權, 樂意付費求解【問題】 (1) 為什麼要用隨機過程建模? 我有聽到一個說法是"因為你永遠不知道下一個/串訊號x_n是什麼", 但對於這個說法把他當作需要的理由我覺得很怪, 我直接像分析學假設訊號x_n符合某個條件不就好了? 比如x_n€l^p, p=1 or 2..., 也就是說, 目前有兩個approach: (a) 統計方向: 假設x_n是符合某些條件的隨機過程X_n(w)的取樣 (某些條件如stationary, ergodic, 滿足某個機率分布...) (b) 分析方向: 假設x_n是符合某些條件的實數列 (某些條件如l^p) 會發現(a),(b)這兩種假設方式也都是"不知道下一串訊號x_n是什麼而做的假設" 所以我才覺得這句話並不足以說服我為何要用隨機過程建模況且電腦就是根據確定的input去產生output 今天我的算法的accuracy是某個資料庫的N筆資料的正確率的話這N筆資料就是確定的固定值, 我就是要這N筆的正確率越高越好因此何來不知道下一串x_n是什麼的疑慮而且隨機過程建模的話很容易讓論文的符號有一堆模棱兩可跟猜測的空間, 舉例來說, 一個實數列x_n迄今我就看到有三種版本詮釋他: (A) x_n = X_n(w) for some w€Ω, 其中Ω是樣本空間, X_n(w)是隨機過程 (B) x_n = X(w_n) for a sequence w_n€Ω, 其中Ω是樣本空間, X是隨機變數 (C) x_n = X(n) for n€Z, 其中整數Z是樣本空間, X(n)是隨機過程而不管猜測/選擇哪個版本, 只要條件加的夠多, 好像三個就能得到一樣的結果然後再套入一些說法如"樣本空間不重要, 重要的是pdf", 變成說具體是(A),(B),(C) 哪一個也不重要了, 反正不說死x_n是什麼, 理論推導時寫E[x_n], 這個E是期望值還是ensemble average也不重要, 反正條件夠好值都一樣如果真是如此的話, 那我直接用(b)假設x_n是符合某個條件的實數列就好了啊看起來(a)並沒有帶給我任何好處反而還有一堆模稜兩可的地方甚至我把所有有E[x_n]的推導過程的E[x_n]都定義為ensemble average 等式幾乎都可以過去, 況且電腦實作上對於E[x_n]也都是用moving average做因此我才覺得假設符合條件的實數列x_n並且考慮 E[x_n]:=lim_{n→∞}( (1/n) *Σ_{k=-n~n} x_k) (E[x_n]只是舉例, 像是特殊型MMSE是考慮E[|e_n|^2], e_n是error sequence) 最後一提的是, 用隨機過程建模的話, 某個x_n出來的結果是錯誤的話你並不能去說他公式推導或是假設錯誤, 因為照理論來說這個x_n只是抽樣抽樣的結果不對不代表什麼, 因為都有機率性的有鑑於此, 讓我疑惑的三點就在於: ‧不管採取統計方向跟分析方向的假設, 電腦實作都是同一套那採取哪種假設根本沒差 ‧採用統計假設就有一個好處：理論推導錯誤也沒差即便任意有限N筆資料錯, 也都不能去說作者推導有錯因為有限抽樣的結果不能否定掉機率分布, 頂多只能說倒楣一直抽到不好的data ‧不能檢驗的理論(統計假設)為何重要? 因為在統計的假設下, 任何輸入x_n只是抽樣他結果對與錯並不能撼動假設, 不像反證法可以由結果錯可以說假設錯 (2) 如果只是對x_n做實數列假設會怎樣嗎? 這部分跟(1)就有很多重複的地方不贅述, 特別想問的是幾乎所有機器學習, 深度學習訊號處理的參考資料跟論文都會引入期望值, 然後不說死E[x_n]的x_n是什麼如果我寫論文不採用隨機過程建模, 直接用分析學的方式去假設訊號x_n符合某些條件會直接被打槍嗎? 如果會的話, 那就回到(1)了, 我想知道到底是有什麼理由跟好處... 抑或是從今以後我閱讀任何有E[]的論文時, 都把他當成數列的ensemble average一切就天下太平? 不用管什麼統計假設了, 反正電腦實作時不論x_n是不是滿足什麼統計假設也是算一樣的東西... 【舉例】我想以Wiener filter去比較使用分析假設與統計假設的差別 (嚴格來說統計的理論是實變, 實變是分析學, 因此我此處的分析學是指沒用到樣本空間/隨機過程那些的分析學) 參考 https://en.wikipedia.org/wiki/Wiener_filter 的 "Finite impulse response Wiener filter for discrete series"段落大體說來(符號跟wiki一致), w_n跟s_n是兩串已知數列, {a_i│i=0~N}是N+1個待定係數令a := (a_0,...,a_N)€R^(N+1) x_n := Σ_{i=0~N} a_i*w_(n-i) e_n := x_n - s_n 求最小誤差問題 min E[|e_n|^2] a€R^(N+1) 接著就可以考慮幾種case: (一) 採用統計假設, 並不說死E[]中擺的數列是怎麼來的(X_n(w)/X(w_n)/X(n)) 則就像wiki那樣一路推下去, 也得出結果我想問的是嚴格來說wiki裡面的E[]到底是什麼? X_n(w)/X(w_n)/X(n)隨便都可以嗎? 如果是的話, 是依據哪個定理所以隨便都可以? 如果真的隨便都可以, 那就照(二)當成數列的ensemble average就好啦? (二) 採用分析學假設, 這些數列單純是數列而已定義E[|e_n|^2] := lim_{n→∞}( (1/n) * Σ_{k=-n~n} |e_k|^2) 會發現wiki所有的推導都過的去, 只要假設極限表現良好也就是說, 所有的推導都只是實數列的推導, 無關任何統計假設這樣不能嗎? 有何缺點? (三) 採用分析學假設, 去嚴格化(二) 觀察(二)會發現不一定有解a使得cost function達到minimum, 甚至下面這個空間S 根本不一定是向量空間 S:={x_n:Z→R│E[|x_n|^2] exists} 會用特別指出他不是向量空間是為了跟下面這個確定的結果做對比 (即是我在 #1ZPWF7qZ 的問題-(4)的結論) 令l^2:={x_n:Z→R│Σ_{k=-∞~∞} |x_k|^2 < ∞} 則l^2不僅是向量空間更是Hilbert space, <x,y> := Σ_{k=-∞~∞} x_k*y_k 這裡會發現S跟l^2的差別就只是有沒有除以n, 正是這個除以n破壞了向量空間在l^2中, 正項級數隨著加的項數越多值遞增, 因此遞增有上界就能收斂但是S中多了除以n, 導致分子加的項數越多值遞增但是分母也在遞增, 無法確定收斂性因此我接下來的推導只會在l^2(在S目前我覺得不會有好結果) 額外一提, 如果單純考慮有限維空間的最佳近似解問題(符號混用, 過了這段就無視) min |Ax-b|^2 x€R^n 其中A=(a_i_j)€M_mxn(R), b€R^m 則定義 e_n:= (Σ_{k=1~n} a_n_k * x_k) - b_n 的話原問題就可以寫成 min (Σ_{k=1~m}|e_k|^2) x€R^n 此時會發現不管有沒有除以m, 解得的x都會是一樣的這例子帶給人一種l^2跟S會有差別是因為無限維的問題, 若有限維就一樣了接著回到l^2, 把Wiener filter的最佳化問題與條件假設羅列如下: 令w_n€l^1, s_n€l^2為兩數列 a := (a_0,...,a_N)€R^(N+1) to be determined x_n := Σ_{i=0~N} a_i*w_(n-i) e_n := x_n - s_n ║v║:= (<v,v>)^0.5 , for v€l^2, 即l^2的norm 求最小誤差問題 min Σ_{k=-∞~∞} |e_k|^2 a€R^(N+1) 可以發現這個最佳化問題等價於 min║w＊A-s║ ---(●) A€C 其中C:={A_n:Z→R│A_n = 0 for n not in {0,...,N}}為l^2中的(N+1)維子空間 (也就是說, 數列A_n只是把a_n左右無限補0而已) 會發現先前l^1, l^2的設定只是為了讓(●)well-defined(l^1＊C會屬於l^2) 而藉由Hilbert space的投影定理(因為A處於有限維空間C, 所以摺積算子的值域R_w (R_w:={w＊A│A€C}) 也會是有限維, 因此closed), 會存在唯一的垂足p€R_w 使得 s-p€R_w^⊥, 接著只要任何滿足 w＊A = p的A都是最佳化問題的解A 順帶一提, 如果在l^2空間考慮最佳化問題 min E[|e_k|^2] a€R^(N+1) 結果會很慘, 因為l^2的級數和是有限的, 會讓無窮大的分母使得整體收斂到0 因此會變成所有的a€R^(N+1)都是解, 毫無意義以上就是我用分析學假設去嚴格化(二)的陳述為什麼歷史演進下來的Wiener filter不是這樣的假設與推導? 我是在猜測一些可能性: ‧l^1, l^2這些假設太嚴格了, 不除以項數的話很容易發散, 非常不實用 ‧l^2空間去除以項數會得到無意義結果 ‧考慮較寬廣的集合S, S又沒有辦法嚴格化成向量空間/Hilbert space... 就是這些因素讓應用數學家放棄用分析學方式建模 ----------------------------------------------------------- 以上就是我的問題跟猜測, 我盡量用線性脈絡去陳述我遇到的問題但是因為牽涉到"為什麼要這樣令、有什麼好處、理論歷史發展"之類的問題問起來難免有點雜不好意思再請有涉獵的板友幫忙了, 謝謝! 另外如果有板友可以完全回答這些疑惑, 但是又覺得是自己整理的知識產權非常樂意可以來信討論付費講解我這幾天邊整理這些邊逛tutor版、google家教(高等數學/統計/工作的數學)...等都沒有找到相關的資源...(有時候覺得是不是自己google能力很差...這些問題我網路都找不到類似的人問, 當然就沒有答案) 因為本身在業界了, 自己想這個的時間沒有很多, 付費換得高效率得到答案的方式對我來說是非常可行的再次謝謝幫忙~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.102.225.191 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Math/M.1668107617.A.9B7.html

推

deathcustom

11/11 09:59, 3年前 , 1^F

11/11 09:59, 1^F

好~謝謝資訊, 只是我從好幾年前到業界時, 就很難找到適合的人選問... 數學的同學或是教授偏理論, 我必須把工程上的問題翻譯跟定義完才能跟他們討論問題就在於這些問題本身就是定義跟歷史問題, 也可以說是我翻譯完那就沒問題了... 而問業界的同事, 他們不在意理論怎樣, 反正電腦跑起來ok就ok 尤其深度學習很容易理論一套、實作一套而又礙於理論是用統計做假設, 所以實作(抽樣)不符合理論也沒有矛盾綜合以上兩點, 理論如果不重要又不能檢驗(只能某個信心水準), 那這個理論用處在? 我是不相信理論不重要啦, 只是目前沒找到說法, 因此才來問

推

deathcustom

11/11 10:13, 3年前 , 2^F

11/11 10:13, 2^F

→

deathcustom

11/11 10:13, 3年前 , 3^F

11/11 10:13, 3^F

→

deathcustom

11/11 10:14, 3年前 , 4^F

11/11 10:14, 4^F

這個我理解, 所以就需要假設問題在於我假設雜訊符合某個分布 vs 假設雜訊符合某個分析條件我還是不清楚有何差別, 細節就是本文的那些思考方向(【問題】)

→

recorriendo

11/11 14:00, 3年前 , 5^F

11/11 14:00, 5^F

→

recorriendo

11/11 14:00, 3年前 , 6^F

11/11 14:00, 6^F

→

recorriendo

11/11 14:00, 3年前 , 7^F

11/11 14:00, 7^F

嗨r大, 謝謝reference 另外請問一下, 你說"當然可以", 那我下面這個疑惑對你而言是疑惑嗎? 不管假設x_n是 (1)符合某個隨機分布的抽樣, X_n(w)/X(w_n)/X(n)哪一個隨便或 (2)符合某個分析學的數列假設電腦實作E[x_n]時都是用moving average來宣稱達到期望值E[] (其中E[]是expected value還是ensemble average根本不管, 實作都用moving average) 也就是說, 不管x_n是怎麼假設來的, 我的實作都是同一套程式碼的話那假設不就變得沒有意義了? 這是我的疑惑舉一個我所謂有意義的假設, 拿Wiener filter的(三)分析當例子只要條件滿足羅列的所有假設, 結論一定會成立反之如果結論不成立, 一定w不是l^1 或是 s不是l^2 或是blabla 也就是說, 分析學的假設只要你能滿足條件, 結果一定成立反之如果結果不成立, 假設一定有地方出錯但是統計學的假設下, 即便抽樣的數列跑出來的結果不成立, 也不能否定掉統計假設我覺得我就是這裡不舒服跟覺得怪怪的還是說要用統計學來建模的話, 就是要讓自己接受這些觀點? 而剛好歷史上在訊號處理大家都用這一套來建模, 接受就好了如果理由確實如此的話我是可以接受 ※ 編輯: znmkhxrw (114.25.106.213 臺灣), 11/11/2022 15:37:51

→

recorriendo

11/11 17:24, 3年前 , 8^F

11/11 17:24, 8^F

→

recorriendo

11/11 17:25, 3年前 , 9^F

11/11 17:25, 9^F

→

recorriendo

11/11 17:25, 3年前 , 10^F

11/11 17:25, 10^F

→

recorriendo

11/11 17:27, 3年前 , 11^F

11/11 17:27, 11^F

→

recorriendo

11/11 17:29, 3年前 , 12^F

11/11 17:29, 12^F

→

recorriendo

11/11 17:29, 3年前 , 13^F

11/11 17:29, 13^F

→

recorriendo

11/11 17:32, 3年前 , 14^F

11/11 17:32, 14^F

→

recorriendo

11/11 17:32, 3年前 , 15^F

11/11 17:32, 15^F

意思是說在統計假設WSS與ergodic的情況下並且假設所選用的moving average會等於time average 則所有抽樣的x_n都會符合理論推導換言之, 如果某個抽樣x_n不符合理論推導結果, 就是下列至少存在一種情況發生: (1) 選用的moving average不夠好 (2) 不是WSS (3) 不是ergodic r大是這個意思嗎?

→

recorriendo

11/11 20:51, 3年前 , 16^F

11/11 20:51, 16^F

→

recorriendo

11/11 20:52, 3年前 , 17^F

11/11 20:52, 17^F

→

recorriendo

11/11 20:52, 3年前 , 18^F

11/11 20:52, 18^F