Re: [問題] 相關係數的問題
※ 引述《yhliu.bbs@bbs.cs.nctu.edu.tw ()》之銘言:
: 如果是比較兩條 p.d.f. 曲線, f(x) 與 g(x), 可考慮
: ∫(f(x)-g(x))^2 dx (*)
: 這是模仿 density estimation 中的 IMSE (integrated
: mean squared error) 準則的指標. IMSE 是
: ∫E[(f*(x)-f(x))^2] dx 其中 f*(x) 是 f(x) 的估計量
: 但前項指標 (*) 其實也是數學上的 Eculidean-norm 或
: 2-norm.
: 另一可考慮的拍標是 Kulback-Leibler divergence
: ∫ln(f(x)/g(x)) f(x) dx
: 其中對數在 information theory 習慣是取 2 為底,統計
: 上則習慣取自然對數.
如果原始資料是離散的數值,並不具備有像f(x)般的函數曲線,
那麼要如何使用KL divergence來衡量兩個數列的相似度呢?
例如,我有兩個數列分別是 A: 3,4,6,,9,10,22,16,17.. (共m個)
B: 7,9,25,21,13,17,... (共n個,且 m!=n)
謝謝 :)
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.123.102.81
討論串 (同標題文章)