Re: [機統] Benford and zipf law

看板Math作者 (Le Fils Du Vent)時間8年前 (2015/12/31 13:55), 8年前編輯推噓0(009)
留言9則, 1人參與, 最新討論串2/2 (看更多)
※ 引述《LeFilsDuVent (Le Fils Du Vent)》之銘言: : 標題: [機統] Benford and zipf law : 時間: Wed Dec 30 23:23:55 2015 : : 剛剛學到這兩個統計定律,想了一下這兩個定律看起來互相矛盾? : : Benford law是說,在任何一個data中,首位數字是d的機率是 : : Log_{10}( 1+1/d) 即 log(1+1/d),其中log以10為底數。 : : 另一方面,Zipf law是說,在任何一個data中, : : 我們可以對一些數字出現的次數排序,而排第n名的數字出現的機率 : : 就會是排第一名的出現機率的1/n。 : : 我的問題是:如果我們把Zipf law應用在首位數字是d的機率問題中, : : 我們明顯得到跟Benford law不同的結果!? : : 搜尋了好久發現似乎沒人和我有一樣的問題,是我誤解了什麼嗎? : : 謝謝各位的意見或指正 : : -- : ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.183.177.65 : ※ 文章網址: https://www.ptt.cc/bbs/Math/M.1451489037.A.7BF.html : → a016258 : 我建議你先查wiki 看一下這兩個定律是在說什麼... 12/31 00:50 : → LeFilsDuVent: 請問wiki上說的和我文中描述的有何出入呢? 12/31 09:35 : → LeFilsDuVent: 可以確切的指出哪裡誤解了嗎? 12/31 09:36 : → LeFilsDuVent: Wiki上甚至寫了有人認為Benford law是Zipf law在bou 12/31 09:38 : → LeFilsDuVent: nded時的特殊情況,但他們明顯分佈不同啊? 12/31 09:38 : → LeFilsDuVent: 例如Benford law說,首位數字是1的機率是30%左右, 12/31 09:43 : → LeFilsDuVent: 首位數字是2的機率是17.6%左右,但我們如果把首位 12/31 09:43 : → LeFilsDuVent: 為1看做data set中排名第一,首位為2是排名第二, 12/31 09:43 : → LeFilsDuVent: 根據Zipf後者的機率得是前者的一半,這與Benford衝 12/31 09:43 : → LeFilsDuVent: 突 12/31 09:43 : → yhliu : Benfold's law 是關於數值資料的首位數字的分布; 12/31 13:04 : → yhliu : Ztpf's law 是關於文字出現頻率的分布. 兩者談的對 12/31 13:05 : → yhliu : 象不同. 12/31 13:06 : → yhliu : 例如超市中商品標價的首位數 (有的是十位數, 有的是 12/31 13:08 : → yhliu : 百位數, 不區分) 的分布, 可以考慮論用 Benford's 12/31 13:09 : → yhliu : law. 而一份報紙內所用的字做次數統計, 依其頻次高 12/31 13:10 : → yhliu : 低排序, 這是 Zipf's law 適用的情形. 12/31 13:10 非常謝謝您仔細的回復討論,我一開始也懷疑是否不能把Zipf's law用在Benford's law 描述的問題中,但卻找不太到明確的的討論與定義,因此不太有把握。 之後找到這篇陶哲軒的文章,在他給出的國家人口數分佈的例子中, https://terrytao.wordpress.com/2009/07/03/benfords-law-zipfs-law-and-the- pareto-distribution/ 令我有點驚訝的,他把Zipf's law用在某國人口數上, 所以他測試了Zipf's law藉著看是否印度人口數是中國人口數的一半? (結果是有著+83.5%的誤差) 所以似乎不只是「頻次」的排序,Zipf's law可以用在各種data set中。 後來我注意到了這幾個分佈定律的適用條件, 在陶文章一開始的條件中,(iv)提到data不能人工的處理過, 原本我認為把首位是1的數字選出來當一類是一種人工處理, 因為會把,例如,101跟19328321都選作一類,所以Zipf不能用。 但後來發現這應該是我的誤解,因為(i)-(iv)是Benford, Zipf, Pareto都得滿足的條件。 最後發現了陶在最後論證了Benford, Zipf跟Pareto定律都是相融互洽的。 其中Zipf's law和Pareto's law可以很容易證明是等價的。 在第三段陶把Pareto(某種程度上即Zipf)應用在Benford's law描述的問題中而得到矛盾。 在快速閱讀了陶的最後一段以後,我的理解是這樣的。 把Zipf應用在Benford's law得到不同的答案其實沒什麼奇怪的, 因為Benford定律關心的是一個統計分佈的典型中間值, 但是Zipf關心的是一個統計分佈的離群值, 因此把Zipf用在Benford問題中自然得到不同(不太好)的答案了。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.231.30.17 ※ 文章網址: https://www.ptt.cc/bbs/Math/M.1451541307.A.FA3.html ※ 編輯: LeFilsDuVent (49.231.30.17), 12/31/2015 13:59:27

01/01 08:45, , 1F
其實, 把人口數當成像 "字" 的出現頻率一般的統計數
01/01 08:45, 1F

01/01 08:46, , 2F
字而套用 Zipf's law 是合理的, 因為一個人屬於某一
01/01 08:46, 2F

01/01 08:47, , 3F
國家或地區, 可以看成像文章中出現某一個字. 所以,
01/01 08:47, 3F

01/01 08:48, , 4F
人口最多的國家, 就像出現最多的字; 人口次多的國家
01/01 08:48, 4F

01/01 08:50, , 5F
就像出現次多的字. 只不過, 像這種 "經驗分布" 的資
01/01 08:50, 5F

01/01 08:51, , 6F
料, 事實上又受到不同因素的干擾, 例如人口數會受到
01/01 08:51, 6F

01/01 08:52, , 7F
政治、法令的限制, 文章中的用字則受到文法;社會文
01/01 08:52, 7F

01/01 08:53, , 8F
化習慣的牽扯. 因此, 如果某些資料似乎 "理論上" 能
01/01 08:53, 8F

01/01 08:54, , 9F
套用某一分布, 結果卻發現配適不佳, 那也是不足為奇
01/01 08:54, 9F
文章代碼(AID): #1MXCCx-Z (Math)
文章代碼(AID): #1MXCCx-Z (Math)