[機統] Benford and zipf law

看板Math作者 (Le Fils Du Vent)時間8年前 (2015/12/30 23:23), 編輯推噓0(0017)
留言17則, 3人參與, 最新討論串1/2 (看更多)
剛剛學到這兩個統計定律,想了一下這兩個定律看起來互相矛盾? Benford law是說,在任何一個data中,首位數字是d的機率是 Log_{10}( 1+1/d) 即 log(1+1/d),其中log以10為底數。 另一方面,Zipf law是說,在任何一個data中, 我們可以對一些數字出現的次數排序,而排第n名的數字出現的機率 就會是排第一名的出現機率的1/n。 我的問題是:如果我們把Zipf law應用在首位數字是d的機率問題中, 我們明顯得到跟Benford law不同的結果!? 搜尋了好久發現似乎沒人和我有一樣的問題,是我誤解了什麼嗎? 謝謝各位的意見或指正 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.183.177.65 ※ 文章網址: https://www.ptt.cc/bbs/Math/M.1451489037.A.7BF.html

12/31 00:50, , 1F
我建議你先查wiki 看一下這兩個定律是在說什麼...
12/31 00:50, 1F

12/31 09:35, , 2F
請問wiki上說的和我文中描述的有何出入呢?
12/31 09:35, 2F

12/31 09:36, , 3F
可以確切的指出哪裡誤解了嗎?
12/31 09:36, 3F

12/31 09:38, , 4F
Wiki上甚至寫了有人認為Benford law是Zipf law在bou
12/31 09:38, 4F

12/31 09:38, , 5F
nded時的特殊情況,但他們明顯分佈不同啊?
12/31 09:38, 5F

12/31 09:43, , 6F
例如Benford law說,首位數字是1的機率是30%左右,
12/31 09:43, 6F

12/31 09:43, , 7F
首位數字是2的機率是17.6%左右,但我們如果把首位
12/31 09:43, 7F

12/31 09:43, , 8F
為1看做data set中排名第一,首位為2是排名第二,
12/31 09:43, 8F

12/31 09:43, , 9F
根據Zipf後者的機率得是前者的一半,這與Benford衝
12/31 09:43, 9F

12/31 09:43, , 10F
12/31 09:43, 10F

12/31 13:04, , 11F
Benfold's law 是關於數值資料的首位數字的分布;
12/31 13:04, 11F

12/31 13:05, , 12F
Ztpf's law 是關於文字出現頻率的分布. 兩者談的對
12/31 13:05, 12F

12/31 13:06, , 13F
象不同.
12/31 13:06, 13F

12/31 13:08, , 14F
例如超市中商品標價的首位數 (有的是十位數, 有的是
12/31 13:08, 14F

12/31 13:09, , 15F
百位數, 不區分) 的分布, 可以考慮論用 Benford's
12/31 13:09, 15F

12/31 13:10, , 16F
law. 而一份報紙內所用的字做次數統計, 依其頻次高
12/31 13:10, 16F

12/31 13:10, , 17F
低排序, 這是 Zipf's law 適用的情形.
12/31 13:10, 17F
文章代碼(AID): #1MW_SDU_ (Math)
文章代碼(AID): #1MW_SDU_ (Math)