Re: [機統] Benford and zipf law
※ 引述《LeFilsDuVent (Le Fils Du Vent)》之銘言:
: 標題: [機統] Benford and zipf law
: 時間: Wed Dec 30 23:23:55 2015
:
: 剛剛學到這兩個統計定律,想了一下這兩個定律看起來互相矛盾?
:
: Benford law是說,在任何一個data中,首位數字是d的機率是
:
: Log_{10}( 1+1/d) 即 log(1+1/d),其中log以10為底數。
:
: 另一方面,Zipf law是說,在任何一個data中,
:
: 我們可以對一些數字出現的次數排序,而排第n名的數字出現的機率
:
: 就會是排第一名的出現機率的1/n。
:
: 我的問題是:如果我們把Zipf law應用在首位數字是d的機率問題中,
:
: 我們明顯得到跟Benford law不同的結果!?
:
: 搜尋了好久發現似乎沒人和我有一樣的問題,是我誤解了什麼嗎?
:
: 謝謝各位的意見或指正
:
: --
: ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.183.177.65
: ※ 文章網址: https://www.ptt.cc/bbs/Math/M.1451489037.A.7BF.html
: → a016258 : 我建議你先查wiki 看一下這兩個定律是在說什麼... 12/31 00:50
: → LeFilsDuVent: 請問wiki上說的和我文中描述的有何出入呢? 12/31 09:35
: → LeFilsDuVent: 可以確切的指出哪裡誤解了嗎? 12/31 09:36
: → LeFilsDuVent: Wiki上甚至寫了有人認為Benford law是Zipf law在bou 12/31 09:38
: → LeFilsDuVent: nded時的特殊情況,但他們明顯分佈不同啊? 12/31 09:38
: → LeFilsDuVent: 例如Benford law說,首位數字是1的機率是30%左右, 12/31 09:43
: → LeFilsDuVent: 首位數字是2的機率是17.6%左右,但我們如果把首位 12/31 09:43
: → LeFilsDuVent: 為1看做data set中排名第一,首位為2是排名第二, 12/31 09:43
: → LeFilsDuVent: 根據Zipf後者的機率得是前者的一半,這與Benford衝 12/31 09:43
: → LeFilsDuVent: 突 12/31 09:43
: → yhliu : Benfold's law 是關於數值資料的首位數字的分布; 12/31 13:04
: → yhliu : Ztpf's law 是關於文字出現頻率的分布. 兩者談的對 12/31 13:05
: → yhliu : 象不同. 12/31 13:06
: → yhliu : 例如超市中商品標價的首位數 (有的是十位數, 有的是 12/31 13:08
: → yhliu : 百位數, 不區分) 的分布, 可以考慮論用 Benford's 12/31 13:09
: → yhliu : law. 而一份報紙內所用的字做次數統計, 依其頻次高 12/31 13:10
: → yhliu : 低排序, 這是 Zipf's law 適用的情形. 12/31 13:10
非常謝謝您仔細的回復討論,我一開始也懷疑是否不能把Zipf's law用在Benford's law
描述的問題中,但卻找不太到明確的的討論與定義,因此不太有把握。
之後找到這篇陶哲軒的文章,在他給出的國家人口數分佈的例子中,
https://terrytao.wordpress.com/2009/07/03/benfords-law-zipfs-law-and-the-
pareto-distribution/
令我有點驚訝的,他把Zipf's law用在某國人口數上,
所以他測試了Zipf's law藉著看是否印度人口數是中國人口數的一半?
(結果是有著+83.5%的誤差)
所以似乎不只是「頻次」的排序,Zipf's law可以用在各種data set中。
後來我注意到了這幾個分佈定律的適用條件,
在陶文章一開始的條件中,(iv)提到data不能人工的處理過,
原本我認為把首位是1的數字選出來當一類是一種人工處理,
因為會把,例如,101跟19328321都選作一類,所以Zipf不能用。
但後來發現這應該是我的誤解,因為(i)-(iv)是Benford, Zipf, Pareto都得滿足的條件。
最後發現了陶在最後論證了Benford, Zipf跟Pareto定律都是相融互洽的。
其中Zipf's law和Pareto's law可以很容易證明是等價的。
在第三段陶把Pareto(某種程度上即Zipf)應用在Benford's law描述的問題中而得到矛盾。
在快速閱讀了陶的最後一段以後,我的理解是這樣的。
把Zipf應用在Benford's law得到不同的答案其實沒什麼奇怪的,
因為Benford定律關心的是一個統計分佈的典型中間值,
但是Zipf關心的是一個統計分佈的離群值,
因此把Zipf用在Benford問題中自然得到不同(不太好)的答案了。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.231.30.17
※ 文章網址: https://www.ptt.cc/bbs/Math/M.1451541307.A.FA3.html
※ 編輯: LeFilsDuVent (49.231.30.17), 12/31/2015 13:59:27
→
01/01 08:45, , 1F
01/01 08:45, 1F
→
01/01 08:46, , 2F
01/01 08:46, 2F
→
01/01 08:47, , 3F
01/01 08:47, 3F
→
01/01 08:48, , 4F
01/01 08:48, 4F
→
01/01 08:50, , 5F
01/01 08:50, 5F
→
01/01 08:51, , 6F
01/01 08:51, 6F
→
01/01 08:52, , 7F
01/01 08:52, 7F
→
01/01 08:53, , 8F
01/01 08:53, 8F
→
01/01 08:54, , 9F
01/01 08:54, 9F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 2 篇):