[問題] 長尾分布正規化
各位好,
不知這標題會不會令人感到疑惑(如果有建議標題我會在改正)
我有一組資料約如下
項目 | 頻率
1 | 1000000
2 | 30000
3 | 200
~ ~
1000 | 3
將資料畫histogram後(項目為X軸、頻率為Y軸)
可發現呈長尾分布(像這張圖:http://ppt.cc/pom1)
由於頻率數值變異度太大,因此想對頻率做正規化
第一個想法是使用Z-score,但發現Z-score是用平均數跟標準差來做正規化
以這樣的分布情況來看此方法似乎非常的不適合
不知各位前輩對於這樣的分布的Y軸作的正規化有沒有建議的做法?
謝謝指導
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 120.126.36.94
→
06/03 23:04, , 1F
06/03 23:04, 1F
→
06/03 23:15, , 2F
06/03 23:15, 2F
→
06/04 09:10, , 3F
06/04 09:10, 3F
→
06/04 09:11, , 4F
06/04 09:11, 4F
推
06/06 23:55, , 5F
06/06 23:55, 5F