[問題] 長尾分布正規化

看板Statistics作者 (whynopeople)時間12年前 (2013/06/03 22:41), 編輯推噓1(104)
留言5則, 4人參與, 最新討論串1/1
各位好, 不知這標題會不會令人感到疑惑(如果有建議標題我會在改正) 我有一組資料約如下 項目 | 頻率 1 | 1000000 2 | 30000 3 | 200 ~ ~ 1000 | 3 將資料畫histogram後(項目為X軸、頻率為Y軸) 可發現呈長尾分布(像這張圖:http://ppt.cc/pom1) 由於頻率數值變異度太大,因此想對頻率做正規化 第一個想法是使用Z-score,但發現Z-score是用平均數跟標準差來做正規化 以這樣的分布情況來看此方法似乎非常的不適合 不知各位前輩對於這樣的分布的Y軸作的正規化有沒有建議的做法? 謝謝指導 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 120.126.36.94

06/03 23:04, , 1F
什麼是正規化?
06/03 23:04, 1F

06/03 23:15, , 2F
是指normalization
06/03 23:15, 2F

06/04 09:10, , 3F
先取對數變換. 不過如果真實分布如文內所示, 可能取對數也不
06/04 09:10, 3F

06/04 09:11, , 4F
能很好地改善分布形狀, 只是尾巴不那麼長而已.
06/04 09:11, 4F

06/06 23:55, , 5F
Box-Cox轉換會不會有幫助阿?
06/06 23:55, 5F
文章代碼(AID): #1HhAiQM9 (Statistics)