Re: [問題] 將不同的scale標準化的方法?

看板Statistics作者 (^_^)時間15年前 (2010/03/29 14:41), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串2/2 (看更多)
幾個問題想請教大家 如果資料點有不同的特徵值 eq: x1 (a1, b1, c1) 、 x2 (a2, b2, c3) 、 x3 (a3, b3, c3) ... 直接做clustering可能會因特徵值的scale不同,使得有些特徵被忽視 eq: 利用SPSS demo了以下十點 點 X Y 1 100.00 10.00 2 100.00 10.00 3 100.00 10.00 4 100.00 1.00 5 100.00 1.00 6 100.00 1.00 7 200.00 1.00 8 200.00 1.00 9 200.00 1.00 10 500.00 1.00 使用K-means分成3群 會由歐基里德距離分成(1,2,3,4,5,6)(7,8,9)(10) 如果為了避免scale造成的影響,使用hierachy分群 先經過Z-Score的處理,可分成(1,2,3)(4,5,6,7,8,9)(10) 後者是我比較想要的結果 想請問大家,我的資料型態有10個軸,彼此並無相關聯 共100000點的資料,想經由clustering分成15群,並得到每個分群的boundaries 就劉老師提醒的Mahalanobis distance,跟Z-score相比增加了各變數間的相關性 以我的資料類型用Z-score還是Mahalanobis distance比較適合? 亦想請問SPSS中有選擇分群數的Z-score(or Mahalanobis)分群功能嗎? 目前看到K-means中沒有Z-score可以選,hierachy沒有群數的選擇 因為我沒學過SAS 如果SPSS沒有內建,需要用perl寫寫看 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.114.88.228
文章代碼(AID): #1Bi4k1h9 (Statistics)
文章代碼(AID): #1Bi4k1h9 (Statistics)