Re: [問題] 將不同的scale標準化的方法?
幾個問題想請教大家
如果資料點有不同的特徵值
eq: x1 (a1, b1, c1) 、 x2 (a2, b2, c3) 、 x3 (a3, b3, c3) ...
直接做clustering可能會因特徵值的scale不同,使得有些特徵被忽視
eq: 利用SPSS demo了以下十點
點 X Y
1 100.00 10.00
2 100.00 10.00
3 100.00 10.00
4 100.00 1.00
5 100.00 1.00
6 100.00 1.00
7 200.00 1.00
8 200.00 1.00
9 200.00 1.00
10 500.00 1.00
使用K-means分成3群
會由歐基里德距離分成(1,2,3,4,5,6)(7,8,9)(10)
如果為了避免scale造成的影響,使用hierachy分群
先經過Z-Score的處理,可分成(1,2,3)(4,5,6,7,8,9)(10)
後者是我比較想要的結果
想請問大家,我的資料型態有10個軸,彼此並無相關聯
共100000點的資料,想經由clustering分成15群,並得到每個分群的boundaries
就劉老師提醒的Mahalanobis distance,跟Z-score相比增加了各變數間的相關性
以我的資料類型用Z-score還是Mahalanobis distance比較適合?
亦想請問SPSS中有選擇分群數的Z-score(or Mahalanobis)分群功能嗎?
目前看到K-means中沒有Z-score可以選,hierachy沒有群數的選擇
因為我沒學過SAS
如果SPSS沒有內建,需要用perl寫寫看
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.114.88.228
討論串 (同標題文章)
完整討論串 (本文為第 2 之 2 篇):