Re: [問題] 多變量分析中的 群集分析的問題 SPSS …
first of all, 請先分清楚 clustering 和classification
中文翻成 前者"分群" 後者"分類"
前者無正確答案 後者有
在cs領域 前者為unsupervised learning 後者為 supervised learning
您提到的 h. clustering 和 k-mean 都是屬於前者 (還有一些方法如som knn等)
再則 比較怪異的是 您提到 k-mean 的'分類錯誤'....@@>
本人想針對您所提工的資訊 點出兩件事
1. PCA 把許多x轉成 兩個 P. componet 是沒有單位意義的(用eigan vector
做線性轉換),然而許多x對這兩個新的線性組合變數的貢獻不一,建議在pca
前先對這些x做標準化轉換(相當於是用corr matrix 取代 covariance matrix)
2.clustering 的好壞 可以 用'組內差異最小'和'組間差異最大'去評估
下臺一鞠躬 ^^
※ 引述《alan74520 (白星星)》之銘言:
: 各位大大你好,我使用的是SPSS,有個問題想要請問大家
: 我有一群變數,我利用PCA將變數縮減至兩個,然後我現在想利用群集分析的方法,將原來的樣本進行分類,可是都無法分類完全,也就是說總是會有幾個分類錯誤。我該如何改進這樣的分類呢
: 我之前是使用Hierarchical Clustering 我知道這樣可以分的很細部
: 可是我現在想嘗試使用K-means,並自己決定分類的group 可是就是會有分類錯誤的產生。
: 該如何改進呢?
: 還是說 使用K-means本來就會有誤差?
: Ps.我的變數沒有先進行標準化,但是單位都相同。
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.109.23.18