Re: [問題] 多變量分析中的 群集分析的問題 SPSS …

看板Statistics作者 (whatcanisay)時間18年前 (2007/09/12 10:59), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串1/1
first of all, 請先分清楚 clustering 和classification 中文翻成 前者"分群" 後者"分類" 前者無正確答案 後者有 在cs領域 前者為unsupervised learning 後者為 supervised learning 您提到的 h. clustering 和 k-mean 都是屬於前者 (還有一些方法如som knn等) 再則 比較怪異的是 您提到 k-mean 的'分類錯誤'....@@> 本人想針對您所提工的資訊 點出兩件事 1. PCA 把許多x轉成 兩個 P. componet 是沒有單位意義的(用eigan vector 做線性轉換),然而許多x對這兩個新的線性組合變數的貢獻不一,建議在pca 前先對這些x做標準化轉換(相當於是用corr matrix 取代 covariance matrix) 2.clustering 的好壞 可以 用'組內差異最小'和'組間差異最大'去評估 下臺一鞠躬 ^^ ※ 引述《alan74520 (白星星)》之銘言: : 各位大大你好,我使用的是SPSS,有個問題想要請問大家 : 我有一群變數,我利用PCA將變數縮減至兩個,然後我現在想利用群集分析的方法,將原來的樣本進行分類,可是都無法分類完全,也就是說總是會有幾個分類錯誤。我該如何改進這樣的分類呢 : 我之前是使用Hierarchical Clustering 我知道這樣可以分的很細部 : 可是我現在想嘗試使用K-means,並自己決定分類的group 可是就是會有分類錯誤的產生。 : 該如何改進呢? : 還是說 使用K-means本來就會有誤差? : Ps.我的變數沒有先進行標準化,但是單位都相同。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.109.23.18
文章代碼(AID): #16vrO9TI (Statistics)