[問題] 如何利用PCA簡化變數?

看板Statistics作者 (怪怪ㄟ獸)時間10年前 (2014/01/15 18:11), 編輯推噓1(1025)
留言26則, 4人參與, 最新討論串1/1
如果是跟統計軟體有關請重發文章 如果跟論文有關也煩請您重發文章 文章類別是為了幫助大家搜尋資料與解答,造成不便之處請見諒 不知道可不可以利用PCA來簡化變數 目前有27個變數想要簡化成13個 以下是算出來的結果 Importance of components: PC1 PC2 PC3 PC4 PC5 Standard deviation 3.4619 2.0655 1.63058 1.45106 1.27229 Proportion of Variance 0.4439 0.1580 0.09847 0.07798 0.05995 Cumulative Proportion 0.4439 0.6019 0.70035 0.77833 0.83829 PC1 PC2 PC3 最大降雨 0.79392472 -0.123015555 -0.427866275 最小降雨 0.19038766 0.559686529 -0.009064013 平均降雨 0.54870486 -0.040940061 -0.700741734 溫度差 -0.56213423 -0.214135710 -0.146952105 海拔 0.85265935 -0.282907331 0.028590115 最高溫度 -0.96124684 0.001849815 -0.126504736 最低溫度 -0.91456587 0.136359681 -0.074723367 年均溫 -0.97570411 0.052911701 -0.101209547 直射光空域 0.79829525 -0.127279311 -0.056290773 海拔變異程度 0.23582338 0.644816235 -0.357059921 森林總面積 0.41793700 0.196845490 0.274742727 森林指標 0.61593800 0.074006252 -0.309788570 human.surface.area -0.37101172 -0.643226134 -0.438070149 human.area -0.36996055 -0.645855818 -0.437811309 植生指數mean 0.56371360 -0.067288469 0.045291044 植生指數STD 0.37524184 0.775436122 -0.167066916 道路密度 -0.07993246 -0.512624387 -0.207902802 坡度平均值 0.13046480 0.722181051 -0.277555250 南向 0.17766275 -0.554853053 -0.270605434 夏季溫度 -0.96934463 0.013199399 -0.111225503 秋季溫度 -0.97059660 0.021085091 -0.098342924 冬季溫度 -0.92356768 0.133752520 -0.085059938 春季溫度 -0.97753325 0.072584802 -0.096554524 夏季降雨 -0.11087280 0.028102474 -0.856365631 秋季降雨 0.05637413 0.791319387 -0.475813055 冬季降雨 0.88145245 -0.229793703 0.001917229 春季降雨 0.86236316 -0.283196968 -0.151131476 例如PC1軸裡最高溫度.最低溫度.年均溫.夏季溫度.秋季溫度.冬季溫度.春季溫度都為很 大的負值,那我可以只留一個變因其他刪除嗎? 就只留春季溫度... 這樣是對的方法嗎? 還是有別的方法可以去簡化我的變數 謝謝大家>< -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.116.25.131

01/15 19:21, , 1F
請考慮的PC1、PC2、PC3代表什麼指標
01/15 19:21, 1F

01/15 19:26, , 2F
這些變因正負值通常可以推測出PC1指標的意義
01/15 19:26, 2F

01/15 20:27, , 3F
那像是PC1指標為溫度,那我可以只留一個溫度的意思嗎?
01/15 20:27, 3F

01/15 20:29, , 4F
PC2比較像是植被方面,PC3為降雨
01/15 20:29, 4F

01/15 20:49, , 5F
PC1 PC2 PC3 PC4 PC5已經27變因是轉換過後的5個指標
01/15 20:49, 5F

01/15 20:51, , 6F
你選出來PC1-PC5已經是27個變因降到5個指標
01/15 20:51, 6F

01/15 20:55, , 7F
PC1的這些變因組合到底能看出什麼,或許需要參考文獻
01/15 20:55, 7F

01/15 21:47, , 8F
所以如果我挑到PC5,這樣就利用這五個指標去做CCA??
01/15 21:47, 8F

01/15 21:49, , 9F
謝謝你
01/15 21:49, 9F

01/15 21:54, , 10F
那我可以在PC1中挑一個數值對大得(絕對值)當做PC1的一
01/15 21:54, 10F

01/15 21:54, , 11F
個指標嗎?
01/15 21:54, 11F

01/15 22:03, , 12F
PCA應該沒有這種選法,你有參考文獻佐證嗎?
01/15 22:03, 12F

01/15 22:06, , 13F
CCA是你的專業領域,指標也只是從你的PC1-PC5來推測
01/15 22:06, 13F

01/15 22:06, , 14F
也有可能根本沒有這個指標
01/15 22:06, 14F

01/15 22:07, , 15F
或者是根本沒有意義
01/15 22:07, 15F

01/15 22:07, , 16F
指標的合理解釋要從你專業領域來探討
01/15 22:07, 16F

01/15 23:52, , 17F
了解!! 謝謝你
01/15 23:52, 17F

01/16 08:28, , 18F
拿pca的結果去做cca怪怪的... cca已經有降維的功能了.
01/16 08:28, 18F

01/16 10:54, , 19F
但是我的樣區只有14個,所以環境變因最多只能放13個...
01/16 10:54, 19F

01/16 10:55, , 20F
那我該如何去刪減我的環境變因...謝謝你
01/16 10:55, 20F

01/16 14:25, , 21F
你說的環境變因是constraing mat 還是conditioning mat?
01/16 14:25, 21F

01/16 14:28, , 22F
前者沒有限制變項數量但後者有.
01/16 14:28, 22F

01/16 18:23, , 23F
變數的選取可能還是要從專業去看,PCA主要是了解變數間關
01/16 18:23, 23F

01/16 18:24, , 24F
係,且PCA是線性的模式,你可以先用DCA去看前三軸的軸長
01/16 18:24, 24F

01/16 18:25, , 25F
如果低於4那用線性模式(PCA,RDA),大於則用高斯模型(CA,)
01/16 18:25, 25F

01/16 18:26, , 26F
DCA,CCA)會比較妥切
01/16 18:26, 26F
文章代碼(AID): #1IrbwxXU (Statistics)