[問題] 群集分析及變異數分析的關係

看板Statistics作者 (hectory)時間15年前 (2010/07/25 12:55), 編輯推噓1(1023)
留言24則, 4人參與, 最新討論串1/2 (看更多)
[極簡介] 各位板大好,我是一名大二的學生,沒有學過統計學, 但是因為專題需要做一些定量分析,因而上此版求助。 我有看幾篇在講 determining clusters 的 papers 也有查一些統計相關書籍,和上網 google 但是覺得有些關於群集分類和變異數分析的關係我還是看不懂 然後因為指導的老師及學姊也都沒有學過這方面的東西, 所以希望板眾可以指點一下,謝謝!! [問題內容] 我目前主要是希望能夠將我的資料群(一個在二維平面上第一象限內的點分布圖, (x1,y1)...(xn,yn)) 依照他們的位置做分堆(clusters),相鄰者就分為一堆, 但是因為需要一個分堆的標準,所以希望能夠照統計學群集分析的標準來分析。 可是不知道為什麼我查的 papers 在講到決定群集(determining clusters)時 會牽扯到變異數分析(ANOVA)?? 我的理解是他說需要有一些審視的步驟來決定,可是我看像是 calinski or C-index 他們都有相對應的公式,可是我看一下公式裡面有 SSB SSW ,這些東西不是應該 要先分群後才能算出來嗎? 不然怎麼知道哪些是 between 哪些是 within? 還是說這邊這些公式不是用來分群? 那今天我要決定讓相鄰者分為一堆跟這些公式 有什麼關係? 或者該說要怎麼用這些公式啊? 那為什麼很多 papers 都提到 determining clusters numbers 的 stopping rules (or indexes) 有這些方式(像是 calinski, fuzzy c means...)? 還是其實這邊的 stopping rules 其實指的不是 決定分堆 的依據?? ------- 如果我的文字敘述還是不清楚或是認為我問的問題太簡單之類的話, 煩請大家多包含,因為這也是我第一次開始接觸統計相關的 papers 看了很多次相關書籍,我知道變異數以及其中一些公式的算法源由 可是真的還是搞不太懂他們和分群之間的關係 >"< 非常感謝有這個版可以讓我發問,也希望大家願意回覆,謝謝!! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 122.118.37.177

07/25 19:42, , 1F
利用ANOVA只是想看分群效果好不好,是在分群後才計算!
07/25 19:42, 1F

07/26 00:14, , 2F
樓上正解 ANOVA 可以視為cluster的事後考驗
07/26 00:14, 2F

07/26 01:15, , 3F
也不完全是樓上兩位講的這樣. ANOVA 的 F 值也可以用來做
07/26 01:15, 3F

07/26 01:17, , 4F
分群的依據. F 值的定義是 組間距/組內距離. 假設現有100
07/26 01:17, 4F

07/26 01:19, , 5F
筆你所述的資料, 目的在至多分成三群, 共有 100^3/3! 種分
07/26 01:19, 5F

07/26 01:20, , 6F
類方式. 這 100^3/3! 個方式每一個都可以計算一個 F 值.
07/26 01:20, 6F

07/26 01:20, , 7F
值最大的可以視為一個 "最佳" 的分類法 (這裡的最佳是依據
07/26 01:20, 7F

07/26 01:23, , 8F
你選用 F 值來做分類). 所謂的一些公式與分群的關係, 根
07/26 01:23, 8F

07/26 01:25, , 9F
據在一個目標函數上 (如這裡的 F 值), 希望找到一個分類,
07/26 01:25, 9F

07/26 01:28, , 10F
使目標函數最大 (或最小). 我對 cluster 不熟, 所以上文提
07/26 01:28, 10F

07/26 01:29, , 11F
到的 calinski, fuzzy c means 我不確定也是這樣.
07/26 01:29, 11F

07/26 01:33, , 12F
我所描述的是常見的一種分類的原則之一. 或許你可以往這方
07/26 01:33, 12F

07/26 01:33, , 13F
面想想.
07/26 01:33, 13F

07/26 07:47, , 14F
二與三位兩位先進長期在板上熱心助人,我也常受其恩惠,
07/26 07:47, 14F

07/26 07:48, , 15F
再次感謝與受教!
07/26 07:48, 15F

07/26 11:10, , 16F
A大說法沒錯 補充一點 我在學cluster時 進行分析前
07/26 11:10, 16F

07/26 11:11, , 17F
第一件事 就是要先找出應該分成幾個clusters比較好
07/26 11:11, 17F

07/26 11:12, , 18F
我是用華德最小變異法 估算最小的集群內聯合組內變異
07/26 11:12, 18F

07/26 11:13, , 19F
目的在於估算分群後的 組內變異最小 組間變異最大
07/26 11:13, 19F

07/26 11:14, , 20F
同理 組內變異最小 組間變異最大 自然F值就會達最大
07/26 11:14, 20F

07/26 11:14, , 21F
意即 找出最佳的分類方式(應該分成幾群)
07/26 11:14, 21F

07/26 11:15, , 22F
不過 估算方法很多 華德最小變異法 僅是其一
07/26 11:15, 22F

07/26 11:16, , 23F
由於我本人不是數學系或統計系 對此也未再深入鑽研
07/26 11:16, 23F

07/26 15:43, , 24F
謝謝樓上們!! 這樣我有比較了解了
07/26 15:43, 24F
文章代碼(AID): #1CIyExtH (Statistics)
文章代碼(AID): #1CIyExtH (Statistics)