[討論] Data mining 資料縮減問題

看板Database作者 (Nexus5566)時間8年前 (2015/08/27 18:04), 編輯推噓3(302)
留言5則, 3人參與, 最新討論串1/1
不好意思 因為找不到資料探勘的專版,所以在此詢問 如果不適合煩請告知,我會刪文,謝謝 ----- 目前是資料探勘的新手,想請問如果目前有一個約10萬筆的資料集,共10個屬性 但有許多實例(instances)之間屬性值相同(例如a實例與b實例前三重要的屬性值皆相同) 請問這種情況需要刪除其中一筆資料,以免正確分類的機率過於樂觀嗎 還是需要在什麼時候才進行資料縮減呢(像是所有屬性值皆重複) 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.142.63.2 ※ 文章網址: https://www.ptt.cc/bbs/Database/M.1440669882.A.9E9.html

08/29 14:58, , 1F
可以到統計版問
08/29 14:58, 1F

08/30 18:11, , 2F
你要做降維 有一些方法可以做。像是PCA你可以找看看降維方法
08/30 18:11, 2F

08/30 23:29, , 3F
做共變異數分析 把沒用的屬性拿掉
08/30 23:29, 3F

08/30 23:29, , 4F
才10萬筆資料 計算上不會有問題吧?
08/30 23:29, 4F

08/30 23:31, , 5F
去買書看吧 方法很多種要看你資料屬性決定
08/30 23:31, 5F
文章代碼(AID): #1Ltk2wdf (Database)