[問題] 如何從隨機森林結算baseline, conditional probability

看板Statistics作者 (jacobcan118)時間8年前 (2017/08/26 04:58), 編輯推噓4(4016)
留言20則, 3人參與, 最新討論串1/1
[1;32m如果是跟統計軟體有關請重發文章,使用程式做為分類。 統計軟體,如SPSS, AMOS, SAS, R, STATA, Eviews,請都使用程式做為分類 請詳述問題內容,以利板友幫忙解答,過短文章依板規處置,請注意。 為避免版面混亂,請勿手動置底問題,擅用E做檔案編輯 請問一下當我用隨機森林去對我數據作分類模型, 分類後用混淆矩陣confusion matrix去得到準確率和誤分類率, 也用了ROC曲線去算AUC值, 將我要如何去算conditional probobility 和我的baseline是多少? 基本上我是用python sklearn 裡RandomForestClassifier, accuracy_score, confusion_matrix -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 209.90.32.81 ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1503694704.A.3C2.html

08/26 08:02, , 1F
你 baseline 指的是? 基準線?
08/26 08:02, 1F

08/26 08:03, , 2F
如果是的話, 那就是你的 AUC 值, 或是其他的evaluation
08/26 08:03, 2F

08/26 08:03, , 3F
然後再去改進你的 model, 最後可以知道
08/26 08:03, 3F

08/26 08:04, , 4F
你進步多少, 跟 baseline 比
08/26 08:04, 4F

08/26 13:05, , 5F
我拿Random forest用auc roc算出來 值是.08975多欸
08/26 13:05, 5F

08/26 13:06, , 6F
有什麼方法可以改進Random forest的model嗎? 設不同
08/26 13:06, 6F

08/26 13:06, , 7F
的n_estimator?
08/26 13:06, 7F

08/26 22:06, , 8F
改進有很多方法,比較重要的是feature工程
08/26 22:06, 8F

08/26 22:08, , 9F
簡單講就是,由原始變數,去額外衍生製造新變數,可能
08/26 22:08, 9F

08/26 22:08, , 10F
會提高準確率
08/26 22:08, 10F

08/26 22:09, , 11F
話說你連auc不到0.1,這???這很爛的結果吧
08/26 22:09, 11F

08/26 22:15, , 12F
不好意思. 是0.8975. feature工程意思是只選不同變數
08/26 22:15, 12F

08/27 01:23, , 13F
AUC=0.5最爛 (2 classes的情況) 愈大或愈小都愈好
08/27 01:23, 13F

08/27 04:03, , 14F
只選不同變數,你是指variable selection嗎?那是其中
08/27 04:03, 14F

08/27 04:04, , 15F
一部分,你是可以額外製造變數的,舉個簡單的例子,變
08/27 04:04, 15F

08/27 04:04, , 16F
數與目標,是非線性關係,所以變數取平方,變成新變數
08/27 04:04, 16F

08/27 04:05, , 17F
不過平方只是一種,重點還是要看問題,你也可以畫畫圖
08/27 04:05, 17F

08/27 04:05, , 18F
看變數之間的關係
08/27 04:05, 18F

08/27 04:06, , 19F
另外你的auc,應該是指testing吧?因為一般的RF很容易o
08/27 04:06, 19F

08/27 04:06, , 20F
verfitting
08/27 04:06, 20F
文章代碼(AID): #1Pe8zmF2 (Statistics)