[問題] 機器學習sklearn模型與特徵處理問題

看板Python作者wavek (壞貓咪)時間6年前發表 (2019/02/19 10:02), 6年前編輯推噓8(8推 0噓 10→)

留言18則, 8人參與, 6年前最新討論串1/1

大家好~ 最近在學習sklearn的過程中遇到了一點小問題來這邊請教各位大神們 1.問題一最近有一個問題是監督式分類問題譬如鐵達尼號乘客生存率好了給的train data 裡面就一堆特徵然後目標值y是0跟1 (1表示生存) 這樣這樣我訓練的模型丟進test的特徵predict後出來的結果也會是0跟1 可是要上傳的評分結果是要0~1之間也就是生存的機率這樣的情況... 我應該要怎麼做才正確? 目前是用sklearn的隨機森林模型我目前是有用predict_proba達到目的但不確定predict_proba這樣用法是否正確還是有其它更正確模型或方法 2. 問題二 train的資料有y值 test的資料沒有y值想問問大家是怎麼同時處理這兩個的特徵值我在做特徵處理的時候是train的特徵處理完像是填補缺失值標準化等等... 接著 test的特徵值我是把前面處理train特徵的code 複製一遍, 然後改成對test做處理這樣感覺有點怪還是先把特徵值合併,然後全部一起處理會比較好? -- 台北的夏天　應該會有一場雨我想起自由　和你的氣味 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.44.73.139 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1550570528.A.B3C.html

推

st1009

02/19 18:56, 6年前 , 1^F

02/19 18:56, 1^F

推

jiyu520

02/19 19:22, 6年前 , 2^F

02/19 19:22, 2^F

推

jasonfghx

02/19 19:43, 6年前 , 3^F

02/19 19:43, 3^F