[問題] 新手關於labelencoder的一些疑問

看板Python作者 (阿偉)時間4年前 (2019/11/04 23:55), 編輯推噓3(309)
留言12則, 3人參與, 4年前最新討論串1/1
版上各位好 小弟近期正在學機器學習 目前想用一些dataset來做練習 而我有一個疑問想問 如果data中有文字資料,那應該需要先用 labelencoder去把文字轉數字資料 但是如果今天我訓練完了 想用testing data來做驗證 那testing data的那些文字也需要轉成數字 才能丟進去驗證 那麼testing data中文字轉為數字的時候會不會有可能和在training data轉出來的不同 (例如training data上的apple對應到0 會不會在 testing data上的 apple對應到5之類的, 如果會那麼應該如何處理才好呢?) 感謝版上大大不吝賜教 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 27.246.70.188 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1572882957.A.F39.html

11/05 00:29, 4年前 , 1F
所以一開始要連同 testing data 一起餵給 labelencoder
11/05 00:29, 1F

11/05 01:00, 4年前 , 2F
之前做的做法是做出一個dictionary 在0位置
11/05 01:00, 2F

11/05 01:04, 4年前 , 3F
放unknown. Test和training用同一個dict轉
11/05 01:04, 3F

11/05 01:05, 4年前 , 4F
test中沒在trainin出現過的都丟到unknown
11/05 01:05, 4F

11/05 11:48, 4年前 , 5F
numpy大感謝你的建議
11/05 11:48, 5F

11/05 11:49, 4年前 , 6F
little大 請問要如何比較兩組資料中有哪些是對方沒有出
11/05 11:49, 6F

11/05 11:49, 4年前 , 7F
現的 並且將那些資料的位置找出來呢
11/05 11:49, 7F

11/06 01:07, 4年前 , 8F
先各自轉成token (or數字), 然後把token 存成dict
11/06 01:07, 8F

11/06 01:12, 4年前 , 9F
再用set取出unique的字, 再用set的method
11/06 01:12, 9F

11/06 01:12, 4年前 , 10F
Difference or Symmetric difference
11/06 01:12, 10F

11/06 01:13, 4年前 , 11F
note:數字的話要確保 字到數字 是 one to one
11/06 01:13, 11F

11/06 19:28, 4年前 , 12F
好的感謝little大的教學 我再試試看^_^
11/06 19:28, 12F
文章代碼(AID): #1Tm4eDyv (Python)