[問題] 字串的關鍵字提取

看板Python作者moodoa3583 (金牌台灣啤酒)時間5年前 (2020/03/05 09:41)推噓5(5推 0噓 32→)

留言37則, 7人參與討論串1/1

嗨大家好，我有一個表格像是這樣 http://i.imgur.com/ld7tHmC.jpg

最後一欄Note是這個球員的受傷資訊，可以看到有 right hamstring injury、concussion 而我現在只需要部位不需要其他描述，例如 sore lower back我只需要back，right knee injury只需要knee。我第一個想法是把所有部位集中成一個list，然後split字串做mapping，但這個做法有點費時。第二個想法是搜集形容詞並抓形容詞後的單字，但資料的字串順序又不是那麼整齊。想問各位有什麼好的提取法嗎？附上網址 https://reurl.cc/xZxR7E -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.137.30.149 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1583372474.A.EAB.html ※ 編輯: moodoa3583 (223.137.30.149 臺灣), 03/05/2020 09:45:21 ※ 編輯: moodoa3583 (223.137.30.149 臺灣), 03/05/2020 09:46:25

→

03/05 09:49, 5年前 , 1^F

03/05 09:49, 1^F

這有點像我的想法2，但因為我有約莫2萬筆資料，排序都不完全一樣，而除了right,left之外也有很多不同的形容詞，所以這個想法有點難度

→

03/05 09:56, 5年前 , 2^F

03/05 09:56, 2^F

→

03/05 09:57, 5年前 , 3^F

03/05 09:57, 3^F

※ 編輯: moodoa3583 (223.137.30.149 臺灣), 03/05/2020 09:58:12

→

03/05 09:59, 5年前 , 4^F

03/05 09:59, 4^F

→

03/05 09:59, 5年前 , 5^F

03/05 09:59, 5^F

→

03/05 10:00, 5年前 , 6^F

03/05 10:00, 6^F

→

03/05 10:01, 5年前 , 7^F

03/05 10:01, 7^F

→

03/05 10:01, 5年前 , 8^F

03/05 10:01, 8^F

→

03/05 10:01, 5年前 , 9^F

03/05 10:01, 9^F

→

03/05 10:02, 5年前 , 10^F

03/05 10:02, 10^F

→

03/05 10:03, 5年前 , 11^F

03/05 10:03, 11^F

推

03/05 10:04, 5年前 , 12^F

03/05 10:04, 12^F

→

03/05 10:04, 5年前 , 13^F

03/05 10:04, 13^F

→

03/05 10:04, 5年前 , 14^F

03/05 10:04, 14^F

→

03/05 10:04, 5年前 , 15^F

03/05 10:04, 15^F

→

03/05 10:04, 5年前 , 16^F

03/05 10:04, 16^F

→

03/05 10:05, 5年前 , 17^F

03/05 10:05, 17^F

→

03/05 10:06, 5年前 , 18^F

03/05 10:06, 18^F

→

03/05 10:07, 5年前 , 19^F

03/05 10:07, 19^F

→

03/05 10:07, 5年前 , 20^F

03/05 10:07, 20^F

了解，感謝以上大大，那我先以想法1來做，有什麼更好的解法再丟上來 ※ 編輯: moodoa3583 (223.137.30.149 臺灣), 03/05/2020 12:31:57 ※ 編輯: moodoa3583 (223.137.30.149 臺灣), 03/05/2020 12:32:16

→

03/05 14:51, 5年前 , 21^F

03/05 14:51, 21^F

→

03/05 14:52, 5年前 , 22^F

03/05 14:52, 22^F

這也是接近想法1，但比較不好處理的是我不知道全部的身體部位，而且裡面也有提到像是illness, concussion 等症狀，這也是我想留下來的 ※ 編輯: moodoa3583 (223.137.30.149 臺灣), 03/05/2020 15:31:13

→

03/05 17:14, 5年前 , 23^F

03/05 17:14, 23^F

→

03/05 17:39, 5年前 , 24^F

03/05 17:39, 24^F

→

03/05 17:39, 5年前 , 25^F

03/05 17:39, 25^F

推

03/05 18:15, 5年前 , 26^F

03/05 18:15, 26^F

→

03/05 18:16, 5年前 , 27^F

03/05 18:16, 27^F

→

03/05 18:16, 5年前 , 28^F

03/05 18:16, 28^F

→

03/05 18:17, 5年前 , 29^F

03/05 18:17, 29^F

→

03/05 18:17, 5年前 , 30^F

03/05 18:17, 30^F

推

03/05 18:21, 5年前 , 31^F

03/05 18:21, 31^F

推

03/05 18:25, 5年前 , 32^F

03/05 18:25, 32^F

→

03/05 18:25, 5年前 , 33^F

03/05 18:25, 33^F

感謝各位的建議，後來是把notes裡的字用split切開後丟進一個list，去掉長度為1的廢字後做Counter，然後再把left，right等出現很多次的形容詞去除，慢慢留下出想要的字 ※ 編輯: moodoa3583 (223.137.30.149 臺灣), 03/05/2020 22:44:05

→

03/05 22:49, 5年前 , 34^F

03/05 22:49, 34^F

→

03/05 22:49, 5年前 , 35^F

03/05 22:49, 35^F

→

03/05 22:49, 5年前 , 36^F

03/05 22:49, 36^F

推

03/07 10:02, 5年前 , 37^F

03/07 10:02, 37^F

‣ 返回看板[ Python ] 程設

‣ 更多 moodoa3583 的文章

文章代碼(AID): #1UO5Ywwh (Python)