[問題] 字串的關鍵字提取
嗨大家好,我有一個表格像是這樣
http://i.imgur.com/ld7tHmC.jpg
最後一欄Note是這個球員的受傷資訊,可以看到有 right hamstring injury、concussion
而我現在只需要部位不需要其他描述,例如 sore lower back我只需要back,right knee injury只需要knee。
我第一個想法是把所有部位集中成一個list,然後split字串做mapping,但這個做法有點費時。
第二個想法是搜集形容詞並抓形容詞後的單字,但資料的字串順序又不是那麼整齊。
想問各位有什麼好的提取法嗎?
附上網址
https://reurl.cc/xZxR7E
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.137.30.149 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1583372474.A.EAB.html
※ 編輯: moodoa3583 (223.137.30.149 臺灣), 03/05/2020 09:45:21
※ 編輯: moodoa3583 (223.137.30.149 臺灣), 03/05/2020 09:46:25
→
03/05 09:49,
4年前
, 1F
03/05 09:49, 1F
這有點像我的想法2,但因為我有約莫2萬筆資料,排序都不完全一樣,而除了right,left之外也有很多不同的形容詞,所以這個想法有點難度
→
03/05 09:56,
4年前
, 2F
03/05 09:56, 2F
→
03/05 09:57,
4年前
, 3F
03/05 09:57, 3F
※ 編輯: moodoa3583 (223.137.30.149 臺灣), 03/05/2020 09:58:12
→
03/05 09:59,
4年前
, 4F
03/05 09:59, 4F
→
03/05 09:59,
4年前
, 5F
03/05 09:59, 5F
→
03/05 10:00,
4年前
, 6F
03/05 10:00, 6F
→
03/05 10:01,
4年前
, 7F
03/05 10:01, 7F
→
03/05 10:01,
4年前
, 8F
03/05 10:01, 8F
→
03/05 10:01,
4年前
, 9F
03/05 10:01, 9F
→
03/05 10:02,
4年前
, 10F
03/05 10:02, 10F
→
03/05 10:03,
4年前
, 11F
03/05 10:03, 11F
推
03/05 10:04,
4年前
, 12F
03/05 10:04, 12F
→
03/05 10:04,
4年前
, 13F
03/05 10:04, 13F
→
03/05 10:04,
4年前
, 14F
03/05 10:04, 14F
→
03/05 10:04,
4年前
, 15F
03/05 10:04, 15F
→
03/05 10:04,
4年前
, 16F
03/05 10:04, 16F
→
03/05 10:05,
4年前
, 17F
03/05 10:05, 17F
→
03/05 10:06,
4年前
, 18F
03/05 10:06, 18F
→
03/05 10:07,
4年前
, 19F
03/05 10:07, 19F
→
03/05 10:07,
4年前
, 20F
03/05 10:07, 20F
了解,感謝以上大大,那我先以想法1來做,有什麼更好的解法再丟上來
※ 編輯: moodoa3583 (223.137.30.149 臺灣), 03/05/2020 12:31:57
※ 編輯: moodoa3583 (223.137.30.149 臺灣), 03/05/2020 12:32:16
→
03/05 14:51,
4年前
, 21F
03/05 14:51, 21F
→
03/05 14:52,
4年前
, 22F
03/05 14:52, 22F
這也是接近想法1,但比較不好處理的是我不知道全部的身體部位,而且裡面也有提到像是illness, concussion 等症狀,這也是我想留下來的
※ 編輯: moodoa3583 (223.137.30.149 臺灣), 03/05/2020 15:31:13
→
03/05 17:14,
4年前
, 23F
03/05 17:14, 23F
→
03/05 17:39,
4年前
, 24F
03/05 17:39, 24F
→
03/05 17:39,
4年前
, 25F
03/05 17:39, 25F
推
03/05 18:15,
4年前
, 26F
03/05 18:15, 26F
→
03/05 18:16,
4年前
, 27F
03/05 18:16, 27F
→
03/05 18:16,
4年前
, 28F
03/05 18:16, 28F
→
03/05 18:17,
4年前
, 29F
03/05 18:17, 29F
→
03/05 18:17,
4年前
, 30F
03/05 18:17, 30F
推
03/05 18:21,
4年前
, 31F
03/05 18:21, 31F
推
03/05 18:25,
4年前
, 32F
03/05 18:25, 32F
→
03/05 18:25,
4年前
, 33F
03/05 18:25, 33F
感謝各位的建議,後來是把notes裡的字用split切開後丟進一個list,去掉長度為1的廢字後做Counter,然後再把left,right等出現很多次的形容詞去除,慢慢留下出想要的字
※ 編輯: moodoa3583 (223.137.30.149 臺灣), 03/05/2020 22:44:05
→
03/05 22:49,
4年前
, 34F
03/05 22:49, 34F
→
03/05 22:49,
4年前
, 35F
03/05 22:49, 35F
→
03/05 22:49,
4年前
, 36F
03/05 22:49, 36F
推
03/07 10:02,
4年前
, 37F
03/07 10:02, 37F