[問題] list中擷取特定文字

看板Python作者Niseel (Niseel)時間7年前 (2019/01/04 08:47)推噓7(7推 0噓 5→)

留言12則, 8人參與討論串1/1

各位前輩好，小弟不才最近自學python一個多月了目前是玩爬蟲居多因為最近爬到一個網域分頁的格式都沒有規律所以把文字匯入到list中然後在擷取關鍵字但因為index是必須完全符合才能抓到我的問題是比如我要抓 (費用)NT5,000 但我已經盡力篩選tag 清單輸出會像是 [‘XXXX’, ‘這門課（費用）NT5,000 目前優惠’, ‘AAAA’, .......] 我應該如何擷取謝謝前輩學長姐指教 ———————我是補充—————— 本身非什麼資訊相關科系，所以也是第一次自學語言想說用爬蟲來幫我找課程（也順便練習python），說不定有機會可以去上上就剛好看的這個網站 http://ewda.tw/ 中華民國職工福利發展協會 http://ewda.tw/modules/ewda_action/action.php?asn=3978 http://ewda.tw/modules/ewda_action/action.php?asn=3999 像這類型的分頁不同分頁下抓費用沒問題但是抓老師姓名就一直找不到共通解目前是使用papple大提示的join() 再用位移值來抓字暫時解決「能一次套用在不同分頁」擷取老師姓名但假設老師姓名如果是兩個字或四個字位移值就會失效這樣是不是就只能使用re來判別呢註：目前只會使用BS來解析，沒有要伸手要code，因為這樣我也不會進步，所以算是請教一些提示，畢竟有時候google也不知道使用什麼關鍵字... 先謝謝各位熱心的前輩 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 27.247.32.41 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1546562863.A.4E1.html

推

XperiaZ6C

01/04 09:02, 7年前 , 1^F

01/04 09:02, 1^F

→

XperiaZ6C

01/04 09:03, 7年前 , 2^F

01/04 09:03, 2^F

推

germun

01/04 09:08, 7年前 , 3^F

01/04 09:08, 3^F

前輩們好，我忘記打清楚一點就是這些分頁沒規則性，但（費用）（資訊）這類的名稱字串是都會出現的所以我希望能用一個方式來抓到所有分頁的這類名稱字串所以只能用正規表達式就是了？以上謝謝 ※ 編輯: Niseel (27.247.32.41), 01/04/2019 09:13:57

→

InfinityGate

01/04 10:29, 7年前 , 4^F

01/04 10:29, 4^F

了解我下班再研究一下XPATH的用法

推

papple23g

01/04 11:43, 7年前 , 5^F

01/04 11:43, 5^F

→

papple23g

01/04 11:43, 7年前 , 6^F

01/04 11:43, 6^F

→

papple23g

01/04 11:43, 7年前 , 7^F

01/04 11:43, 7^F

謝謝papple大我晚點試試請問這樣印出結果會顯示 “(費用) NT 5,000” 嗎因為目前困擾的就是我要的名詞，前後都有多餘的string ※ 編輯: Niseel (27.247.32.41), 01/04/2019 12:40:32

推

jiyu520

01/04 15:19, 7年前 , 8^F

01/04 15:19, 8^F

推

jasonfghx

01/04 17:38, 7年前 , 9^F

01/04 17:38, 9^F

推

nini200

01/05 04:34, 7年前 , 10^F

01/05 04:34, 10^F

已提供 ※ 編輯: Niseel (39.10.35.241), 01/05/2019 18:13:10 ※ 編輯: Niseel (39.10.35.241), 01/05/2019 18:13:58 ※ 編輯: Niseel (39.10.35.241), 01/05/2019 18:16:49 ※ 編輯: Niseel (39.10.35.241), 01/05/2019 18:21:32

推

hoho8

01/06 08:00, 7年前 , 11^F

01/06 08:00, 11^F

→

hoho8

01/06 08:01, 7年前 , 12^F

01/06 08:01, 12^F

謝謝h大回覆我最後是用兩種方法解析出來一種就是re 一種就是String join再抓出來，覺得做出來好像拯救世界一樣爽XD ※ 編輯: Niseel (39.10.35.241), 01/07/2019 21:13:33 ※ 編輯: Niseel (39.10.35.241), 01/07/2019 21:14:01 ※ 編輯: Niseel (39.10.35.241), 01/07/2019 21:14:32

‣ 返回看板[ Python ] 程設

‣ 更多 Niseel 的文章

文章代碼(AID): #1SBgqlJX (Python)