[請益] 關於regular expression抓取網頁資料的 …

看板PHP作者JordanXD (豪)時間15年前 (2010/08/01 22:51)推噓7(7推 0噓 2→)

留言9則, 6人參與討論串1/1

想請問各位版大 PHP的regular expression有辦法在NOT("^")後面放中文字嗎? 目前我只要在"^"後面加中文都沒辦法抓出我想要的編碼我也已經改成UTF-8了請問是什麼問題呢?? 還有有沒有辦法使用"^"來not一段string呢? 我試過^[一段string] 不過好像是錯的是需要什麼函式還是STRING有另一種寫法呢?? 以下連結是我想要抓取的網站其中一筆資料 http://ppt.cc/qkVC 目前是想要把【中文名稱】到【序號】之間的全部分類抓取這是我現在的寫法 "/(【中[^<]+)<\/p><p>(【英[^<]+)<\/p><p>(【類[^<]+)<\/p><p>(【說明】：[^<br]+" 請問我該如何修改我的regular expression呢? 不好意思小弟我最近才開始研究網頁抓取還煩請各位高手指教一下謝謝:) -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.116.101.39

推

juan19283746

08/02 02:59, , 1^F

08/02 02:59, 1^F

※ 編輯: JordanXD 來自: 140.116.101.39 (08/03 00:08)

推

EragonJ

08/03 00:18, , 2^F

08/03 00:18, 2^F

→

EragonJ

08/03 00:18, , 3^F