[請益] 關於regular expression抓取網頁資料的 …
想請問各位版大
PHP的regular expression有辦法在NOT("^")後面放中文字嗎?
目前我只要在"^"後面加中文都沒辦法抓出我想要的
編碼我也已經改成UTF-8了
請問是什麼問題呢??
還有有沒有辦法使用"^"來not一段string呢?
我試過^[一段string]
不過好像是錯的
是需要什麼函式還是STRING有另一種寫法呢??
以下連結是我想要抓取的網站其中一筆資料
http://ppt.cc/qkVC
目前是想要把【中文名稱】到【序號】之間的全部分類抓取
這是我現在的寫法
"/(【中[^<]+)<\/p><p>(【英[^<]+)<\/p><p>(【類[^<]+)<\/p><p>(【說明】:[^<br]+"
請問我該如何修改我的regular expression呢?
不好意思小弟我最近才開始研究網頁抓取
還煩請各位高手指教一下
謝謝:)
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.116.101.39
推
08/02 02:59, , 1F
08/02 02:59, 1F
※ 編輯: JordanXD 來自: 140.116.101.39 (08/03 00:08)
推
08/03 00:18, , 2F
08/03 00:18, 2F
→
08/03 00:18, , 3F
08/03 00:18, 3F
推
08/03 14:26, , 4F
08/03 14:26, 4F
→
08/04 23:50, , 5F
08/04 23:50, 5F
推
08/04 23:50, , 6F
08/04 23:50, 6F
推
08/05 12:33, , 7F
08/05 12:33, 7F
推
08/05 14:52, , 8F
08/05 14:52, 8F
推
05/02 15:03, , 9F
05/02 15:03, 9F