[請益] 關於regular expression抓取網頁資料的 …

看板PHP作者 (豪)時間14年前 (2010/08/01 22:51), 編輯推噓7(702)
留言9則, 6人參與, 最新討論串1/1
想請問各位版大 PHP的regular expression有辦法在NOT("^")後面放中文字嗎? 目前我只要在"^"後面加中文都沒辦法抓出我想要的 編碼我也已經改成UTF-8了 請問是什麼問題呢?? 還有有沒有辦法使用"^"來not一段string呢? 我試過^[一段string] 不過好像是錯的 是需要什麼函式還是STRING有另一種寫法呢?? 以下連結是我想要抓取的網站其中一筆資料 http://ppt.cc/qkVC 目前是想要把【中文名稱】到【序號】之間的全部分類抓取 這是我現在的寫法 "/(【中[^<]+)<\/p><p>(【英[^<]+)<\/p><p>(【類[^<]+)<\/p><p>(【說明】:[^<br]+" 請問我該如何修改我的regular expression呢? 不好意思小弟我最近才開始研究網頁抓取 還煩請各位高手指教一下 謝謝:) -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.116.101.39

08/02 02:59, , 1F
帥哥
08/02 02:59, 1F
※ 編輯: JordanXD 來自: 140.116.101.39 (08/03 00:08)

08/03 00:18, , 2F
/【(.*?)】([^【]*)/s 自己把</p><p>濾掉囉
08/03 00:18, 2F

08/03 00:18, , 3F
專題加油
08/03 00:18, 3F

08/03 14:26, , 4F
!帥哥
08/03 14:26, 4F

08/04 23:50, , 5F
怎麼都自己人= =
08/04 23:50, 5F

08/04 23:50, , 6F
都自己人耶!
08/04 23:50, 6F

08/05 12:33, , 7F
所以解決了嗎= =?
08/05 12:33, 7F

08/05 14:52, , 8F
大致OK了吧XD 原PO睡爽爽...
08/05 14:52, 8F

05/02 15:03, , 9F
哈哈
05/02 15:03, 9F
文章代碼(AID): #1CLOeAN8 (PHP)