[問題] 抓取網頁資訊

看板RegExp作者 (一輩子)時間15年前 (2008/10/30 00:26), 編輯推噓0(006)
留言6則, 2人參與, 最新討論串1/2 (看更多)
<li class=g><h3 class=r><a href="http://mi.nou.edu.tw/workshop/workshop_910718.htm" 以上是我想要抓取的 條件是有class=g 跟 class=r時 才抓取網頁 我表示式寫成 (?s)class=g><a\\s+href\\s*=\\s*\"?(.*?)[\"|>] 沒辦法抓取我要的網頁 但若我改成 (?s)class=r><a\\s+href\\s*=\\s*\"?(.*?)[\"|>] 是有辦法 可是在google網頁中 它會連庫存網頁也會抓進來 我只要單一乾淨的主網頁 不要子網頁 有沒有 辦法?? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 202.132.194.89

11/02 00:29, , 1F
沒人回答我的問題-_-
11/02 00:29, 1F

11/02 03:22, , 2F
最後那表示式, 前面想辦法把class=g的條件加上去試試...
11/02 03:22, 2F

11/02 03:41, , 3F
試了目前在第一頁擷取網頁是正常但在第二頁一樣會有子網頁
11/02 03:41, 3F

11/02 03:42, , 4F
又會跟之前一樣 相同性的問題又出現?
11/02 03:42, 4F

11/02 03:44, , 5F
可以提供樣本作測試嗎..? 我找的google連一行都出不來...
11/02 03:44, 5F

11/07 00:28, , 6F
找Crawler相關資訊 會對你有幫助:)
11/07 00:28, 6F
文章代碼(AID): #1928wj6E (RegExp)
討論串 (同標題文章)
文章代碼(AID): #1928wj6E (RegExp)