[問題] 抓取網頁資訊

看板RegExp作者MrAshan (一輩子)時間15年前 (2008/10/30 00:26)推噓0(0推 0噓 6→)

留言6則, 2人參與討論串1/2 (看更多)

<li class=g><h3 class=r><a href="http://mi.nou.edu.tw/workshop/workshop_910718.htm" 以上是我想要抓取的條件是有class=g 跟 class=r時才抓取網頁我表示式寫成 (?s)class=g><a\\s+href\\s*=\\s*\"?(.*?)[\"|>] 沒辦法抓取我要的網頁但若我改成 (?s)class=r><a\\s+href\\s*=\\s*\"?(.*?)[\"|>] 是有辦法可是在google網頁中它會連庫存網頁也會抓進來我只要單一乾淨的主網頁不要子網頁有沒有辦法?? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 202.132.194.89

→

MrAshan

11/02 00:29, , 1^F

11/02 00:29, 1^F

→

giacch

11/02 03:22, , 2^F

11/02 03:22, 2^F

→

MrAshan

11/02 03:41, , 3^F

11/02 03:41, 3^F