[問題] 使用爬蟲抓圖的問題

看板Web_Design作者 (hi~)時間10年前 (2014/07/26 19:15), 10年前編輯推噓3(307)
留言10則, 5人參與, 最新討論串1/1
不確定這樣的問題要怎麼分類 我想寫個小程式可以固定去抓某個網頁的某張圖 那個圖的位置是固定的 只是內容會隨著每次refresh改變 那邊的html程式大改長得像這樣 <img src="XXimg.php?str=code"> 那個code看起來是一組hash code,就是今天的日期加上一些亂數 看起來是每次載入網頁的時候 會去跟server的一段php code要一張圖,回傳過來 這樣子的圖要怎麼抓呢? 因為網路上教的方法都是去抓「固定的一張圖」 像這種來源的圖檔要怎麼抓呢? 謝謝大家 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.193.37.30 ※ 文章網址: http://www.ptt.cc/bbs/Web_Design/M.1406373342.A.9AF.html

07/26 21:05, , 1F
抓網頁,找到網址,抓圖
07/26 21:05, 1F

07/26 22:55, , 2F
regexp
07/26 22:55, 2F
抱歉沒說清楚,大家好像誤會我的意思 我知道regular expression可以幫上忙 不過問題是當我想要抓 <img src="" rel="nofollow">http://test.com/test.jpg"> 這樣的東西就OK 可是當圖片是以上述方式呈現的時候 我就沒有辦法抓到圖片 (不是程式辨認不出來那是圖片的tag 是因為要透過php先得到圖片,所以導致程式下載下來是亂碼) 請問要怎麼辦呢? ※ 編輯: friendever (123.193.37.30), 07/26/2014 23:39:52

07/27 00:07, , 3F
用程式模擬瀏覽器,當它網頁載入完以後,再用regular抓圖
07/27 00:07, 3F

07/27 02:22, , 4F
PHP Simple HTML DOM Parser
07/27 02:22, 4F

07/27 02:25, , 5F
可能是 php 頁面會重新導向到圖片網址,所以抓到的其實
07/27 02:25, 5F

07/27 02:25, , 6F
是 header?
07/27 02:25, 6F

07/27 03:08, , 7F
你先看看那個圖片網址回來的response內容是什麼
07/27 03:08, 7F

07/27 03:11, , 8F
是直接content type就是圖,還是http 302還是別的東西
07/27 03:11, 8F

07/27 03:12, , 9F
server端php還什麼都不重要,你只要管回來的是什麼
07/27 03:12, 9F

08/03 22:23, , 10F
照抓呀 content-type 應該也還是image
08/03 22:23, 10F
文章代碼(AID): #1JqutUcl (Web_Design)