Re: [問題] 有關下載http上的資料

看板Linux作者 (sojourner)時間16年前 (2010/02/25 17:20), 編輯推噓2(2016)
留言18則, 7人參與, 最新討論串2/2 (看更多)
感謝版友的推文、不過呢..

02/25 01:06,
firefox裝個flashgot不是很容易嗎
02/25 01:06

02/25 01:29,
我想過用 flashget 阿、可是它的 batch download 也要有規則
02/25 01:29

02/25 10:39,
把你要下載的 url 寫成 list 給 wget 去下載
02/25 10:39

02/25 12:08,
寫 shell script,如果檔名有規則性的話
02/25 12:08
不是我不想寫 script, 可是沒規則阿 =.=

02/25 12:58,
試試curl
02/25 12:58
他似乎也不支援類似 *.jpg 這樣的表示法、應該說是 http 不支援

02/25 15:07,
flashgot明明就可以下載畫面上所有的連結
02/25 15:07
重點是「沒有畫面」阿 如果我在 URL 下連到某網頁當然可以直接用 flashget 可是我的 URL folder 之下沒有網頁、可是有圖檔的路徑 我在想說 wget 的原理應該是先讀網頁、再看你要 retrieve 多少層的內容 可是我那 folder 下是沒有網頁的 也就是那 folder URL 直接貼在瀏覽器上也會說 找不到此網頁 可是下面的圖是可以直接看到的 另外有好心版友寄信給我問 測試 URL 其實我是想抓 fanpop 的圖拉 =////= 舉個例像是 假設要抓這個 http://www.fanpop.com/spots/avatar/images/10575989/title/neytiri-jake 中間的圖檔路徑是 http://images2.fanpop.com/image/photos/10500000/ Neytiri-and-Jake-avatar-10575989-1024-768.jpg 我可以從這個 URL 直接抓到這張圖 現在我想要的是 抓到 http://images2.fanpop.com/image/photos/10500000/ 下面所有的圖 可是因為這個 URL 下面沒有網頁、所以我用 wget 回覆 ERROR 404 希望這樣解釋清楚了 謝謝大家的時間 --        There will NEVER be a day, when I won't think of you. -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 120.126.97.44

02/25 18:38, , 1F
暴力試過所有的檔名下載... 會不會被當DoS攻擊啊?
02/25 18:38, 1F

02/25 18:43, , 2F
我也在想 orz|| 用 brute force 跑檔名感覺很變態 =.=||
02/25 18:43, 2F

02/25 19:37, , 3F
parse 頁面原始碼,把所有jpg都抓回來呢?
02/25 19:37, 3F

02/25 19:48, , 4F
這是最終手段 orz|| 要寫這個就稍微麻煩了 = ="
02/25 19:48, 4F

02/25 20:27, , 5F
現在的問題就是沒有頁面啊!!!
02/25 20:27, 5F

02/25 20:47, , 6F
如果要 parse 頁面就變成要 parse 一開始看到圖的那個 URL
02/25 20:47, 6F

02/25 20:48, , 7F
然後讓程式自動按下一張、parse、再抓圖、再按下一張 = ="
02/25 20:48, 7F

02/25 20:48, , 8F
我只是很不甘心明明就知道圖在那個資料夾卻不能有有效的下載
02/25 20:48, 8F

02/25 20:48, , 9F
方法 orz|||
02/25 20:48, 9F


02/25 20:53, , 11F
這頁的網址連結,只有數字有變化
02/25 20:53, 11F

02/25 21:15, , 12F
這剛好是因為所有圖的標題上傳者都取一樣,我要下的標題不同
02/25 21:15, 12F

02/25 21:53, , 13F
index沒提供就是沒提供
02/25 21:53, 13F

02/25 21:54, , 14F
人家作網頁的就是不喜歡你這樣來砍的 他們也很不甘心
02/25 21:54, 14F

02/25 23:23, , 15F
用css selector/xpath, 再加上curl或其他下載軟體試試看
02/25 23:23, 15F

02/26 02:51, , 16F
不就砍站嗎 ...... 它沒開index你怎麼知道檔名
02/26 02:51, 16F

02/26 23:08, , 17F
我自已架站也從來不開 index of
02/26 23:08, 17F

02/27 00:21, , 18F
原來這叫砍站(筆記)、所以既然沒 index 想要偷懶是不成的?
02/27 00:21, 18F
文章代碼(AID): #1BXa3DVF (Linux)
文章代碼(AID): #1BXa3DVF (Linux)