[請益] 如何把網站上的文字一次抓下來?

看板Soft_Job作者 (三葉蟲)時間14年前 (2011/11/24 05:34), 編輯推噓11(11011)
留言22則, 15人參與, 最新討論串1/1
如下列國防部的網站: http://www.mnd.gov.tw/Glossary.aspx?Char=A 單字A總計有618筆資料, 可是它一次只顯示一頁, 一頁只顯示10筆, 如果我要複製這618筆資料, 滑鼠勢必要點選62次超連結, 因為一共有62頁...... 這樣很浪費時間。 我想節省時間, 讓網頁一次顯示多筆資料, 可以一次就把這些資料抓取完畢, 請問有沒有什麼簡單易行的方法? 難道這個網站, 就是只有這樣單筆顯示的方式嗎? -- 地球已經復原,她收拾了我們留下的爛攤子。我們需要做的,就是讓路。 《零人口》這是一個思維實驗,藉此找出我們在地球上存在的差異。 答案是──地球可以沒有我們,但我們沒有地球便不能生存。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 118.168.65.247

11/24 06:43, , 1F
這你要問設計者才知道 XD
11/24 06:43, 1F

11/24 07:28, , 2F
至少不是62萬次
11/24 07:28, 2F

11/24 08:53, , 3F
寫個程式把她抓下來啊
11/24 08:53, 3F

11/24 10:27, , 4F
請工讀生一天 你要抓什麼都抓得到...
11/24 10:27, 4F

11/24 11:31, , 5F
用firebug追蹤 會看到按下第二頁時,呼叫javascript的
11/24 11:31, 5F

11/24 11:31, , 6F
__doPostBack('ctl00$CPHolder1$GridView1','Page$2')
11/24 11:31, 6F

11/24 11:34, , 7F
而doPostBack的定義在網頁原始頁的第122~128行
11/24 11:34, 7F

11/24 11:35, , 8F
這樣就知道按下每一頁他會做什麼事 進而改成你要的 但接
11/24 11:35, 8F

11/24 11:35, , 9F
下來我也不知道怎麼做的><
11/24 11:35, 9F

11/24 13:04, , 10F
AutoHotKey
11/24 13:04, 10F

11/24 13:41, , 11F
ASP.NET作的網頁 基本上不可能一次顯示全部
11/24 13:41, 11F

11/24 17:48, , 12F
把 javascript 關掉就有純 html 的連結:
11/24 17:48, 12F


11/24 17:49, , 14F
i 就是 page 數… 從 0~61 一次抓下來在 regex
11/24 17:49, 14F

11/24 17:50, , 15F
你想抓全部 750 頁的話就把 char=a 拿掉… i 一樣是頁數
11/24 17:50, 15F

11/24 19:23, , 16F
Sikuli
11/24 19:23, 16F

11/24 21:26, , 17F
CURL
11/24 21:26, 17F

11/25 20:52, , 18F
firefox 安裝 scrapbook 套件~ 祝好運
11/25 20:52, 18F

11/26 19:43, , 19F
寫些JavaScript(+jQuery)就可以抓完了吧XD?
11/26 19:43, 19F

11/26 23:12, , 20F
開 script 跑 n 次 wget 就抓完了吧
11/26 23:12, 20F

11/27 02:34, , 21F
11/27 02:34, 21F

12/06 13:16, , 22F
HtmlUnit
12/06 13:16, 22F
文章代碼(AID): #1EpMRopH (Soft_Job)