[請益] 如何抓取網頁"純"原始碼？

看板Web_Design作者grassboy2 (活力花俏草兒仔政﹞O花俏)時間15年前 (2010/11/30 02:06)推噓2(2推 0噓 2→)

留言4則, 3人參與討論串1/1

如標題… 以下是測試的url http://grassboy.tw/webDev/test.php 他的原始碼很簡單，只有一行 <img src=test.png /><b>哈囉！沒錯！很醜的code~ 圖片src沒有雙括號，粗體沒結尾~ 但進去網頁後… 我在網址列下了 javascript:alert(document.body.innerHTML) 結果…我測了firefox chrome ie8三種瀏覽器… 大多都是回我 <img src="test.png"><b>哈囉！ </b> 也就是說…瀏覽器會自動將這種不正確的網頁結構進行修改，並反映到innerHTML上… 那麼…有沒有辦法透過javascript取得 <img src=test.png><b>哈囉！呢？當然…這要求還滿奇怪的… 不過如果今天某個網站(ex: plurk)透過header("text/html")的介面回傳一個json物件到browser時… 我要抓json物件的值…似乎應該要抓未經瀏覽器處理過的html降子… 原本的 {"msg_html":"hihi <img src=\"xx.jpg\" />"} 會被處理成 {"msg_html":"hihi <img src="\"xx.jpg\"">"} 有點讓人傷腦筯的說 >"< -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.113.87.174

推

knuckles

11/30 02:22, , 1^F

11/30 02:22, 1^F

→

grassboy2

11/30 02:27, , 2^F

11/30 02:27, 2^F

推

LPH66

11/30 15:49, , 3^F

11/30 15:49, 3^F