[問題] 關於擷取所有原始碼

看板C_Sharp作者 (啪)時間18年前 (2007/09/25 14:14), 編輯推噓4(4012)
留言16則, 4人參與, 最新討論串1/6 (看更多)
有辦法可以順利的擷取所有網頁的原始碼嗎 因為每個網頁的Encode都不盡相同.. 怎樣知道被擷取原始碼網頁的編碼呢..? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 125.225.106.66

09/25 16:05, , 1F
有些HTML碼是由ASP或PHP動態產生的....
09/25 16:05, 1F

09/25 17:59, , 2F
那如果我只要擷取網站內的中文或英文呢 ..?
09/25 17:59, 2F

09/25 18:31, , 3F
c++的我寫過 找找看c#有沒有元件可以使用
09/25 18:31, 3F

09/25 18:34, , 4F
<meta http-equiv="Content-Type" charset=big5">這行是預設
09/25 18:34, 4F

09/25 18:35, , 5F
編碼 如果沒這行網頁很容易亂碼 而且會變成ie所選擇的編碼
09/25 18:35, 5F

09/25 18:36, , 6F
網頁擷取擷取不到asp/php/jsp的原始碼
09/25 18:36, 6F

09/25 18:38, , 7F
可是你可以拿到html格式;)
09/25 18:38, 7F

09/25 18:46, , 8F
恩 我知道 code我不要 只需要可以正確的抓到中文字
09/25 18:46, 8F

09/25 18:47, , 9F
所以這樣說我一定要先抓到網頁的charset= xxx才可以?
09/25 18:47, 9F

09/25 18:48, , 10F
但是這樣要先讀取1次html 再根據讀到編碼在讀1次html
09/25 18:48, 10F

09/25 18:49, , 11F
怕資料筆數一多的時候..效率慢1半@@ 有更好的方法嗎
09/25 18:49, 11F

09/25 18:57, , 12F
網頁有個標頭檔資訊 裡面也有編碼應該可以節省不少時間吧@@
09/25 18:57, 12F

09/25 19:00, , 13F
我是不確定他跟<meta>標籤互衝會有什麼問題~~
09/25 19:00, 13F

09/25 19:01, , 14F
不過我覺得他的標頭資訊(header)是Server的預設值
09/25 19:01, 14F

09/25 19:50, , 15F
先抓成byte[]後再依charset轉碼呀 @o@"
09/25 19:50, 15F

09/25 23:57, , 16F
可以請問樓上的大概該怎樣做嗎?@@
09/25 23:57, 16F
文章代碼(AID): #16-AS_-X (C_Sharp)
討論串 (同標題文章)
文章代碼(AID): #16-AS_-X (C_Sharp)