討論串(共6篇) - [問題] 關於擷取所有原始碼 - 看板C_Sharp

看板 [ C_Sharp ]

討論串[問題] 關於擷取所有原始碼

共 6 篇文章

排序：最新先 | 最舊先 | 留言數 | 推文總分

內容預覽：開啟 | 關閉 | 只限未讀

首頁

尾頁

Re: [問題] 關於擷取所有原始碼

推噓0(0推 )留言5則，0人參與作者leicheong (睡魔)時間18年前 (2007/09/28 23:04)資訊

內容預覽:

看了一下... 效率方面沒有意見. (本身認為.NET的RegEx效率比較差.... 不過這也許只是我的偏見.). 不過有兩個地方想提一下:. 1) 看這兩行:. if (IsGBCode(words[i].ToString()) || IsGBKCode(words[i].ToString())

(還有141個字)

Re: [問題] 關於擷取所有原始碼

推噓0(0推 )留言0則，0人參與作者qweqweqweqwe (啪)時間18年前 (2007/09/28 16:59)資訊

內容預覽:

剛剛寫了一下. 最後決定用抓meta charset的方法. (因為試了 response header.. 成功率不高)... http://s93.tku.edu.tw/~493522469/GetResponse.txt. 這是我的程式碼@@. 有空的人可以幫忙看一下有什麼可以改進效率的地方嗎

Re: [問題] 關於擷取所有原始碼

推噓4(4推 )留言7則，0人參與作者leicheong (睡魔)時間18年前 (2007/09/26 15:18)資訊

內容預覽:

簡單的方法是看Response header中的charset部份:. Content-Type: text/html; charset=UTF-8. 也可以看body中的meta tag:. <meta http-equiv="content-type" content="text/html; c

(還有76個字)

Re: [問題] 關於擷取所有原始碼

推噓0(0推 )留言0則，0人參與作者cole945 (躂躂..)時間18年前 (2007/09/26 01:07)資訊

內容預覽:

假設你是用 WebClient 抓了一個網頁下來. WebClient client = new WebClient();. byte[] data = client.DownloadData("http://www.google.com");. /* 在這裡用某種神奇的方法偵測他是什麼編碼,. i

(還有349個字)

Re: [問題] 關於擷取所有原始碼

推噓0(0推 )留言0則，0人參與作者chhuang (瓶水相逢)時間18年前 (2007/09/25 22:42)資訊

內容預覽:

'. 有時候很難判斷.... Response 的 Header 可能會有 charset 資訊. Content-Type: text/html; charset=big5. (ex. http://tw.news.yahoo.com 就沒有). HTML 內容中 meta 資訊也會有 chars

(還有118個字)

首頁

尾頁