討論串[問題] 關於擷取所有原始碼
共 6 篇文章
首頁
上一頁
1
2
下一頁
尾頁

推噓0(0推 0噓 5→)留言5則,0人參與, 最新作者leicheong (睡魔)時間18年前 (2007/09/28 23:04), 編輯資訊
0
0
1
內容預覽:
看了一下... 效率方面沒有意見. (本身認為.NET的RegEx效率比較差.... 不過這也許只是我的偏見.). 不過有兩個地方想提一下:. 1) 看這兩行:. if (IsGBCode(words[i].ToString()) || IsGBKCode(words[i].ToString())
(還有141個字)

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者qweqweqweqwe (啪)時間18年前 (2007/09/28 16:59), 編輯資訊
0
0
2
內容預覽:
剛剛寫了一下. 最後決定用抓meta charset的方法. (因為試了 response header.. 成功率不高)... http://s93.tku.edu.tw/~493522469/GetResponse.txt. 這是我的程式碼@@. 有空的人可以幫忙看一下有什麼可以改進效率的地方嗎

推噓4(4推 0噓 3→)留言7則,0人參與, 最新作者leicheong (睡魔)時間18年前 (2007/09/26 15:18), 編輯資訊
0
0
1
內容預覽:
簡單的方法是看Response header中的charset部份:. Content-Type: text/html; charset=UTF-8. 也可以看body中的meta tag:. <meta http-equiv="content-type" content="text/html; c
(還有76個字)

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者cole945 (躂躂..)時間18年前 (2007/09/26 01:07), 編輯資訊
0
0
1
內容預覽:
假設你是用 WebClient 抓了一個網頁下來. WebClient client = new WebClient();. byte[] data = client.DownloadData("http://www.google.com");. /* 在這裡用某種神奇的方法偵測他是什麼編碼,. i
(還有349個字)

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者chhuang (瓶水相逢)時間18年前 (2007/09/25 22:42), 編輯資訊
0
0
2
內容預覽:
'. 有時候很難判斷.... Response 的 Header 可能會有 charset 資訊. Content-Type: text/html; charset=big5. (ex. http://tw.news.yahoo.com 就沒有). HTML 內容中 meta 資訊也會有 chars
(還有118個字)
首頁
上一頁
1
2
下一頁
尾頁