Re: [問題] 關於擷取所有原始碼

看板C_Sharp作者leicheong (睡魔)時間18年前 (2007/09/26 15:18)推噓4(4推 0噓 3→)

留言7則, 4人參與討論串4/6 (看更多)

※ 引述《cole945 (躂躂..)》之銘言： : 假設你是用 WebClient 抓了一個網頁下來 : WebClient client = new WebClient(); : byte[] data = client.DownloadData("http://www.google.com"); : /* 在這裡用某種神奇的方法偵測他是什麼編碼, : ie, 取得他的 charset, 預設是 iso-8859-1 */ 簡單的方法是看Response header中的charset部份: Content-Type: text/html; charset=UTF-8 也可以看body中的meta tag: <meta http-equiv="content-type" content="text/html; charset=UTF-8"> 通常是以meta tag的為準, 因為這是要手動加上去的. 沒有的話設成Response header的就可以了. 這在主流的web server都會自動加上去的. 預設通常會是utf-8, 不過因為這和iso-8859-1和在純ASCII 英文的編碼中除了開始時沒有BOM外沒有任何分別, 所以這樣就好. :P -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 219.73.76.102

推

horngsh

09/26 16:23, , 1^F

09/26 16:23, 1^F

推

cole945

09/26 16:33, , 2^F

09/26 16:33, 2^F

→

cole945

09/26 16:35, , 3^F

09/26 16:35, 3^F