[問題] 無法爬含中文的網址

看板R_Language作者clansoda (小笨)時間7年前 (2016/08/16 20:54)推噓0(0推 0噓 0→)

留言0則, 0人參與討論串1/1

還真是有點抱歉，整天來問的不是資料分析都是爬蟲的問題我今天遇到一個之前沒遇過的問題就是當網頁含中文的時候 xml裏頭GET是會發生一些怪怪的問題，我今天爬文章的時候發現 GET後得到的網頁content會是unknown的型態，而使用content以後會得到RAW型態的資料，而不是nodeset型態，想請問如何解決這樣的問題呢下面是一個範例網頁，http://goo.gl/cc7EAI 感謝各位回覆。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.172.248.239 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1471352090.A.B43.html

‣ 返回看板[ R_Language ] 程式

‣ 更多 clansoda 的文章

文章代碼(AID): #1NimqQj3 (R_Language)