[問題] 無法爬含中文的網址
還真是有點抱歉,整天來問的不是資料分析都是爬蟲的問題
我今天遇到一個之前沒遇過的問題就是當網頁含中文的時候
xml裏頭GET是會發生一些怪怪的問題,我今天爬文章的時候發現
GET後得到的網頁content會是unknown的型態,而使用content以後
會得到RAW型態的資料,而不是nodeset型態,想請問如何解決這樣的問題呢
下面是一個範例網頁,http://goo.gl/cc7EAI
感謝各位回覆。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.172.248.239
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1471352090.A.B43.html