[問題] 用getURL抓台股代碼 encoding問題

看板R_Language作者 (Reader)時間9年前 (2015/04/26 23:05), 編輯推噓1(1010)
留言11則, 4人參與, 最新討論串1/1
[問題類型]: 抓資料編碼問題. [軟體熟悉度]: 請把以下不需要的部份刪除 入門(寫過其他程式,只是對語法不熟悉) [問題敘述]: 請簡略描述你所要做的事情,或是這個程式的目的 利用R來抓台股股票代碼 但是抓回來的資料是亂的. 兩個網址都是亂的.Orz~ [程式範例]: //================================== rm(list=ls(all.names=TRUE)) library(RCurl) library(XML) library(bitops) test = getURL("http://isin.twse.com.tw/isin/C_public.jsp?strMode=2",encoding="UTF-8") test2 = getURL("http://www.emega.com.tw/js/StockTable.htm",encoding="big5") write.table(test,"test.txt") write.table(test2,"test2.txt") //================================== [環境敘述]: Win7 + RStudio [關鍵字]: 選擇性,也許未來有用 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.126.95.55 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1430060722.A.57C.html

04/27 12:47, , 1F
爬之前的文章吧,ENCODING在windows很麻煩
04/27 12:47, 1F

04/27 12:47, , 2F
請愛惜生命跟時間,盡早服用UTF8的LINUX
04/27 12:47, 2F

04/27 12:51, , 3F
那個選項是用.encoding 第一個網址.encoding='big5'
04/27 12:51, 3F

04/27 12:51, , 4F
會是正確的檔案
04/27 12:51, 4F

04/27 12:52, , 5F
第二個檔案一樣少個.,結果就會對
04/27 12:52, 5F

04/27 13:26, , 6F
感謝 爬到了
04/27 13:26, 6F

04/27 13:27, , 7F
url=URLencode("http://.....")
04/27 13:27, 7F

04/27 13:28, , 8F
url=getURL(url,.encoding="big5") 即可正確了~~
04/27 13:28, 8F

04/27 13:29, , 9F
原來是少了個"." Orz
04/27 13:29, 9F

04/28 17:00, , 10F
請愛惜生命跟時間,盡早服用UTF8的LINUX+1
04/28 17:00, 10F

04/30 00:41, , 11F
parser 還是自己寫好些, strsplit() 萬用
04/30 00:41, 11F
文章代碼(AID): #1LFFwoLy (R_Language)