[問題] 簡體字串比對問題
今天碰到一個問題,
就是從簡體的網頁,網頁編碼GB2312,把整個網頁原始碼抓下來,
然後讀外部的TXT檔(單字庫),也是簡體字,
如果網頁上的句子中有出現字庫中的單字,就把該超連結的檔案下載下來,
我是用迴圈+ .indexOf >=0 判斷有無符合字庫內的單字,
不過試了一整天都沒辦法,System.out.print 出來的某些字會變??
不知道是不是因為外部檔讀進來,需要設定編碼?
還是網頁擷取下來的字要做其他設定?
不過我試了幾種,不是亂碼就是會有??
麻煩請高手指導一下,謝謝!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.32.29.166
討論串 (同標題文章)
以下文章回應了本文:
完整討論串 (本文為第 1 之 2 篇):