Re: [問題] 簡體字串比對問題

看板java作者 (= ̄ω ̄=)時間14年前 (2011/07/05 13:19), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串2/2 (看更多)
※ 引述《wolf76er ( =資三連線= wolf)》之銘言: : 今天碰到一個問題, : 就是從簡體的網頁,網頁編碼GB2312,把整個網頁原始碼抓下來, : 然後讀外部的TXT檔(單字庫),也是簡體字, : 如果網頁上的句子中有出現字庫中的單字,就把該超連結的檔案下載下來, : 我是用迴圈+ .indexOf >=0 判斷有無符合字庫內的單字, : 不過試了一整天都沒辦法,System.out.print 出來的某些字會變?? : 不知道是不是因為外部檔讀進來,需要設定編碼? : 還是網頁擷取下來的字要做其他設定? : 不過我試了幾種,不是亂碼就是會有?? : 麻煩請高手指導一下,謝謝! 不知道您用什麼方法讀取網頁,如果使用的類別可以指定編碼的話,請手動設定成 和網頁一樣的編碼;單字庫也是,如果檔案格式是 UTF-8 、 UTF-16LE 之類,讀取 的時候請一併指定,例如 InputStreamReader 類別建構子的第二個參數。 另外,在 Windows 的命令提示字元環境下要輸出 unicode 字元只有直接調用 WriteConsole() 等 Windows API 才辦得到,用 Java 的 System.out.print() 系列函數遇到 unicode 字元只會顯示兩個問號。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 223.142.46.124
文章代碼(AID): #1E4fxrw3 (java)
文章代碼(AID): #1E4fxrw3 (java)