Re: [問題] 簡體字串比對問題
※ 引述《wolf76er ( =資三連線= wolf)》之銘言:
: 今天碰到一個問題,
: 就是從簡體的網頁,網頁編碼GB2312,把整個網頁原始碼抓下來,
: 然後讀外部的TXT檔(單字庫),也是簡體字,
: 如果網頁上的句子中有出現字庫中的單字,就把該超連結的檔案下載下來,
: 我是用迴圈+ .indexOf >=0 判斷有無符合字庫內的單字,
: 不過試了一整天都沒辦法,System.out.print 出來的某些字會變??
: 不知道是不是因為外部檔讀進來,需要設定編碼?
: 還是網頁擷取下來的字要做其他設定?
: 不過我試了幾種,不是亂碼就是會有??
: 麻煩請高手指導一下,謝謝!
不知道您用什麼方法讀取網頁,如果使用的類別可以指定編碼的話,請手動設定成
和網頁一樣的編碼;單字庫也是,如果檔案格式是 UTF-8 、 UTF-16LE 之類,讀取
的時候請一併指定,例如 InputStreamReader 類別建構子的第二個參數。
另外,在 Windows 的命令提示字元環境下要輸出 unicode 字元只有直接調用
WriteConsole() 等 Windows API 才辦得到,用 Java 的 System.out.print()
系列函數遇到 unicode 字元只會顯示兩個問號。
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 223.142.46.124
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 2 篇):