Re: [問題] 有關檔案讀取
※ 引述《NightPrince (shooting star)》之銘言:
: ※ 引述《johnkenkae (乖小孩)》之銘言:
: : 各位大大
: : 請問在做計算文章的詞頻,如何將文章中個別的"word"
: : 由檔案讀入到個別String 或 list 或 HashMap中?
: : (意思就是拆解文字) 第一步就做不出來了= ="
: 如果是英文文章的話,可以試試看StringTokenizer
: 是 java.util package底下的一個class
: 而你所說的是從檔案讀進輸入,那就必須先讀取一個檔案的內容再使用
: StringTokenizer
: 檔案的輸出輸入串流相關class,請參閱 java.io package
: hint: File、FileReader、BufferedReader and so on.
: example:
: try
: {
: File file = new File("D:/abc.txt");
: BufferedReader br = new BufferedReader(new FileReader(file));
: String s;
: StringTokenizer token;
: ArrayList<String> strList = new ArrayList();
: while( ( s = br.readLine()) != null )
: {
: token = new StringTokenizer(s);
: while( token.hasNextToken() )
: {
: strList.add(token.nextToken());
: }
: }
: }
: catch(Exception ex)
: {
: ex.printStackTrace();
: }
可否請教中文的文章該怎麼統計各個文字出現的字數?
Ex:
輸入:
"背書包,上學去,我的書包裡,有書也有筆,我有四本書,還有三枝筆,還有一個
小皮球,也在我的書包裡"
輸出:
背:1
書:5
包:3
上:1
學:1
去:1
我:3
的:2
裡:2
有:5
也:2
筆:2
四:1
本:1
還:2
三:1
枝:1
一:1
個:1
小:1
皮:1
球:1
在:1
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.115.205.85
討論串 (同標題文章)