Re: [問題] 字串重複比對

看板java作者 (喵先生)時間14年前 (2011/12/09 00:13), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串2/3 (看更多)
中文字詞處理...冒冷汗中~~ 容我用爛方法解一下。程式像這樣.... http://pastie.org/2986485 總之如果沒有詞庫可以切詞的話,會切n-gram,n是參數,就是詞的 長度。這邊東西不多,就拿最長那句來當n,切至n=2為止,unigram 不考慮。切完拿來比對有match超過兩個以上就存起來。 長詞優先所以如果先前有處理過的子字串就不再比對。 算出來的結果是: "可樂" count:2 "我想要吃" count:2 "牛肉" count:2 跟你的結果好像不大一樣,因為n=4的時候有"我想要吃",所以就不處理了。 然後把重複的子字串這個判斷拿掉,會得到: "要吃" count:2 "想要" count:3 "想要吃" count:2 "我想要" count:3 "可樂" count:2 "我想" count:3 "我想要吃" count:2 "牛肉" count:2 然後我想了一下要怎樣在 "我想" "要吃" "想要" "想要吃" "我想要" "我想要吃" 中弄出 "我想要"...這個字呢??? ... ... ... 想了一下之後發現我還是去睡覺比較快...打完收工,希望沒bug (逃 ※ 引述《aaagang (我...)》之銘言: : 想要統計三個字串裏面重複的單字 : A:我想要吃牛肉麵,與可樂薯條 : B:我想要吃蕃茄牛肉飯與紅茶 : C:我想要喝可樂就好。 : 最後結果是 : 我想要 3次 : 牛肉 2次 : 可樂 2次 : 一個字或重複不到2次就不統計 : 我知道在字串重頭抓來比對字串就可以做, : 但總覺得能有更聰明的做法, : 希望能指導一下!謝謝。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 114.34.162.157 ※ 編輯: gwokae 來自: 114.34.162.157 (12/09 00:25) ※ 編輯: gwokae 來自: 114.34.162.157 (12/09 00:26)
文章代碼(AID): #1EuE8qjb (java)
文章代碼(AID): #1EuE8qjb (java)