Re: [問題] 字串重複比對
中文字詞處理...冒冷汗中~~
容我用爛方法解一下。程式像這樣....
http://pastie.org/2986485
總之如果沒有詞庫可以切詞的話,會切n-gram,n是參數,就是詞的
長度。這邊東西不多,就拿最長那句來當n,切至n=2為止,unigram
不考慮。切完拿來比對有match超過兩個以上就存起來。
長詞優先所以如果先前有處理過的子字串就不再比對。
算出來的結果是:
"可樂" count:2
"我想要吃" count:2
"牛肉" count:2
跟你的結果好像不大一樣,因為n=4的時候有"我想要吃",所以就不處理了。
然後把重複的子字串這個判斷拿掉,會得到:
"要吃" count:2
"想要" count:3
"想要吃" count:2
"我想要" count:3
"可樂" count:2
"我想" count:3
"我想要吃" count:2
"牛肉" count:2
然後我想了一下要怎樣在 "我想" "要吃" "想要" "想要吃" "我想要" "我想要吃"
中弄出 "我想要"...這個字呢???
...
...
...
想了一下之後發現我還是去睡覺比較快...打完收工,希望沒bug (逃
※ 引述《aaagang (我...)》之銘言:
: 想要統計三個字串裏面重複的單字
: A:我想要吃牛肉麵,與可樂薯條
: B:我想要吃蕃茄牛肉飯與紅茶
: C:我想要喝可樂就好。
: 最後結果是
: 我想要 3次
: 牛肉 2次
: 可樂 2次
: 一個字或重複不到2次就不統計
: 我知道在字串重頭抓來比對字串就可以做,
: 但總覺得能有更聰明的做法,
: 希望能指導一下!謝謝。
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.34.162.157
※ 編輯: gwokae 來自: 114.34.162.157 (12/09 00:25)
※ 編輯: gwokae 來自: 114.34.162.157 (12/09 00:26)
討論串 (同標題文章)