[心得] NGram 中立斷詞法實做

看板Ruby作者 (南洋大兜蟲)時間12年前 (2012/07/14 00:22), 編輯推噓3(303)
留言6則, 3人參與, 最新討論串1/1
http://tonytonyjan.github.com/blog/tjngram/ 有想要寫 IR System Library 的衝動, 心血來潮在 RubyGems 搜尋了一下看有沒有可用的 N-Grams library, 確實也給我找到幾個,但可惜的是他們只有針對英文做斷詞,沒有針對中日韓。 可想像的到英文的斷詞和中文的斷詞是截然不同的, 但現在許多文章卻又中英日混雜,面對這種文章,那些 library 起不了什麼作用, 所以只好自己寫一個了。 雖然不知道有沒有人用 Rails 寫 IR System,但除此用途之外, 使用 NGram 來爬社群網站的詞彙其實也很好玩XD -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.227.144.168

07/14 16:38, , 1F
07/14 16:38, 1F

07/14 21:08, , 2F
感謝!改天來整合進 Ferret
07/14 21:08, 2F

07/16 22:39, , 3F
其實那網頁裡面就有 Ferret 的使用範例
07/16 22:39, 3F

07/16 22:49, , 4F
我知道,但我有重造輪子的壞習慣
07/16 22:49, 4F

07/19 12:33, , 5F
請問這有可能跟sunspot solr 搭配使用嗎?
07/19 12:33, 5F

07/23 13:31, , 6F
沒研究過 Sunspot,但我想也許有人寫過了?
07/23 13:31, 6F
文章代碼(AID): #1G04jSG1 (Ruby)