[問題] full text search / elastic

看板Soft_Job作者 (.)時間7年前 (2017/03/10 02:44), 編輯推噓8(8014)
留言22則, 10人參與, 最新討論串1/2 (看更多)
請問我想在我的資料庫建構一個full text search 而且需要能夠支援中文字型 請問elastic search能夠做到嗎? 某A朋友曾經隨口跟我說過solr 但是某B跟我說solr對於中文的支援度非常差 或是該用什麼其他的engine? 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 207.141.218.17 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1489085099.A.922.html

03/10 07:26, , 1F
elastic與solr的背後都是lucene,本身工作有用到solr,中
03/10 07:26, 1F

03/10 07:26, , 2F
文處理是可以的,elastic大概也行吧
03/10 07:26, 2F

03/10 10:23, , 3F
google elastic 全文檢索 中文 感覺蠻多人用的
03/10 10:23, 3F

03/10 10:24, , 4F
你看要不要參考一下他們做出來的東西來考慮一下
03/10 10:24, 4F

03/10 10:24, , 5F
好像還有看到類似金庸小說的search engine XD..
03/10 10:24, 5F

03/10 12:49, , 6F
中文搜尋重點在切token 關鍵字:analyzer
03/10 12:49, 6F

03/10 12:51, , 7F
只要求有就好的話 用standard也是可以
03/10 12:51, 7F

03/10 14:30, , 8F
elastic中文搜尋還ok 但是要調到"準"要花很多時間
03/10 14:30, 8F

03/10 18:29, , 9F
不用管斷詞 把中文當成英文的片語搜就好
03/10 18:29, 9F

03/10 21:55, , 10F
中文全文檢索的靈魂就是斷詞的說...
03/10 21:55, 10F

03/10 22:40, , 11F
es跟solr主要的差異不在底層,底下都是lucene,斷詞也
03/10 22:40, 11F

03/10 22:40, , 12F
都可以換,主要是看你喜歡那種API跟需要什麼功能,兩者
03/10 22:40, 12F

03/10 22:40, , 13F
都要注意版本差異。中文斷詞的部分就是看你的搜尋是找
03/10 22:40, 13F

03/10 22:40, , 14F
得到就好還是會在意正確性,前者隨便切個bigram,後者
03/10 22:40, 14F

03/10 22:40, , 15F
就是要建詞典跟找個好的斷詞lib
03/10 22:40, 15F

03/11 09:58, , 16F
中文沒斷好,會很搞笑
03/11 09:58, 16F

03/11 13:07, , 17F
solr跟elasticsearch對中文的支援是一模一樣的<
03/11 13:07, 17F

03/11 13:09, , 18F
都是吃底層的analyzer,中文大多使用cjk,你也可以自建詞庫
03/11 13:09, 18F

03/11 13:09, , 19F
要做到語意分析會很不容易
03/11 13:09, 19F

03/12 00:51, , 20F
可以,建議可以下載RTF版,裡面有內建中文analyzer
03/12 00:51, 20F

03/12 00:52, , 21F
再去設定你要mapping的資料庫
03/12 00:52, 21F

03/12 00:53, , 22F
中文分詞器(analyzer)關鍵字:ik分詞器
03/12 00:53, 22F
文章代碼(AID): #1OmQAhaY (Soft_Job)
文章代碼(AID): #1OmQAhaY (Soft_Job)