[討論] google的搜尋方式

看板Soft_Job作者 (花生)時間10年前 (2013/11/27 22:52), 編輯推噓10(10027)
留言37則, 15人參與, 最新討論串1/1
一般常見的搜尋方式,都是輸入一個字串AAA,便會找出文章: ..........AAA...BBB..CCC...AAA..... 中每個AAA所在的位置(index),再秀出來。 市面上好像有九成的網站、程式 都是這種的 但是google搜尋 卻可以輸入"AAA CCC",進而找出這篇文章: ..........AAA...BBB..CCC...AAA..... "AAA CCC"這個字串,google大神不僅可以找到完全符合"AAA CCC"字串的文章 也能找到「有AAA,也有CCC,但兩者不見得靠得很近,距離很遠也行(?)的文章」 這種同時下好幾個關鍵字來搜尋 已經成為大家找資料的方式 但大家寫的程式以及市面上的網站 卻鮮少支援這種搜尋方式 有人對這有研究嗎?好想實作看看XD 或是有現成的library可以用嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 114.24.88.206 ※ 編輯: peanut97 來自: 114.24.88.206 (11/27 22:53) ※ 編輯: peanut97 來自: 114.24.88.206 (11/27 22:53)

11/27 22:58, , 1F
Text mining
11/27 22:58, 1F

11/27 23:02, , 2F
google到http://goo.gl/Cd10A1,其他搜尋結果也多是論文
11/27 23:02, 2F

11/27 23:03, , 3F
好複雜...有前輩能講簡單一點嗎?
11/27 23:03, 3F

11/27 23:04, , 4F
google的搜尋語法"AAA CCC"本來就是"AAA" AND "CCC"
11/27 23:04, 4F

11/27 23:04, , 5F
關鍵字布林運算早在google出現前就有了
11/27 23:04, 5F

11/27 23:08, , 6F
現成的就用lucene或搭載應用層的Solr吧~
11/27 23:08, 6F

11/27 23:27, , 7F
page rank 分析網頁間的Linking 可以去wiki看看
11/27 23:27, 7F

11/27 23:29, , 8F
字詞間的關係 相關研究很多 可以去多看看別人的paper
11/27 23:29, 8F

11/27 23:33, , 9F
11/27 23:33, 9F

11/27 23:35, , 10F
後來PageRank又被玩到爛了,然後又有新東西,很好玩
11/27 23:35, 10F

11/27 23:37, , 11F
這研究下去會走火入魔
11/27 23:37, 11F

11/27 23:45, , 12F
我碩班做搜尋的xd 文件那種靜態搜尋的數學模型跟網頁
11/27 23:45, 12F

11/27 23:46, , 13F
那種資料會一值變動的動態搜尋差滿多的
11/27 23:46, 13F

11/27 23:50, , 14F
如果你會寫java 上面grtfor大大推的lucene可以去玩玩
11/27 23:50, 14F

11/28 00:05, , 15F
所以..他本來就是個很複雜的東西 很難用簡單的話來解釋囉
11/28 00:05, 15F

11/28 00:26, , 16F
這東西如果想理解到實作概念推導,本身就很難簡單講
11/28 00:26, 16F

11/28 00:26, , 17F
做搜尋很複雜,但跟你說的現象無關,就只是拆字跟不拆
11/28 00:26, 17F

11/28 00:27, , 18F
都一起下去搜啊。
11/28 00:27, 18F

11/28 00:28, , 19F
利用text mining asociation rule 先做一次語料庫比對
11/28 00:28, 19F

11/28 00:29, , 20F
把score高於門檻值的網頁在去做ranking
11/28 00:29, 20F

11/28 00:30, , 21F
以上都是猜測 記得以前聽過google不只用page做排序
11/28 00:30, 21F

11/28 00:33, , 22F
能讓你簡單就聽懂 Google 還混個屁, 你以為其他家不想做?
11/28 00:33, 22F

11/28 00:42, , 24F
這篇應該會給你不少幫助
11/28 00:42, 24F

11/28 00:43, , 25F
熊熊忘記拆字要考慮 TF-IDF,效率有差。
11/28 00:43, 25F

11/28 05:01, , 26F
就是簡單的indexing 這是information retrieval第一堂
11/28 05:01, 26F

11/28 05:02, , 27F
就會教的東西 現成package裡Lucene用得滿廣泛的
11/28 05:02, 27F

11/28 05:03, , 28F
至於上面提到的pagerank Tf-idf等都是ranking的方法
11/28 05:03, 28F

11/28 05:06, , 29F
屬於比較後期的處理 (先知道那些文件是相關的才能排名
11/28 05:06, 29F

11/28 05:08, , 30F
事實上windows或mac OS都有暗地做indexing 所以你找檔
11/28 05:08, 30F

11/28 05:08, , 31F
案也是打幾個關鍵字就行~
11/28 05:08, 31F

11/28 05:12, , 32F
原PO只問基本關鍵字搜尋 推文講的都太深入啦XD
11/28 05:12, 32F

11/28 10:08, , 33F
沒關係 都可以當作參考啦
11/28 10:08, 33F

11/28 12:25, , 34F
去買本 information retrieval 的原文書讀一讀就懂了
11/28 12:25, 34F

11/29 01:33, , 35F
正在試用Lucene中 在他demo版本中 已經會自動處理有2個關
11/29 01:33, 35F

11/29 01:34, , 36F
關鍵字的狀況...如果能把他套在自己程式裡應該很棒
11/29 01:34, 36F

12/04 18:46, , 37F
簡單說就是建立每個字的index,在取AAA跟CCC交集的文章
12/04 18:46, 37F
文章代碼(AID): #1IbWShoT (Soft_Job)