[請益] 搜尋引擎的建置難度

看板Soft_Job作者 (就可博士)時間13年前 (2011/03/21 14:56), 編輯推噓16(16033)
留言49則, 22人參與, 最新討論串1/1
小弟目前再做一個網站 和朋友一起合作努力 而我們的網站是有一個搜尋系統 這個搜尋系統搜尋的範圍 希望是能夠在一個特定部份的領域內搜尋 不像google的是是全方位無限空間的搜尋 而這特定領域 可能也是要經過搜尋引擎去搜尋這個領域 再進入這領域搜尋 要是不行這樣分層式的搜尋 就單純限制範圍也無妨 而其中跑出來的資料 也希望不是完全像google一樣是比對相符程度 也有一些其他因素希望能讓我們找到的資料能更符合期望 比如說幾天內的資料優先 流量多大的資料優先 或是同樣都是沒有流量 網頁上顯示的內容再以某種方式判斷優先 所以其中的參數或是什麼 可能和google的有些一樣 我是不懂 或許也是一樣 只是要修改 我想請問的是 我如果外包 徵求人才幫我製作搜尋引擎 做到好 大致符合我的需求的話 大約多少錢 多少時間 因為我非這資工軟體的專業 發的內容可能有些地方大家看了覺得很外行請別見怪 感謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 220.140.35.101

03/21 15:04, , 1F
看你要質量多好 搜尋要做到好非常難 絕不是外包可解決
03/21 15:04, 1F

03/21 15:05, , 2F
你又要filter又要sort, 還有一堆打分數的stage(算字數等)
03/21 15:05, 2F

03/21 15:05, , 3F
要寫到夠快(使用者不會覺得lag)又要好 超難 放棄吧
03/21 15:05, 3F

03/21 15:06, , 4F
用google API兜一兜就算了
03/21 15:06, 4F
看樣子是自己來辦不到了

03/21 16:12, , 5F
不同意樓上. 有錢好辦事 XD
03/21 16:12, 5F

03/21 16:22, , 6F
搜尋你自己站內的東西??
03/21 16:22, 6F
站外的東西 網站本身有點像是整合入口

03/21 16:55, , 7F
你有看過google的說明嗎?採用83項因素加入矩陣計算排序
03/21 16:55, 7F

03/21 16:55, , 8F
你自己用 sql like '%kw%'的方式去搜就知道多吃資源了
03/21 16:55, 8F

03/21 17:01, , 9F
上網找凌網 他們有賣搜尋引擎 國家圖書館就是用它們的
03/21 17:01, 9F
好像很多錢QQ 可是我的東西可能沒有這麼複雜咧 沒到國家圖書館這種程度 ※ 編輯: DrJoke 來自: 220.140.35.101 (03/21 18:29)

03/21 19:07, , 10F
當你在google輸入"花博" "臺北國際花卉博覽會"就出現在第
03/21 19:07, 10F

03/21 19:08, , 11F
一頁的第一筆 光要自動化地做到這點就足以寫很多篇論文了
03/21 19:08, 11F

03/21 19:31, , 12F
google一下關鍵字"lucene",或許對你有幫助
03/21 19:31, 12F

03/21 19:39, , 13F
由此可見 Google 產生的論文數量 Good
03/21 19:39, 13F

03/21 19:43, , 14F
既然第一行說自己在做,可以先看國外PAPER...
03/21 19:43, 14F


03/21 21:45, , 16F
重點可能還是有多少用戶,在幫你training
03/21 21:45, 16F

03/21 21:46, , 17F
MS裡面多的是搞search演算法的專家. 不過bing還是不敵
03/21 21:46, 17F

03/21 21:47, , 18F
google
03/21 21:47, 18F

03/21 21:59, , 19F
你放棄吧, 只是想寫個小玩具就算了,若真的要商業化,不用做.
03/21 21:59, 19F

03/21 21:59, , 20F
原因樓上一堆人講過了,甚至你去google "Page Rank" 這個詞,
03/21 21:59, 20F

03/21 22:00, , 21F
看到的paper數量會嚇死你,而這只不過是google搜尋引擎的其中
03/21 22:00, 21F

03/21 22:00, , 22F
一小項計算因素,你說你要不要放棄?
03/21 22:00, 22F

03/21 22:36, , 23F
站外的話你只能靠google,頂多自動加入一些你說的特定領域
03/21 22:36, 23F

03/21 22:37, , 24F
的關鍵字,那些演算法你應該用不到,因為你又沒有資料內容
03/21 22:37, 24F

03/21 22:38, , 25F
你資料來源還是得依靠別人提供
03/21 22:38, 25F

03/21 23:08, , 26F
沒推文說得那麼誇張吧, 知識管理(KM)廠商都做得到原PO說的
03/21 23:08, 26F

03/21 23:08, , 27F
功能阿。
03/21 23:08, 27F

03/21 23:10, , 28F
看來只能用Meta search吧,哈
03/21 23:10, 28F

03/21 23:11, , 29F
肯花錢台灣廠商絕對做得到, 例如龍捲風科技這類的。
03/21 23:11, 29F

03/22 00:21, , 30F
如果只是要玩玩的話 google "sphinx"
03/22 00:21, 30F

03/22 07:27, , 31F
如果只針對單一領域,因為資料量,user都較少,難度自然較低.
03/22 07:27, 31F

03/22 09:58, , 32F
KM那些廠商只搜自己的資料庫跟要crawl internet差很多很多
03/22 09:58, 32F

03/22 11:41, , 33F
另一個open source solution - xapian
03/22 11:41, 33F

03/22 11:41, , 34F
他們也有在做客製化的樣子 只是中文搜尋的話..
03/22 11:41, 34F

03/22 11:41, , 35F
他們是外國廠商
03/22 11:41, 35F

03/22 12:52, , 36F
龍捲風喔 只能科科了
03/22 12:52, 36F

03/22 15:39, , 37F
後端用什麼資料庫? 市面上主流的db幾乎都有全文檢索了
03/22 15:39, 37F

03/22 17:11, , 38F
不要再跳針了啦,我都已經有問了,他是要搜尋internet的資料
03/22 17:11, 38F

03/22 17:12, , 39F
除非他自己寫機器人去爬,但是你怎麼爬也爬不贏google
03/22 17:12, 39F

03/22 17:14, , 40F
喔, 如果是搜尋Internet, 我收回我的話。
03/22 17:14, 40F

03/22 17:26, , 41F
nutch這玩具如何XD
03/22 17:26, 41F

03/22 21:44, , 42F
直接用google的服務最快啦~~
03/22 21:44, 42F

03/23 00:09, , 43F
Nutch我研究過,優化演算法還是得靠自己
03/23 00:09, 43F

03/23 00:10, , 44F
客製化,Google也是從lucene那邊持續改進
03/23 00:10, 44F

03/23 00:12, , 45F
你應該是要做垂直式搜尋引擎...但know how要很大
03/23 00:12, 45F

03/23 10:42, , 46F
我也以為他只是要搞KM 結果發現是就可博士
03/23 10:42, 46F

03/26 12:14, , 47F
要做個可以"動"的不難,k一下IR的書就會寫了
03/26 12:14, 47F

03/26 12:18, , 48F
Crawler+斷詞字典+html parser+反索引+SQL就可以動了.
03/26 12:18, 48F

03/26 12:19, , 49F
但就跟樓上推文說的一樣 效能才是難的地方 XD
03/26 12:19, 49F
文章代碼(AID): #1DXlQKyV (Soft_Job)