[問題]模擬關鍵字查詢,購置實驗設備的問題

看板Linux作者 (fool)時間10年前 (2013/11/08 14:00), 編輯推噓8(8023)
留言31則, 9人參與, 最新討論串1/1
最近要作「網頁」與「關鍵字」的相關性分析, 問題如下, 機器人爬回來的網頁資料,會存放在資料庫裡。 不會爬回全世界的網頁,但也會有不少的資料, Q1.請問該準備多少容量的硬碟,才會比較夠呢? Q2.一部電腦可以接多少台硬碟呢? 若硬碟裝滿了,是不是可以增加硬碟, 讓一台電腦,去接很多很多塊硬碟? 或是每增加一些硬碟,就一定要增加一台電腦? 補充如下,這是內部人員要使用的實驗環境,所以電腦數約2~3台, 平時沒用都會關機,有用才會打開,目前要作的實驗是, 輸入某個「關鍵字」,例如「ptt」,計算相關的網頁數有多少筆, 查詢時間會控制在10秒內 Q3. 請問硬碟與硬碟間的資料可以互通嗎? 例如查詢硬碟A的資料查不到(或查到部份結果),再到硬碟B去查, 查到了,再顯示出來 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 210.71.206.67

11/08 16:14, , 1F
q3:插滿硬碟作raid0應該就好了
11/08 16:14, 1F

11/08 16:15, , 2F
q1:你只抓文字還是全抓?抓回來會把html tags剝掉只留文字?
11/08 16:15, 2F

11/08 16:18, , 3F
q2:這跟你的預算比較有關,有錢就好辦事
11/08 16:18, 3F

11/08 16:56, , 4F
用 raid0 的好處是? 只抓文字跟標點符號,html tags
11/08 16:56, 4F

11/08 16:58, , 5F
全拿掉,請問這樣的需求,約多少預算,需多大的硬碟
11/08 16:58, 5F

11/08 16:59, , 6F
多少台電腦(電腦指主板+cpu)
11/08 16:59, 6F

11/08 17:33, , 7F
純粹看你的「不少資料」有多少XD
11/08 17:33, 7F

11/08 17:34, , 8F
少的話可能一兩顆1TB就夠,多的話可能一兩貨櫃的1TB都不夠
11/08 17:34, 8F

11/08 17:37, , 9F
只抓取繁體中文網站的話,大概需多少TB呢?
11/08 17:37, 9F

11/08 17:42, , 10F
網路上所有繁體中文網站!? 這也是用貨櫃而非TB當單位吧XD
11/08 17:42, 10F

11/08 17:52, , 11F
就連google也沒爬到全部,先根據有多少錢決定資料量吧
11/08 17:52, 11F

11/08 17:54, , 12F
至於互通什麼的跟硬體或linux似乎沒啥關係...
11/08 17:54, 12F

11/08 18:10, , 13F
抱歉,我問錯了,應該這樣問才對
11/08 18:10, 13F

11/08 18:12, , 14F
1TB 可以裝幾頁(假設1網站=1頁,1頁有1000字)
11/08 18:12, 14F

11/08 18:21, , 15F
這你可以自己算吧,和你儲存的方式有關
11/08 18:21, 15F

11/08 18:33, , 16F
假設存10TB, 那1台電腦可以接10顆硬碟嗎?
11/08 18:33, 16F

11/08 18:35, , 17F
又該如何組合這10塊硬碟的資料呢?
11/08 18:35, 17F

11/08 18:53, , 18F
有錢你想接幾顆HDD都辦得到
11/08 18:53, 18F

11/08 19:17, , 19F
如何組合也純粹看程式怎麼寫 @_@ 讀進不同硬碟上的資料跟
11/08 19:17, 19F

11/08 19:17, , 20F
讀進同顆硬碟不同檔案,從作業系統的角度來看是一樣的吧@@
11/08 19:17, 20F

11/08 19:21, , 21F
尺度大到需要一群電腦一起工作時也許可以考慮hadoop之類的
11/08 19:21, 21F

11/08 22:24, , 22F
我實驗室用R720XD 能裝26顆。不錯用
11/08 22:24, 22F

11/09 01:07, , 23F
感激涕零 我就是在找像這樣的設備,不過還是沒有頭緒
11/09 01:07, 23F

11/09 01:08, , 24F
該怎麼建置呢,大大們的回答,我一頭霧水啊...
11/09 01:08, 24F

11/09 01:45, , 25F
就raid阿............
11/09 01:45, 25F

11/09 07:42, , 26F
分散式檔案系統 HDFS 或是其他的
11/09 07:42, 26F

11/09 12:01, , 27F
這樣問吧,2台電腦+10塊硬碟+20條排線
11/09 12:01, 27F

11/09 12:03, , 28F
如何把它們串在一起工作?市面上有多硬碟串接線這種東西嗎
11/09 12:03, 28F

11/09 18:26, , 29F
有點好奇為什麼沒有人建議原 po 直接用 NAS :P
11/09 18:26, 29F

11/11 19:43, , 30F
硬碟陣列櫃
11/11 19:43, 30F

11/12 11:18, , 31F
嗯,磁碟陣列櫃就是我要的東東
11/12 11:18, 31F
文章代碼(AID): #1IV7uMi1 (Linux)