Re: [討論] 這個有可能達成嗎? 謝謝
※ 引述《k43582 (crab)》之銘言:
: 您好
: 監測某一個網站 當網站更新時
: 我有辦法獲得更新處的web page所對應的URL嗎?
: 附上說明文件http://www.megaupload.com/?d=6AQCBESD
: 有高手可以接下嗎..
: 錢可以討論
: 謝謝!
: 推 bestwishes:不太懂 說明文件中URL沒有變啊 用CURL重抓不就好了? 10/29 23:39
: → k43582:當只有子網頁更新就給我對應的URL 不要給root那個URL 10/30 00:11
: 推 PsMonkey:你是要對付 internet 所有網站,還是特定網站? 10/30 00:25
: → k43582:八成左右的網站 謝謝 10/30 10:35
對不起,我不是高手
只是看了一下原 po 的文章與推文
我想還是寫點東西,幫案主省點時間,應該也可以幫接案方省點時間
現在網路上有多少「網站」(先跳過明確的網站定義)
用最保守的算法,就當 1 億吧
八成也就是八千萬個網站
好,其實考慮背後系統的話,也沒有這麼多
各類 BPS、CMS 架出來的可能佔了不少比率
另外加上如果有 RSS 之類的輔助,那應該會快樂不少
所以,就算 100 種好了(因為我很喜歡《100 種生活》,OH-YEAH!)
這 100 種「網站」,每一種出血大放送
平均台幣 1K 就幫你 fetch/parse 好
你就要準備 100K
這還沒有算為了後續 mining 所作的前期準備、塞資料庫
能避開基本 ban ip 的排程系統....
這類系統分析、系統架構之類的東西
(反正前面的 code 都這麼出血大放送了,這些就當撒必死?)
硬體 resource 的部份總不能要接案方負責吧?
所以你還要有爆炸大的頻寬跟爆炸大的硬碟
跟爆炸快的機器跑 Database
這樣才有辦法對付網路上八成左右的網站
(當然,也可以一句「套分散式系統」來打發掉,反正出血大放送 XD)
如果你 or 其他高手嫌棄上面的說法太專業 or 太不切實際
那改個簡單、商業版的說法
假設 Google 現在只有 1/10 的 resource 在處理 search engine
你沒有要作內容分析,所以就當成只有 search engine 的 1/100 功能
加上你又只打算對付八成的網站
我是不知道 Google 的資金是多少
不過上頭的比率乘起來是 1/10 * 1/100 * 4/5 = 4/5000
再加上大家都在 CodeJob、都在台灣拼經濟的交情,再給你乘著 1/10
五萬分之四個 Google...
====
雖然我只是無聊來練打字
但我真的沒有要酸人的意思... Orz
--
錢鍾書: 說出來的話
http://www.psmonkey.org
比不上不說出來的話
Java 版 cookcomic 版
只影射著說不出來的話
and more......
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.25.9.199
→
10/30 15:33, , 1F
10/30 15:33, 1F
→
10/30 15:33, , 2F
10/30 15:33, 2F
→
10/30 15:34, , 3F
10/30 15:34, 3F
→
10/30 15:36, , 4F
10/30 15:36, 4F
→
10/30 16:19, , 5F
10/30 16:19, 5F
→
10/30 16:21, , 6F
10/30 16:21, 6F
→
10/30 16:22, , 7F
10/30 16:22, 7F
→
10/30 16:22, , 8F
10/30 16:22, 8F
→
10/30 16:31, , 9F
10/30 16:31, 9F
→
10/30 17:26, , 10F
10/30 17:26, 10F
→
10/30 17:27, , 11F
10/30 17:27, 11F
→
10/30 17:29, , 12F
10/30 17:29, 12F
推
10/30 17:38, , 13F
10/30 17:38, 13F
→
10/30 18:27, , 14F
10/30 18:27, 14F
→
10/30 18:28, , 15F
10/30 18:28, 15F
→
10/30 18:29, , 16F
10/30 18:29, 16F
→
10/30 18:29, , 17F
10/30 18:29, 17F
推
10/30 18:39, , 18F
10/30 18:39, 18F
→
10/30 19:15, , 19F
10/30 19:15, 19F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 3 之 3 篇):