Re: [問題] 有人寫過PageRank嘛?(Google搜尋引擎技術)
※ 引述《kians (臨兵鬥者皆陣列在前)》之銘言:
: 如題,Google利用頁面分析+PageRank技術達成了搜尋引擎霸主的地位
: PageRank就是給予每一個網頁一個value啦,用google自己發展的PageRank演算法
: 用在搜尋後的網頁排序,越重要的網頁會放在越前面
: 最近對PageRank滿有興趣的,要如何讓電腦對數以億計的網頁進行運算
: 一般的電腦根本不可能達成吧,有點想知道演算法是怎麼寫的
: 還是說關鍵在硬體? 用multiprocess的方式達成?
GOOG是用分散式運算
: 有人用java寫過PageRank的演算法嘛?
單純回答你的問題,有(舉手)
這是我在CARNEGIE MELLON CS大二資料結構的第三還是第四個作業,兩周要寫出來,
而且包括CRAWLER(讀取網頁並TOKENIZE),INDEXER﹛讓USER搜尋關鍵字),和PAGE
RANKING。我是用JAVA寫的,據說GOOGLE是用RUBY寫的,不過還請板上強者補充。
這裡是我的作業的CLASS DIAGRAM,看看是不是你想要的
http://www.willieliao.com/ooad/src/default.dfPackage.wmf
: 希望能找到範例來參考一下,想對手邊有的幾十萬筆的連結資訊算出所有url的PageRank值
: (格式(txt): url1->url2
: url1->url3
: url2->url3
: .
: .
: . )
: 不知道有沒有辦法辦到,先謝謝各位囉
既然你只要算PAGERANK,那左邊都不用管,建一個HASHMAP,對每一個右邊的
URL先去看看MAP裡面有沒有,沒有的話用URL當KEY(假設你是STRING),用一個
INTEGER HOLDER當DATA丟進去,KEY存在的話就把DATA的VALUE 加一
話說我怎麼聞到作業文的味道...
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 76.111.69.123
推
11/02 17:01, , 1F
11/02 17:01, 1F
討論串 (同標題文章)