討論串[問題] 大量資料處理
共 2 篇文章
首頁
上一頁
1
下一頁
尾頁

推噓1(1推 0噓 3→)留言4則,0人參與, 最新作者yauhh (喲)時間13年前 (2012/09/10 15:23), 編輯資訊
0
0
0
內容預覽:
我覺得可以用MapReduce這種方法. 計算的主力也可以不要用記憶體撐,除非. 速度是重點.. 如果是使用檔案系統,我這個例子是MapReduce的轉型:. //Mapper. for (i=0; i<n; i++) {. if file_exist(treat_as_file(Base + "\
(還有612個字)

推噓0(0推 0噓 21→)留言21則,0人參與, 最新作者jackal11 (NC)時間13年前 (2012/09/09 15:55), 編輯資訊
0
0
0
內容預覽:
小弟最近要處理幾百萬筆的資料,格式以.txt檔為主. 除了原本的資料檔外,還要另外Output出兩個檔. 兩個檔的差別就在於. 一個檔是印出原本資料檔裡,所有重複的字串. 而另一個檔則是印出原本資料檔裡,所有不重複的字串. 而小弟所遇到的問題就是. 我在程式裡每讀一筆資料,就要跟之前的"""已讀的"
(還有203個字)
首頁
上一頁
1
下一頁
尾頁