[請益] MapReduce coding 經驗

看板Soft_Job作者 (wayne)時間12年前 (2013/10/08 22:30), 編輯推噓8(8029)
留言37則, 8人參與, 最新討論串1/2 (看更多)
版上的各位大大你好,因為實驗室研究的關係想跟各位請教一些問題 1. 各位會用Map Reduce的方法寫怎樣的應用呢? 2. 各位寫Map Redue的code的時候有出現過bug嗎?有的話是怎樣的bug呢? 實驗室想做Map Reduce程式的驗證,為此我們想要知道各位會在怎樣的應用上 使用Map Reduce的方法,有遭遇到怎樣的bug。我們需要知道大家coding上容易 出現怎樣的bug,我們才有辦法產生相對應的abstract model,因為目前看到的 課本上的應用都比較簡單一些,比較難想像過程中需要考量的問題。不知版上的 大家能不能分享一下coding的經驗,謝謝大家。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 1.34.90.207

10/08 22:32, , 1F
小弟是懶人,只會用PIG分析資料
10/08 22:32, 1F

10/08 22:36, , 2F
樓上大大可以說得仔細一些嗎?像是分析怎樣的資料?
10/08 22:36, 2F

10/08 22:36, , 3F
程式有過bug嗎?
10/08 22:36, 3F

10/08 22:37, , 4F
先謝謝p大了o(_ _)o
10/08 22:37, 4F

10/08 23:44, , 5F
就分析一些一台電腦算太久的資料
10/08 23:44, 5F

10/08 23:45, , 6F
Bug種類很多,當然也有不熟係運作耍蠢的也有
10/08 23:45, 6F

10/08 23:50, , 7F
可怕,做研究不去大量閱讀paper卻來這裡問一問就能建出model
10/08 23:50, 7F

10/08 23:51, , 8F
你這些問題當你去廣泛讀個幾十篇paper就有了,難不成你以後
10/08 23:51, 8F

10/08 23:52, , 9F
論文上參考文獻要寫引用自PTT第幾篇文章嗎?
10/08 23:52, 9F

10/08 23:54, , 10F
給P大,我們實驗室想探討的問題跟之前PAPER討論的問題不同
10/08 23:54, 10F

10/08 23:56, , 11F
之前的探討會著重在scalability、Fault tolerance
10/08 23:56, 11F

10/08 23:56, , 12F
改善效能,增加data flow的Flexible
10/08 23:56, 12F

10/08 23:58, , 13F
我們想做的事是利用一些MODEL CHECKING的技巧
10/08 23:58, 13F

10/08 23:58, , 14F
想辦法驗證程式是否符合某些條件
10/08 23:58, 14F

10/08 23:59, , 15F
想知道有實作經驗的人通常是在那裡容易出現Bug
10/08 23:59, 15F

10/09 00:00, , 16F
網路上能看到複雜一些的例子大概就是machine learning
10/09 00:00, 16F

10/09 00:02, , 17F
或是一些ReverseWeb-Link Graph的應用
10/09 00:02, 17F

10/09 00:02, , 18F
不過身邊沒有人有使用的經驗,所以想上板問各位
10/09 00:02, 18F
補充說明一下,我知道做研究閱讀大量的PAPER是必要的,不過在cluster上的計算 程式本身正確與否一直不是這個問題討論的重點,之前討論的方向也一直是以我前 述的問題為主,也有一些驗證安全性的討論。 我想知道並不是大家告訴我Model要怎麼建,而是大家有沒有CODE寫完卻發現跟當初 預期的結果不一樣的問題。就像大家在寫C program時會寫assertion檢查CODE是否 正確,確保程式有如當初所想的方式運行,即使如此可能還是會因為一些原因導致 結果與當初所想的不同。我想知道的是在大家的經驗中有沒有因為沒有考慮到平台 的特性就放上去跑導致結果不如預期的,MAP REDUCE要能做的基本條件就是運算 跟data order是無關的,舉例而言找出一串數列的最大值就跟data order無關,而 這種先天的限制我相信大家使用時都知道,不過有沒有一些其他容易犯的錯誤呢? 我的問題當然可以定義在檢查大家的運算是否跟data order有關這種問題上,不過 如果大家都知道那我再幫大家檢查這種問題就顯得有點畫蛇添足了,所以才會上來 請問大家有沒有遇過這種情形,不然即使研究做出來也沒有什麼實用價值。如果 各位覺得不妥,那先抱歉,我等等就刪文。謝謝大家的指教。

10/09 00:04, , 19F
r大可以分享你遇到的bug嗎?
10/09 00:04, 19F

10/09 00:08, , 20F
比較討厭見到out of heap,不過我碰到狀況牽涉層面蠻廣
10/09 00:08, 20F

10/09 00:13, , 21F
在T社能夠分析的資料也就那些而已
10/09 00:13, 21F

10/09 00:14, , 22F
就看看最近十大熱門病毒是哪些
10/09 00:14, 22F

10/09 00:20, , 23F
恩恩,先謝謝各位的回答
10/09 00:20, 23F

10/09 00:21, , 24F
想進一步請問各位,有沒有那種程式可以正常執行
10/09 00:21, 24F

10/09 00:22, , 25F
算是人為操作不當造成的
10/09 00:22, 25F

10/09 00:22, , 26F
可是跟預期結果不一樣的情形發生過呢?
10/09 00:22, 26F

10/09 00:23, , 27F
到是沒見過
10/09 00:23, 27F

10/09 00:24, , 28F
了解,非常感謝R大
10/09 00:24, 28F
※ 編輯: guest2 來自: 1.34.90.207 (10/09 01:20)

10/09 08:42, , 29F
感覺好像我以前 lab 會做的事
10/09 08:42, 29F

10/09 11:15, , 30F
我的論文是寫把單機程式datamining轉成
10/09 11:15, 30F

10/09 11:16, , 31F
map-reduce版啦,主要瓶頸會在i/o上
10/09 11:16, 31F

10/09 11:19, , 32F
當初在寫的時候heap大小也造成我很多不便
10/09 11:19, 32F

10/09 11:20, , 33F
所以我很多metadata要靠hdfs跟hbase儲存
10/09 11:20, 33F

10/09 11:22, , 34F
最後得到的結論是,沒事別用map-reduce,除非資料量超大
10/09 11:22, 34F

10/09 20:06, , 35F
Hadoop只是 MapReduce的一種實作(Implementation)
10/09 20:06, 35F

10/09 21:01, , 36F
你問的問題也太大
10/09 21:01, 36F

10/09 21:40, , 37F
謝謝大家,問題這麼大是想聽聽各位的經驗分享
10/09 21:40, 37F
文章代碼(AID): #1IL1RmW7 (Soft_Job)
文章代碼(AID): #1IL1RmW7 (Soft_Job)