Re: [問題] 關於stragglers的Backup task

看板Cloud作者 (喲)時間13年前 (2010/09/07 13:29), 編輯推噓2(206)
留言8則, 2人參與, 最新討論串2/3 (看更多)
※ 引述《gmoz ( This can't do that. )》之銘言: : 這幾天在對MapReduce做一些survey : 不過有個地方我不太了解細節 o.o : 就是google用來解決starggles的Backup Task : 原文如下: : We have a general mechanism to alleviate the problem : of stragglers. When a MapReduce operation is close : to completion, the master schedules backup executions : of the remaining in-progress tasks. The task is marked : as completed whenever either the primary or the backup : execution completes. : 請問有人知道這個實際運作的細節 : 或是哪邊有資料可以看嗎? The problem of stragglers是說,MapReduce指派每個工作是試試把工作送出去. 工作在遠端能不能完成,無法確定. 所以在主控端做的事情是, 它一邊派送工作,同時一邊將剛派送出去正在執行的工作放在queue中. 等一段時間,發現遠端機器死了,不管工作或產出資料都鎖在那個死的機器中. 而且一台死掉的機器,它本機存在的工作執行到一半,無法確定產出資料有哪些可信. MapReduce做法很簡單,就是把沒結果的工作重新派到另一台新的機器,重做. 這樣子,stragglers問題仍然有,不過MapReduce用重新派送工作避開這個問題, 而獲得高效能. -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 211.21.94.199

09/07 14:16, , 1F
好像還會弄出一份copy(backup) 同時執行
09/07 14:16, 1F

09/07 14:19, , 2F
所以他有依據會判斷遠端機器可能如y大所說的死掉了
09/07 14:19, 2F

09/07 14:20, , 3F
然後安排他的backup task也開始執行這樣@@?
09/07 14:20, 3F

09/07 14:22, , 4F
還友兩者只要有任一先完成這個task就算完成 那後(未)完成的
09/07 14:22, 4F

09/07 14:22, , 5F
要怎樣偵測和殺掉他 這是我有問題的細節
09/07 14:22, 5F

09/07 14:22, , 6F
感謝Y大的回文
09/07 14:22, 6F

09/07 15:00, , 7F
未完成的工作直接死在死掉的節點上.
09/07 15:00, 7F

09/07 15:01, , 8F
偵測嘛,我想是先偵測節點有沒有死掉.
09/07 15:01, 8F
文章代碼(AID): #1CXSt3a8 (Cloud)
文章代碼(AID): #1CXSt3a8 (Cloud)