Re: [技術]別老扯什麼Hadoop了,你的數據根本不夠大

看板Soft_Job作者 (楊宗緯)時間10年前 (2013/09/20 16:55), 編輯推噓7(7022)
留言29則, 11人參與, 最新討論串3/3 (看更多)
※ 引述《realmeat (真肉)》之銘言: : ※ 引述《Lordaeron (Terry)》之銘言: : : 譯文: http://geek.csdn.net//news/detail/2780 : : 原文: http://www.chrisstucchio.com/blog/2013/hadoop_hatred.html : 控制map-reduce是一回事 : 搞懂整個map-reduce每個步驟怎進行是一回事 : 能夠控制map-reduce每個環節是另一回事 : 用map-reduce控制hbase又是另一回事 : 使用hdfs是一回事 : 了解hdfs架構又是一回事 : 搞懂hdfs跟map-reduce之間的關連又是一回事 : 搞懂hdfs跟hbase name server之間的關連又是一回事 : 設定job tracker是一回事 : 控制scheduler又是另一回事 : 讓map-reduce 有效率的執行也是一回事 : mapreduce跟mapred也是不同一件事啊 (爆 : 大象書其實也沒有寫太多細節的事, : 能幾個字就說完hadoop, 也真的頗神奇 (笑 : 不過他真的很難用 (無奈 這篇說得很好啊。 很多人根本不去了解細節,就在靠別人的二手發言去學習。 我在剛開始碰 MapReduce時,拿經典的字數計算來當教材, 實在搞不懂 MapReduce 的概念與資料庫 Group 運算的做法有什麼不同 更覺得 Hadoop/MapReduc/HDFS 不就是十幾年前流行過的分散式系統而已嗎? 把工作拆成小工作到各節點,最後再彙總。 這概念不就是 Divide and Conquer 而已嗎。 我也不知道為何中間要有 Shuffle phase,直接兩階段 Devide and Conquer不就好。 更不知道為何不在 Map階段就做掉所有的事情,分那麼多階段幹嘛。 於是我一開始根本就不鳥 Hadoop 的 MapReduce 與 HDFS, 直接在我自己的分散式環境下用自己的方式把工作拆到多個節點去做。 幾乎等於自己在做一套專用的分散式批次處理環境。 後來自己慢慢摸,發現一些瓶頸,例如擴充的瓶頸、效能的瓶頸, 回頭重看 MapReduce 才知道其中的奧妙與觀念的重點。 Hadoop/MapReduce/HDFS 的確不適用於所有情形。 但是也沒原文說得那麼扯,把 MapReduce劣化成用SQL Group by語法。 原文很多內容真的看看笑笑就好。 Hadoop 解決了很多你自己在搞分散式系統時會遇到的擴充、管理、效能瓶頸。 而且把這些問題包起來,你永遠看不到,讓人覺得他沒什麼, 其他工具隨便就能取代一樣。 這觀念就好像,你不懂Facebook,然後說Facebook沒什麼, 隨便自己寫個互動網頁也能取代一樣。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 59.102.185.21

09/20 16:56, , 1F
09/20 16:56, 1F

09/20 17:10, , 2F
沒錯!魔鬼藏在細節...
09/20 17:10, 2F

09/20 17:20, , 3F
但 Hadoop 真的是他娘的難搞...好多麻煩的小細節要處理...XD
09/20 17:20, 3F

09/20 17:21, , 4F
別人覺得沒啥就沒啥 這世界不就這樣, 高興就自己搞一個啊XD
09/20 17:21, 4F

09/20 17:24, , 5F
這篇文章其實我並不反對,當你需要的是5TB以下的data,RDB的確
09/20 17:24, 5F

09/20 17:25, , 6F
有很多方便的地方 但問題是:現今的資料常常都是多一個量級以
09/20 17:25, 6F

09/20 17:25, , 7F
上的 所以攤手 難用還是得用 不過說老實話 台灣用Hadoop的企
09/20 17:25, 7F

09/20 17:26, , 8F
業其實也不多就是了(僅就我接觸過的一些大企業來說...)
09/20 17:26, 8F

09/20 18:00, , 9F
原文講的是應用面, 這邊扯的是系統面.
09/20 18:00, 9F

09/20 18:00, , 10F
DHT 就是DHT.
09/20 18:00, 10F

09/20 20:50, , 11F
推 要批次處理有 condor 可以用
09/20 20:50, 11F

09/20 21:37, , 12F
分散式的東西一直都有很多小細節要弄 因為它是分散式的XD
09/20 21:37, 12F

09/20 22:33, , 13F
push
09/20 22:33, 13F

09/21 07:12, , 14F
報告 發現有人臉皮好厚 (笑
09/21 07:12, 14F

09/21 07:26, , 15F
回應某樓,所以我一直覺得我失業會找不到相關的工作(笑
09/21 07:26, 15F

09/21 12:04, , 16F
09/21 12:04, 16F

09/21 13:19, , 17F
唉...有人說一堆自大的話, 問細了, 又不敢回, 還裝笑..
09/21 13:19, 17F

09/21 13:19, , 18F
可悲.
09/21 13:19, 18F

09/21 13:20, , 19F
更可悲的是, 人家講A , 用回應B 來說人家講的不對.
09/21 13:20, 19F

09/21 13:20, , 20F
帶種點, 上去PO 文回應該作者, 別在這裝高手.
09/21 13:20, 20F

09/21 13:21, , 21F
既然都搞得懂的, 出本書, 寫篇好文來講解, 都沒手.
09/21 13:21, 21F

09/21 13:22, , 22F
更別說, 高人行事, 嘴砲天下無敵.
09/21 13:22, 22F

09/21 13:23, , 23F
厚臉皮的呢....
09/21 13:23, 23F

09/21 14:30, , 24F
@realmeat/@Lordaeron 版規一 請兩位都盡量針對主題發言。
09/21 14:30, 24F

09/21 14:31, , 25F
已經警告兩次了,請大家都節制一點。
09/21 14:31, 25F

09/22 03:19, , 26F
請大家繼續回歸主題討論~~有違規的部份請回報板務處理~
09/22 03:19, 26F

09/22 13:59, , 27F
只想說,現在才在強調hadoop好棒好行,會不會太過時了一點
09/22 13:59, 27F

09/22 14:01, , 28F
或者強調hadoop根本不行,
09/22 14:01, 28F

09/23 10:10, , 29F
推樓上y大XD
09/23 10:10, 29F
文章代碼(AID): #1IF0s89H (Soft_Job)
討論串 (同標題文章)
文章代碼(AID): #1IF0s89H (Soft_Job)