Re: [討論] 會用Hadoop == 具備大數據處理能力?

看板Soft_Job作者longlyeagle (長鷹寶寶實驗室)時間9年前 (2016/07/06 22:49)推噓0(0推 0噓 1→)

留言1則, 1人參與討論串3/6 (看更多)

你好小弟我在外商軟體公司也是負責跟資料相關的東西架構spark cluster跟公司的ML library 平常除了寫程式還有一個興趣是問別人奇怪的問題剛好也問過許多同事對大數據的看法分析過之後發現可以把大家對大數據的觀點分為兩種 1. 大數據可以為我們帶來什麼? 2. 大數據會造成什麼問題? 大數據可以為我們帶來什麼? 基本上就是在講紀錄了大量資料之後可以利用Data Mining來達到的好處像是可以發現現象的相關性並且利用這些Data Mining Insight來改進產品改進流程改進宣傳目標等等大數據會造成什麼問題? 資料大到10T硬碟裝不下怎麼辦? 計算動不動就爆Memory怎麼辦? 算個簡單的模型算到天荒地老怎麼辦? Query資料電腦就死給你看怎麼辦? Hadoop算是業界廣泛使用的針對第二點問題的解決方案其他還有Mesos Storm等等針對不同資料形式跟分析模型大家採用的軟體架構也不一樣同時採用的軟體架構通常會伴隨相關的分析工具像是Hive就是Hadoop生態鏈裡面很常見的一員或是利用Spark在Hadoop上跑ML 雖然Spark因為也可以跑在Mesos上我覺得已經不單純是屬於Hadoop了相關的工具其實也限縮了一些ML發揮的空間當然因應不同的資料採用不同的數學模型或是特化現有的數學模型還是必要的所以還是有很多ML可以玩的地方回到Hadoop 你可以想像當一間公司已經用了Hadoop 而且當那間公司要找的是即戰力的時候可以快速的利用Hadoop及其生態鏈裡面的工具來達成目標的人就是他們要找的人如果是大公司對即戰力的需求沒有那麼高而且分工更細不熟架構只做分析的人也有發揮的空間 ※ 引述《deo2000 (800IM)》之銘言： : 最近看到一些公司在找人，把會用Hadoop認定是有大數據處理能力， : 甚至會看研究所做的題目是不是Hadoop？ : 例如這篇 : https://goo.gl/0cTk60 : 還有這篇 : https://www.facebook.com/thank78/posts/630689647078714 : 但我對這種現象感到疑惑。 : 我認知的處理Big Data核心能力，是一些資料探勘、機器學習相關的演算法， : 以及相關應用（例如挖掘特定領域的資訊）。 : Hadoop是一個分散檔案系統的軟體工具，或許符合"Big Data"字面上的意義， : 但我們都知道data無用，information才有用， : 因此這個時代談的"Big Data"大多含有"挖掘、自動智慧"等意義， : 而不是單純的資料管理。 : 更何況論文研究出來的知識，不應該綁定在特定工具。 : 或許研究者本人只熟悉Hadoop或某種套裝軟體，這難免的。 : 但研究貢獻、他人欲重現研究過程等，都不應該綁死在特定軟體工具上。 : 或許因為我非資訊本科系、也不熟資料庫， : 請問，是不是我對 Hadoop 或 Big Data 有什麼誤解？ : 為什麼 Big Data 的核心能力會是某種工具，而不是方法？ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.32.94.182 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1467816546.A.B57.html

→

MOONY135

07/06 22:54, , 1^F

07/06 22:54, 1^F

是分工的阿可是架構架完之後適合的分析工具會因為架構而不同所以找人找 "熟悉操做該架構下的工具的人" 是可以理解的 ※ 編輯: longlyeagle (114.32.94.182), 07/06/2016 23:03:11

‣ 返回看板[ Soft_Job ] 工作

‣ 更多 longlyeagle 的文章

文章代碼(AID): #1NVHfYjN (Soft_Job)