Re: [討論] 會用Hadoop == 具備大數據處理能力?

看板Soft_Job作者 (長鷹寶寶實驗室)時間9年前 (2016/07/06 22:49), 9年前編輯推噓0(001)
留言1則, 1人參與, 最新討論串3/6 (看更多)
你好 小弟我在外商軟體公司也是負責跟資料相關的東西 架構spark cluster跟公司的ML library 平常除了寫程式還有一個興趣是問別人奇怪的問題 剛好也問過許多同事對大數據的看法 分析過之後發現可以把大家對大數據的觀點分為兩種 1. 大數據可以為我們帶來什麼? 2. 大數據會造成什麼問題? 大數據可以為我們帶來什麼? 基本上就是在講紀錄了大量資料之後 可以利用Data Mining來達到的好處 像是可以發現現象的相關性 並且利用這些Data Mining Insight來 改進產品 改進流程 改進宣傳目標 等等 大數據會造成什麼問題? 資料大到10T硬碟裝不下怎麼辦? 計算動不動就爆Memory怎麼辦? 算個簡單的模型算到天荒地老怎麼辦? Query資料電腦就死給你看怎麼辦? Hadoop算是業界廣泛使用的 針對第二點問題的解決方案 其他還有Mesos Storm等等 針對不同資料形式跟分析模型 大家採用的軟體架構也不一樣 同時 採用的軟體架構通常會伴隨相關的分析工具 像是Hive就是Hadoop生態鏈裡面很常見的一員 或是利用Spark在Hadoop上跑ML 雖然Spark因為也可以跑在Mesos上 我覺得已經不單純是屬於Hadoop了 相關的工具其實也限縮了一些ML發揮的空間 當然 因應不同的資料採用不同的數學模型 或是特化現有的數學模型還是必要的 所以還是有很多ML可以玩的地方 回到Hadoop 你可以想像當一間公司已經用了Hadoop 而且當那間公司要找的是即戰力的時候 可以快速的利用Hadoop及其生態鏈裡面的工具 來達成目標的人 就是他們要找的人 如果是大公司 對即戰力的需求沒有那麼高而且分工更細 不熟架構只做分析的人也有發揮的空間 ※ 引述《deo2000 (800IM)》之銘言: : 最近看到一些公司在找人,把會用Hadoop認定是有大數據處理能力, : 甚至會看研究所做的題目是不是Hadoop? : 例如這篇 : https://goo.gl/0cTk60 : 還有這篇 : https://www.facebook.com/thank78/posts/630689647078714 : 但我對這種現象感到疑惑。 : 我認知的處理Big Data核心能力,是一些資料探勘、機器學習相關的演算法, : 以及相關應用(例如挖掘特定領域的資訊)。 : Hadoop是一個分散檔案系統的軟體工具,或許符合"Big Data"字面上的意義, : 但我們都知道data無用,information才有用, : 因此這個時代談的"Big Data"大多含有"挖掘、自動智慧"等意義, : 而不是單純的資料管理。 : 更何況論文研究出來的知識,不應該綁定在特定工具。 : 或許研究者本人只熟悉Hadoop或某種套裝軟體,這難免的。 : 但研究貢獻、他人欲重現研究過程等,都不應該綁死在特定軟體工具上。 : 或許因為我非資訊本科系、也不熟資料庫, : 請問,是不是我對 Hadoop 或 Big Data 有什麼誤解? : 為什麼 Big Data 的核心能力會是某種工具,而不是方法? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.32.94.182 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1467816546.A.B57.html

07/06 22:54, , 1F
分析跟做架構要分工才對
07/06 22:54, 1F
是分工的阿 可是架構架完之後 適合的分析工具會因為架構而不同 所以找人找 "熟悉操做該架構下的工具的人" 是可以理解的 ※ 編輯: longlyeagle (114.32.94.182), 07/06/2016 23:03:11
文章代碼(AID): #1NVHfYjN (Soft_Job)
討論串 (同標題文章)
文章代碼(AID): #1NVHfYjN (Soft_Job)