[討論] 會用Hadoop == 具備大數據處理能力?

看板Soft_Job作者 (800IM)時間9年前 (2016/07/06 13:34), 9年前編輯推噓16(16031)
留言47則, 19人參與, 最新討論串1/6 (看更多)
最近看到一些公司在找人,把會用Hadoop認定是有大數據處理能力, 甚至會看研究所做的題目是不是Hadoop? 例如這篇 https://goo.gl/0cTk60 還有這篇 https://www.facebook.com/thank78/posts/630689647078714 但我對這種現象感到疑惑。 我認知的處理Big Data核心能力,是一些資料探勘、機器學習相關的演算法, 以及相關應用(例如挖掘特定領域的資訊)。 Hadoop是一個分散檔案系統的軟體工具,或許符合"Big Data"字面上的意義, 但我們都知道data無用,information才有用, 因此這個時代談的"Big Data"大多含有"挖掘、自動智慧"等意義, 而不是單純的資料管理。 更何況論文研究出來的知識,不應該綁定在特定工具。 或許研究者本人只熟悉Hadoop或某種套裝軟體,這難免的。 但研究貢獻、他人欲重現研究過程等,都不應該綁死在特定軟體工具上。 或許因為我非資訊本科系、也不熟資料庫, 請問,是不是我對 Hadoop 或 Big Data 有什麼誤解? 為什麼 Big Data 的核心能力會是某種工具,而不是方法? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.232.85.29 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1467783272.A.30C.html

07/06 13:36, , 1F
很多東西只是個口號或是個舊有技術的新標籤
07/06 13:36, 1F

07/06 13:41, , 2F
這就是學術跟實務的落差
07/06 13:41, 2F

07/06 13:41, , 3F
學術是告訴你理論,並認為你能靠理論去作實務。
07/06 13:41, 3F

07/06 13:42, , 4F
公司是,有某個目標在,你要能用那些工具去達成目標。
07/06 13:42, 4F

07/06 13:43, , 5F
還有聽說Spark = 大數據的...
07/06 13:43, 5F

07/06 13:44, , 6F
拿mysql當雲端以及大數據的都有....
07/06 13:44, 6F

07/06 13:49, , 7F
因為你所說的工具正是因為針對某些特定用途而生成
07/06 13:49, 7F

07/06 13:53, , 8F
Hadoop不是過氣了
07/06 13:53, 8F

07/06 13:54, , 9F
現在很像都Spark
07/06 13:54, 9F

07/06 13:59, , 10F
你說的是modeling 建模型不一定要大數據
07/06 13:59, 10F

07/06 14:02, , 11F
很多應用的數據量其實不大 像生物統計一類
07/06 14:02, 11F
我懂了= = 就像Bayes classifier只用少量數據就可以training出來

07/06 14:04, , 12F
可能是產品作大數據 但現在只缺瑪農
07/06 14:04, 12F
※ 編輯: deo2000 (118.232.85.29), 07/06/2016 14:06:35

07/06 14:06, , 13F
另一方面 有些職缺真的單純就找人負責處理大數據的工具
07/06 14:06, 13F

07/06 14:06, , 14F
但是model是別人在建
07/06 14:06, 14F

07/06 14:08, , 15F
應該說這是infra的基本...machine learning再怎麼強,跑
07/06 14:08, 15F

07/06 14:08, , 16F
個training要20天應該也很難做事
07/06 14:08, 16F

07/06 14:12, , 17F
應該說任何model用少量數據都可以train
07/06 14:12, 17F

07/06 14:13, , 18F
但不一定able to generalize
07/06 14:13, 18F

07/06 14:14, , 19F
要回到之前的梗嗎XD 「沒有數據的大數據」XD
07/06 14:14, 19F

07/06 14:15, , 20F
因為你要拿學術上的知識自己從頭刻會太久,hadoop通常
07/06 14:15, 20F

07/06 14:15, , 21F
指一整個生態系,包含儲存、分散運算的框架,不用從頭;
07/06 14:15, 21F

07/06 14:15, , 22F
另外像spark底下也有些ml演算法可以直接拿來用,所以實
07/06 14:15, 22F

07/06 14:15, , 23F
務上會希望要具備能力使用這些適合處理big data的工具,
07/06 14:15, 23F

07/06 14:15, , 24F
專心。但學術上的概念很重要,這樣才兜的出效果好的模
07/06 14:15, 24F

07/06 14:15, , 25F
型。
07/06 14:15, 25F

07/06 14:15, , 26F
我想說的是通常ML相關工作 = model+處理數據的tool
07/06 14:15, 26F

07/06 14:19, , 27F
小公司找的人可能身兼兩職 大公司找就比較專精其中一項
07/06 14:19, 27F

07/06 14:41, , 28F
因為他是 HR , 不是 RD 主管....
07/06 14:41, 28F

07/06 14:47, , 29F
該人資主管有些文章論點令人發噱
07/06 14:47, 29F
我知道,這有人專文檢討過了 https://goo.gl/MhtTMq 不過他被詬病的都是一些跟專業無關的潛規則。 用人的技能規格上,應該還是直接受工程部門主管要求,好歹新蛋也是美國外商。

07/06 14:53, , 30F
那篇文... 只是在暗褒自己好厲害而已 別太當回事
07/06 14:53, 30F

07/06 14:53, , 31F
上課用py+spark基本的幾個model用過 不精找工作沒路用
07/06 14:53, 31F

07/06 14:55, , 32F
這時代 FB只是用來隱惡揚善的公關工具
07/06 14:55, 32F

07/06 14:57, , 33F
因為也沒有更值得一提的有價值事物了 只能拿小事做文章
07/06 14:57, 33F

07/06 14:57, , 34F
而且蠻好笑的,課名有提到APP的。反而都教很淺
07/06 14:57, 34F

07/06 15:38, , 35F
某單位的課程完全符合上面幾位說的
07/06 15:38, 35F
※ 編輯: deo2000 (118.232.85.29), 07/06/2016 15:44:47

07/06 18:10, , 36F
一個是 data engineering, 一個是 data science 吧
07/06 18:10, 36F

07/06 20:35, , 37F
要先解釋資料探勘和大數據的差別
07/06 20:35, 37F

07/06 21:39, , 38F
真累
07/06 21:39, 38F
※ 編輯: deo2000 (118.232.85.29), 07/06/2016 23:54:49

07/07 09:45, , 39F
首先你舉的例子是同一個人,那個人第一不是技術主管,
07/07 09:45, 39F

07/07 09:45, , 40F
第二待的又是板上不推的公司...
07/07 09:45, 40F

07/07 09:59, , 41F
HR主管或Head hunter知道大數據跟Hadoop已經是極限了,
07/07 09:59, 41F

07/07 09:59, , 42F
你不可能要求他們知道整個生態系的各種工具用途,也很
07/07 09:59, 42F

07/07 09:59, , 43F
難讓他們理解資料工程師跟資料科學家的差別
07/07 09:59, 43F

07/07 10:02, , 44F
推完發現上面都講了,補一句,不是美國外商的技術就不
07/07 10:02, 44F

07/07 10:02, , 45F
會有問題XD
07/07 10:02, 45F

07/09 01:21, , 46F
簡單說公司想做這個但是不想花成本訓練(但是如果評估這人學
07/09 01:21, 46F

07/09 01:21, , 47F
習力快可能願意招募),所以告訴你我們用Hadoop 做bigdada,
07/09 01:21, 47F
文章代碼(AID): #1NV9XeCC (Soft_Job)
討論串 (同標題文章)
文章代碼(AID): #1NV9XeCC (Soft_Job)