Re: [請益] Big data(ML)與Robotics領域在台灣的發展
現在台灣許多人對big data的認知似乎把big data跟data science混在一起了
連張善政都說要用big data來當作教育方針參考...
如果你的資料真的是big data等級
那從原始data到真的能進行分析,有一段非常長的距離
如果你的資料不需要處理就能進行分析,那他的量絕對沒有到big data那麼大
我現在在一家線上廣告公司 (不是google)工作
工作剛好就是hadoop platform engineer
這家公司每日進來的raw data有好幾TB
我們這組的主要工作就是除去重複的資料
將相關的event放在一起(ad impression / ad click)
產生可以向客戶收費的報表,封存等等
封存後的資料,才有data scientist去試著撈資料作研究
通常撈的只能是很小一塊的資料,因為量真的太大了...
在傳統的database engineering中,就是所謂的ETL (Extract Transform Load)
* * *
我想表達的是,big data engineer != data science
儘管我自己也有學一些ML相關的課,但在big data上面目前無暇用到
同理,想做data science不需要是 big data
要考慮的是,data science從研究到能推出產品的週期很長
要看公司願不願意投資長線研發這類型的產品
我覺得這才是在台灣覓職所需要考慮的主要因素
* * *
最後想吐槽一點小事情
包含美國,很多data scientist都想學hadoop
但這真的不必要
因為他們最後都是在select ... from table;
連sum/count都沒有用
都是把資料用select拿出來後再自己用python去count
這樣能處理的資料是能有多大= ="
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 108.205.154.164
※ 文章網址: http://www.ptt.cc/bbs/Soft_Job/M.1401039442.A.C88.html
推
05/26 02:00, , 1F
05/26 02:00, 1F
→
05/26 02:00, , 2F
05/26 02:00, 2F
推
05/26 10:03, , 3F
05/26 10:03, 3F
→
05/26 11:07, , 4F
05/26 11:07, 4F
推
05/26 12:55, , 5F
05/26 12:55, 5F
→
05/26 15:39, , 6F
05/26 15:39, 6F
推
05/26 18:01, , 7F
05/26 18:01, 7F
→
05/26 21:15, , 8F
05/26 21:15, 8F
→
05/26 21:16, , 9F
05/26 21:16, 9F
推
05/26 22:52, , 10F
05/26 22:52, 10F
→
05/26 22:53, , 11F
05/26 22:53, 11F
→
05/27 20:59, , 12F
05/27 20:59, 12F
討論串 (同標題文章)
完整討論串 (本文為第 2 之 4 篇):