Re: [請益] Big data(ML)與Robotics領域在台灣的發展

看板Soft_Job作者 (dryman)時間10年前 (2014/05/26 01:37), 編輯推噓5(507)
留言12則, 8人參與, 最新討論串2/4 (看更多)
現在台灣許多人對big data的認知似乎把big data跟data science混在一起了 連張善政都說要用big data來當作教育方針參考... 如果你的資料真的是big data等級 那從原始data到真的能進行分析,有一段非常長的距離 如果你的資料不需要處理就能進行分析,那他的量絕對沒有到big data那麼大 我現在在一家線上廣告公司 (不是google)工作 工作剛好就是hadoop platform engineer 這家公司每日進來的raw data有好幾TB 我們這組的主要工作就是除去重複的資料 將相關的event放在一起(ad impression / ad click) 產生可以向客戶收費的報表,封存等等 封存後的資料,才有data scientist去試著撈資料作研究 通常撈的只能是很小一塊的資料,因為量真的太大了... 在傳統的database engineering中,就是所謂的ETL (Extract Transform Load) * * * 我想表達的是,big data engineer != data science 儘管我自己也有學一些ML相關的課,但在big data上面目前無暇用到 同理,想做data science不需要是 big data 要考慮的是,data science從研究到能推出產品的週期很長 要看公司願不願意投資長線研發這類型的產品 我覺得這才是在台灣覓職所需要考慮的主要因素 * * * 最後想吐槽一點小事情 包含美國,很多data scientist都想學hadoop 但這真的不必要 因為他們最後都是在select ... from table; 連sum/count都沒有用 都是把資料用select拿出來後再自己用python去count 這樣能處理的資料是能有多大= =" -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 108.205.154.164 ※ 文章網址: http://www.ptt.cc/bbs/Soft_Job/M.1401039442.A.C88.html

05/26 02:00, , 1F
請問是台灣的公司嗎?
05/26 02:00, 1F

05/26 02:00, , 2F
看上一篇文 看來不是
05/26 02:00, 2F

05/26 10:03, , 3F
sum/count 是因為DB已經很累了,就別再操他了
05/26 10:03, 3F

05/26 11:07, , 4F
我是指從Hadoop中拿資料。map reduce最擅長的就是sum/count
05/26 11:07, 4F

05/26 12:55, , 5F
用hive,pig或impala拿出來又用自己程式算的意思@@?
05/26 12:55, 5F

05/26 15:39, , 6F
台灣目前的感覺就是想跟風...
05/26 15:39, 6F

05/26 18:01, , 7F
dry大隱版了 好可惜 我都在裡面挖文章學習 xdd
05/26 18:01, 7F

05/26 21:15, , 8F
@gmoz 我看到很多人這樣做
05/26 21:15, 8F

05/26 21:16, , 9F
不過回頭想想可能是prototype演算法階段也只能這樣做吧
05/26 21:16, 9F

05/26 22:52, , 10F
還好拉, 還是有在做sum count group by case when
05/26 22:52, 10F

05/26 22:53, , 11F
而且大部分簡單的貝式就能推出很多有用的資訊囉~
05/26 22:53, 11F

05/27 20:59, , 12F
台灣有自己的一套,不信去104搜尋hadoop吧
05/27 20:59, 12F
文章代碼(AID): #1JWYfIo8 (Soft_Job)
文章代碼(AID): #1JWYfIo8 (Soft_Job)