Re: [請益] 值得花十萬到巨匠 學大數據軟體嗎?

看板Soft_Job作者 (Achilles)時間7年前 (2016/12/30 16:21), 編輯推噓7(706)
留言13則, 8人參與, 最新討論串19/21 (看更多)
嗯.. 我來分享一下美國的狀況. 我在美國西岸工作, 之前在某中小型 startup 帶 Data Science 組 現在換到某大公司做事. 廣義的來說 Big Data 是因為現在的系統產出了許多資料. 尤其是開網站的 internet company, 以及手機相關週邊. 所以這行業現在需求起來了. 我的建議是: 純做 Data science modeler 會比較辛苦, 因為這個入門的門檻很高, 你也不容易去證明自己的東西有用. (我在以前的公司招人, 只找名校PhD) ※ 引述《jojochuang (修身.齊家.治國.平天下)》之銘言: : 看到這串文覺得手癢,想跟各位分享我自己看到的big data. : 如果有理解錯誤的地方請糾正。我的背景是distributed systems不是data science. : 我自己的感覺big data就是兩個部分:storage跟compute : 其實一般企業都有非常大量的資料要處理,但以前big data沒有起飛, : 是因為要儲存、處理、分析巨量資料,只有proprietary solution: : proprietary storage像NetApp, EMC之類 : proprietary database像IBM, Oracle, Teradata等等 : 這些solution都很貴,所以放進database裡的資料必須篩選 : 定期可能還得把舊的、可能不是很重要的data砍掉或放archive : 我的觀察啦現在big data能起飛,最主要是Hadoop跟其他處理引擎都是open source : 而且不需要特殊的電腦硬體及網路設備 : 一般企業如果技術比較厲害的就自己玩,要不然跟Hadoop vendor買技術支援 : 單位儲存成本只是Oracle之類的database 十分之一不到 要擴充也很容易 : 所以現在data就全部通通丟進cluster裡面 搞不好以後會用到 反正很便宜 嗯.. 不是這樣說的. Hadoop 珍貴的地方在於 MapReduce open source implementation, 和 DB 沒有任何關係. 另外, 現在一堆公司有這需求, 是因為internet的關係 資料多了, 需要存放 / 處裡 所以才跑出來那麼多 Hadoop service company. 除非有特殊需求, 才會自己建 Hadoop cluster 不然用 Cloud 其實省多了. 美國人工貴, 除非規模夠, 不然養幾箇人專門搞 infra 那個錢拿去買 cloud 划算的多. : 就應用來說的話,big data有幾種 : (1) analytical database : Hive, Impala, Spark SQL等等 做ETL BI之類的 這個是Hadoop最一開始的應用 : (2) operational database : Kafka, HBase, Kudu等等 可以做線上服務 這.. 唉, 如果是比較嚴謹的公司 ETL pipeline 應該還是用 Hadoop 或是 Spark 做得 比較不可能用 SQL-like 直接去操作. 另外, Kafka 是個 Streaming solution, 他不能 search, 他只有 offset 去取資料. 嚴格地說不能算是 DB : (3) data science & machine learning : Spark MLlib等等 這個現在越來愈多人用 : 問題就是你想要做什麼樣的應用. : 有人說big data是hype,其實真的不是。我每天接觸到的客戶, : 他們的cluster 動輒數PB甚至數十PB... : 但如果你的data可以用MySQL就裝得下的話...那就當我沒說好了 XDD 几個有趣的地方: 有人把 Spark 和 Tensorflow 弄起來了. 我滿想知道這會怎麼發展. Facebook DB 的底層是用 MySql 做得.. : ※ 引述《v9290026 (CH)》之銘言: : : 開門見山:如果是有志想成為資料科學家或工程師的話,不要花,不值得。 : : 連版上可能推的資策會大數據專班.....都不要去(真的要我寧可選Java EE班)。 : : 恆逸我沒仔細研究,但應該沒差多少。 : : 我是一位對資料處理有興趣的資料工程師,簡單說就是數據領域的黑手,不是帥帥的科學 : : 家XD。但如果想一起當黑手的,我來說說有哪些東西可以先去看看有沒有興趣,再往下走: : : (一)資料源: : : Apache Flume : : Apache Kafka : : LogStash : : 負責接資料的,目前又以streaming為大宗: : : Flume比較適合整合Hadoop生態系; Kafka則是偏SMACK架構; logStash則是ELK自成一派。 : : 當然這不是絕對,而且可以互相接來接去,像我前一個案子也有Kafka->Flume->HDFS/HBase/Avro串來串去的。 : : 我用這3套目前可以滿足大部分的streaming收資料的需求。 : : Flink沒時間碰QQ : : 阿批次勒?...HDFS API XD~ : : 選一套的話:我選Kafka。搭配語言:Java Client API : : (二)資料處理引擎: : : MRv2(MapReduce) : : Spark : : 這也是大家,即使是非業界也常常聽到的term,但要講的仔細也是好幾本書的內容了.. : : 例如批次處理該用Spark好還是MapReduce。串流處理的話我聽過Spark Streaming,那跟 : : Storm又差在哪?什麼是micro-batch? : : 選一套的話,我選Spark,因為目前的應用還是單位時間點內記憶體能負載的量。還沒玩 : : 過幾個PB的.....不然選擇可能不同了。 : : 但有點尷尬的是,Spark用Java,即便是 Lambda寫起來也是有點憋屈.. : : 所以我會推薦新手用Spark+Python+jupiter。 : : 想讓自己被Funcational Programming玩的,可以選Spark in Scala(大推) : : 現在在IT鐵人賽有寫一點Spark +Scala的教學,有興趣的可以看看(招手): : : http://ithelp.ithome.com.tw/users/20103839/ironman/1210 : : (三)結構化/半結構化查詢工具(Query Engine): : : Hive : : Impala (也開源了) : : Spark SQL : : 這幾套我對Impala跟Spark SQL比較有研究而已。這邊就是SQL語言配的上場的地方啦!! : : 可以用簡單的SQL查詢當然開心啦,但是要注意的是先查哪些語法沒有支援.... : : 不管哪一套都要注意"別幫他當作資料庫來用",他們是查詢工具不是資料庫! : : 另外注意所謂的Partition的設計,以及選用的檔案格式,例如Parquet/Avro等.... : : 扯遠了.... : : 這幾套與BI也都有良好的介接,Tableau/Qlik View不是問題 : : 選一套的話,我選SparkSQL/Impala 搭配SQL語言以及各種JDBC/ODBC : : (四)分散式儲存系統: : : HDFS : : Kafka : : S3 : : 最正宗的Hadoop肯定會用到HDFS,但也可以把資料暫存在Kafka上,處理完後就送進NoSQL : : ,另外S3也是好物,只是沒機會碰到。 : : 選一套的話,還是從HDFS+Java API開始吧 : : (五)分散式資料庫: : : HBase : : MongoDB : : ElasticSearch : : Cassandra : : 恩...沒有MySQ, MariaDB, PostgreSQL, MS SQL更沒有Oracle XDDD : : 這幾套我都很愛,只是MongoDB我是接一個小系統上面有跑,沒有實際開發應用經驗。 : : 資料庫有時候就端看你要走哪種應用了: : : Hadoop正宗就是搭配HBase,想用SQL上面可以套一個PhoenixDB,設計就是在玩Primary : : Key。 : : ElasticSearch:全文檢索斷詞那方面的應用,也就是ELK中的E,再搭配一個kibana整個好用。 : : Cassandra::與Spark整合良好,去正規化的Data modeling與P2P的架構整個是我的愛。 : : 選一套的話,我私心選Cassadnra + Java/Scala Client~XD : : (六)周邊: : : Zookeeper, Hue, Yarn, Mesos。 : : 還有太多周邊了商品了XDDD,Zookeeper可以要懂一些,HBase跟Kafka都有用 : : ------------------------------------------------------------------------------------ : : OK就先到這裡了,上面的名詞可以Google看看,都是一個框架或工具,看看有沒有興趣。 : : 另外考證照有沒有用,我覺是覺得有用啦,但我一張MS還是Oracle的都沒有XD: : : Cloudera Certified Developer for Apache Hadoop (CCDH) : : Cloudera Certified Specialist in Apache HBase (CCSHB) : : Cloudera Certified Administrator for Apache Hadoop (CCAH) : : Certified Developer on Apache Cassandra : : PS: 我是電子系的,天下無難事... : : 小小資料工程師 一鞠躬 -- 趙客縵胡纓,吾鉤霜雪明。銀鞍照白馬,颯沓如流星。 十步殺一人,千里不留行。是了拂衣去,深藏身與名。 閑過信陵飲,脫劍膝前橫。將炙啖朱亥,持觴勸侯贏。 三杯吐然諾,五嶽倒為輕。眼花耳熱後,意氣素霓生。 就趙揮金錘,邯鄲先震驚。千秋二壯士,烜赫大梁城。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 23.242.137.154 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1483086110.A.86D.html

12/30 16:33, , 1F
還沒有國內公司代表,答案很明顯。
12/30 16:33, 1F

12/30 16:48, , 2F
產業熱度由業務代表的襯杉透明度和裙子長度決定
12/30 16:48, 2F

12/30 17:47, , 3F
台灣人工便宜,買cloud 不如找幾個工程師來架一套
12/30 17:47, 3F

12/30 19:51, , 4F
spark和tensorflow那個是用spark 調超常數那件嗎?
12/30 19:51, 4F

12/30 21:35, , 5F
確實價值在於分散式運算..
12/30 21:35, 5F

12/30 21:36, , 6F
國內還是感覺很多是以MIS角度想導入...
12/30 21:36, 6F

12/30 22:30, , 7F
不從Mis切入怎麼算成本,分散運算可以報價嗎
12/30 22:30, 7F

12/30 22:32, , 8F
台灣金融業的確是用儲存空間來看待,具有可分散是運
12/30 22:32, 8F

12/30 22:32, , 9F
算附加
12/30 22:32, 9F

12/31 14:48, , 10F
題外話 有人知道facebook和linkedin做ML是用spark mlib
12/31 14:48, 10F

12/31 14:48, , 11F
還是他們有自己的系統呢?
12/31 14:48, 11F

01/01 00:03, , 12F
Linkedin是自己做察一下photon-ML
01/01 00:03, 12F

01/01 15:13, , 13F
Thanks!
01/01 15:13, 13F
文章代碼(AID): #1OPXaUXj (Soft_Job)
討論串 (同標題文章)
本文引述了以下文章的的內容:
以下文章回應了本文
完整討論串 (本文為第 19 之 21 篇):
文章代碼(AID): #1OPXaUXj (Soft_Job)