Re: [請益] 值得花十萬到巨匠學大數據軟體嗎？

看板Soft_Job作者Leon (Achilles)時間9年前 (2016/12/30 16:21)推噓7(7推 0噓 6→)

留言13則, 8人參與討論串19/21 (看更多)

嗯.. 我來分享一下美國的狀況. 我在美國西岸工作, 之前在某中小型 startup 帶 Data Science 組現在換到某大公司做事. 廣義的來說 Big Data 是因為現在的系統產出了許多資料. 尤其是開網站的 internet company, 以及手機相關週邊. 所以這行業現在需求起來了. 我的建議是: 純做 Data science modeler 會比較辛苦, 因為這個入門的門檻很高, 你也不容易去證明自己的東西有用. (我在以前的公司招人, 只找名校PhD) ※ 引述《jojochuang (修身.齊家.治國.平天下)》之銘言： : 看到這串文覺得手癢，想跟各位分享我自己看到的big data. : 如果有理解錯誤的地方請糾正。我的背景是distributed systems不是data science. : 我自己的感覺big data就是兩個部分：storage跟compute : 其實一般企業都有非常大量的資料要處理，但以前big data沒有起飛， : 是因為要儲存、處理、分析巨量資料，只有proprietary solution: : proprietary storage像NetApp, EMC之類 : proprietary database像IBM, Oracle, Teradata等等 : 這些solution都很貴，所以放進database裡的資料必須篩選 : 定期可能還得把舊的、可能不是很重要的data砍掉或放archive : 我的觀察啦現在big data能起飛，最主要是Hadoop跟其他處理引擎都是open source : 而且不需要特殊的電腦硬體及網路設備 : 一般企業如果技術比較厲害的就自己玩，要不然跟Hadoop vendor買技術支援 : 單位儲存成本只是Oracle之類的database 十分之一不到要擴充也很容易 : 所以現在data就全部通通丟進cluster裡面搞不好以後會用到反正很便宜嗯.. 不是這樣說的. Hadoop 珍貴的地方在於 MapReduce open source implementation, 和 DB 沒有任何關係. 另外, 現在一堆公司有這需求, 是因為internet的關係資料多了, 需要存放 / 處裡所以才跑出來那麼多 Hadoop service company. 除非有特殊需求, 才會自己建 Hadoop cluster 不然用 Cloud 其實省多了. 美國人工貴, 除非規模夠, 不然養幾箇人專門搞 infra 那個錢拿去買 cloud 划算的多. : 就應用來說的話，big data有幾種 : (1) analytical database : Hive, Impala, Spark SQL等等做ETL BI之類的這個是Hadoop最一開始的應用 : (2) operational database : Kafka, HBase, Kudu等等可以做線上服務這.. 唉, 如果是比較嚴謹的公司 ETL pipeline 應該還是用 Hadoop 或是 Spark 做得比較不可能用 SQL-like 直接去操作. 另外, Kafka 是個 Streaming solution, 他不能 search, 他只有 offset 去取資料. 嚴格地說不能算是 DB : (3) data science & machine learning : Spark MLlib等等這個現在越來愈多人用 : 問題就是你想要做什麼樣的應用. : 有人說big data是hype，其實真的不是。我每天接觸到的客戶， : 他們的cluster 動輒數PB甚至數十PB... : 但如果你的data可以用MySQL就裝得下的話...那就當我沒說好了 XDD 几個有趣的地方: 有人把 Spark 和 Tensorflow 弄起來了. 我滿想知道這會怎麼發展. Facebook DB 的底層是用 MySql 做得.. : ※ 引述《v9290026 (CH)》之銘言： : : 開門見山：如果是有志想成為資料科學家或工程師的話，不要花，不值得。 : : 連版上可能推的資策會大數據專班.....都不要去(真的要我寧可選Java EE班)。 : : 恆逸我沒仔細研究，但應該沒差多少。 : : 我是一位對資料處理有興趣的資料工程師，簡單說就是數據領域的黑手，不是帥帥的科學 : : 家XD。但如果想一起當黑手的，我來說說有哪些東西可以先去看看有沒有興趣，再往下走： : : (一)資料源： : : Apache Flume : : Apache Kafka : : LogStash : : 負責接資料的，目前又以streaming為大宗： : : Flume比較適合整合Hadoop生態系; Kafka則是偏SMACK架構; logStash則是ELK自成一派。 : : 當然這不是絕對，而且可以互相接來接去，像我前一個案子也有Kafka->Flume->HDFS/HBase/Avro串來串去的。 : : 我用這3套目前可以滿足大部分的streaming收資料的需求。 : : Flink沒時間碰QQ : : 阿批次勒？...HDFS API XD~ : : 選一套的話：我選Kafka。搭配語言：Java Client API : : (二)資料處理引擎： : : MRv2(MapReduce) : : Spark : : 這也是大家，即使是非業界也常常聽到的term，但要講的仔細也是好幾本書的內容了.. : : 例如批次處理該用Spark好還是MapReduce。串流處理的話我聽過Spark Streaming，那跟 : : Storm又差在哪？什麼是micro-batch？ : : 選一套的話，我選Spark，因為目前的應用還是單位時間點內記憶體能負載的量。還沒玩 : : 過幾個PB的.....不然選擇可能不同了。 : : 但有點尷尬的是，Spark用Java，即便是 Lambda寫起來也是有點憋屈.. : : 所以我會推薦新手用Spark+Python+jupiter。 : : 想讓自己被Funcational Programming玩的，可以選Spark in Scala（大推) : : 現在在IT鐵人賽有寫一點Spark +Scala的教學，有興趣的可以看看(招手)： : : http://ithelp.ithome.com.tw/users/20103839/ironman/1210 : : (三)結構化/半結構化查詢工具(Query Engine)： : : Hive : : Impala (也開源了) : : Spark SQL : : 這幾套我對Impala跟Spark SQL比較有研究而已。這邊就是SQL語言配的上場的地方啦！！ : : 可以用簡單的SQL查詢當然開心啦，但是要注意的是先查哪些語法沒有支援.... : : 不管哪一套都要注意"別幫他當作資料庫來用"，他們是查詢工具不是資料庫！ : : 另外注意所謂的Partition的設計，以及選用的檔案格式，例如Parquet/Avro等.... : : 扯遠了.... : : 這幾套與BI也都有良好的介接，Tableau/Qlik View不是問題 : : 選一套的話，我選SparkSQL/Impala 搭配SQL語言以及各種JDBC/ODBC : : (四)分散式儲存系統： : : HDFS : : Kafka : : S3 : : 最正宗的Hadoop肯定會用到HDFS，但也可以把資料暫存在Kafka上，處理完後就送進NoSQL : : ，另外S3也是好物，只是沒機會碰到。 : : 選一套的話，還是從HDFS+Java API開始吧 : : (五)分散式資料庫： : : HBase : : MongoDB : : ElasticSearch : : Cassandra : : 恩...沒有MySQ, MariaDB, PostgreSQL, MS SQL更沒有Oracle XDDD : : 這幾套我都很愛，只是MongoDB我是接一個小系統上面有跑，沒有實際開發應用經驗。 : : 資料庫有時候就端看你要走哪種應用了： : : Hadoop正宗就是搭配HBase，想用SQL上面可以套一個PhoenixDB，設計就是在玩Primary : : Key。 : : ElasticSearch：全文檢索斷詞那方面的應用，也就是ELK中的E，再搭配一個kibana整個好用。 : : Cassandra:：與Spark整合良好，去正規化的Data modeling與P2P的架構整個是我的愛。 : : 選一套的話，我私心選Cassadnra + Java/Scala Client~XD : : (六)周邊： : : Zookeeper, Hue, Yarn, Mesos。 : : 還有太多周邊了商品了XDDD，Zookeeper可以要懂一些，HBase跟Kafka都有用 : : ------------------------------------------------------------------------------------ : : OK就先到這裡了，上面的名詞可以Google看看，都是一個框架或工具，看看有沒有興趣。 : : 另外考證照有沒有用，我覺是覺得有用啦，但我一張MS還是Oracle的都沒有XD： : : Cloudera Certified Developer for Apache Hadoop (CCDH) : : Cloudera Certified Specialist in Apache HBase (CCSHB) : : Cloudera Certified Administrator for Apache Hadoop (CCAH) : : Certified Developer on Apache Cassandra : : PS: 我是電子系的，天下無難事... : : 小小資料工程師一鞠躬 -- 趙客縵胡纓，吾鉤霜雪明。銀鞍照白馬，颯沓如流星。十步殺一人，千里不留行。是了拂衣去，深藏身與名。閑過信陵飲，脫劍膝前橫。將炙啖朱亥，持觴勸侯贏。三杯吐然諾，五嶽倒為輕。眼花耳熱後，意氣素霓生。就趙揮金錘，邯鄲先震驚。千秋二壯士，烜赫大梁城。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 23.242.137.154 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1483086110.A.86D.html

→

pttworld

12/30 16:33, , 1^F

12/30 16:33, 1^F

→

manaup

12/30 16:48, , 2^F

12/30 16:48, 2^F

推

AOK

12/30 17:47, , 3^F

12/30 17:47, 3^F