Re: [請益] 值得花十萬到巨匠 學大數據軟體嗎?
嗯.. 我來分享一下美國的狀況.
我在美國西岸工作, 之前在某中小型 startup 帶 Data Science 組
現在換到某大公司做事.
廣義的來說 Big Data 是因為現在的系統產出了許多資料.
尤其是開網站的 internet company, 以及手機相關週邊.
所以這行業現在需求起來了.
我的建議是:
純做 Data science modeler 會比較辛苦,
因為這個入門的門檻很高, 你也不容易去證明自己的東西有用.
(我在以前的公司招人, 只找名校PhD)
※ 引述《jojochuang (修身.齊家.治國.平天下)》之銘言:
: 看到這串文覺得手癢,想跟各位分享我自己看到的big data.
: 如果有理解錯誤的地方請糾正。我的背景是distributed systems不是data science.
: 我自己的感覺big data就是兩個部分:storage跟compute
: 其實一般企業都有非常大量的資料要處理,但以前big data沒有起飛,
: 是因為要儲存、處理、分析巨量資料,只有proprietary solution:
: proprietary storage像NetApp, EMC之類
: proprietary database像IBM, Oracle, Teradata等等
: 這些solution都很貴,所以放進database裡的資料必須篩選
: 定期可能還得把舊的、可能不是很重要的data砍掉或放archive
: 我的觀察啦現在big data能起飛,最主要是Hadoop跟其他處理引擎都是open source
: 而且不需要特殊的電腦硬體及網路設備
: 一般企業如果技術比較厲害的就自己玩,要不然跟Hadoop vendor買技術支援
: 單位儲存成本只是Oracle之類的database 十分之一不到 要擴充也很容易
: 所以現在data就全部通通丟進cluster裡面 搞不好以後會用到 反正很便宜
嗯.. 不是這樣說的.
Hadoop 珍貴的地方在於 MapReduce open source implementation,
和 DB 沒有任何關係.
另外, 現在一堆公司有這需求, 是因為internet的關係
資料多了, 需要存放 / 處裡
所以才跑出來那麼多 Hadoop service company.
除非有特殊需求, 才會自己建 Hadoop cluster
不然用 Cloud 其實省多了.
美國人工貴, 除非規模夠, 不然養幾箇人專門搞 infra
那個錢拿去買 cloud 划算的多.
: 就應用來說的話,big data有幾種
: (1) analytical database
: Hive, Impala, Spark SQL等等 做ETL BI之類的 這個是Hadoop最一開始的應用
: (2) operational database
: Kafka, HBase, Kudu等等 可以做線上服務
這.. 唉, 如果是比較嚴謹的公司
ETL pipeline 應該還是用 Hadoop 或是 Spark 做得
比較不可能用 SQL-like 直接去操作.
另外, Kafka 是個 Streaming solution,
他不能 search, 他只有 offset 去取資料.
嚴格地說不能算是 DB
: (3) data science & machine learning
: Spark MLlib等等 這個現在越來愈多人用
: 問題就是你想要做什麼樣的應用.
: 有人說big data是hype,其實真的不是。我每天接觸到的客戶,
: 他們的cluster 動輒數PB甚至數十PB...
: 但如果你的data可以用MySQL就裝得下的話...那就當我沒說好了 XDD
几個有趣的地方:
有人把 Spark 和 Tensorflow 弄起來了. 我滿想知道這會怎麼發展.
Facebook DB 的底層是用 MySql 做得..
: ※ 引述《v9290026 (CH)》之銘言:
: : 開門見山:如果是有志想成為資料科學家或工程師的話,不要花,不值得。
: : 連版上可能推的資策會大數據專班.....都不要去(真的要我寧可選Java EE班)。
: : 恆逸我沒仔細研究,但應該沒差多少。
: : 我是一位對資料處理有興趣的資料工程師,簡單說就是數據領域的黑手,不是帥帥的科學
: : 家XD。但如果想一起當黑手的,我來說說有哪些東西可以先去看看有沒有興趣,再往下走:
: : (一)資料源:
: : Apache Flume
: : Apache Kafka
: : LogStash
: : 負責接資料的,目前又以streaming為大宗:
: : Flume比較適合整合Hadoop生態系; Kafka則是偏SMACK架構; logStash則是ELK自成一派。
: : 當然這不是絕對,而且可以互相接來接去,像我前一個案子也有Kafka->Flume->HDFS/HBase/Avro串來串去的。
: : 我用這3套目前可以滿足大部分的streaming收資料的需求。
: : Flink沒時間碰QQ
: : 阿批次勒?...HDFS API XD~
: : 選一套的話:我選Kafka。搭配語言:Java Client API
: : (二)資料處理引擎:
: : MRv2(MapReduce)
: : Spark
: : 這也是大家,即使是非業界也常常聽到的term,但要講的仔細也是好幾本書的內容了..
: : 例如批次處理該用Spark好還是MapReduce。串流處理的話我聽過Spark Streaming,那跟
: : Storm又差在哪?什麼是micro-batch?
: : 選一套的話,我選Spark,因為目前的應用還是單位時間點內記憶體能負載的量。還沒玩
: : 過幾個PB的.....不然選擇可能不同了。
: : 但有點尷尬的是,Spark用Java,即便是 Lambda寫起來也是有點憋屈..
: : 所以我會推薦新手用Spark+Python+jupiter。
: : 想讓自己被Funcational Programming玩的,可以選Spark in Scala(大推)
: : 現在在IT鐵人賽有寫一點Spark +Scala的教學,有興趣的可以看看(招手):
: : http://ithelp.ithome.com.tw/users/20103839/ironman/1210
: : (三)結構化/半結構化查詢工具(Query Engine):
: : Hive
: : Impala (也開源了)
: : Spark SQL
: : 這幾套我對Impala跟Spark SQL比較有研究而已。這邊就是SQL語言配的上場的地方啦!!
: : 可以用簡單的SQL查詢當然開心啦,但是要注意的是先查哪些語法沒有支援....
: : 不管哪一套都要注意"別幫他當作資料庫來用",他們是查詢工具不是資料庫!
: : 另外注意所謂的Partition的設計,以及選用的檔案格式,例如Parquet/Avro等....
: : 扯遠了....
: : 這幾套與BI也都有良好的介接,Tableau/Qlik View不是問題
: : 選一套的話,我選SparkSQL/Impala 搭配SQL語言以及各種JDBC/ODBC
: : (四)分散式儲存系統:
: : HDFS
: : Kafka
: : S3
: : 最正宗的Hadoop肯定會用到HDFS,但也可以把資料暫存在Kafka上,處理完後就送進NoSQL
: : ,另外S3也是好物,只是沒機會碰到。
: : 選一套的話,還是從HDFS+Java API開始吧
: : (五)分散式資料庫:
: : HBase
: : MongoDB
: : ElasticSearch
: : Cassandra
: : 恩...沒有MySQ, MariaDB, PostgreSQL, MS SQL更沒有Oracle XDDD
: : 這幾套我都很愛,只是MongoDB我是接一個小系統上面有跑,沒有實際開發應用經驗。
: : 資料庫有時候就端看你要走哪種應用了:
: : Hadoop正宗就是搭配HBase,想用SQL上面可以套一個PhoenixDB,設計就是在玩Primary
: : Key。
: : ElasticSearch:全文檢索斷詞那方面的應用,也就是ELK中的E,再搭配一個kibana整個好用。
: : Cassandra::與Spark整合良好,去正規化的Data modeling與P2P的架構整個是我的愛。
: : 選一套的話,我私心選Cassadnra + Java/Scala Client~XD
: : (六)周邊:
: : Zookeeper, Hue, Yarn, Mesos。
: : 還有太多周邊了商品了XDDD,Zookeeper可以要懂一些,HBase跟Kafka都有用
: : ------------------------------------------------------------------------------------
: : OK就先到這裡了,上面的名詞可以Google看看,都是一個框架或工具,看看有沒有興趣。
: : 另外考證照有沒有用,我覺是覺得有用啦,但我一張MS還是Oracle的都沒有XD:
: : Cloudera Certified Developer for Apache Hadoop (CCDH)
: : Cloudera Certified Specialist in Apache HBase (CCSHB)
: : Cloudera Certified Administrator for Apache Hadoop (CCAH)
: : Certified Developer on Apache Cassandra
: : PS: 我是電子系的,天下無難事...
: : 小小資料工程師 一鞠躬
--
趙客縵胡纓,吾鉤霜雪明。銀鞍照白馬,颯沓如流星。
十步殺一人,千里不留行。是了拂衣去,深藏身與名。
閑過信陵飲,脫劍膝前橫。將炙啖朱亥,持觴勸侯贏。
三杯吐然諾,五嶽倒為輕。眼花耳熱後,意氣素霓生。
就趙揮金錘,邯鄲先震驚。千秋二壯士,烜赫大梁城。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 23.242.137.154
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1483086110.A.86D.html
→
12/30 16:33, , 1F
12/30 16:33, 1F
→
12/30 16:48, , 2F
12/30 16:48, 2F
推
12/30 17:47, , 3F
12/30 17:47, 3F
推
12/30 19:51, , 4F
12/30 19:51, 4F
推
12/30 21:35, , 5F
12/30 21:35, 5F
→
12/30 21:36, , 6F
12/30 21:36, 6F
→
12/30 22:30, , 7F
12/30 22:30, 7F
推
12/30 22:32, , 8F
12/30 22:32, 8F
→
12/30 22:32, , 9F
12/30 22:32, 9F
推
12/31 14:48, , 10F
12/31 14:48, 10F
→
12/31 14:48, , 11F
12/31 14:48, 11F
推
01/01 00:03, , 12F
01/01 00:03, 12F
推
01/01 15:13, , 13F
01/01 15:13, 13F
討論串 (同標題文章)