Re: [請益] 值得花十萬到巨匠 學大數據軟體嗎?

看板Soft_Job作者 (CH)時間7年前 (2016/12/26 15:02), 7年前編輯推噓19(1909)
留言28則, 23人參與, 最新討論串14/21 (看更多)
開門見山:如果是有志想成為資料科學家或工程師的話,不要花,不值得。 連版上可能推的資策會大數據專班.....都不要去(真的要我寧可選Java EE班)。 恆逸我沒仔細研究,但應該沒差多少。 我是一位對資料處理有興趣的資料工程師,簡單說就是數據領域的黑手,不是帥帥的科學 家XD。但如果想一起當黑手的,我來說說有哪些東西可以先去看看有沒有興趣,再往下走: (一)資料源: Apache Flume Apache Kafka LogStash 負責接資料的,目前又以streaming為大宗: Flume比較適合整合Hadoop生態系; Kafka則是偏SMACK架構; logStash則是ELK自成一派。 當然這不是絕對,而且可以互相接來接去,像我前一個案子也有Kafka->Flume->HDFS/HBase/Avro串來串去的。 我用這3套目前可以滿足大部分的streaming收資料的需求。 Flink沒時間碰QQ 阿批次勒?...HDFS API XD~ 選一套的話:我選Kafka。搭配語言:Java Client API (二)資料處理引擎: MRv2(MapReduce) Spark 這也是大家,即使是非業界也常常聽到的term,但要講的仔細也是好幾本書的內容了.. 例如批次處理該用Spark好還是MapReduce。串流處理的話我聽過Spark Streaming,那跟 Storm又差在哪?什麼是micro-batch? 選一套的話,我選Spark,因為目前的應用還是單位時間點內記憶體能負載的量。還沒玩 過幾個PB的.....不然選擇可能不同了。 但有點尷尬的是,Spark用Java,即便是 Lambda寫起來也是有點憋屈.. 所以我會推薦新手用Spark+Python+jupiter。 想讓自己被Funcational Programming玩的,可以選Spark in Scala(大推) 現在在IT鐵人賽有寫一點Spark +Scala的教學,有興趣的可以看看(招手): http://ithelp.ithome.com.tw/users/20103839/ironman/1210 (三)結構化/半結構化查詢工具(Query Engine): Hive Impala (也開源了) Spark SQL 這幾套我對Impala跟Spark SQL比較有研究而已。這邊就是SQL語言配的上場的地方啦!! 可以用簡單的SQL查詢當然開心啦,但是要注意的是先查哪些語法沒有支援.... 不管哪一套都要注意"別幫他當作資料庫來用",他們是查詢工具不是資料庫! 另外注意所謂的Partition的設計,以及選用的檔案格式,例如Parquet/Avro等.... 扯遠了.... 這幾套與BI也都有良好的介接,Tableau/Qlik View不是問題 選一套的話,我選SparkSQL/Impala 搭配SQL語言以及各種JDBC/ODBC (四)分散式儲存系統: HDFS Kafka S3 最正宗的Hadoop肯定會用到HDFS,但也可以把資料暫存在Kafka上,處理完後就送進NoSQL ,另外S3也是好物,只是沒機會碰到。 選一套的話,還是從HDFS+Java API開始吧 (五)分散式資料庫: HBase MongoDB ElasticSearch Cassandra 恩...沒有MySQ, MariaDB, PostgreSQL, MS SQL更沒有Oracle XDDD 這幾套我都很愛,只是MongoDB我是接一個小系統上面有跑,沒有實際開發應用經驗。 資料庫有時候就端看你要走哪種應用了: Hadoop正宗就是搭配HBase,想用SQL上面可以套一個PhoenixDB,設計就是在玩Primary Key。 ElasticSearch:全文檢索斷詞那方面的應用,也就是ELK中的E,再搭配一個kibana整個好用。 Cassandra::與Spark整合良好,去正規化的Data modeling與P2P的架構整個是我的愛。 選一套的話,我私心選Cassadnra + Java/Scala Client~XD (六)周邊: Zookeeper, Hue, Yarn, Mesos。 還有太多周邊了商品了XDDD,Zookeeper可以要懂一些,HBase跟Kafka都有用 ------------------------------------------------------------------------------------ OK就先到這裡了,上面的名詞可以Google看看,都是一個框架或工具,看看有沒有興趣。 另外考證照有沒有用,我覺是覺得有用啦,但我一張MS還是Oracle的都沒有XD: Cloudera Certified Developer for Apache Hadoop (CCDH) Cloudera Certified Specialist in Apache HBase (CCSHB) Cloudera Certified Administrator for Apache Hadoop (CCAH) Certified Developer on Apache Cassandra PS: 我是電子系的,天下無難事... 小小資料工程師 一鞠躬 ※ 引述《s00771book (320)》之銘言: : 想問問前輩們 : 目前小妹的工作只是個 : 用BI cognos 拉資料做數據分析的助理 : 再用Excel樞紐分析 寫寫函數 : 做報告給主管看的工作 : 薪水少之又少 也不算是一技之長 : 根本不足以與大數據相提並論 : 目前嚮往大數據工作的方向 : (也是很有未來的工作 大陸已經很成熟了) : 查看了104人力銀行 : 大數據分析工作需要的條件: : MS SQL 資料探勘 R語言 Hedoop : 所以我去巨匠諮詢了一下 : 課程規劃師說要學 MCSA MCSE : 再考微軟證照70-461.462.463.464.465 : 才算是完全學會這套軟體 : 和證明給面試官看 : 但是學費竟然快要十萬 : 想請問有在做這方面工作的朋友們 : 真的值得花這筆錢嗎? : P.S.我只是個國立科大 企管+金融的學士而已 : 沒有漂亮的學歷 只能學一技之長補足自己 : 也不是資工 資管的科系的 : 希望前輩們能給我建議 謝謝你們>////< -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.115.45.90 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1482735733.A.2FA.html

12/26 15:06, , 1F
BI我都用台語唸
12/26 15:06, 1F

12/26 15:16, , 2F
你有做過10pb 的 Lab嗎?
12/26 15:16, 2F

12/26 15:16, , 3F
好奇?
12/26 15:16, 3F

12/26 15:17, , 4F
而且資料源有影像 圖片 文字 檔案 你探勘的方法我也
12/26 15:17, 4F

12/26 15:17, , 5F
覺得很有趣
12/26 15:17, 5F

12/26 15:19, , 6F
沒有,我最大的sclae不過幾百T(跪
12/26 15:19, 6F

12/26 15:42, , 7F
推~感謝分享
12/26 15:42, 7F

12/26 15:43, , 8F
感謝分享
12/26 15:43, 8F

12/26 16:06, , 9F
感謝分享OwO
12/26 16:06, 9F

12/26 16:25, , 10F
資料源甚麼格式都有吧 Q.Q
12/26 16:25, 10F

12/26 17:26, , 11F
很多好玩的東東:D
12/26 17:26, 11F

12/26 18:47, , 12F
12/26 18:47, 12F

12/26 19:42, , 13F
請受小弟一拜
12/26 19:42, 13F

12/26 20:22, , 14F
12/26 20:22, 14F

12/26 20:25, , 15F
這領域大部分的時間都是在資料整理居多 資料整理好後 再
12/26 20:25, 15F

12/26 20:25, , 16F
放進自己的模型去跑
12/26 20:25, 16F

12/26 20:28, , 17F
謝謝分享(∩▽∩)
12/26 20:28, 17F
※ 編輯: v9290026 (59.115.45.90), 12/26/2016 21:10:47

12/26 21:37, , 18F
感謝,很廣泛的整理與分享!
12/26 21:37, 18F

12/26 21:54, , 19F
工具真的太多太雜了...看得眼花撩亂 @@
12/26 21:54, 19F

12/26 22:05, , 20F
真大大
12/26 22:05, 20F

12/26 23:27, , 21F
感謝分享
12/26 23:27, 21F

12/27 01:12, , 22F
大數據要學的很多耶~
12/27 01:12, 22F

12/27 07:59, , 23F
推整理~
12/27 07:59, 23F

12/27 15:17, , 24F
這篇就是大數據中的資料處理了
12/27 15:17, 24F

12/29 02:50, , 25F
感謝分享
12/29 02:50, 25F

12/29 13:30, , 26F
12/29 13:30, 26F

12/31 00:53, , 27F
這篇推推
12/31 00:53, 27F

12/31 07:15, , 28F
大部分都有玩到耶
12/31 07:15, 28F
文章代碼(AID): #1OOC1rBw (Soft_Job)
討論串 (同標題文章)
以下文章回應了本文
完整討論串 (本文為第 14 之 21 篇):
文章代碼(AID): #1OOC1rBw (Soft_Job)