Re: [請益] 值得花十萬到巨匠 學大數據軟體嗎?

看板Soft_Job作者 (修身.齊家.治國.平天下)時間7年前 (2016/12/31 12:40), 7年前編輯推噓5(505)
留言10則, 5人參與, 最新討論串21/21 (看更多)
L大應該是在tech startup吧 技術能力夠 我有機會接觸到各行各業使用Hadoop的應用 扣掉本身有能力架Hadoop的公司之外,會買Hadoop support的最主要的客戶群來自: 銀行、保險等金融業 電信業 政府單位 這主要的基本客戶群,幾乎都不用/不可能用cloud 他們都有自己的data center 雖然,整體來說越來越多人的Hadoop跑在cloud上 另外,這些主要客戶群很大的應用還是把Hadoop當data warehouse來用 SQL-like的query engine像 Hive, Impala非常重要 隨著Hadoop越來越多人使用,會有越來越多naiive使用者 不是每個使用者都能自己寫Mapreduce的... 雖然必須說Hadoop作為distributed execution engine是非常成功的 再更之前好像只有PVM MPI這種,而且只有科學計算才常看到 寫parallel program也比MapReduce難多了. 就像我前一篇回文說的,Hadoop上面的應用很多 您所說的是一部分的應用 但也有別人是這樣用的 或許我所描述的並不能代表大部份Hadoop使用者, 畢竟大多數使用者可能都不需要買技術支援 所以我的樣本不具代表性 不過, Cloudera, Hortonworks等公司最喜歡比較Impala vs Tez 然後推Spark, 其實很多人也是跑Hive on Spark 就是因為這部分是最賺錢的 (這算商業機密嗎 XDD) : 嗯.. 不是這樣說的. : Hadoop 珍貴的地方在於 MapReduce open source implementation, : 和 DB 沒有任何關係. : 另外, 現在一堆公司有這需求, 是因為internet的關係 : 資料多了, 需要存放 / 處裡 : 所以才跑出來那麼多 Hadoop service company. : 除非有特殊需求, 才會自己建 Hadoop cluster : 不然用 Cloud 其實省多了. : 美國人工貴, 除非規模夠, 不然養幾箇人專門搞 infra : 那個錢拿去買 cloud 划算的多. : : 就應用來說的話,big data有幾種 : : (1) analytical database : : Hive, Impala, Spark SQL等等 做ETL BI之類的 這個是Hadoop最一開始的應用 : : (2) operational database : : Kafka, HBase, Kudu等等 可以做線上服務 : 這.. 唉, 如果是比較嚴謹的公司 : ETL pipeline 應該還是用 Hadoop 或是 Spark 做得 : 比較不可能用 SQL-like 直接去操作. : 另外, Kafka 是個 Streaming solution, : 他不能 search, 他只有 offset 去取資料. : 嚴格地說不能算是 DB : : (3) data science & machine learning : : Spark MLlib等等 這個現在越來愈多人用 : : 問題就是你想要做什麼樣的應用. : : 有人說big data是hype,其實真的不是。我每天接觸到的客戶, : : 他們的cluster 動輒數PB甚至數十PB... : : 但如果你的data可以用MySQL就裝得下的話...那就當我沒說好了 XDD : 几個有趣的地方: : 有人把 Spark 和 Tensorflow 弄起來了. 我滿想知道這會怎麼發展. : Facebook DB 的底層是用 MySql 做得.. 我知道Facebook做了一個Hadoop cluster, 他的HDFS NameNode是用MySQL 實現file -> block -> DataNode的mapping 說的是這個嗎? 不過NameNode本來一個cluster只有一個主要的, 改成MySQL也是滿合理的 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 24.6.222.140 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1483159208.A.7A8.html

12/31 12:45, , 1F
銀行就是這樣完,推你一票
12/31 12:45, 1F

12/31 12:48, , 2F
銀行資料要轉型還要一段路,真他媽當髒的可以
12/31 12:48, 2F

12/31 13:55, , 3F
呃…其他我沒意見,但namenode的部分…可以參考看看 HDF
12/31 13:55, 3F

12/31 13:55, , 4F
S Federation…
12/31 13:55, 4F

12/31 14:11, , 5F
federation沒有改變我說的 它事實上仍是多個cluster
12/31 14:11, 5F

12/31 14:12, , 6F
只是假裝成一個namespace而已.
12/31 14:12, 6F
※ 編輯: jojochuang (24.6.222.140), 12/31/2016 14:15:28

12/31 14:19, , 7F
大大說的那個Facebook cluster是 Haystack?
12/31 14:19, 7F

12/31 14:21, , 8F
可以給MySQL當namenode的相關連結嗎 搜尋不太到
12/31 14:21, 8F

12/31 14:21, , 9F
"不過NameNode本來一個cluster只有一個主要的"…嗯…fin
12/31 14:21, 9F

12/31 14:21, , 10F
e
12/31 14:21, 10F
文章代碼(AID): #1OPpQeUe (Soft_Job)
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 21 之 21 篇):
文章代碼(AID): #1OPpQeUe (Soft_Job)