[轉]切勿妄談Hadoop,以及4個數據管道打造實踐
作者是: 別老扯什麼Hadoop了,你的數據根本不夠大 文章的作者.
時至今日,大數據這個概念已充斥了整個IT界,各種「搭載」了大數據技術的產品,
各種用於處理大數據工具更如雨後的春筍觸目皆是。同時,如果某個產品還沒抱上
大數據的大腿,如果某個機構還沒搗鼓過基於Hadoop、Spark、Impala、Storm等高
大上的工具,更會予以過時黃花的評價。然而,你的數據量真的需要使用Hadoop這
樣工具嗎?你業務處理的數據類型真的需要大數據技術來支撐嗎?
http://www.csdn.net/article/2014-03-28/2819018-bigdata-debate-and-4-practices
大數據的有限價值
今天我們幾乎可以存儲任何具有業務目的明顯的數據,比如信用
卡銷售及問卷調查。同時,我們還可以存儲所有業務目的不明顯
的數據,比如:用戶在一個網頁上的行為、電纜接線盒中用戶觀
看的TV頻道、借助物理網開關燈或者門的行為。但是從價值上看
,後一類行為的價值無疑很低。
一筆信用卡交易包含了很多數據,比如:人的信息、地理位置、
價值等。在銷售週期中,你會很自然的捕捉這些數據。然而用戶
在一個網站上產生的行為顯然不會那麼有價值,你可能收集到用
戶訪問的URL、閱讀某個頁面花費的時間,但是這些記錄的價值顯
然不如信用卡交易那麼豐富。當然如果你要給你的用戶分類時,
這些記錄還是擁有一定價值的。
然而當下存儲的成本已經越來越少了,你的數據越多,你就可以
從數據分析趨勢中獲得更多的價值。每條TV頻道轉換的信息確實
無關緊要,但是如果你把這些數據與調度機廣告數據放到一起將
其視為一個聚合數據集,你將可以清楚的知曉用戶的行為,這些
數據將給廣告者和程序設計人員提供有價值的見解。
同樣,智能家庭系統中收集到的信息價值就更低了,你可能只會得
到一些事件和狀態信息,同時系統可能產生大量的數據,價值必須
通過大量的篩選、過濾等處理才能體現。大數據最大的挑戰就是從
大量的碎片項中獲取信息,也可能是使用許多具有豐富價值的數據
做依託,然後從中剝絲抽繭,尋找真知。需要注意的是,這並不是
大海撈針,而是從一堆針中給一些針定性。
Hot Data vs. Big Data
造成需要大數據的原因是,你不僅擁有大量的數據,同樣擁有大量
訪問這些數據的請求,而Big Data看起來能滿足這個需求。
BigData的數據更傾向於冷數據,也就是你不會經常訪問的數據,除
了分析之外可能不會再次被使用。它可能很快被新鮮的冷數據代替,
而新的冷數據又會產生新的分析,但是Big Data的範圍需要與熱數
據分開,因為將兩個需求混合得到的結果必然低於預期,這樣一來冷
數據與熱數據的分析必然都差強人意。無論如何區分冷熱數據都是個
好的思想,不管是存儲還是應用程序都應該區別對待。但是總有一些
人不分場景為用戶提供Big Data這個「仙丹」。
因此,請重視你的數據,分清楚數據的類型,以業務為需求,不必要
將所有的數據混合到一起去打造1個大數據。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.243.106.24
※ 文章網址: http://www.ptt.cc/bbs/Soft_Job/M.1396166534.A.94D.html
推
03/30 17:00, , 1F
03/30 17:00, 1F
→
03/30 17:03, , 2F
03/30 17:03, 2F
→
03/30 17:29, , 3F
03/30 17:29, 3F
→
03/30 17:29, , 4F
03/30 17:29, 4F
推
03/30 17:56, , 5F
03/30 17:56, 5F
※ 編輯: Lordaeron (111.243.105.48), 03/30/2014 22:35:07
→
04/01 19:51, , 6F
04/01 19:51, 6F
→
04/01 19:51, , 7F
04/01 19:51, 7F
→
04/01 19:52, , 8F
04/01 19:52, 8F