Re: [請益]關於商業智慧(BI)
一些淺見:
BI:
資料庫->資料倉儲->建多維度超方體->OLAP->下載到各種統計軟體->報表
->自動化報表
(數值會一直隨ETL更新超爽的, 跑分析不用再跑去伺服器群操作)
Big data:
原始資料(如文字檔)->分析的演算法先寫成sequential版->因為記憶體絕對不夠用,
改寫成MapReduce版->用伺服器群跑抽樣, 得到具代表性的資料->
在本機用抽樣資料跑分析看結果合不合理->合理, 放到伺服器群去跑->把結果視覺化
->報告結果
(流程怎麼這麼不規律)
(什麼!?你說不用寫成MapReduce放到伺服器群,
用辦公桌下的壽命已經5年的小黑, 演算法就跑得動了?這一定是騙人的大數據.....)
BI跑分析時很方便, 一堆毛病麻煩都在建多維度超方體那
建完超方體後, 資料的統計量和特徵值都有了
各種分析演算法記憶體一定夠用, 也不用丟到伺服器群去跑
不過, BI的資料一定常常更新
麻煩變成要建多維度超方體, 資料量大時要建很久, 視ETL的複雜度而定
所以就有一些方法, 只根據新的資料合併超方體,
或是在資料庫下功夫, 用column-oriented資料庫,
或設計綱要時多弄一些階層, 不然用Cache, 搞溫暖暫存或冰冷暫存,
或是用一些專門給多維度超方體的類SQL語法
Big data看到比較多的其實是網路資料(圖形)
SQL要查圖(節點1, 節點2)之類的資料很沒力, 像網路蜘蛛爬出來的資料SQL跑得很慢
要跑一直迴圈迴圈的如"共同好碰友"更是沒力,
Ex. 給我老大跟Lin的共同好朋友,
資料:
老大->楊少俠<-Lin, 老大->林志傑<-Lin
所以要給我楊少俠跟林志傑
總之, 圖形的統計量算超慢
又或者像要即時估計串流的統計量(hyperloglog, count-min), BI那套根本無法
(還沒看過圖形的資料倉儲, 希望不是我孤陋寡聞,
圖形的只把出現次數放事實表, 效率也很差吧?)
BI中的OLAP與資料庫的查詢執行(表格合併要用Merge-Join或Nested-loop join)
一直很密切, Big data的MapReudce一開始沒有, 不過後來也有在偷師查詢執行了
大膽預期到最後一定會越來越像
至於分析出來的結果有沒有路用, 那又是另一段故事了...
.
.
.
(正經的補充好了: 光是平均值和3倍正負標準差其實就很有意義了
看兩個數字, 就告訴你這一個月產生的資料長怎樣)
呼應開頭, 以上為一點淺見...
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 79.197.210.160
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1421961626.A.F6F.html
推
01/23 15:04, , 1F
01/23 15:04, 1F
推
01/25 18:32, , 2F
01/25 18:32, 2F
討論串 (同標題文章)
完整討論串 (本文為第 3 之 4 篇):
請益
10
19