Re: [請益]關於商業智慧(BI)

看板Soft_Job作者 (逍遙盃-佛得)時間11年前 (2015/01/23 05:20), 編輯推噓2(200)
留言2則, 2人參與, 最新討論串3/4 (看更多)
一些淺見: BI: 資料庫->資料倉儲->建多維度超方體->OLAP->下載到各種統計軟體->報表 ->自動化報表 (數值會一直隨ETL更新超爽的, 跑分析不用再跑去伺服器群操作) Big data: 原始資料(如文字檔)->分析的演算法先寫成sequential版->因為記憶體絕對不夠用, 改寫成MapReduce版->用伺服器群跑抽樣, 得到具代表性的資料-> 在本機用抽樣資料跑分析看結果合不合理->合理, 放到伺服器群去跑->把結果視覺化 ->報告結果 (流程怎麼這麼不規律) (什麼!?你說不用寫成MapReduce放到伺服器群, 用辦公桌下的壽命已經5年的小黑, 演算法就跑得動了?這一定是騙人的大數據.....) BI跑分析時很方便, 一堆毛病麻煩都在建多維度超方體那 建完超方體後, 資料的統計量和特徵值都有了 各種分析演算法記憶體一定夠用, 也不用丟到伺服器群去跑 不過, BI的資料一定常常更新 麻煩變成要建多維度超方體, 資料量大時要建很久, 視ETL的複雜度而定 所以就有一些方法, 只根據新的資料合併超方體, 或是在資料庫下功夫, 用column-oriented資料庫, 或設計綱要時多弄一些階層, 不然用Cache, 搞溫暖暫存或冰冷暫存, 或是用一些專門給多維度超方體的類SQL語法 Big data看到比較多的其實是網路資料(圖形) SQL要查圖(節點1, 節點2)之類的資料很沒力, 像網路蜘蛛爬出來的資料SQL跑得很慢 要跑一直迴圈迴圈的如"共同好碰友"更是沒力, Ex. 給我老大跟Lin的共同好朋友, 資料: 老大->楊少俠<-Lin, 老大->林志傑<-Lin 所以要給我楊少俠跟林志傑 總之, 圖形的統計量算超慢 又或者像要即時估計串流的統計量(hyperloglog, count-min), BI那套根本無法 (還沒看過圖形的資料倉儲, 希望不是我孤陋寡聞, 圖形的只把出現次數放事實表, 效率也很差吧?) BI中的OLAP與資料庫的查詢執行(表格合併要用Merge-Join或Nested-loop join) 一直很密切, Big data的MapReudce一開始沒有, 不過後來也有在偷師查詢執行了 大膽預期到最後一定會越來越像 至於分析出來的結果有沒有路用, 那又是另一段故事了... . . . (正經的補充好了: 光是平均值和3倍正負標準差其實就很有意義了 看兩個數字, 就告訴你這一個月產生的資料長怎樣) 呼應開頭, 以上為一點淺見... -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 79.197.210.160 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1421961626.A.F6F.html

01/23 15:04, , 1F
BI 的重心是商業意義, OLAP 只是 (上一代的) 演算手段吧
01/23 15:04, 1F

01/25 18:32, , 2F
看不懂推
01/25 18:32, 2F
文章代碼(AID): #1KmMcQzl (Soft_Job)
文章代碼(AID): #1KmMcQzl (Soft_Job)