Re: [請益]關於商業智慧(BI)

看板Soft_Job作者vity (逍遙盃-佛得)時間11年前 (2015/01/23 05:20)推噓2(2推 0噓 0→)

留言2則, 2人參與討論串3/4 (看更多)

一些淺見: BI: 資料庫->資料倉儲->建多維度超方體->OLAP->下載到各種統計軟體->報表 ->自動化報表 (數值會一直隨ETL更新超爽的, 跑分析不用再跑去伺服器群操作) Big data: 原始資料(如文字檔)->分析的演算法先寫成sequential版->因為記憶體絕對不夠用, 改寫成MapReduce版->用伺服器群跑抽樣, 得到具代表性的資料-> 在本機用抽樣資料跑分析看結果合不合理->合理, 放到伺服器群去跑->把結果視覺化 ->報告結果 (流程怎麼這麼不規律) (什麼!?你說不用寫成MapReduce放到伺服器群, 用辦公桌下的壽命已經5年的小黑, 演算法就跑得動了?這一定是騙人的大數據.....) BI跑分析時很方便, 一堆毛病麻煩都在建多維度超方體那建完超方體後, 資料的統計量和特徵值都有了各種分析演算法記憶體一定夠用, 也不用丟到伺服器群去跑不過, BI的資料一定常常更新麻煩變成要建多維度超方體, 資料量大時要建很久, 視ETL的複雜度而定所以就有一些方法, 只根據新的資料合併超方體, 或是在資料庫下功夫, 用column-oriented資料庫, 或設計綱要時多弄一些階層, 不然用Cache, 搞溫暖暫存或冰冷暫存, 或是用一些專門給多維度超方體的類SQL語法 Big data看到比較多的其實是網路資料(圖形) SQL要查圖(節點1, 節點2)之類的資料很沒力, 像網路蜘蛛爬出來的資料SQL跑得很慢要跑一直迴圈迴圈的如"共同好碰友"更是沒力, Ex. 給我老大跟Lin的共同好朋友, 資料: 老大->楊少俠<-Lin, 老大->林志傑<-Lin 所以要給我楊少俠跟林志傑總之, 圖形的統計量算超慢又或者像要即時估計串流的統計量(hyperloglog, count-min), BI那套根本無法 (還沒看過圖形的資料倉儲, 希望不是我孤陋寡聞, 圖形的只把出現次數放事實表, 效率也很差吧?) BI中的OLAP與資料庫的查詢執行(表格合併要用Merge-Join或Nested-loop join) 一直很密切, Big data的MapReudce一開始沒有, 不過後來也有在偷師查詢執行了大膽預期到最後一定會越來越像至於分析出來的結果有沒有路用, 那又是另一段故事了... . . . (正經的補充好了: 光是平均值和3倍正負標準差其實就很有意義了看兩個數字, 就告訴你這一個月產生的資料長怎樣) 呼應開頭, 以上為一點淺見... -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 79.197.210.160 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1421961626.A.F6F.html

推

CRPKT

01/23 15:04, , 1^F

01/23 15:04, 1^F

推

QnapNoGood

01/25 18:32, , 2^F

01/25 18:32, 2^F

‣ 返回看板[ Soft_Job ] 工作

‣ 更多 vity 的文章

文章代碼(AID): #1KmMcQzl (Soft_Job)