Re: [問卦] 大數據分析與統計分析的差別?消失

看板Gossiping作者時間6年前 (2017/10/18 10:58), 6年前編輯推噓4(404)
留言8則, 7人參與, 最新討論串9/10 (看更多)
沒什麼不同 唯一的差異在數據量大小 平常都是用spark在跑 前幾天跟同事想試用scikit learn跑個東西 他把json抓下來20G一塞進去python read_json 直接電腦黑屏給他看 兩周量而且已經篩過的的資料 正常一天大概有200~400G左右的data 光是要一個月的資料縮到能用統計方法來作就要花一番心力 然後處理時要跑多久又是另一個問題 只能在伺服器上跑 大數據其實光大這個字沒意義 難的是把雜亂無章的大數據整理成有用的小數據 接下來再用統計或ML還是啥其實方法都差不多 清data這塊大家方法差異比較大 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 68.71.180.136 ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1508295493.A.BC7.html

10/18 11:00, , 1F
Json晚上打球
10/18 11:00, 1F

10/18 11:00, , 2F
那個賣場用大數據比當事人早知道懷孕的都市傳說成真了嗎
10/18 11:00, 2F
那個不是成真 是真的 你找Target pregnancy 2012 就有

10/18 11:01, , 3F
把尿布跟啤酒放在一起增加銷售量
10/18 11:01, 3F
啤酒在零售業是個很特殊的商品 ※ 編輯: abc2090614 (68.71.180.136), 10/18/2017 11:02:57

10/18 11:04, , 4F
Preprcess是最痛苦的部分
10/18 11:04, 4F

10/18 11:04, , 5F
尿布啤酒那是Data Mining 不是大數據
10/18 11:04, 5F
尿布啤酒是唬爛的 但啤酒本身是很特別的產品 美國超市啤酒都是虧本賣的 ※ 編輯: abc2090614 (68.71.180.136), 10/18/2017 11:08:54

10/18 11:11, , 6F
那為什麼大家都推學python呢? 跑不動還用 沒道理啊
10/18 11:11, 6F
Python = glue 另外聽起來潮 然後架dashboard很好用 先用能在分散式系統上跑的東西把糞大數據變黃金小數據 之後你爽用Python或R都無所謂 ※ 編輯: abc2090614 (68.71.180.136), 10/18/2017 11:14:16

10/18 11:51, , 7F
因為python的工具蠻多的,學起來很快吧
10/18 11:51, 7F

10/18 11:51, , 8F
spark也可以用python寫
10/18 11:51, 8F
文章代碼(AID): #1PviD5l7 (Gossiping)
討論串 (同標題文章)
完整討論串 (本文為第 9 之 10 篇):
文章代碼(AID): #1PviD5l7 (Gossiping)