Re: [問卦] 大數據分析與統計分析的差別?消失
沒什麼不同
唯一的差異在數據量大小
平常都是用spark在跑
前幾天跟同事想試用scikit learn跑個東西
他把json抓下來20G一塞進去python read_json
直接電腦黑屏給他看
兩周量而且已經篩過的的資料
正常一天大概有200~400G左右的data
光是要一個月的資料縮到能用統計方法來作就要花一番心力
然後處理時要跑多久又是另一個問題
只能在伺服器上跑
大數據其實光大這個字沒意義
難的是把雜亂無章的大數據整理成有用的小數據
接下來再用統計或ML還是啥其實方法都差不多
清data這塊大家方法差異比較大
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 68.71.180.136
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1508295493.A.BC7.html
推
10/18 11:00, , 1F
10/18 11:00, 1F
推
10/18 11:00, , 2F
10/18 11:00, 2F
那個不是成真 是真的 你找Target pregnancy 2012 就有
→
10/18 11:01, , 3F
10/18 11:01, 3F
啤酒在零售業是個很特殊的商品
※ 編輯: abc2090614 (68.71.180.136), 10/18/2017 11:02:57
推
10/18 11:04, , 4F
10/18 11:04, 4F
→
10/18 11:04, , 5F
10/18 11:04, 5F
尿布啤酒是唬爛的 但啤酒本身是很特別的產品 美國超市啤酒都是虧本賣的
※ 編輯: abc2090614 (68.71.180.136), 10/18/2017 11:08:54
推
10/18 11:11, , 6F
10/18 11:11, 6F
Python = glue 另外聽起來潮 然後架dashboard很好用
先用能在分散式系統上跑的東西把糞大數據變黃金小數據
之後你爽用Python或R都無所謂
※ 編輯: abc2090614 (68.71.180.136), 10/18/2017 11:14:16
→
10/18 11:51, , 7F
10/18 11:51, 7F
→
10/18 11:51, , 8F
10/18 11:51, 8F
討論串 (同標題文章)
完整討論串 (本文為第 9 之 10 篇):