Re: [請益] 轉行做資料數據分析

看板Soft_Job作者 (RA1-推廣)時間8年前 (2017/09/08 07:53), 編輯推噓20(20034)
留言54則, 12人參與, 最新討論串3/3 (看更多)
前文砍~ --- 有幸,在自己公司有玩到資料分析(黑手)的部分 不過都是很簡單的部分,大家參考即可! 我是一位Java後端工程師,是公司簡單R的課程教導之後 我就自己開始針對我熟悉的部分,進行資料彙整 分成一個小組後,大家一起練習分析目前公司新會員訂單的一些狀況 這部分其實很多我還是很不熟悉,若語意或觀念需要修正 請各位大方糾正我,感謝!!~ 1.資料分析的第一步是整理資料,但你看著線上營運資料量達到一個數量時 我是用SQL,做一些基本資料表的關聯之後,就撈出資料放著,要注意就是 一開始目標通常不太明確,可以先試著縮小議題,減少撈取資料的困難度。 2.整理資料開始,一定會遇到NULL,空值,極端值 開始剃除這些"髒東西"以利我們繼續分析下去 當然這些"髒東西"特多的時後,那就要特別注意 是不是你第一個步驟撈取資料時,就發生問題 或者是你們的網站還是存在一些問題,導致髒東西特多 那麼這點,就是可以考慮研究的主題(如果有時間的話) 3.資料視覺化,這個是資料說訴說故事的好機會,不管 你前面兩項做得多好,你資料視覺化無法順利達成,那麼 資料分析的效果很有可能打折甚至不到。 實務情況上是因為視覺化的目的,除了讓資料用更好懂得方式 呈現外,還有一個原因就是,你需要給營運單位看。 那麼這些人本身不懂你的資料能表達什麼,視覺化可以讓 這些擁有決策能力的人,更快理解自己的網站發生什麼事情 需要進行什麼改變。 4.前面三項完成之後,那就是會檢視完成整理的視覺化資料 進行各種議題的探討,那裡需要改善,那一些客群可以著力刺激消費 一直循環這個迴圈,一直改善,達到"資料掏金"的目的 以上是我簡單資料分析心得啦,給各位參考即可。不過後續我就沒在參與 下去了,因為這本來是side project就是了,當做玩過就好~ 謝謝各位觀看~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.73.68.5 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1504828394.A.FE7.html

09/08 07:56, , 1F
針對第二點,即使有遺失值,盡量還是不要刪除該筆data
09/08 07:56, 1F

09/08 07:59, , 2F
如果未來會做到ML,ML是可以處理遺失值的
09/08 07:59, 2F

09/08 08:37, , 3F
對我很有幫助 謝謝你~
09/08 08:37, 3F

09/08 08:39, , 4F
哦哦,原來是這樣,ML介入的話可以處理這塊
09/08 08:39, 4F

09/08 08:40, , 5F
還在想說,這些資料應該還是有用途的,應該還是有方式可以
09/08 08:40, 5F

09/08 08:40, , 6F
讓這些資料發揮作用,來源是這樣!哈。感謝~~
09/08 08:40, 6F

09/08 09:32, , 7F
你說的1&2是資料分析最重要的部份
09/08 09:32, 7F

09/08 09:33, , 8F
不過視覺化應該是在分析資料以後才做的事吧
09/08 09:33, 8F

09/08 09:36, , 9F
極端值也要看看,到底是錯誤,還是該顧客是VIP等級,
09/08 09:36, 9F

09/08 09:36, , 10F
消費能力高
09/08 09:36, 10F

09/08 09:38, , 11F
如果data是關於網路購物,那社會科學有一種叫,RFM mod
09/08 09:38, 11F

09/08 09:38, , 12F
el,可以參考看看
09/08 09:38, 12F

09/08 10:16, , 13F
怎麼覺得是我的前公司XD
09/08 10:16, 13F

09/08 11:06, , 14F
可以讓員工這樣玩 真是好公司QQ
09/08 11:06, 14F

09/08 11:17, , 15F
大學以前就在玩這個,出社會那麼久很想再回去玩
09/08 11:17, 15F

09/08 12:43, , 16F
這幾步驟就是單純做敘述統計啊 用ML之前 先簡單分析看
09/08 12:43, 16F

09/08 12:44, , 17F
一看資料長怎樣是很基本的事情 後面還有很多可以分析
09/08 12:44, 17F

09/08 12:47, , 18F
資料分析精髓就是整理資料
09/08 12:47, 18F

09/08 12:47, , 19F
套公式和決策真的是老闆的事
09/08 12:47, 19F

09/08 14:22, , 20F
缺漏值不多時,可以選擇刪除或填補...但比例太高時,就要小心
09/08 14:22, 20F

09/08 14:23, , 21F
填補了太多"假資料",對於之後的應用可能會造成影響....
09/08 14:23, 21F

09/08 15:23, , 22F
to f496328mm 學到東西了,哈,回家來看看
09/08 15:23, 22F

09/08 15:24, , 23F
to y800122155 , 是啊,很簡單的分析,以前從沒接觸過
09/08 15:24, 23F

09/08 15:24, , 24F
覺得還蠻有趣的,只是後面還是有原本東西要用,就放著了
09/08 15:24, 24F

09/08 15:25, , 25F
剩下就交給公司內專職的資料分析師,處理後續了~
09/08 15:25, 25F

09/08 15:26, , 26F
to vfgce , 還好經手的資料,還沒到這個程度,倒是
09/08 15:26, 26F

09/08 15:26, , 27F
有其他人遇到過,只好想辦法處理了,哈
09/08 15:26, 27F

09/08 15:30, , 28F
to askia , 是啊 , 只是有時候我們工程師沒有決策能力
09/08 15:30, 28F

09/08 15:30, , 29F
又無法有效說明的時候,視覺化存在是加強你前面
09/08 15:30, 29F

09/08 15:31, , 30F
1跟2的註釋一樣,加強擁有決策的人,信任你做出
09/08 15:31, 30F

09/08 15:31, , 31F
的資料~ (無奈XD)
09/08 15:31, 31F

09/08 15:42, , 32F
ML處理遺失值,除了填補,還有一種是利用決策樹的概念
09/08 15:42, 32F

09/08 15:42, , 33F
,去進行預測
09/08 15:42, 33F

09/08 16:06, , 34F
to loveu8: 但是這個文章的標題是「分析」啊
09/08 16:06, 34F

09/08 16:50, , 35F
視覺化在超過三維度的資料應該很難做到吧
09/08 16:50, 35F

09/08 16:51, , 36F
若是在N維的資料中 取出1~3維資料 又會看不到隱含的東西
09/08 16:51, 36F

09/08 17:20, , 37F
ㄜ....,視覺化不是指畫畫二維圖三維圖
09/08 17:20, 37F

09/08 17:56, , 38F
願聽樓上指導
09/08 17:56, 38F

09/08 18:27, , 39F
視覺化可以很豐富喔,多維資料也可透過各種方式去呈現觀
09/08 18:27, 39F

09/08 18:27, , 40F
09/08 18:27, 40F

09/08 18:58, , 41F
推樓上,另外 https://goo.gl/yu9c38
09/08 18:58, 41F

09/08 18:59, , 42F
連結中的圖,我覺得也很不錯
09/08 18:59, 42F

09/08 19:18, , 43F
決策樹,KNN或是均值,都是補值,缺漏項一多,模型可信度就
09/08 19:18, 43F

09/08 19:19, , 44F
要再考慮一下...
09/08 19:19, 44F

09/08 19:31, , 45F
視覺化要小心處理,一堆初學者都以為決策平面一定畫得出來..
09/08 19:31, 45F

09/08 21:39, , 46F
missing value handling方法很多 每個case適用的處理
09/08 21:39, 46F

09/08 21:40, , 47F
方式不一定一樣 常常是需要做敘述統計去看一看狀況
09/08 21:40, 47F

09/08 21:41, , 48F
有時候看用的Algo不同 有的不補值可能結果還比較好
09/08 21:41, 48F

09/09 07:33, , 49F
感謝各位回饋,果然要一群人討論,進步最快阿~
09/09 07:33, 49F

09/09 07:33, , 50F
RFM 我有喵了一下,可惜沒有完全實作
09/09 07:33, 50F

09/09 07:34, , 51F
主要是商品與撈取的會員資料範圍區間才一年半
09/09 07:34, 51F

09/09 07:35, , 52F
還真的無法看出有效的回購時間,只好做出
09/09 07:35, 52F

09/09 07:35, , 53F
一張簡單的消費次數與金額級距表,解釋我們會員的消費能力
09/09 07:35, 53F

09/09 07:36, , 54F
不過等有機會在玩了(專案燒屁股中XD
09/09 07:36, 54F
文章代碼(AID): #1PiTlg_d (Soft_Job)
文章代碼(AID): #1PiTlg_d (Soft_Job)