Re: [問題] kaggle, featured conpetition的可信度

看板DataScience作者cckk3333 (皓月)時間7年前 (2018/12/03 00:57)推噓2(2推 0噓 2→)

留言4則, 2人參與討論串6/6 (看更多)

原文恕刪關於這件事情，小弟有一點小小的想法背景: 小弟以前在學期間有玩了一下Kaggle 之後就沒有認真比過比賽目前在業界4年的時間(兩家公司) 我覺得這件事情其實非常看產業，大家想想語音辨識、電腦視覺其實 DL 在做的事情也就是把準度提高如果今天辦了一個比賽本來沒有 DL 的技巧忽然有了不要說 DL 就連想到 DL 的某個新技巧那你會說比賽的意義不大或著第一名的價值不高嗎依照我以前的經驗像是用 GBDT 的 leaf 當作 encoding的技巧或是一些奇奇怪怪的模型其實都蠻有用的另外資料其實也是蠻可貴的雖然大部分的資料會經過一定程度的加密不過大概知道資料的形式跟相關產業想要做甚麼其實也是非常不錯的不過我所待過的兩個業界應該都是線性模型為主而資料科學家在做的事情也遠不只比預測變準我舉常見數位廣告公司的 retargeting 收費模式為例數位廣告公司是以點擊數、點擊所帶來的訂單數、點擊所帶來的客單價總和的百分率來收費 --------------------------------------------------- 這邊我們簡單用點擊數來講感謝前人的努力跟 google rtb 的平台每個人對於每個廣告都只要預估準確的點擊率，就可以有完美的最佳策略所以預估點擊率可能是全公司最重要的事情如果你一來可以把這個預測超好可能可以解決公司一大半的問題問題是通常不行，更通常你不知道什麼叫超好而且不夠好之前，你可能預測準度上升公司的獲利沒有跟著上升做為一個 Data Scientist 你除了模型之外還要思考串接各種沒有的 feature 像是把cookie串起來建立資料庫或著花錢買資料的可能性或者你直接把cost換掉 (RTB是一個競價輸就會沒有label的環境) 像這樣的需求還有很多我這邊隨便舉點擊率轉換率客單價串聯手機跟電腦使用者整天的流量這些都需要模型今天單方面提高點擊率搞不好轉換率客單價的模型還會變差整體的最佳化是非常困難的問題但是你說如果你可以運用 Kaggle 的技術讓點擊率變得超高我想也是蠻有價值的而且幾年前也蠻多 Kaggle 的比賽是有開 offer 的所以我想業界某種程度也是承認的最後我其實覺得我待過的兩家公司如果你是拿到大比賽(conference 或是相關產業)的前 5 % 我想還是會給一些credit至少面試機會一定不會少 (DataScientist DataEngineer需要完全不同的技能樹) 但是如果你是那些長期擺在那邊供人學習的比賽甚至還有人把解法寫在討論區我實在不知道寫在履歷上想表達什麼其實我只是想發表一下對這個產業的牢騷而已XD -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.166.0.168 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1543769871.A.791.html

推

michellehot

12/04 11:38, 7年前 , 1^F

12/04 11:38, 1^F

推

ANGUS582

12/15 04:56, 7年前 , 2^F

12/15 04:56, 2^F

→

ANGUS582

12/15 04:56, 7年前 , 3^F

12/15 04:56, 3^F