Re: [問題] kaggle, featured conpetition的可信度

看板DataScience作者 (皓月)時間5年前 (2018/12/03 00:57), 編輯推噓2(202)
留言4則, 2人參與, 5年前最新討論串6/6 (看更多)
原文恕刪 關於這件事情,小弟有一點小小的想法 背景: 小弟以前在學期間有玩了一下Kaggle 之後就沒有認真比過比賽 目前在業界4年的時間(兩家公司) 我覺得這件事情其實非常看產業,大家想想語音辨識、電腦視覺 其實 DL 在做的事情也就是把準度提高 如果今天辦了一個比賽 本來沒有 DL 的技巧忽然有了 不要說 DL 就連想到 DL 的某個新技巧 那你會說比賽的意義不大 或著 第一名的價值不高嗎 依照我以前的經驗 像是用 GBDT 的 leaf 當作 encoding的技巧 或是一些奇奇怪怪的模型 其實都蠻有用的 另外資料其實也是蠻可貴的 雖然大部分的資料會經過一定程度的加密 不過大概知道資料的形式 跟 相關產業想要做甚麼 其實也是非常不錯的 不過我所待過的兩個業界 應該都是線性模型為主 而資料科學家在做的事情也遠不只比預測變準 我舉常見數位廣告公司的 retargeting 收費模式為例 數位廣告公司是以點擊數、 點擊所帶來的訂單數、 點擊所帶來的客單價總和的百分率來收費 --------------------------------------------------- 這邊我們簡單用點擊數來講 感謝前人的努力跟 google rtb 的平台 每個人對於每個廣告都只要預估準確的點擊率,就可以有完美的最佳策略 所以預估點擊率可能是全公司最重要的事情 如果你一來可以把這個預測超好可能可以解決公司一大半的問題 問題是通常不行,更通常你不知道什麼叫超好 而且不夠好之前,你可能預測準度上升公司的獲利沒有跟著上升 做為一個 Data Scientist 你除了模型之外 還要思考串接各種沒有的 feature 像是 把cookie串起來 建立資料庫 或著 花錢買資料的可能性 或者你直接把cost換掉 (RTB是一個競價輸就會沒有label的環境) 像這樣的需求還有很多 我這邊隨便舉 點擊率 轉換率 客單價 串聯手機跟電腦使用者 整天的流量 這些都需要模型 今天單方面提高點擊率 搞不好 轉換率 客單價 的模型還會變差 整體的最佳化是非常困難的問題 但是你說如果你可以運用 Kaggle 的技術 讓點擊率變得超高 我想也是蠻有價值的 而且幾年前也蠻多 Kaggle 的比賽是有開 offer 的 所以我想業界某種程度也是承認的 最後 我其實覺得我待過的兩家公司 如果你是拿到大比賽(conference 或是相關產業)的前 5 % 我想還是會給一些credit至少面試機會一定不會少 (DataScientist DataEngineer需要完全不同的技能樹) 但是如果你是那些長期擺在那邊供人學習的比賽 甚至還有人把解法寫在討論區 我實在不知道寫在履歷上想表達什麼 其實我只是想發表一下對這個產業的牢騷而已XD -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.166.0.168 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1543769871.A.791.html

12/04 11:38, 5年前 , 1F
12/04 11:38, 1F

12/15 04:56, 5年前 , 2F
recruiting類型跟邀請賽已經好久沒出現了,還有,我想
12/15 04:56, 2F

12/15 04:56, 5年前 , 3F
應該是不會有人把playground或是事後參加已經結束的比
12/15 04:56, 3F

12/15 04:56, 5年前 , 4F
賽等等的寫在履歷上吧XD
12/15 04:56, 4F
文章代碼(AID): #1S10yFUH (DataScience)
討論串 (同標題文章)
文章代碼(AID): #1S10yFUH (DataScience)