Re: [北美] 請問machine learning的工作內容

看板Oversea_Job作者 (亨利喵)時間11年前 (2014/09/19 13:41), 編輯推噓13(1300)
留言13則, 13人參與, 最新討論串2/2 (看更多)
工作完來回一下好了~ 我不知道各種業界怎樣~我就說我待過的公司跟teams 先說背景,不才小時候愛玩ML比賽,正值ML還不太紅的200x年, 贏了一些獎,覺得自己很厲害~ 後來去學校發了些paper,自我覺得超強。 就衝去hackathon然後試試看startup,結果很慘。 只好join Google休息一下,繼續作machine learning, 做了兩年,幫公司賺了不少錢可是paper都發不出來,來點坐領乾薪的魯蛇分享。 先講玩比賽的時候: 比賽的時候我都只會一招,就是把feature expand很大, 然後用liblinear跑一次。 基本上那時候我是相信,只要有一個好的feature engineering tool 人生就無敵了。 我當時就寫了個這個: http://www.csie.ntu.edu.tw/~b95028/software/lib-gundam/ 然後我就去念博班: 唸了博班發現,很多paper都亂寫,model超漂亮,跑出來超overfit。 用一個paper的model跑另一個paper的data很常就會GG。 最後發現最強的還都只有liblinear跟隨機森林。 於是我就生氣了,想說去hackathon或是開開startup 初出茅廬: 當時做了一些health data,然後show說自己可以predict acc多高,覺得超屌。 我就去跟別人present,可是別人都看不懂。 這時候才知道業界很多人重視的一件事情「可解釋性」。 你有一個好model,如果不能解釋哪個feature強,在很多領域是無用的。 (像health他們好像就很注重,病的causality關係之類的。 像你可以predict一個人會生病,不過他想要知道哪個feature讓他生病的。 這種東西很多時候是model很難去數理上含括的。) 在Google: 基本上我現在都還是一直在用liblinear。 我遇到的很多不是純粹learning for accuracy的問題。 很多時候像stability很重要(e.g. 當有missing features,你的model是不是 不會go crazy) 有時候生data很重要,data生不好,很容易target leak,不小心train出來accuracy就 100%,還以為自己要得Turing Award了。 有時候prediction速度很重要,如果query很多,要怎樣才能快速serve。 我覺得其實很多work都會越作越general,但是多數是從domain example開始作。 就像可能你今天作text classification很猛,可是你可能想要improve。 你第一件事情大概還是去看data,看看是不是哪些字常常會是noise, 還是sentence的parser不好。那就會從中改善,最後也會越作越general。 最後可能就會有很好得方法可以給你在很多問題上都有 10%的accuracy gain然後改變世界。 但是其實人生大部分的事情是不能generalized的,就像愛情(?)。 所以大部分的事情都只是pointwise fix,例如說:cross兩個feature。 通常這種pointwise fix,都只會給你1%的accuracy gain。 所以這時候我就要來亂引用了,有人說過 「1% gain是engineering,10% gain是research。 」 最後,公司還是要賺錢的,所以也很難一直給你時間想好玩得新演算法去try。 我現在的mode就是邊做engineering邊做research, 也期望有一天能發個ICML Best Paper, 但是大部分的時間其實都還是找個新feature然後重跑liblinear。 對了,liblinear真的很強。請愛用liblinear! ※ 引述《milc (milc)》之銘言: : 大家好 : 不好意思想請問一下關於ML的工作內容, : 我是在coursera上Andrew Ng的ML影片課程自學, : 之前也僅用過Weka取些features來做一些文件分類工作, : 之後找工作想做這一方面的, 但是不知道業界工作內容, : 想請問一下各位先進, : 一般工作是用既有的ML方法套用來解決我們所面對的問題? : 還是大部分都要提出新的演算法了? : 另外請問找ML工作前有沒有什麼要再加強與自學的建議? : 謝謝大家(如果我提出的問題太過無知請原諒) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 73.170.100.37 ※ 文章網址: http://www.ptt.cc/bbs/Oversea_Job/M.1411105266.A.175.html

09/19 13:50, , 1F
Scan!
09/19 13:50, 1F

09/19 14:09, , 2F
09/19 14:09, 2F

09/19 14:22, , 3F
09/19 14:22, 3F

09/19 16:16, , 4F
這是很熟ML的強者才有辦法解釋的這麼有趣又好懂。
09/19 16:16, 4F

09/19 18:10, , 5F
想請問做這個 數學底子要很深嗎?
09/19 18:10, 5F

09/19 18:40, , 6F
推,后生可畏,江山代有才人出呀
09/19 18:40, 6F

09/20 02:56, , 7F
'只好join Google' 真是太牛了
09/20 02:56, 7F

09/20 05:03, , 8F
09/20 05:03, 8F

09/20 09:04, , 9F
強者
09/20 09:04, 9F

09/20 09:40, , 10F
學長真的是對liblinear很有愛XDDD
09/20 09:40, 10F

09/20 14:19, , 11F
10年前用過libsvm ~ 推一個
09/20 14:19, 11F

09/20 14:24, , 12F
推!
09/20 14:24, 12F

02/17 07:54, , 13F
推好文分享!:)
02/17 07:54, 13F
文章代碼(AID): #1K6y7o5r (Oversea_Job)
文章代碼(AID): #1K6y7o5r (Oversea_Job)