Re: 本來學ML是該轉路還是繼續鑽研

看板Soft_Job作者 (流浪吧。)時間3年前 (2021/03/12 18:03), 3年前編輯推噓28(28023)
留言51則, 22人參與, 3年前最新討論串3/9 (看更多)
一個ML應用要落地產生商業價值 在data scientist把model訓練出來之後 還有很長一段路才能真正進到生產環境 ML系統的複雜度其實非常高 從資料收集,特徵處理, 模型訓練, 模型測試, 一直到後面的模型部署,模型監測 真正要落地,上面的每一步都會有相對應的系統來做處理 系統要能自動化 要reliable 要scalable 還要能控制ML流程本身的複雜度 而不是說只要跑個jupyter notebook把模型訓練出來test能過就完事了 關於這個議題還是要大推一下2015年的NIPS paper Hidden Technical Debt in Machine Learning Systems 所以呢 目前可以看到業界職缺的演化是有以下兩種型態 一種是scientist track 另一種是engineer track scientist就真的需要比較強的數學理解 要能夠有能力訓練出"符合需求"的模型 但是通常這種人系統及程式能力不會這麼強 所以需要engineer來補足 其實scientist track還可以分成偏研究和偏應用的 簡單來說 偏研究的比較像是增加整體公司的技術力 他們會去發paper 數學要真的好 要有研究能力 偏應用的目標則是會更聚焦在商業問題上 他們需要在有限的資源下(時間, 運算資源, etc.)提出解決商業問題的方法 在業界其實大部份搞ML演算法的都比較是這類 工作基本上就是兜兜library套一些現成的演算法 但是也不是說這種人就毫無知識含量 對相關商業domain的深度了解 使他們可以在有限的時間及資源下提出方法解決商業問題 這個就是他們的價值 engineer就比較像是構建最一開始所說的系統的人 做自動化 做scalable feature pipeline 做模型training/testing平台 模型部署 而且真正開始ML落地的公司 線上在跑的很快就不會只有一兩個模型 可能是數十個模型,甚至上百個模型 這就需要專職的engineering team來負責, 包含ML platform dev, 還有MLOps 這樣的工作其實程式和系統的能力會比較重要 比較像是介於傳統data engineer和data scientist之間 也有需要加點一些devops跟backend的技能 做這類工作就不需要對ML演算法及理論有那麼深的理解 知道點high level其實就足以勝任(因為主要是由scientist負責) 但是做這件事軟工的技能就要點得比較高 當然演算法的理解還是會對這個工作有幫助 比如說要做distributed training的系統 那有些ML演算法天生就是是沒辦法平行化 不知道演算法的細節 就可能沒辦法理解天生的限制而最後搞出了不合用的系統 我想說的是 如果數學不好 又想做ML也是可以考慮看看這個方向 隨著ML開始落地的公司愈來愈多 這樣子的職缺也會愈來愈多 如果是剛畢業想走這條路 或許從data engineer開始可能會是可以去嘗試的一條路 可以先沾個邊 在公司裡面再慢慢點上面我說的技能 ※ 引述《ckrmpuhv (阿瓜)》之銘言: : 各位板上大大好 : 小弟是後段國立科大資管碩即將畢業 : 因為一些私人原因是不用當兵 : 所以論文完成後準備開始找工作 : 目前程度: : 大學學過JAVA : 網頁跟資料庫也只有課堂學習過沒實際做小專案 : 因為對Ml有興趣 : 在碩階段期間 都是自學ML相關 : 聽過李宏毅老師的課 : 實作過他課程的作業 : Keras的一些神經網路搭建也沒捨問題 : Kaggle只參加過一兩次 排名都很爛 : 大部分的實作和論文都是跟影像辨識相關 : 最近看板上大大各式各樣建議 : 非四大四中 也不是kaggle的佼佼者 : 數學方面 線代沒學 統計學大學學過但也不熟 : 看完覺得自己很爛出去可能沒人要? : 目前都還在做ml各種模型實作 : 但看完板上很迷茫要往哪些方向學習怕找不到工作非常憂鬱 : 我不清楚該橫向發展拓別的領域 : 像是網頁、App 自己做一些小專案增加作品集 : 還是去補數學 更深入研究Ml : 又或者先去刷Leetcode打底 : 還請各位大大指教 謝謝 : ----- : Sent from JPTT on my iPhone -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 172.92.160.251 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1615543421.A.E10.html ※ 編輯: frouscy (172.92.160.251 美國), 03/12/2021 18:17:49

03/12 18:32, 3年前 , 1F
說得不錯 前一個在蝦七八亂 XD
03/12 18:32, 1F

03/12 18:51, 3年前 , 2F
推!不過台灣稱得上Scientist的職位太少QQ 畢竟沒有FA
03/12 18:51, 2F

03/12 18:51, 3年前 , 3F
ANG那種規模……
03/12 18:51, 3F

03/12 18:54, 3年前 , 4F
可能大多都是把現有ML方法拿來用,而不是開創新的ML
03/12 18:54, 4F

03/12 18:54, 3年前 , 5F
方法
03/12 18:54, 5F
偶爾寫一篇的那種可能還行 但要投錢持續去做純研究產出的單位真的很燒錢 看看下面的例子 deep mind是有google做乾爹 去年虧損六百多萬美金 google爸爸還幫忙付了10億美金的債 open AI也是是有微軟爸爸投資了10億美金 圖靈獎得主Joshua Bengio的研究公司Element AI也是賠到脫褲 好像準備要賤價賣出 有多少資源做多少事 現實就是這樣 我覺得沒什麼好埋怨LOL 隨著模型愈來愈複雜 連拿已經有的演算法來train model都會變成資本遊戲(想想GPT3)

03/12 19:00, 3年前 , 6F
推 寫得很好 MLOps 是趨勢
03/12 19:00, 6F

03/12 19:12, 3年前 , 7F
歡迎大家加入MLOps 的行列!業界很缺人喔
03/12 19:12, 7F

03/12 19:14, 3年前 , 8F
開創新的ML模型要有商業價值 目前大多數場景用既有的框架
03/12 19:14, 8F

03/12 19:14, 3年前 , 9F
就好 真正難度往往是系統落地真正運作在 production上
03/12 19:14, 9F

03/12 19:16, 3年前 , 10F
推 蠻清楚的
03/12 19:16, 10F

03/12 19:18, 3年前 , 11F
台灣我看有些公司還是會去發paper 只是可能不多就是了
03/12 19:18, 11F

03/12 19:22, 3年前 , 12F
如果是真正想研究ML模型 基本一定要有 PhD(或是極出類拔萃
03/12 19:22, 12F

03/12 19:22, 3年前 , 13F
的master) 以及做的研究業界要用的到才有機會真的進業界做
03/12 19:22, 13F

03/12 19:22, 3年前 , 14F
ML research. 像我們團隊就跟很多學校鑽研 private ML的學
03/12 19:22, 14F

03/12 19:22, 3年前 , 15F
者合作 有些團隊成員也是直接從學界加入的 像現在這種 res
03/12 19:22, 15F

03/12 19:22, 3年前 , 16F
earch scientist職位競爭超級激烈 沒有三兩三連面試機會都
03/12 19:22, 16F

03/12 19:22, 3年前 , 17F
沒有 所以大家說你做 engineer會簡單很多不是沒道理的
03/12 19:22, 17F
其實競爭激烈有一個原因是 業界並不真的非常需要做純研究的人XD 能解決商業問題讓公司賺進利潤擺脫成本中心才是硬道理 剛從學校畢業的人裡面 眼高手低的人太多 腳踏實地的人太少 再說如果engineer做到很有經驗也是很有價值的 現在有個看得到的趨勢是research paper上 scientist和engineer其實會一起掛名 所以即便沒有PhD 還是有機會可以發paper的 而且其實ML system也開始有自己的conference了 https://mlsys.org 這個就是engineer的主場了

03/12 19:35, 3年前 , 18F
大推這篇,講得非常貼近目前的ML現實。前一篇有點以偏概
03/12 19:35, 18F

03/12 19:35, 3年前 , 19F
全,反而容易混淆視聽。同場推2014 NIPS Google的Machine
03/12 19:35, 19F

03/12 19:35, 3年前 , 20F
Learning: The High Interest Credit Card of Technical
03/12 19:35, 20F

03/12 19:35, 3年前 , 21F
Debt
03/12 19:35, 21F

03/12 19:46, 3年前 , 22F
了解感謝大大 我會在好好琢磨
03/12 19:46, 22F

03/12 20:10, 3年前 , 23F
你說的沒錯
03/12 20:10, 23F

03/12 23:40, 3年前 , 24F
這篇才是業界真實生態,感謝分享
03/12 23:40, 24F

03/13 01:44, 3年前 , 25F
這個是比較實在的業界生態 @_@~ 還是要能賺錢先
03/13 01:44, 25F

03/13 01:46, 3年前 , 26F
前一篇就是那種去面試喜歡沒事問各種名詞的人
03/13 01:46, 26F

03/13 01:46, 3年前 , 27F
其實學界業界很多這種人@_@~ 目前要的其實是這篇講
03/13 01:46, 27F

03/13 01:47, 3年前 , 28F
的兩種人混合 可惜的是這種人在業界也沒幾個
03/13 01:47, 28F

03/13 01:48, 3年前 , 29F
純 ml研究燒錢外效果也不是特別好 只能說海水退了
03/13 01:48, 29F

03/13 01:48, 3年前 , 30F
就知道誰沒穿褲子 想走ml進隊只能說超難了
03/13 01:48, 30F

03/13 01:52, 3年前 , 31F
就我自己的團隊跟業界合作伙伴 也是套模型&DE
03/13 01:52, 31F

03/13 01:53, 3年前 , 32F
但能套到讓一些公司掏錢做就好了啊
03/13 01:53, 32F

03/13 03:55, 3年前 , 33F
推好文分享
03/13 03:55, 33F

03/13 04:03, 3年前 , 34F
推好文
03/13 04:03, 34F

03/13 04:10, 3年前 , 35F
03/13 04:10, 35F

03/13 05:39, 3年前 , 36F
推ML大神廖大!
03/13 05:39, 36F

03/13 08:54, 3年前 , 37F
感謝分享
03/13 08:54, 37F

03/13 09:15, 3年前 , 38F
推,確實越來越有如此分工的傾向,不過行有餘力,往對
03/13 09:15, 38F

03/13 09:15, 3年前 , 39F
方的技能點個一點有深一點的理解對自己的職涯還蠻有幫
03/13 09:15, 39F

03/13 09:15, 3年前 , 40F
助的
03/13 09:15, 40F
※ 編輯: frouscy (172.92.160.251 美國), 03/13/2021 09:44:02 ※ 編輯: frouscy (172.92.160.251 美國), 03/13/2021 09:44:26

03/13 09:44, 3年前 , 41F
裡面還有一個workshop就是 MLOps
03/13 09:44, 41F
※ 編輯: frouscy (172.92.160.251 美國), 03/13/2021 09:54:58

03/13 09:58, 3年前 , 42F
現在這遊戲就是燒錢 有機器有卡的大聲 看看某學校
03/13 09:58, 42F

03/13 09:59, 3年前 , 43F
不過真要做成系統除了理論外 還有蠻多"實際"的問題
03/13 09:59, 43F

03/13 09:59, 3年前 , 44F
這些才是真正讓ml能不能用的關鍵
03/13 09:59, 44F

03/13 10:02, 3年前 , 45F
推這篇~~
03/13 10:02, 45F

03/13 11:59, 3年前 , 46F
感謝大大分享!!
03/13 11:59, 46F

03/13 12:16, 3年前 , 47F
03/13 12:16, 47F

03/13 17:00, 3年前 , 48F
再推一次~感謝原po耐心回覆小弟的推文,講的很好!
03/13 17:00, 48F

03/14 01:57, 3年前 , 49F
03/14 01:57, 49F

03/14 11:45, 3年前 , 50F
大學畢業在高雄時才三萬初...
03/14 11:45, 50F

03/14 15:54, 3年前 , 51F
講得很好
03/14 15:54, 51F
文章代碼(AID): #1WIpnzuG (Soft_Job)
討論串 (同標題文章)
文章代碼(AID): #1WIpnzuG (Soft_Job)