Re: 本來學ML是該轉路還是繼續鑽研
一個ML應用要落地產生商業價值
在data scientist把model訓練出來之後
還有很長一段路才能真正進到生產環境
ML系統的複雜度其實非常高
從資料收集,特徵處理, 模型訓練, 模型測試, 一直到後面的模型部署,模型監測
真正要落地,上面的每一步都會有相對應的系統來做處理
系統要能自動化 要reliable 要scalable 還要能控制ML流程本身的複雜度
而不是說只要跑個jupyter notebook把模型訓練出來test能過就完事了
關於這個議題還是要大推一下2015年的NIPS paper
Hidden Technical Debt in Machine Learning Systems
所以呢 目前可以看到業界職缺的演化是有以下兩種型態
一種是scientist track
另一種是engineer track
scientist就真的需要比較強的數學理解
要能夠有能力訓練出"符合需求"的模型
但是通常這種人系統及程式能力不會這麼強
所以需要engineer來補足
其實scientist track還可以分成偏研究和偏應用的
簡單來說
偏研究的比較像是增加整體公司的技術力 他們會去發paper 數學要真的好 要有研究能力
偏應用的目標則是會更聚焦在商業問題上
他們需要在有限的資源下(時間, 運算資源, etc.)提出解決商業問題的方法
在業界其實大部份搞ML演算法的都比較是這類
工作基本上就是兜兜library套一些現成的演算法
但是也不是說這種人就毫無知識含量
對相關商業domain的深度了解
使他們可以在有限的時間及資源下提出方法解決商業問題
這個就是他們的價值
engineer就比較像是構建最一開始所說的系統的人
做自動化 做scalable feature pipeline 做模型training/testing平台 模型部署
而且真正開始ML落地的公司 線上在跑的很快就不會只有一兩個模型
可能是數十個模型,甚至上百個模型
這就需要專職的engineering team來負責, 包含ML platform dev, 還有MLOps
這樣的工作其實程式和系統的能力會比較重要
比較像是介於傳統data engineer和data scientist之間
也有需要加點一些devops跟backend的技能
做這類工作就不需要對ML演算法及理論有那麼深的理解
知道點high level其實就足以勝任(因為主要是由scientist負責)
但是做這件事軟工的技能就要點得比較高
當然演算法的理解還是會對這個工作有幫助
比如說要做distributed training的系統
那有些ML演算法天生就是是沒辦法平行化
不知道演算法的細節
就可能沒辦法理解天生的限制而最後搞出了不合用的系統
我想說的是 如果數學不好 又想做ML也是可以考慮看看這個方向
隨著ML開始落地的公司愈來愈多 這樣子的職缺也會愈來愈多
如果是剛畢業想走這條路
或許從data engineer開始可能會是可以去嘗試的一條路
可以先沾個邊 在公司裡面再慢慢點上面我說的技能
※ 引述《ckrmpuhv (阿瓜)》之銘言:
: 各位板上大大好
: 小弟是後段國立科大資管碩即將畢業
: 因為一些私人原因是不用當兵
: 所以論文完成後準備開始找工作
: 目前程度:
: 大學學過JAVA
: 網頁跟資料庫也只有課堂學習過沒實際做小專案
: 因為對Ml有興趣
: 在碩階段期間 都是自學ML相關
: 聽過李宏毅老師的課
: 實作過他課程的作業
: Keras的一些神經網路搭建也沒捨問題
: Kaggle只參加過一兩次 排名都很爛
: 大部分的實作和論文都是跟影像辨識相關
: 最近看板上大大各式各樣建議
: 非四大四中 也不是kaggle的佼佼者
: 數學方面 線代沒學 統計學大學學過但也不熟
: 看完覺得自己很爛出去可能沒人要?
: 目前都還在做ml各種模型實作
: 但看完板上很迷茫要往哪些方向學習怕找不到工作非常憂鬱
: 我不清楚該橫向發展拓別的領域
: 像是網頁、App 自己做一些小專案增加作品集
: 還是去補數學 更深入研究Ml
: 又或者先去刷Leetcode打底
: 還請各位大大指教 謝謝
: -----
: Sent from JPTT on my iPhone
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 172.92.160.251 (美國)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1615543421.A.E10.html
※ 編輯: frouscy (172.92.160.251 美國), 03/12/2021 18:17:49
推
03/12 18:32,
3年前
, 1F
03/12 18:32, 1F
推
03/12 18:51,
3年前
, 2F
03/12 18:51, 2F
→
03/12 18:51,
3年前
, 3F
03/12 18:51, 3F
推
03/12 18:54,
3年前
, 4F
03/12 18:54, 4F
→
03/12 18:54,
3年前
, 5F
03/12 18:54, 5F
偶爾寫一篇的那種可能還行
但要投錢持續去做純研究產出的單位真的很燒錢
看看下面的例子
deep mind是有google做乾爹
去年虧損六百多萬美金 google爸爸還幫忙付了10億美金的債
open AI也是是有微軟爸爸投資了10億美金
圖靈獎得主Joshua Bengio的研究公司Element AI也是賠到脫褲 好像準備要賤價賣出
有多少資源做多少事 現實就是這樣
我覺得沒什麼好埋怨LOL
隨著模型愈來愈複雜
連拿已經有的演算法來train model都會變成資本遊戲(想想GPT3)
推
03/12 19:00,
3年前
, 6F
03/12 19:00, 6F
推
03/12 19:12,
3年前
, 7F
03/12 19:12, 7F
→
03/12 19:14,
3年前
, 8F
03/12 19:14, 8F
→
03/12 19:14,
3年前
, 9F
03/12 19:14, 9F
推
03/12 19:16,
3年前
, 10F
03/12 19:16, 10F
推
03/12 19:18,
3年前
, 11F
03/12 19:18, 11F
→
03/12 19:22,
3年前
, 12F
03/12 19:22, 12F
→
03/12 19:22,
3年前
, 13F
03/12 19:22, 13F
→
03/12 19:22,
3年前
, 14F
03/12 19:22, 14F
→
03/12 19:22,
3年前
, 15F
03/12 19:22, 15F
→
03/12 19:22,
3年前
, 16F
03/12 19:22, 16F
→
03/12 19:22,
3年前
, 17F
03/12 19:22, 17F
其實競爭激烈有一個原因是
業界並不真的非常需要做純研究的人XD
能解決商業問題讓公司賺進利潤擺脫成本中心才是硬道理
剛從學校畢業的人裡面
眼高手低的人太多
腳踏實地的人太少
再說如果engineer做到很有經驗也是很有價值的
現在有個看得到的趨勢是research paper上
scientist和engineer其實會一起掛名
所以即便沒有PhD 還是有機會可以發paper的
而且其實ML system也開始有自己的conference了
https://mlsys.org
這個就是engineer的主場了
推
03/12 19:35,
3年前
, 18F
03/12 19:35, 18F
→
03/12 19:35,
3年前
, 19F
03/12 19:35, 19F
→
03/12 19:35,
3年前
, 20F
03/12 19:35, 20F
→
03/12 19:35,
3年前
, 21F
03/12 19:35, 21F
推
03/12 19:46,
3年前
, 22F
03/12 19:46, 22F
推
03/12 20:10,
3年前
, 23F
03/12 20:10, 23F
推
03/12 23:40,
3年前
, 24F
03/12 23:40, 24F
推
03/13 01:44,
3年前
, 25F
03/13 01:44, 25F
→
03/13 01:46,
3年前
, 26F
03/13 01:46, 26F
→
03/13 01:46,
3年前
, 27F
03/13 01:46, 27F
→
03/13 01:47,
3年前
, 28F
03/13 01:47, 28F
→
03/13 01:48,
3年前
, 29F
03/13 01:48, 29F
→
03/13 01:48,
3年前
, 30F
03/13 01:48, 30F
推
03/13 01:52,
3年前
, 31F
03/13 01:52, 31F
→
03/13 01:53,
3年前
, 32F
03/13 01:53, 32F
推
03/13 03:55,
3年前
, 33F
03/13 03:55, 33F
推
03/13 04:03,
3年前
, 34F
03/13 04:03, 34F
推
03/13 04:10,
3年前
, 35F
03/13 04:10, 35F
推
03/13 05:39,
3年前
, 36F
03/13 05:39, 36F
推
03/13 08:54,
3年前
, 37F
03/13 08:54, 37F
推
03/13 09:15,
3年前
, 38F
03/13 09:15, 38F
→
03/13 09:15,
3年前
, 39F
03/13 09:15, 39F
→
03/13 09:15,
3年前
, 40F
03/13 09:15, 40F
※ 編輯: frouscy (172.92.160.251 美國), 03/13/2021 09:44:02
※ 編輯: frouscy (172.92.160.251 美國), 03/13/2021 09:44:26
推
03/13 09:44,
3年前
, 41F
03/13 09:44, 41F
※ 編輯: frouscy (172.92.160.251 美國), 03/13/2021 09:54:58
推
03/13 09:58,
3年前
, 42F
03/13 09:58, 42F
→
03/13 09:59,
3年前
, 43F
03/13 09:59, 43F
→
03/13 09:59,
3年前
, 44F
03/13 09:59, 44F
推
03/13 10:02,
3年前
, 45F
03/13 10:02, 45F
推
03/13 11:59,
3年前
, 46F
03/13 11:59, 46F
推
03/13 12:16,
3年前
, 47F
03/13 12:16, 47F
推
03/13 17:00,
3年前
, 48F
03/13 17:00, 48F
推
03/14 01:57,
3年前
, 49F
03/14 01:57, 49F
推
03/14 11:45,
3年前
, 50F
03/14 11:45, 50F
推
03/14 15:54,
3年前
, 51F
03/14 15:54, 51F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 3 之 9 篇):