Re: [請益] 機器學習在台灣的出路

看板Soft_Job作者 (草草)時間8年前 (2017/08/28 13:22), 8年前編輯推噓16(16036)
留言52則, 14人參與, 最新討論串3/8 (看更多)
以前碩士有做過機器學習,用的語言是Matlab(LIBSVM)、Python(scikit-learn) 都是用監督式學習來做預測(y's=實數), 演算法大多都用SVR、隨機森林、迴歸樹、整體式學習等 資料學習的步驟是以下這樣子 讀取資料→資料前處理→分訓練資料和測試資料→選取特徵→建模→預測新資料 →畫圖或計算指標→分析結果 若預測不好,就返回修改演算法參數,再建模,直到找出最佳模型 看到版上有人說機器學習數學要很強,還要自已寫ML演算法 不是都有人寫好了嗎?直接應用不是嗎? 也許是小弟對於ML領域還未深入了解,只是想提出自已的問題 另外,若要往上述內容的工作(資料學習與分析),需要具備什麼樣的專業知識或門檻呢? 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.132.58.80 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1503897766.A.218.html ※ 編輯: popo14777 (220.132.58.80), 08/28/2017 13:27:35

08/28 13:28, , 1F
說一下前處理和選取特徵是如何達成的吧
08/28 13:28, 1F
正規化,特徵選取理論則是用逐步回歸來選擇特徵,應用則是由專家決定特徵

08/28 13:32, , 2F
只會用現成的套件,這樣很多人都可以快速入門,替代性高
08/28 13:32, 2F

08/28 13:41, , 3F
自然是看你走的方向,理論模型和實際應用兩者不盡相同,
08/28 13:41, 3F

08/28 13:41, , 4F
前者良好的數學基礎會讓你的模型簡潔高效,後者更重視
08/28 13:41, 4F

08/28 13:41, , 5F
個人經驗(包含模型選用、調參技巧和防止overfitting等
08/28 13:41, 5F

08/28 13:41, , 6F
),當然兩者兼具的人會更有競爭力,這就看個人規劃了
08/28 13:41, 6F

08/28 13:42, , 7F
修參數不好吧,你不能保證,下次新的data,同樣參數還
08/28 13:42, 7F

08/28 13:42, , 8F
能實用,應該要做feature engineering,從這去下手
08/28 13:42, 8F

08/28 13:46, , 9F
數學方面,起碼要統計,而且你也說迴歸樹了,不懂迴歸
08/28 13:46, 9F

08/28 13:46, , 10F
很難做,況且svm還有kernel要選,RF背後也一堆數學,起
08/28 13:46, 10F

08/28 13:46, , 11F
碼要懂,不然參數根本亂調
08/28 13:46, 11F
嗯..目前知道c和gamma不能太大,不然會overfitting,以前老闆就說用窗格搜尋來 決定最佳參數,也許是研究目的才需要這樣?

08/28 13:49, , 12F
實際上台灣也沒什麼產業需要人創新ML演算法吧 多數精力
08/28 13:49, 12F

08/28 13:49, , 13F
數學的程度,起碼要懂model背後的概念
08/28 13:49, 13F

08/28 13:50, , 14F
大概都會是在資料清理跟特徵選取
08/28 13:50, 14F

08/28 13:52, , 15F
創新還是好的,拿XGB舉例,paper還沒發就超多人用,這
08/28 13:52, 15F

08/28 13:52, , 16F
就是價值
08/28 13:52, 16F

08/28 13:55, , 17F
而且不只是數學,這些方法都出來很久了,要靠資工去實
08/28 13:55, 17F

08/28 13:55, , 18F
作,例如GPU運算,這就是很大的突破,不只是DL,ML也在
08/28 13:55, 18F

08/28 13:55, , 19F
往這方向走
08/28 13:55, 19F

08/28 13:56, , 20F
資料如果是自行取得的 還要懂survey sampling呢 科科
08/28 13:56, 20F

08/28 13:56, , 21F
套別人的演算法誰都會,但也就沒甚麼價值
08/28 13:56, 21F

08/28 14:00, , 22F
現在是雷聲大雨點小的狀態,但兩三年後不知道
08/28 14:00, 22F

08/28 14:08, , 23F
兩三年? 可是這些國外已經發展超過10年了
08/28 14:08, 23F

08/28 14:10, , 24F
光是 kaggle 就超過6年了
08/28 14:10, 24F

08/28 14:27, , 25F
我覺得重點是在於,台灣業界真的有這種需求嗎 www
08/28 14:27, 25F
※ 編輯: popo14777 (220.132.58.80), 08/28/2017 14:40:39 ※ 編輯: popo14777 (220.132.58.80), 08/28/2017 14:43:23

08/28 17:32, , 26F
所以搞自己的演算法就有價值?你也要看是在哪裡搞阿 廠廠
08/28 17:32, 26F

08/28 18:08, , 27F
調參 模型選擇 資料處理之類的看起來沒什麼技術 不過在
08/28 18:08, 27F

08/28 18:09, , 28F
工程上經驗上就是價值 許多應用說穿了也沒多深奧
08/28 18:09, 28F

08/28 19:03, , 29F
只會這樣結果大概是你的model70%別人95%,差別就在
08/28 19:03, 29F

08/28 19:03, , 30F
08/28 19:03, 30F

08/28 19:17, , 31F
我之前在生狀資訊上面大家更在意整體流程跟vector怎麼選
08/28 19:17, 31F

08/28 19:18, , 32F
Kernel帶來的效益反而不是重點,他們更想看見有效的vector
08/28 19:18, 32F

08/28 19:18, , 33F
跟資料處理流程怎麼被不同的kernel驗證是有效的。
08/28 19:18, 33F

08/28 19:20, , 34F
生物資訊
08/28 19:20, 34F

08/28 19:25, , 35F
因為你的資料都被整理好了 其實整理資料才是最難的部分
08/28 19:25, 35F

08/28 19:35, , 36F
feature engineering 的效果遠遠超過你選什麼模型
08/28 19:35, 36F

08/28 19:37, , 37F
DL相對來說更自動化 不過人工選變數仍然有正面影響
08/28 19:37, 37F

08/28 19:44, , 38F
data cleaning 就苦工最少人做,大家都想做data scient
08/28 19:44, 38F

08/28 19:44, , 39F
ist
08/28 19:44, 39F

08/28 19:54, , 40F
data cleaning才是data science的精髓 所謂 garbage in
08/28 19:54, 40F

08/28 19:54, , 41F
garbage out 演算法已經滿街都是 api簡化到阿罵都會用
08/28 19:54, 41F

08/28 19:55, , 42F
市面上可以找到的database 沒有一個可直接拿來做應用
08/28 19:55, 42F

08/28 19:56, , 43F
不過如果哪天G社把database都搞定上雲端 那大家真的可
08/28 19:56, 43F

08/28 19:57, , 44F
以洗洗睡了 (煙
08/28 19:57, 44F

08/28 20:23, , 45F
研究所部分,其實台灣學術圈就是這樣,跟風騙經費的太
08/28 20:23, 45F

08/28 20:23, , 46F
多了,原PO可能不是,但太多教授根本不懂就在做計畫,
08/28 20:23, 46F

08/28 20:23, , 47F
反正學術圈做的很爛也沒人care
08/28 20:23, 47F

08/29 01:37, , 48F
我也是正在用SVR於預測 雖然scikit-learn很方便
08/29 01:37, 48F

08/29 01:38, , 49F
但能不能了解SVR的原理然後去改它我想比較重要
08/29 01:38, 49F

08/29 01:38, , 50F
這也是很常被老師提醒的部份(不過還沒自幹出來啦...
08/29 01:38, 50F

09/02 18:35, , 51F
玩kaggle的心得是 feature engineering真的很重要 這方面
09/02 18:35, 51F

09/02 18:35, , 52F
又沒經驗 只好在網路上找課程上了
09/02 18:35, 52F
文章代碼(AID): #1PewYc8O (Soft_Job)
討論串 (同標題文章)
文章代碼(AID): #1PewYc8O (Soft_Job)