[心得] kaggle心得分享
本魯今年開始"認真"學習DL, 同時發現kaggle這個好地方.
先上DL自學菜單:
1. http://speech.ee.ntu.edu.tw/~tlkagk/courses.html
2. http://cs231n.stanford.edu/
3. https://www.google.com.tw/
看1,2, 看不懂就3. 但其實會google就夠了.
最重要的是觀念, 昨晚po在八卦板, 這裡就不重複貼啦. (風格不符XD)
Kaggle則是我的學習動力來源, 玩了幾個月有些心得跟網路上不太一樣:
1. 直接找大比賽練習 -
同樣是花時間, 不如找回饋較多的比賽,
不論是積分或獎金, 來滿足一下虛榮心, 會學得比較開心.
2. 對有興趣, 且沒有套路的比賽認真 -
咖狗比較可惜的是, 很多競賽大家的方法都一樣, 成績也擠成一團,
雖然說ensemble也是一門學問, 但還有其他更值得你花時間的地方.
3. 相信LB score -
許多人建議避免過度fit LB, 否則容易造成overfitting.
我想除非是藉由調整無關緊要的參數來取得更好的LB score,
或是public/private不是random或sample太少,
否則大部分的情況是不用擔心的.
有些kaggler會建議找出與LB結果接近的CV set來使用,
有人說這不過是另一種型式的fit LB.
關於數海獅競賽:
https://www.kaggle.com/c/noaa-fisheries-steller-sea-lion-population-count
題目是計算圖片中各型別海獅(分公母大小, 5類)的數量.
既然是數數題, 我就這樣解: (DL第一課: neural network is a black box)
Input(切成小片的圖片) -> [黑盒子] -> output(小圖片中海獅各型別的數量)
黑盒子:
VGG16 w/o top + FC*1024 + FC*5(linear, 輸出五種海獅的數量)
最後就是用撒尿牛丸(Fit LB)搞定scale問題:
自從吃了outrunner的撒尿牛丸後考試都考一百分 ~by 5th team
我吃了以後明顯的高了 ~by 4th team
5th還強烈建議2nd吃吃看, 我覺得這是這次比賽最有趣的地方.
至於入門第一場分魚種的比賽, 我是用SSD, 成績出乎意料.
因為一直到比賽結束一個月後我才把SSD看完,
想到Keras貓狗範例中有提到:
In fact, in the Kaggle competition, this model would have scored
in the top 100 (out of 215 entrants). I guess that at least 115
entrants weren't using deep learning.
最後附上profile: https://www.kaggle.com/outrunner
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.42.206.20
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1498959912.A.6C5.html
推
07/02 10:14, , 1F
07/02 10:14, 1F
→
07/02 10:17, , 2F
07/02 10:17, 2F
→
07/02 11:03, , 3F
07/02 11:03, 3F
各自做label的人(手動/半自動)還不少, 有些人會分享. 這次是資料量太大.
推
07/02 11:19, , 4F
07/02 11:19, 4F
推
07/02 11:24, , 5F
07/02 11:24, 5F
→
07/02 11:45, , 6F
07/02 11:45, 6F
推
07/02 11:46, , 7F
07/02 11:46, 7F
→
07/02 11:58, , 8F
07/02 11:58, 8F
→
07/02 11:58, , 9F
07/02 11:58, 9F
→
07/02 11:58, , 10F
07/02 11:58, 10F
推
07/02 12:30, , 11F
07/02 12:30, 11F
→
07/02 12:33, , 12F
07/02 12:33, 12F
推
07/02 12:36, , 13F
07/02 12:36, 13F
→
07/02 12:36, , 14F
07/02 12:36, 14F
分魚類的時候, 我只用一台爛爛的nb,
不過後來a到一張gtx 1080, 以數海獅的資料量來說, 沒GPU還真的玩不動.
建議至少弄張有4GB ram的顯卡來玩.
我還蠻好奇租server的花費跟本機比起來差多少?
推
07/02 12:44, , 15F
07/02 12:44, 15F
看起來很讚, 跟推.
推
07/02 13:38, , 16F
07/02 13:38, 16F
推
07/02 13:45, , 17F
07/02 13:45, 17F
感謝. 用Faster RCNN就值得尊敬啦XD.
此外, YOLO作者在deadline後說他不小心錯過了, 雖然他沒說要用什麼方式做.
還是感到有點遺憾.
推
07/02 13:48, , 18F
07/02 13:48, 18F
推
07/02 14:30, , 19F
07/02 14:30, 19F
→
07/02 14:31, , 20F
07/02 14:31, 20F
→
07/02 15:00, , 21F
07/02 15:00, 21F
→
07/02 15:01, , 22F
07/02 15:01, 22F
→
07/02 15:02, , 23F
07/02 15:02, 23F
抱歉容我保留一下.
ML是當年念書的時候有學過. 其實不記得那時候有這個詞.
就是PR, NN之類都學過, 然後工作也大多沒有相關性.
這次就是DL紅了, 大家跟風, 我也跟風.
推
07/02 15:26, , 24F
07/02 15:26, 24F
推
07/02 16:11, , 25F
07/02 16:11, 25F
推
07/02 16:31, , 26F
07/02 16:31, 26F
推
07/02 16:43, , 27F
07/02 16:43, 27F
→
07/02 16:43, , 28F
07/02 16:43, 28F
OS不是問題. 我用windows, 當然linux也ok.
推
07/02 18:14, , 29F
07/02 18:14, 29F
推
07/02 18:16, , 30F
07/02 18:16, 30F
就只是覺得夠了這樣...後來試過多了也沒用.
推
07/02 20:18, , 31F
07/02 20:18, 31F
→
07/02 20:18, , 32F
07/02 20:18, 32F
推
07/02 22:48, , 33F
07/02 22:48, 33F
推
07/02 23:16, , 34F
07/02 23:16, 34F
→
07/02 23:17, , 35F
07/02 23:17, 35F
→
07/02 23:18, , 36F
07/02 23:18, 36F
推
07/02 23:21, , 37F
07/02 23:21, 37F
顯卡ram主要跟model及batch size有關, 當然是多多益善啦.
但我為了彈性會雙開. 所以這次一個process只用不到4GB. (1080有8G)
推
07/02 23:24, , 38F
07/02 23:24, 38F
推
07/02 23:35, , 39F
07/02 23:35, 39F
推
07/02 23:36, , 40F
07/02 23:36, 40F
推
07/03 03:51, , 41F
07/03 03:51, 41F
歡迎, 不過目前我比較有心得的就是數海獅...
推
07/03 10:49, , 42F
07/03 10:49, 42F
推
07/03 11:32, , 43F
07/03 11:32, 43F
推
07/03 13:56, , 44F
07/03 13:56, 44F
→
07/03 13:56, , 45F
07/03 13:56, 45F
推
07/03 14:24, , 46F
07/03 14:24, 46F
→
07/03 14:25, , 47F
07/03 14:25, 47F
→
07/03 14:26, , 48F
07/03 14:26, 48F
→
07/03 14:27, , 49F
07/03 14:27, 49F
→
07/03 14:28, , 50F
07/03 14:28, 50F
→
07/03 14:29, , 51F
07/03 14:29, 51F
→
07/03 14:41, , 52F
07/03 14:41, 52F
推
07/03 15:53, , 53F
07/03 15:53, 53F
→
07/03 18:29, , 54F
07/03 18:29, 54F
→
07/04 10:59, , 55F
07/04 10:59, 55F
推
07/04 19:23, , 56F
07/04 19:23, 56F
→
07/04 19:23, , 57F
07/04 19:23, 57F
哈, 還好我有贏sample submission
推
07/06 06:13, , 58F
07/06 06:13, 58F
嚴格來說從test image縮圖開始就算啦.
幾乎所有人都縮了一半以上(vs. training set)
為了輸出更多的未成年海獅有兩個做法:
(1) 縮圖
(2) 事後補償
第二名的複雜regressor我猜多少有一點(2)的成分在.
另外我猜(1)做過頭(做到最佳解, 平均大小會比訓練集小), 再做(2)也沒用.
推
07/07 00:11, , 59F
07/07 00:11, 59F
※ 編輯: outrunner (114.42.219.184), 07/07/2017 16:46:28
推
07/07 19:18, , 60F
07/07 19:18, 60F
推
07/08 17:43, , 61F
07/08 17:43, 61F