[討論] 機器學習如何做好version control???

看板DataScience作者 (baby)時間6年前 (2018/04/14 05:15), 6年前編輯推噓3(3017)
留言20則, 4人參與, 6年前最新討論串1/5 (看更多)
大家好 我是ML新手 跟的前輩是很優秀的超強者 但是前輩很不organized 寫的code總是不commit 主管希望下個項目之前我可以提出報告要如何改進並且希望前輩能跟進 我是覺得ML和其他寫程式有點不同 因為不斷測試參數 每次調參數都commit的話好像太繁雜 所以我一般是有了好結果才com mit一次 不知道大家一般怎麼做的 另一個問題是資料庫會更新 更新過程那原來的model 不變讀到的數據就不一樣了那出來 的結果也還是不一樣 這樣要怎麼reproduce做出和原來一樣正確率?? 大家會寫個word檔紀錄每次Data的變化嗎? 想知道大家實際工作上是如何管理的呢? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 184.64.125.141 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1523654101.A.7A3.html

04/14 05:33, 6年前 , 1F
....這算大哉問等級的問題 (拉椅子等回答
04/14 05:33, 1F

04/14 05:34, 6年前 , 2F
我通常是參數會存到另一個檔裡
04/14 05:34, 2F

04/14 05:35, 6年前 , 3F
/data 部分丟進.gitignore 會備份但盡量不動
04/14 05:35, 3F

04/14 05:36, 6年前 , 4F
在訓練模型時不能一直用新data 不然會變多頭馬車
04/14 05:36, 4F

04/14 05:37, 6年前 , 5F
取什麼data或一些business logic寫進.md或test cases
04/14 05:37, 5F

04/14 05:38, 6年前 , 6F
之前有試過用GNU make 不過不太順手
04/14 05:38, 6F

04/14 05:39, 6年前 , 7F
最近發現這個但還沒試過, 他的模板大致不錯, 有些
04/14 05:39, 7F

04/14 05:39, 6年前 , 8F
我不太同意就是:
04/14 05:39, 8F

04/14 05:39, 6年前 , 9F
google搜 cookie cutter data science
04/14 05:39, 9F
謝謝 因為我主管是軟體部門的 對於ML他本來的認知是我和前輩每次只要碰script就應該 要commit阿 我怎麼想都覺得不太對 我目前也是覺得弄個txt檔紀錄比較好 不過只要我的 建議有理主管會聽我的 我來查查這個cookie cutter data science ※ 編輯: littleyuan (184.64.125.141), 04/14/2018 07:34:33

04/14 08:21, 6年前 , 10F
推 簡單但高級實用的問題
04/14 08:21, 10F

04/15 03:56, 6年前 , 11F
04/15 03:56, 11F

04/16 02:25, 6年前 , 12F
你可以請前輩讀這篇文章做開始:
04/16 02:25, 12F

04/16 02:25, 6年前 , 13F

04/16 02:25, 6年前 , 14F
裡面具體地指出機器學習系統的挑戰
04/16 02:25, 14F

04/16 02:26, 6年前 , 15F
然後你們可以開始研究解法(這應該還是Open Problem)
04/16 02:26, 15F

04/16 02:26, 6年前 , 16F
我不覺得version control可以解決所有的問題, 但是如
04/16 02:26, 16F

04/16 02:26, 6年前 , 17F
code / data schema 進 version control 應該只是基本
04/16 02:26, 17F

04/16 02:28, 6年前 , 18F
版上很多人給的建議是關於"code"方面的管理,下面有板友
04/16 02:28, 18F

04/16 02:28, 6年前 , 19F
推薦了"data"上的管理工具, 不過如果你們是每天收集新資
04/16 02:28, 19F

04/16 02:29, 6年前 , 20F
料更新模型的系統,那我想data dependency的挑戰人然很大
04/16 02:29, 20F
文章代碼(AID): #1QqHtLUZ (DataScience)
討論串 (同標題文章)
文章代碼(AID): #1QqHtLUZ (DataScience)