作者查詢 / a75468
作者 a75468 在 PTT [ DataScience ] 看板的留言(推文), 共20則
限定看板:DataScience
看板排序:
全部PuzzleDragon90NTU84RockMetal78Hearthstone54WhiteCat23WrawlStars23DataScience20joke15NTUEE11510NtuDormM39EEBasketball8Hip-Hop8LMSH7movie7Gossiping6EE_DSnP5Python5NTUcourse4Soft_Job4Drum3EE_Comment3Golden-Award3NTURockClub3RO3RO_Mobile3SummerCourse3YUGIOH3ChainChron2Isayama2marvel2NTU_BOTDorm22NTUSLC2PathofExile2B97A013XX1ChthoniC1FuMouDiscuss1gay1NBA1NBA_Film1NTU-Exam1NTU_BOTDorm1NTUEE1071NTUEE115HW1NTUSA1pal1PostRock1PublicIssue1specialman1studyabroad1TKU_EE_92C1<< 收起看板(50)
首頁
上一頁
1
下一頁
尾頁
3F推: Bert 有跟 downstream 一起 finetune 嗎?10/27 21:25
1F推: 也不是人人都能爽 train batch size 2048 的 model ...10/11 00:03
6F→: batch size 不變大不就是原本的SAGAN了10/14 16:38
7F→: 他後面那些trick都是基於batch size變大後做的改正10/14 16:38
8F→: 如果batch size沒那麼大做那些trick會發生什麼不好說10/14 16:38
5F→: 中間維度有跟著調整嗎?另外這個架構看起來capacity對於05/31 18:22
6F→: 動漫的dataset來說應該太小了05/31 18:22
1F推: 有謠言是說一個batch裡都放同一種label比較好,所以這個ca05/22 21:09
2F→: se就是兩個batch,128個1以及128個005/22 21:09
1F→: 就是個乘W而已04/28 01:14
1F→: 用越低階的硬體運算通常越快(可以想成減少更多的overhead04/13 23:19
2F→: ),同理asic通常比fpga快04/13 23:19
3F推: 推推04/06 14:57
1F推: 傳統RL的話可以玩柏克萊的小精靈project03/24 09:28
3F推: 唯一支持大金03/24 01:14
8F推: 假設機器的資源(GPU)是固定的,而且套件把inference最佳03/08 00:15
9F→: 化了,假設某張圖進到第三層,如果要去算另外一張圖的第二03/08 00:19
10F→: 層的話,第一張圖就會卡在第三層等另一張圖(資源固定)03/08 00:19
11F→: 所以理論上直接讓一張圖跑到底是bottleneck比較小的方法(03/08 00:20
12F→: ?) 不過我也不熟tf or pytorch的實作 等大大開示03/08 00:22
首頁
上一頁
1
下一頁
尾頁