Re: crossformer

看板Marginalman作者 (溫水佳樹的兄長大人)時間4天前 (2026/01/08 18:25), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串5/5 (看更多)
※ 引述 《sustainer123 (溫水佳樹的兄長大人)》 之銘言: :   : ※ 引述 《sustainer123 (溫水佳樹的兄長大人)》 之銘言: : : : 先試試原版好了 : : :   : : : 搓一個跑看看再說 : : :   : :   : : 魔改完成 參數量感覺會爆炸 : :   : : 但先試試:((( : :   : : 明天看看能不能跑通 : :   : : 大致上就decoder改了一些 : :   : : 改接upernet : :   : : encoder就沒差 : :   : : 畢竟NLP的transformer跟vit本質上沒差 : :   : : 而且model dim應該能設更小 : :   : : 這樣某方面來說應該能壓參數量 : :   : : 反正跑看看 : :   :   : 改了兩個小部分 :   : 第一個是前面加上降維 看起來效果不錯 :   : 第二個是把token merge改成swin transformer的樣子 :   : 這個提升很多 :   : 有待繼續測試 :   前面再加一個時間模組 不用attention改成cnn 然後再接卷積降維 沒啥提升 有待大量調參 這模型真的跑有夠慢 多卡才跑快一些 單卡跟烏龜一樣 attention可怕 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.140.210.217 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Marginalman/M.1767867910.A.116.html
文章代碼(AID): #1fNuO64M (Marginalman)
文章代碼(AID): #1fNuO64M (Marginalman)