Re: crossformer

看板Marginalman作者sustainer123 (溫水佳樹的兄長大人)時間4天前 (2026/01/08 18:25)推噓0(0推 0噓 0→)

留言0則, 0人參與討論串5/5 (看更多)

※ 引述《sustainer123 (溫水佳樹的兄長大人)》之銘言： : 　 : ※ 引述《sustainer123 (溫水佳樹的兄長大人)》之銘言： : : : 先試試原版好了 : : : 　 : : : 搓一個跑看看再說 : : : 　 : : 　 : : 魔改完成參數量感覺會爆炸 : : 　 : : 但先試試:((( : : 　 : : 明天看看能不能跑通 : : 　 : : 大致上就decoder改了一些 : : 　 : : 改接upernet : : 　 : : encoder就沒差 : : 　 : : 畢竟NLP的transformer跟vit本質上沒差 : : 　 : : 而且model dim應該能設更小 : : 　 : : 這樣某方面來說應該能壓參數量 : : 　 : : 反正跑看看 : : 　 : 　 : 改了兩個小部分 : 　 : 第一個是前面加上降維看起來效果不錯 : 　 : 第二個是把token merge改成swin transformer的樣子 : 　 : 這個提升很多 : 　 : 有待繼續測試 : 　前面再加一個時間模組不用attention改成cnn 然後再接卷積降維沒啥提升有待大量調參這模型真的跑有夠慢多卡才跑快一些單卡跟烏龜一樣 attention可怕 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.140.210.217 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Marginalman/M.1767867910.A.116.html

‣ 返回看板[ Marginalman ] 光美

‣ 更多 sustainer123 的文章

文章代碼(AID): #1fNuO64M (Marginalman)