Re: crossformer
※ 引述 《sustainer123 (溫水佳樹的兄長大人)》 之銘言:
:
: ※ 引述 《sustainer123 (溫水佳樹的兄長大人)》 之銘言:
: : : 先試試原版好了
: : :
: : : 搓一個跑看看再說
: : :
: :
: : 魔改完成 參數量感覺會爆炸
: :
: : 但先試試:(((
: :
: : 明天看看能不能跑通
: :
: : 大致上就decoder改了一些
: :
: : 改接upernet
: :
: : encoder就沒差
: :
: : 畢竟NLP的transformer跟vit本質上沒差
: :
: : 而且model dim應該能設更小
: :
: : 這樣某方面來說應該能壓參數量
: :
: : 反正跑看看
: :
:
: 改了兩個小部分
:
: 第一個是前面加上降維 看起來效果不錯
:
: 第二個是把token merge改成swin transformer的樣子
:
: 這個提升很多
:
: 有待繼續測試
:
前面再加一個時間模組
不用attention改成cnn
然後再接卷積降維
沒啥提升
有待大量調參
這模型真的跑有夠慢
多卡才跑快一些
單卡跟烏龜一樣
attention可怕
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.140.210.217 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Marginalman/M.1767867910.A.116.html
討論串 (同標題文章)