討論串crossformer
共 5 篇文章
首頁
上一頁
1
下一頁
尾頁

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者sustainer123 (溫水佳樹的兄長大人)時間4天前 (2026/01/08 18:25), 編輯資訊
0
0
0
內容預覽:
前面再加一個時間模組. 不用attention改成cnn. 然後再接卷積降維. 沒啥提升. 有待大量調參. 這模型真的跑有夠慢. 多卡才跑快一些. 單卡跟烏龜一樣. attention可怕. --. 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.140.210.217 (臺灣).

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者sustainer123 (溫水佳樹的兄長大人)時間5天前 (2026/01/07 17:26), 編輯資訊
0
0
0
內容預覽:
改了兩個小部分. 第一個是前面加上降維 看起來效果不錯. 第二個是把token merge改成swin transformer的樣子. 這個提升很多. 有待繼續測試. --. 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.136.82.186 (臺灣). 文章網址: https:

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者sustainer123 (溫水佳樹的兄長大人)時間6天前 (2026/01/06 18:16), 編輯資訊
0
0
0
內容預覽:
魔改完成 參數量感覺會爆炸. 但先試試:(((. 明天看看能不能跑通. 大致上就decoder改了一些. 改接upernet. encoder就沒差. 畢竟NLP的transformer跟vit本質上沒差. 而且model dim應該能設更小. 這樣某方面來說應該能壓參數量. 反正跑看看. --.

推噓1(1推 0噓 2→)留言3則,0人參與, 1周前最新作者sustainer123 (溫水佳樹的兄長大人)時間1周前 (2026/01/05 16:49), 編輯資訊
0
0
0
內容預覽:
靠北 我還想說他要怎麼把時間序列模型魔改成時空序列模型. 我還思考技術可行性 想說大致能跑通. 結果是他用同名的架構. 另一篇給cv的論文. 早知道翻一下reference. 不過時間序列那篇給我不少想法 不虧 吧. --. 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.136.82

推噓1(1推 0噓 0→)留言1則,0人參與, 1周前最新作者sustainer123 (溫水佳樹的兄長大人)時間1周前 (2026/01/05 15:40), 編輯資訊
0
0
0
內容預覽:
滿有趣的一篇文章. 考慮多變數維度. 還考慮了多尺度混合. 算借鑒swin transformer吧. 但我的問題要考慮變數/時間/空間. 三種關係照他邏輯多加一層. 感覺參數量跟時間都會爆炸高. 好麻煩. 先試試原版好了. 搓一個跑看看再說. --. 發信站: 批踢踢實業坊(ptt.cc),
首頁
上一頁
1
下一頁
尾頁