Vision Transformers Need Registers
這篇是處理vit特徵圖的雜訊問題
大抵來說 背景會出現高norm的點
這些點大多數是沒啥資訊的背景
這些背景會丟失局部訊息並overfit全局訊息
換言之 我們可以說這些雜訊被模型當成全局訊息的暫存器
解決方法就是加幾個token當暫存器
訓練完丟掉
我測試對模型效果沒提升
然後加的token越少降低越少
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.136.82.186 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Marginalman/M.1767090138.A.0A2.html