作者查詢 / afacebook
作者 afacebook 在 PTT 全部看板的留言(推文), 共8385則
限定看板:全部
看板排序:
全部Gossiping4418Stock1753HatePolitics1153PC_Shopping345Baseball285Military141DigiCurrency73ONE_PIECE58StarCraft31AI_Art21marvel13home-sale11Olympics_ISG11Tech_Job11nCoV20197Hearthstone5Lifeismoney5C_Chat4joke4graduate3L_TalkandCha3Wanhua3cat2CCRomance2NTU2San-Ying2Tainan2Taipei2WomenTalk2Electronics1Isayama1KoreaDrama1MobileComm1Modchip1NFL1Option1PingTung1Programming1rent-exp1Salary1TigerBlue1TOEFL_iBT1<< 收起看板(42)
15F推: 南亞科擴廠也不是現在才擴就是36.225.91.28 12/19 18:11
16F→: 已經很久了36.225.91.28 12/19 18:11
206F噓: 自動駕駛就沒有再跟人類比的啊 跑贏人類只是baselin12/15 15:35
207F→: 老馬就當初不懂AI 自己放棄光達12/15 15:36
208F→: 現在都只是在安撫信眾而已12/15 15:36
209F→: 人類數量那麼多 只有要幾個飆仔就能把統計數值搞爛12/15 15:37
210F→: 他自己都在新架構放上接口了 他很想把光達放回去12/15 15:40
211F→: 只是這樣很尷尬 信眾的信仰會崩潰12/15 15:41
212F→: 他需要一個契機 讓信仰不至於崩潰的契機12/15 15:42
21F推: 不對喔 transformer基本就是qkv+ffn12/14 15:58
22F→: 如果你只改了FFN 那確實就如這篇說的12/14 15:59
23F→: 叫xxtransformer才對 transformer已經被魔改到12/14 15:59
24F→: 我隨便就能舉出2-30transformer架構12/14 16:00
25F→: 然後他還改變了training的方式 但那些fine-turing的12/14 16:01
26F→: 技巧 其實還滿常使用的12/14 16:01
27F→: 在transfer learning 本來就沒有一次性地更新模型的12/14 16:02
28F→: 不同的模型使用不同的更新速率 這是很常見的12/14 16:02
29F→: 你如果訓練GAN 更常使用不同頻率的更新技巧12/14 16:03
30F→: 再來就是他使用了一種新的op 那這要實驗去驗證12/14 16:04
31F→: 簡單的說 大模型試試看 目前說實在 沒有覺得很亮眼12/14 16:04
32F→: 他如果能在大模型打敗所有人 一翻兩瞪眼12/14 16:05
33F→: 管他叫什麼 大家都會覺得你是神12/14 16:06
34F→: 而且他FFN 用了5層....嗯 不好說 很反直覺12/14 16:07
35F推: 不過我還是要謝謝原本那篇文章 看股版還可以讀論文12/14 16:24
263F推: 2年我看大家也是說transformer完蛋了 是mamba得天下12/13 10:51
264F→: 可是現在主流還是都用Transformer12/13 10:51
265F→: 看起來真的很厲害 不過在看看12/13 10:52
271F推: 我看起來他跟qkv結構沒甚麼關聯ㄟ 他是一種新的梯度12/13 11:00
272F→: 度更新方式12/13 11:01
273F→: 論文確實很厲害 不過跟記憶體好像沒啥關聯12/13 11:01
373F推: 當初大家覺得Mamba能取代transformer 是MoE+mamba或12/13 15:32
374F→: 其他的架構 當然不可能只有一層ssm的架構啊12/13 15:33
375F→: 這東西感覺是一種特別的fine turing12/13 15:34
376F→: 能不能成功 要再多做一點實驗12/13 15:34
377F→: 現在主要還是覺得大模型比較強12/13 15:36
378F→: 這是想要做些中模型 就能有很好的適應能力吧12/13 15:36
379F→: 很特別 請google再多做一點實驗12/13 15:37
380F→: CMS這種更新方式 其實跟一般 先凍結一些層 然後慢慢12/13 15:39
381F→: 打開 不是很像嗎?12/13 15:40
382F→: 然道主要是那optimizer有貢獻嗎12/13 15:41
383F→: 好像也沒這麼簡單 要再研究一下12/13 15:43
389F推: Mamba有沒有成氣候 還不知道吧....12/13 16:24
390F→: 每次新架構出來 基本都會吹一下 要經過檢驗12/13 16:26
391F推: 說實在 我個人是覺得沒有到當初看Transformer那種12/13 16:28
392F→: 神奇感 就是等看接下來發展12/13 16:29
406F推: 現在還有人買電腦嗎......36.225.67.76 12/13 22:09
407F→: 大概漲了4倍 以前5000的東西 現在要2萬36.225.67.76 12/13 22:10
408F→: 其實搜尋菜單就會發現根本沒人再組電腦36.225.67.76 12/13 22:11
263F推: 2年我看大家也是說transformer完蛋了 是mamba得天下12/13 10:51
264F→: 可是現在主流還是都用Transformer12/13 10:51
265F→: 看起來真的很厲害 不過在看看12/13 10:52
271F推: 我看起來他跟qkv結構沒甚麼關聯ㄟ 他是一種新的梯度12/13 11:00
272F→: 度更新方式12/13 11:01
273F→: 論文確實很厲害 不過跟記憶體好像沒啥關聯12/13 11:01
373F推: 當初大家覺得Mamba能取代transformer 是MoE+mamba或12/13 15:32
374F→: 其他的架構 當然不可能只有一層ssm的架構啊12/13 15:33
375F→: 這東西感覺是一種特別的fine turing12/13 15:34
376F→: 能不能成功 要再多做一點實驗12/13 15:34
377F→: 現在主要還是覺得大模型比較強12/13 15:36
378F→: 這是想要做些中模型 就能有很好的適應能力吧12/13 15:36
379F→: 很特別 請google再多做一點實驗12/13 15:37
380F→: CMS這種更新方式 其實跟一般 先凍結一些層 然後慢慢12/13 15:39
381F→: 打開 不是很像嗎?12/13 15:40
382F→: 然道主要是那optimizer有貢獻嗎12/13 15:41
383F→: 好像也沒這麼簡單 要再研究一下12/13 15:43
389F推: Mamba有沒有成氣候 還不知道吧....12/13 16:24
390F→: 每次新架構出來 基本都會吹一下 要經過檢驗12/13 16:26
391F推: 說實在 我個人是覺得沒有到當初看Transformer那種12/13 16:28
392F→: 神奇感 就是等看接下來發展12/13 16:29
7F推: 象徵性的東西 現在發射成本還是太貴12/11 10:52
8F→: 不可能修 壞了就整個報廢12/11 10:52
74F推: 故意的 這樣設計比較容易壞36.225.67.76 12/07 15:23
98F推: Tsla寫多餘的 沒人會特地在電動車上用ai12/07 15:13
99F→: 要也是用手機的ai 然後機器人寫爽的嗎?12/07 15:14
40F推: 星鏈確實是未來 但不可能吃掉傳統電信市場 定位不同12/06 09:45
43F→: 在台灣還是乖乖用中華電信 除非老馬願意合資12/06 09:46
45F推: 老馬挺適合當宗教領袖的 講話很能吸引信教者12/06 09:50