作者查詢 / afacebook
作者 afacebook 在 PTT [ Stock ] 看板的留言(推文), 共1764則
限定看板:Stock
看板排序:
全部Gossiping4418Stock1764HatePolitics1153PC_Shopping348Baseball285Military141DigiCurrency73ONE_PIECE58StarCraft31AI_Art21marvel13home-sale11Olympics_ISG11Tech_Job11nCoV20197Hearthstone5Lifeismoney5C_Chat4joke4graduate3L_TalkandCha3Wanhua3cat2CCRomance2NTU2San-Ying2Tainan2Taipei2WomenTalk2Electronics1Isayama1KoreaDrama1MobileComm1Modchip1NFL1Option1PingTung1Programming1rent-exp1Salary1TigerBlue1TOEFL_iBT1<< 收起看板(42)
228F推: 沒有派地面部隊,接管就是自己講爽的01/04 12:39
119F推: 中國要斬首早做了 難道還要等校長批准?01/03 19:26
155F推: 全聯12/29 16:43
20F推: 看庫存沒意義吧 可能就炒作12/27 14:57
21F推: 主要看供給量12/27 14:59
54F推: 只能買別人工廠,很難自己重新開始打造12/26 12:08
64F推: 現在低端 1x奈米的 已經快被中國做爛12/26 12:10
72F→: 有競爭力的只有1b1c等等 其他不太行12/26 12:14
75F→: 現在才進記憶體 也只能做低端12/26 12:14
100F推: 我覺得只是消費性電子產品出問題了12/26 12:17
102F→: 美光自己都不願意做模組 你就知道12/26 12:18
206F噓: 自動駕駛就沒有再跟人類比的啊 跑贏人類只是baselin12/15 15:35
207F→: 老馬就當初不懂AI 自己放棄光達12/15 15:36
208F→: 現在都只是在安撫信眾而已12/15 15:36
209F→: 人類數量那麼多 只有要幾個飆仔就能把統計數值搞爛12/15 15:37
210F→: 他自己都在新架構放上接口了 他很想把光達放回去12/15 15:40
211F→: 只是這樣很尷尬 信眾的信仰會崩潰12/15 15:41
212F→: 他需要一個契機 讓信仰不至於崩潰的契機12/15 15:42
21F推: 不對喔 transformer基本就是qkv+ffn12/14 15:58
22F→: 如果你只改了FFN 那確實就如這篇說的12/14 15:59
23F→: 叫xxtransformer才對 transformer已經被魔改到12/14 15:59
24F→: 我隨便就能舉出2-30transformer架構12/14 16:00
25F→: 然後他還改變了training的方式 但那些fine-turing的12/14 16:01
26F→: 技巧 其實還滿常使用的12/14 16:01
27F→: 在transfer learning 本來就沒有一次性地更新模型的12/14 16:02
28F→: 不同的模型使用不同的更新速率 這是很常見的12/14 16:02
29F→: 你如果訓練GAN 更常使用不同頻率的更新技巧12/14 16:03
30F→: 再來就是他使用了一種新的op 那這要實驗去驗證12/14 16:04
31F→: 簡單的說 大模型試試看 目前說實在 沒有覺得很亮眼12/14 16:04
32F→: 他如果能在大模型打敗所有人 一翻兩瞪眼12/14 16:05
33F→: 管他叫什麼 大家都會覺得你是神12/14 16:06
34F→: 而且他FFN 用了5層....嗯 不好說 很反直覺12/14 16:07
35F推: 不過我還是要謝謝原本那篇文章 看股版還可以讀論文12/14 16:24
263F推: 2年我看大家也是說transformer完蛋了 是mamba得天下12/13 10:51
264F→: 可是現在主流還是都用Transformer12/13 10:51
265F→: 看起來真的很厲害 不過在看看12/13 10:52
271F推: 我看起來他跟qkv結構沒甚麼關聯ㄟ 他是一種新的梯度12/13 11:00
272F→: 度更新方式12/13 11:01
273F→: 論文確實很厲害 不過跟記憶體好像沒啥關聯12/13 11:01
373F推: 當初大家覺得Mamba能取代transformer 是MoE+mamba或12/13 15:32
374F→: 其他的架構 當然不可能只有一層ssm的架構啊12/13 15:33
375F→: 這東西感覺是一種特別的fine turing12/13 15:34
376F→: 能不能成功 要再多做一點實驗12/13 15:34
377F→: 現在主要還是覺得大模型比較強12/13 15:36
378F→: 這是想要做些中模型 就能有很好的適應能力吧12/13 15:36
379F→: 很特別 請google再多做一點實驗12/13 15:37
380F→: CMS這種更新方式 其實跟一般 先凍結一些層 然後慢慢12/13 15:39
381F→: 打開 不是很像嗎?12/13 15:40
382F→: 然道主要是那optimizer有貢獻嗎12/13 15:41
383F→: 好像也沒這麼簡單 要再研究一下12/13 15:43
389F推: Mamba有沒有成氣候 還不知道吧....12/13 16:24
390F→: 每次新架構出來 基本都會吹一下 要經過檢驗12/13 16:26
391F推: 說實在 我個人是覺得沒有到當初看Transformer那種12/13 16:28
392F→: 神奇感 就是等看接下來發展12/13 16:29
7F推: 象徵性的東西 現在發射成本還是太貴12/11 10:52
8F→: 不可能修 壞了就整個報廢12/11 10:52
98F推: Tsla寫多餘的 沒人會特地在電動車上用ai12/07 15:13
99F→: 要也是用手機的ai 然後機器人寫爽的嗎?12/07 15:14