Re: [新聞] 輝達H100晶片紓壓了 訂單大戶開始轉售

看板Stock作者 (3d)時間2月前 (2024/02/29 08:06), 編輯推噓10(5040122)
留言212則, 121人參與, 1月前最新討論串2/4 (看更多)
千禧年的網路泡沫,也是先炒作硬體商,Cisco, Sun...,Sun還有"dot in dot-com"的廣告。 網路確實是改變世界,但真正大賺的是軟體公司,而且是完全新鮮的軟體公司。 這次AI浪潮,應該也是類似。 N家這次炒作這麼高,是因為真的,Compute是供不應求。每個大公司都怕買不夠,跟不上。 但最近一些AI的發展,也許會發現,這些Compute是不需要的。 Mamba, RetNet, RWKV是從"Attention"的這點來改善。"Attention"是Quadratic Complexity,這是硬體需求的關鍵。現在在找方法從Quadratic改成Linear。 Mamba我很看好,它的作者之一也是"Flash Attention"的作者。 但昨天一篇新的論文,可能是真的翻天覆地的開始。 https://arxiv.org/abs/2402.17764 "The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits" https://news.ycombinator.com/item?id=39535800 hn的討論。 現在討論的共識是,可行,理論基礎很扎實。各路人馬開始指出,從2006年開始的這方面研究,已經找出好多篇證實這方向是可行的。 現在的LLM是用fp16(16bits),這方法可1.58bits,(討論說可以縮到0.68bits) 然後本來是fp dot product的只要int add。 輕鬆10x的效能,新ASIC針對Ternary weight發展可以輕鬆100x的效能改善? 如果這篇證實是可行的,AI起跑點重新設置,所有公司的價值都要重新計算。 這篇的作者群很有資歷,但很有趣的是,主要是來自北京/清華大學。美國猛力壓制中國的運力運算,造就不太需要Compute的方法的發現,戳破美國AI泡沫,這會是非常的諷刺。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.70.128.119 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1709165206.A.DEA.html

02/29 08:08, 2月前 , 1F
蒜粒概念股有嗎
02/29 08:08, 1F

02/29 08:10, 2月前 , 2F
可惜民進黨逢中必反 根本反智
02/29 08:10, 2F

02/29 08:11, 2月前 , 3F
中國沒有a100也可以發論文?
02/29 08:11, 3F

02/29 08:13, 2月前 , 4F
嗯,先拿點實際的東西出來看看
02/29 08:13, 4F

02/29 08:13, 2月前 , 5F
種蒜用農藥,重返榮耀哪一間我就不說了
02/29 08:13, 5F

02/29 08:14, 2月前 , 6F
說得很好 繼續加油啦
02/29 08:14, 6F

02/29 08:16, 2月前 , 7F
實作的出來再吹
02/29 08:16, 7F

02/29 08:16, 2月前 , 8F
這時候崩真的好,大家就可以xdd
02/29 08:16, 8F

02/29 08:16, 2月前 , 9F
算力需求根本沒極限 結案
02/29 08:16, 9F

02/29 08:17, 2月前 , 10F
可惜民進黨逢中必反 根本反智
02/29 08:17, 10F

02/29 08:17, 2月前 , 11F
對於降低資料頻寬的追求跟美國打不打壓沒關係啦
02/29 08:17, 11F

02/29 08:18, 2月前 , 12F
02/29 08:18, 12F

02/29 08:21, 2月前 , 13F
投資那麼多算力,結果沒辦法賺錢,目前很多AI產品
02/29 08:21, 13F

02/29 08:21, 2月前 , 14F
的狀況
02/29 08:21, 14F

02/29 08:21, 2月前 , 15F
沒有算力才在那邊搞五四三,最終還是回歸算力追求
02/29 08:21, 15F

02/29 08:21, 2月前 , 16F
大紀元
02/29 08:21, 16F

02/29 08:22, 2月前 , 17F
跟縮小晶片跟先進封裝兩條線不衝突一樣
02/29 08:22, 17F

02/29 08:22, 2月前 , 18F
理論上時光機也做得出來,理論上啦!中或贏,要加
02/29 08:22, 18F

02/29 08:23, 2月前 , 19F
油餒…
02/29 08:23, 19F

02/29 08:23, 2月前 , 20F
之前以太幣也是出現更有效率的挖礦法 結果沒人再用
02/29 08:23, 20F

02/29 08:23, 2月前 , 21F
顯卡挖 AI感覺也是遲早的事
02/29 08:23, 21F

02/29 08:25, 2月前 , 22F
美國用這個技術訓練更大的模型?
02/29 08:25, 22F

02/29 08:25, 2月前 , 23F
中文太爛,重寫一遍
02/29 08:25, 23F

02/29 08:26, 2月前 , 24F
我很懷疑你到底知不知道自己在講什麼
02/29 08:26, 24F

02/29 08:27, 2月前 , 25F

02/29 08:28, 2月前 , 26F
就是沒算力才在那邊搞東搞西的,等這東西真的弄出來
02/29 08:28, 26F

02/29 08:28, 2月前 , 27F
,人家瘋狂買算力的都跑多遠了?
02/29 08:28, 27F

02/29 08:29, 2月前 , 28F
好了啦 你賺多少
02/29 08:29, 28F

02/29 08:30, 2月前 , 29F
優化架構本來就一直存在 把這個扯成跟打壓晶片有關
02/29 08:30, 29F

02/29 08:30, 2月前 , 30F
?問號
02/29 08:30, 30F

02/29 08:30, 2月前 , 31F
還在理論可行沒實作的東西看看就好 不要又搞個超導
02/29 08:30, 31F

02/29 08:30, 2月前 , 32F
體笑話
02/29 08:30, 32F

02/29 08:30, 2月前 , 33F
你是誰
02/29 08:30, 33F

02/29 08:31, 2月前 , 34F
這麼說好了 gpu遲早會降價 沒錢的公司可以等價格合
02/29 08:31, 34F

02/29 08:31, 2月前 , 35F
理再買阿
02/29 08:31, 35F

02/29 08:31, 2月前 , 36F
又是太監在自慰不用性生活ㄏㄏ
02/29 08:31, 36F

02/29 08:31, 2月前 , 37F
大學的論文著重在理論,是的理論!!
02/29 08:31, 37F

02/29 08:32, 2月前 , 38F
這文字看了就頭痛
02/29 08:32, 38F

02/29 08:33, 2月前 , 39F
看到吹強國就可以不用看了
02/29 08:33, 39F
還有 133 則推文
02/29 13:04, 2月前 , 173F
語言模型夠了就加上視覺模型
02/29 13:04, 173F

02/29 13:04, 2月前 , 174F
視覺夠了再塞物理模型
02/29 13:04, 174F

02/29 13:04, 2月前 , 175F
要說算力夠了還太早吧
02/29 13:04, 175F

02/29 13:24, 2月前 , 176F
這種文大家就別認真了
02/29 13:24, 176F

02/29 13:32, 2月前 , 177F
cannedtuna這點子不錯耶 QQ等等搞一個測測看
02/29 13:32, 177F

02/29 13:33, 2月前 , 178F
要修改LLM結構,然後重新弄一套高效的,再訓練,通
02/29 13:33, 178F

02/29 13:33, 2月前 , 179F
常時程不會贏大力出奇蹟的。
02/29 13:33, 179F

02/29 13:33, 2月前 , 180F
現在瘋搶H100就是要拼時間上灘頭。
02/29 13:33, 180F

02/29 13:34, 2月前 , 181F
大力出奇蹟就scaling law所預測啊不過1b fgpa model
02/29 13:34, 181F

02/29 13:35, 2月前 , 182F
已經很久以前就有 shannon都可以拿來預測上限
02/29 13:35, 182F

02/29 13:35, 2月前 , 183F
不過mamba只是為了解決infernece 他在training端
02/29 13:35, 183F

02/29 13:36, 2月前 , 184F
還是有一堆限制和缺點RNN缺點就是不能並行運算
02/29 13:36, 184F

02/29 13:36, 2月前 , 185F
然後mamba那個做法會無法有效利用tensor core
02/29 13:36, 185F

02/29 13:43, 2月前 , 186F
GPU inference?
02/29 13:43, 186F

02/29 13:43, 2月前 , 187F
Mamba用prefix-sums來避開rnn不能平行運算的問題。
02/29 13:43, 187F

02/29 13:44, 2月前 , 188F
樓上 那玩意不能有效利用tensor core
02/29 13:44, 188F

02/29 13:45, 2月前 , 189F
Google最新那篇設計就好很多BlockState Transformer
02/29 13:45, 189F

02/29 13:47, 2月前 , 190F
StateSpace+Transformer 我個人覺得比較符合現在
02/29 13:47, 190F

02/29 13:48, 2月前 , 191F
parallel scan(prefix sums)可以用tensor core啊。
02/29 13:48, 191F

02/29 13:49, 2月前 , 192F
只是比較麻煩而已。Mamba的問題是"selective"會不會
02/29 13:49, 192F

02/29 13:50, 2月前 , 193F
太loosy。目前看來是沒問題的,但還是需要更大的
02/29 13:50, 193F

02/29 13:50, 2月前 , 194F
以A100為例 fp32(19.5Tflops) Tensor-core(156Tflop
02/29 13:50, 194F

02/29 13:50, 2月前 , 195F
model來證實。Mamba最重要是"context"可以變得很大
02/29 13:50, 195F

02/29 13:52, 2月前 , 196F
當你有unlimited context的時候。直接就用zero shot
02/29 13:52, 196F

02/29 13:53, 2月前 , 197F
learning了,RAG就不需要了,更容易使用。
02/29 13:53, 197F

02/29 13:53, 2月前 , 198F
mamba優點就是hidden state update會根據input調整
02/29 13:53, 198F

02/29 13:55, 2月前 , 199F
QQ這幾天來實作一下mamba好了 看一下訓練的成本
02/29 13:55, 199F

02/29 14:08, 2月前 , 200F
扯到底中國為何CV LLM可以這麼強
02/29 14:08, 200F

02/29 14:48, 2月前 , 201F
中國自我安慰罷了 可憐那
02/29 14:48, 201F

02/29 17:40, 2月前 , 202F
不是啊...就算真的能無損效能改int, 那改完int省出
02/29 17:40, 202F

02/29 17:40, 2月前 , 203F
來的算力我也可以繼續擴增模型尺寸啊, 模型變大能
02/29 17:40, 203F

02/29 17:40, 2月前 , 204F
做的事更多更好一樣甩你好幾個車身, 不加大模型我
02/29 17:40, 204F

02/29 17:40, 2月前 , 205F
也可以加快運算效率啊, 影片即時翻譯字幕比你快比
02/29 17:40, 205F

02/29 17:40, 2月前 , 206F
你精準還是把你壓在地上摩擦, 追根究底算力碾壓的
02/29 17:40, 206F

02/29 17:40, 2月前 , 207F
前提下還在妄想什麼彎道超車?
02/29 17:40, 207F

02/29 19:16, 2月前 , 208F
連晶片都要手工的國家,你吹慢慢吹
02/29 19:16, 208F

02/29 19:17, 2月前 , 209F
上次一堆韭菜被詐騙,這次一定不一樣對不對
02/29 19:17, 209F

03/02 02:58, 1月前 , 210F
笑死 一堆不懂AI的在亂噓 我公司在小模型可以重現
03/02 02:58, 210F

03/02 02:58, 1月前 , 211F
這對降低成本還有inference速度有很大的影響
03/02 02:58, 211F

03/02 03:01, 1月前 , 212F
這是今年以來最重要的Paper
03/02 03:01, 212F
文章代碼(AID): #1btygMtg (Stock)
討論串 (同標題文章)
文章代碼(AID): #1btygMtg (Stock)