Re: [標的] NVDA 長期無腦多已刪文

看板Stock作者 (Channel Coding)時間3月前 (2024/02/13 00:26), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串3/3 (看更多)
不知道為捨抹會講到邊緣運算啦QQ 不過老黃這波佈局就是替兩三年後落地場景客製化晶片 一般落地場景Inference(AI推理)的工程順序如下 拿一個PreTrain萬用大模型 用特殊資料FineTune 然後Deploy (Inference) 以LLaMA 7B模型為例 假設我今天要做一個醫療問診小幫手的AI 當我用一堆醫療資料 FineTune這個LLaMA 65B模型後達到我需求 (到此為此都會在Cuda生態圈做) 接下來就是所謂的Deploy (AI推理) 就是把模型每個unit的參數讀出 然後根據你晶片特性去寫c code 比方說模型架構有一堆Transformer 那就是把每層 Transformer係數讀出 接者如果特製晶片有特殊Transformer API function 那你就是直接 call 當然你也可以自己用c 寫矩陣運算土工刻出Transformer但通常這樣很沒效率 當然也有一些直接轉c code工具 像是onnx 此款搭配pytorch 非常好用 但你也會遇到 萬一底層晶片沒有支援特殊library 比方說你有一個ReLu6層 但晶片只支援Relu 那你就自己要手改或做些換算 而用特制化晶片好就處 就是省電 速度快效率高 缺點就是不能再改架構 但模型一但做好 只要能大量跑商業化 通常大前提是改動也不會是在這樣頻繁 大模型是比較難推廣到edge端 主要是openAI提出一個定律叫做scaling law 意思就是 同樣模型架構設計 當你模型無限增加size時 他在突破某模型參數量會突然有類似AGI功能 能學會數據上的泛化 而低於這個模型參數臨界值 模型無法學會數據泛化 每個模型設計 的臨界值都不一樣 在追求驚人的AI效果 堆架構狂增加模型參數突破臨界值變成主流方法 常見的臨界點數值都是動輒xxB起跳 這換算需要的記憶體大小就是100G以上 運算則是需要TFLOPS 所以算力為王會繼續走一陣子 只是戰場也會慢慢轉移到Inference這端 https://www.aili.com.tw/message2_detail/112.htm (表二有各種晶片在AI推理效果) EdgeAI也會是一另外一個戰場 不過Google在軟體上有通吃此雲端和本底端edge solution 我自己是認為在Edge端 應該最終會走混搭的本地端模型和雲端模型併算用 且老黃手上還有一個的NVlink/NVSwitch這技術 (NVLink4 100G PAM4 serdes) 目前只有B和M有在做 但B和M有的 老黃也都有 ※ 引述《LDPC (Channel Coding)》之銘言: : 借用這個標題吧 很久以前 我忘記是在哪篇看到的老美的如何推薦推介買老黃股票的原因 : 其中有一個點是 NVDA是殺手 擅長幹掉無數公司(e.g. 3dfx,ati) : 然後這週末個小道消息 老黃瞄準30B市場打算做客製化晶片佈局....也就是要跟AVGO搶市場了 : http://tinyurl.com/y6e2ktpj 這也是可能為以後瞄準Inference的可能市場一個佈局了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 24.4.211.194 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1707755207.A.24D.html
文章代碼(AID): #1boaR79D (Stock)
文章代碼(AID): #1boaR79D (Stock)