Re: [新聞] Meta陷入恐慌？內部爆料：在瘋狂分析複製DeepSeek，高預算難以解釋

看板Stock作者neo5277 (I am an agent of chaos)時間1年前 (2025/01/25 03:46)推噓5(5推 0噓 8→)

留言13則, 5人參與討論串4/11 (看更多)

終究是走向CP值，最後是要變現的 LLM只是其中一種，重點是後面的神經網路他在的架構，可以處理那些問題，LLM 就是有意義的接龍，Deepseek某種程度上是優化這個過程，優化的招式不錯,$$用的少有差不多效果，覺得懷疑可以用ollama 拉R1回來試試模型，還算可以啦。但終究就是，transfermer改,nlp word embedding這樣，只有這招解決問題是不夠的，從單一模型，到後來MoE，最近軟體都是往代理走，但是滿普通的，真要說有什麼影響就是對董事會跟投資人不好交代，以後不好融資，我相信openai,跟其他真正在做模型創新跟落地的都還在一起卷，特別是像deepmind開始各種傳統算法的異質結合，最近是遺傳演算法跟模型結合這個很酷，相信會加速發展。股點來說就是算力需求沒有變動，中國有一個新方法讓訓練可以變快，花的時間短又便宜，但是還是llm，該算還是要算，缺電還是缺電，溫度高還是溫度高。 v3 400多b參數不是一般電腦跑得動的大家還是可以期待digits,跟機器人核心晶片這兩塊，業內其實很夯這兩個東西都很想給你錢快點出這樣，過去受限於，大平台跟硬體的部分可以被解放，那個時候才是軟體部份百花齊放的時候，MOE中不同的模型，使用同一套溝通格式。化為agent溝通解問題不難，設計上也是，但是沒有方便的裝置可以，本地端測試，中國這個沒有騙人，方法也沒有不好，要類比的話就是從頭開始煮菜，跟已經備好料，半成品，再產生最後料理是類似。重點還是在不同神經網路，如何用統一標準彼此溝通分享，解決問題，特別是解決哪些問題，才是重點，meta一眾會煩惱，是不好交代，跟贏不過華人轉個彎繞過的思維的卷。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.243.115.167 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737747986.A.9AC.html

推

kenbbc12321

01/25 06:13, 1年前 , 1^F

01/25 06:13, 1^F

推

patrol

01/25 08:29, 1年前 , 2^F

01/25 08:29, 2^F

→

patrol

01/25 08:29, 1年前 , 3^F

01/25 08:29, 3^F