Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預算難以解釋

看板Stock作者 (I am an agent of chaos)時間1年前 (2025/01/25 03:46), 編輯推噓5(508)
留言13則, 5人參與, 1年前最新討論串4/11 (看更多)
終究是走向CP值,最後是要變現的 LLM只是其中一種,重點是後面的神經網路 他在的架構,可以處理那些問題,LLM 就是有意義的接龍,Deepseek某種程度上是優化這個過程,優化的招式不錯,$$用的少 有差不多效果,覺得懷疑可以用ollama 拉R1回來試試模型,還算可以啦。 但終究就是,transfermer改,nlp word embedding這樣 ,只有這招解決問題是不夠的, 從單一模型,到後來MoE,最近軟體都是往代理走,但是滿普通的,真要說有什麼影響就 是對董事會跟投資人不好交代,以後不好融資,我相信openai,跟其他真正在做模型創新 跟落地的都還在一起卷,特別是像deepmind開始各種傳統算法的異質結合,最近是遺傳演 算法跟模型結合這個很酷,相信會加速發展。 股點來說就是算力需求沒有變動,中國有一個新方法讓訓練可以變快,花的時間短又便宜 ,但是還是llm,該算還是要算,缺電還是缺電,溫度高還是溫度高。 v3 400多b參數不是一般電腦跑得動的 大家還是可以期待digits,跟機器人核心晶片這兩塊,業內其實很夯這兩個東西都很想給 你錢快點出這樣,過去受限於,大平台跟硬體的部分可以被解放,那個時候才是軟體部份 百花齊放的時候,MOE中不同的模型,使用同一套溝通格式。 化為agent溝通解問題 不難,設計上也是,但是沒有方便的裝置可以,本地端測試,中國這個沒有騙人,方法也 沒有不好,要類比的話就是從頭開始煮菜 ,跟已經備好料,半成品,再產生最後料理是類似。 重點還是在不同神經網路,如何用統一標準彼此溝通分享,解決問題,特別是解決哪些問 題,才是重點,meta一眾會煩惱,是不好交代,跟贏不過華人轉個彎繞過的思維的卷。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.243.115.167 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737747986.A.9AC.html

01/25 06:13, 1年前 , 1F
科技本來就會進步,效率會越來越好
01/25 06:13, 1F

01/25 08:29, 1年前 , 2F
嗯,成本比不上,只好用更大的火力壓制了,航空母艦
01/25 08:29, 2F

01/25 08:29, 1年前 , 3F
,即將抵達
01/25 08:29, 3F

01/25 08:33, 1年前 , 4F
另外ai做出來老美會變的沒有那麼缺工
01/25 08:33, 4F

01/25 08:33, 1年前 , 5F
,對岸...這個...還需要增加失業率嗎?
01/25 08:33, 5F

01/25 08:34, 1年前 , 6F
畢竟r1跟v3是分開的,還是無法直接只用r1,整個架
01/25 08:34, 6F

01/25 08:34, 1年前 , 7F
構即使r1這種只針對後訓練後也沒法拿掉v3,AGI的路
01/25 08:34, 7F

01/25 08:34, 1年前 , 8F
還沒實現。
01/25 08:34, 8F

01/25 11:54, 1年前 , 9F
ai這種東西,你準確度輸別人1%以上,基本上就是被屌
01/25 11:54, 9F

01/25 11:54, 1年前 , 10F
打沒有人要用。
01/25 11:54, 10F

01/25 11:56, 1年前 , 11F
為什麼這樣算力需求沒有變動?
01/25 11:56, 11F

01/25 11:58, 1年前 , 12F
是因為基礎模型不需要那麼多算力 但進階的或是LLM以
01/25 11:58, 12F

01/25 11:58, 1年前 , 13F
外的離天花板還有距離 所以算力還是有多少買多少嗎
01/25 11:58, 13F
文章代碼(AID): #1da-uIci (Stock)
討論串 (同標題文章)
完整討論串 (本文為第 4 之 11 篇):
文章代碼(AID): #1da-uIci (Stock)