討論串[問卦] 中國狗DeepSeek 模型好久沒升級了
共 3 篇文章
首頁
上一頁
1
下一頁
尾頁

推噓5(5推 0噓 2→)留言7則,0人參與, 4周前最新作者s213092921 (麥靠貝)時間4周前 (2026/01/05 11:04), 編輯資訊
0
1
1
內容預覽:
元旦Deepseek發表的論文公布名為「流形約束超連接」(Manifold-Constrained Hyper-Connections)的新框架. 這項技術透過優化神經網路架構,在僅增加 6.7% 訓練時間的情況下大幅提升訓練穩定性,這在大型模型訓練中被視為非常低且可接受的代價。. 這技術可以把大模
(還有720個字)

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者astrayzip時間1月前 (2026/01/04 17:57), 編輯資訊
0
0
0
內容預覽:
因為他們現在在搞打地基的基礎最佳化研究. 前幾天才剛發布mHC這個加強AI底層穩定性的論文. 從Residues 到HC再到mHC. 這些東西就是在增加基礎強度的研究. 整體來說就是. 未來AI泡沫化可以往後延了. mHC這個弄進去又能搞很多花樣. --. 發信站: 批踢踢實業坊(ptt.cc)

推噓15(23推 8噓 38→)留言69則,0人參與, 4周前最新作者ryhma (k歌之王)時間1月前 (2026/01/04 17:05), 1月前編輯資訊
0
0
0
內容預覽:
哈囉 你各位雜質. 是我小偉辣. 中國狗的深度求索(DeepSeek)人工智慧還在R1. 號稱五百萬美金訓練出來的模型. 打趴歐美各國人工智慧模型. 好久更新模型惹. 怎麼辦羅福莉會不會被抓去勞改. 八卦版中國狗趕快來噓我. 藍白狗趕快來噓. 西西. --. 發信站: 批踢踢實業坊(ptt.cc
(還有580個字)
首頁
上一頁
1
下一頁
尾頁