[新聞] 震撼!輝達NVFP4格式突破4位元極限 AI訓練效率翻倍

看板Tech_Job作者 (警察先生就是這個人)時間3月前 (2025/08/28 18:35), 編輯推噓18(19152)
留言72則, 25人參與, 3月前最新討論串1/1
原始標題: 震撼!輝達NVFP4格式突破4位元極限 AI訓練效率翻倍 原始連結: https://news.cnyes.com/news/id/6129950 原文: 輝達 (NVDA-US) 發布其突破性的 NVFP4 浮點格式,宣稱能以 4 位元(4-bit)的速度與 效率,實現 16 位元(16-bit)的訓練精準度。這項技術的問世,不僅標誌著大型語言模 型(LLM)開發的重大飛躍,更為 AI 訓練的未來開啟了全新的篇章。 cover image of news article 震撼!輝達NVFP4格式突破4位元極限 AI訓練效率翻倍。(圖:shutterstock) 過去,AI 訓練主要依賴 16 位元或 32 位元的高精度浮點格式。儘管後訓練量化(PTQ) 已證明 4 位元量化能顯著提升推理吞吐量,但在要求極高穩定性和收斂性的預訓練階段 ,模型仍不得不依賴 BF16 或 FP8 等更高精度格式。 然而,AI 訓練是極其耗費運算資源、電力和時間的過程。在有限的預算和 GPU 週期下, 如何最大化訓練效率,成為所有 AI 開發者面臨的核心挑戰。 輝達發布的 NVFP4 技術,正是為了解決這一痛點。透過將模型權重和活化值的精度降低 到僅 4 個位元,NVFP4 能顯著減少記憶體需求、提升算術運算吞吐量,並優化通訊效率 。 這使得 AI 工廠能夠在相同的硬體配置下,處理更多的數據和代幣,從而加速收斂週期, 並支援更大規模模型的快速開發,最終擴展 AI 所能達到的前沿領域。 輝達為 NVFP4 開發了一套專用的預訓練方法,旨在解決大規模訓練中的動態範圍、梯度 波動和數值穩定性等核心挑戰。其關鍵技術包括: 微區塊縮放(Micro-block Scaling):輝達 Blackwell 架構原生支援 NVFP4 格式。與 先前的 MXFP4 格式不同,NVFP4 將微區塊大小從 32 個元素減少到 16 個,讓每一小組 元素共享一個共同的縮放因子。這種更精細的粒度設計,能最大限度地減少異常值的影響 ,降低量化誤差,並大幅提升整體模型準確性。 E4M3 高精度區塊編碼:縮放因子的精確度對於量化品質至關重要。NVFP4 採用更高精度 的 E4M3 縮放因子,並帶有額外的尾數位,相較於 MXFP4 僅限於 2 的冪次方(E8M0), 這使得數值表示更為精準,能更好地利用有限的量化區間。 張量分佈重塑:預訓練期間的梯度和活化值往往帶有較大的異常值,這會影響低精度量化 。輝達透過對 GEMM(通用矩陣乘法)輸入應用哈達瑪變換(Hadamard transforms),將 張量分佈重塑為更接近高斯分佈的形態。這種方法能平滑異常值,使張量更容易被準確表 示,並在整個訓練過程的前向和後向傳播中保持透明。 量化保真度維持:為確保訓練的穩定性與效率,NVFP4 技術採用了能夠在前向傳播與後向 傳播之間保持一致性的量化方法。例如,選擇性二維塊式量化等技術,有助於在整個訓練 週期中維持張量表示的對齊,最大程度地減少信號失真,並增強整體穩健性。 隨機舍入(Stochastic Rounding):與傳統的確定性舍入不同,隨機舍入確保梯度以機 率方式隨機向上或向下舍入,其機率與數值距離兩個可表示值之間的距離成正比。這一步 驟對於減少舍入偏差,維持訓練期間的梯度流至關重要。 ●支援兆級代幣規模完整預訓練 為驗證 NVFP4 的效能,輝達在一個類似於 NVIDIA Nemotron Nano 2 的 120 億參數混合 Mamba-Transformer 模型上進行了實驗。該模型在一個包含 10 兆代幣的大規模數據集 上進行了完整的預訓練。 實驗結果顯示,使用 NVFP4 從頭開始訓練的 12B 模型,其收斂曲線與作為基準的 FP8 模型高度吻合,且在訓練過程中沒有出現通常困擾超低精度訓練的不穩定或發散問題。這 證明了 NVFP4 支援兆級代幣規模完整預訓練的能力。 此外,輝達將使用 NVFP4 預訓練的模型與 FP8 基準模型在一系列下游任務和智慧領域進 行了比較。結果表明,NVFP4 的性能在所有領域都與 FP8 不相上下,證明了其有效性與 可靠性。 輝達正與亞馬遜雲端科技(AWS)、Cohere、Google 雲端、Kimi AI、微軟 AI、Mistral 、OpenAI、Perplexity、Reflection 和 Runway 等領先組織積極合作,共同探索 NVFP4 的潛力,將更加鞏固其在 AI 技術領域的領先地位,也預示著未來 AI 訓練將邁向一個更 高效、更節能的 4 位元時代。 心得: 雖然看不懂,但是好像很厲害。 進化速度變兩倍,感覺又要大躍進了。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 116.241.142.240 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1756377335.A.F2A.html

08/28 18:46, 3月前 , 1F
類似32bit升64bit?
08/28 18:46, 1F

08/28 18:50, 3月前 , 2F
還是模糊運送?
08/28 18:50, 2F

08/28 19:05, 3月前 , 3F
什麼爛機翻把AI token翻成代幣...
08/28 19:05, 3F

08/28 19:47, 3月前 , 4F
32到64是提高精度、做更大更精確的計
08/28 19:47, 4F

08/28 19:47, 3月前 , 5F
算,文中講的是量化,降低精度、減少
08/28 19:47, 5F

08/28 19:47, 3月前 , 6F
儲存量並且提昇運算效率
08/28 19:47, 6F

08/28 20:01, 3月前 , 7F
樓上…請問是指降低暫存記憶體的重要
08/28 20:01, 7F

08/28 20:01, 3月前 , 8F
性嗎?
08/28 20:01, 8F

08/28 20:06, 3月前 , 9F
減少暫存就能放參數更多的模型,但通
08/28 20:06, 9F

08/28 20:06, 3月前 , 10F
常在server端更重要的是運算效率,4b
08/28 20:06, 10F

08/28 20:06, 3月前 , 11F
its的運算一定比8/16bits快
08/28 20:06, 11F

08/28 20:09, 3月前 , 12F
聽起來比較像數據壓縮
08/28 20:09, 12F

08/28 20:13, 3月前 , 13F
看起來有點類似不需要flac檔(反正木耳
08/28 20:13, 13F

08/28 20:13, 3月前 , 14F
居多),給你mp3就可以交差了事。
08/28 20:13, 14F

08/28 20:14, 3月前 , 15F
對的 概念上類似
08/28 20:14, 15F

08/28 21:04, 3月前 , 16F
... 官方新聞稿是六月24,結果鉅亨網
08/28 21:04, 16F

08/28 21:04, 3月前 , 17F
在八月底當新聞貼
08/28 21:04, 17F

08/28 21:07, 3月前 , 18F
喔,真正的原始新聞應該是這篇: http
08/28 21:07, 18F

08/28 21:07, 3月前 , 19F
s://developer.nvidia.com/blog/nvfp
08/28 21:07, 19F

08/28 21:07, 3月前 , 20F
4-trains-with-precision-of-16-bit-
08/28 21:07, 20F

08/28 21:07, 3月前 , 21F
and-speed-and-efficiency-of-4-bit/
08/28 21:07, 21F

08/28 21:20, 3月前 , 22F
訓練用 FP4 的,上一個是 gpt-oss
08/28 21:20, 22F

08/28 21:21, 3月前 , 23F
不知道 NVFP4 vs MXFP4 可以差多少
08/28 21:21, 23F

08/28 23:01, 3月前 , 24F
這是什麼意思一下跳兩代的意思?
08/28 23:01, 24F

08/28 23:03, 3月前 , 25F
9樓要加上同樣硬體才會成立
08/28 23:03, 25F

08/29 00:06, 3月前 , 26F
告訴你不需要用FHD, 只要從頭到尾都VGA
08/29 00:06, 26F

08/29 00:06, 3月前 , 27F
就可以
08/29 00:06, 27F

08/29 00:07, 3月前 , 28F
原本的架構是mismatch的 FP訓練 然後4b
08/29 00:07, 28F

08/29 00:07, 3月前 , 29F
推論 他的意思是從一開始就4b訓練 很棒
08/29 00:07, 29F

08/29 04:41, 3月前 , 30F
用有點不倫不類的比喻比較像發明了JPEG
08/29 04:41, 30F

08/29 04:41, 3月前 , 31F
壓縮
08/29 04:41, 31F

08/29 04:46, 3月前 , 32F
這是不是表示如果下放給一般消費級顯卡
08/29 04:46, 32F

08/29 04:46, 3月前 , 33F
用就能讓16GB的VRAM跑32GB的模型?
08/29 04:46, 33F

08/29 07:22, 3月前 , 34F
感覺是新的壓縮技術,蠻屌的,nv獨家還
08/29 07:22, 34F

08/29 07:22, 3月前 , 35F
是其他非nv也可以用?
08/29 07:22, 35F

08/29 08:07, 3月前 , 36F
我的理解是,把大矩陣切割成小矩陣,小矩
08/29 08:07, 36F

08/29 08:09, 3月前 , 37F
陣裡的非零資料採用一個共用指數,然後以
08/29 08:09, 37F

08/29 08:10, 3月前 , 38F
4bit表示除過這個共用指數的結果
08/29 08:10, 38F

08/29 08:26, 3月前 , 39F
靠縮放因子,就是精度有損啊。新聞也太吹
08/29 08:26, 39F

08/29 08:26, 3月前 , 40F
牛了啦。
08/29 08:26, 40F

08/29 08:27, 3月前 , 41F
而且訓練結果跟FP8差不多。結論:大廠沒人
08/29 08:27, 41F

08/29 08:27, 3月前 , 42F
要用,一般消費者用不到。
08/29 08:27, 42F

08/29 08:58, 3月前 , 43F
好了啦 瞎吹
08/29 08:58, 43F

08/29 09:09, 3月前 , 44F
所以實際效益?
08/29 09:09, 44F

08/29 11:11, 3月前 , 45F
實際效益就是精確度差一點但是訓練成
08/29 11:11, 45F

08/29 11:11, 3月前 , 46F
本降低很多啊。在搶世界第一的那些人
08/29 11:11, 46F

08/29 11:11, 3月前 , 47F
我猜不會急著用,但是預訓練小一點的
08/29 11:11, 47F

08/29 11:11, 3月前 , 48F
LM 應該就挺不錯,反正這些小模型大
08/29 11:11, 48F

08/29 11:11, 3月前 , 49F
多最後也要做 quantization
08/29 11:11, 49F

08/29 11:13, 3月前 , 50F
另外我上面有點講錯了,gpt-oss 是後
08/29 11:13, 50F

08/29 11:13, 3月前 , 51F
訓練才用 MXFP4,現在這個新聞是前訓
08/29 11:13, 51F

08/29 11:13, 3月前 , 52F
練就用 NVFP4
08/29 11:13, 52F

08/29 13:32, 3月前 , 53F
有損壓縮就是折衷主義,商用的話追求效
08/29 13:32, 53F

08/29 13:32, 3月前 , 54F
益比或許可以,研究領域最好還是能喂食
08/29 13:32, 54F

08/29 13:32, 3月前 , 55F
完整版的資料。
08/29 13:32, 55F

08/29 17:34, 3月前 , 56F
共用bit?
08/29 17:34, 56F

08/29 17:51, 3月前 , 57F
ms幾個月前有發1.58bit的模型
08/29 17:51, 57F

08/29 19:47, 3月前 , 58F
猛,INT4訓練能這麼強真的鬼
08/29 19:47, 58F

08/29 21:33, 3月前 , 59F
反正人腦的解析度也就那樣的概念 ai不用
08/29 21:33, 59F

08/29 21:33, 3月前 , 60F
太精細糾結?
08/29 21:33, 60F

08/29 23:54, 3月前 , 61F
人腦比ai強很多吧
08/29 23:54, 61F

08/30 06:59, 3月前 , 62F
就是看整張馬賽克的a片感覺跟高清一樣高
08/30 06:59, 62F

08/30 06:59, 3月前 , 63F
潮迭起。
08/30 06:59, 63F

08/30 12:19, 3月前 , 64F
8bits變4bits 硬體需求就變1/4,同樣
08/30 12:19, 64F

08/30 12:19, 3月前 , 65F
的資源下可以做到4倍的訓練量,或是
08/30 12:19, 65F

08/30 12:19, 3月前 , 66F
服務4倍的客人,應該算不錯吧(?)
08/30 12:19, 66F

08/30 12:22, 3月前 , 67F
另外NN訓練用了一堆Activation跟Drop
08/30 12:22, 67F

08/30 12:22, 3月前 , 68F
out,本來就充滿隨機性跟折損,只要
08/30 12:22, 68F

08/30 12:22, 3月前 , 69F
單次訓練有效,可以靠大量迭代來逼近
08/30 12:22, 69F

08/31 07:04, 3月前 , 70F
腦子不用太好,人數來湊
08/31 07:04, 70F

08/31 08:31, 3月前 , 71F
翻譯應該有問題,4bit怎麼可能
08/31 08:31, 71F

08/31 09:32, 3月前 , 72F
看ppt ptt長腦子
08/31 09:32, 72F
文章代碼(AID): #1ei33tyg (Tech_Job)