[情報] DeepSeek繞過CUDA 自己優化底層編程語言

看板Tech_Job作者 (j)時間10月前 (2025/01/29 19:55), 10月前編輯推噓16(259106)
留言140則, 43人參與, 10月前最新討論串1/1
https://x.com/bookwormengr/status/1883355712191123666 關於DeepSeek的優化改進 許多人沒注意到的是: DeepSeek也繞過了CUDA並使用底層編程語言PTX做優化 在輝達的PTX語言實際編譯流程中 CUDA代碼首先被編譯為PTX代碼 PTX代碼再被編譯為目標GPU架構的機器碼(SASS,Streaming ASSembler) CUDA起到了提供高級編程接口和工具鏈的作用 可簡化開發者的工作 而PTX作為中間層充當高級語言和底層硬件間的橋樑 PTX允許進行細粒度優化 如寄存器分配和Thread/Warp級別的調整 這種編譯複雜又難維護 所以其他公司用的是CUDA這種高級編程語言 V3硬體效率之所以比Meta高出10倍 關鍵在於V3針對自己需求把132個流式多處理器(SMs)中的20個修改成負責服務器間通信 而不是計算任務 變相繞過了硬體對通信速度的限制 這點是用輝達的PTX實現的,不是CUDA 雖然DeepSeek把優化做到極致 然而同行表示 DeepSeek這種直接編寫PTX代碼的做法很難移植到不同型號的GPU 針對H100優化的代碼移到其他型號上效果打折扣也可能根本不work -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.253.132.195 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1738151752.A.22B.html

01/29 19:58, 10月前 , 1F
恐怖!DeepSeek遭以色列公司起底 可
01/29 19:58, 1F

01/29 19:58, 10月前 , 2F
生成惡意程式竊取信用卡資料
01/29 19:58, 2F

01/29 19:58, 10月前 , 3F
換 cpu 就重寫啊
01/29 19:58, 3F

01/29 19:59, 10月前 , 4F
這有點猛
01/29 19:59, 4F
※ 編輯: jackliao1990 (111.253.132.195 臺灣), 01/29/2025 20:04:44

01/29 20:05, 10月前 , 5F
ASIC 噴
01/29 20:05, 5F

01/29 20:07, 10月前 , 6F
用PTX去優化速度早不是新聞了 就是
01/29 20:07, 6F

01/29 20:07, 10月前 , 7F
維護跟編寫麻煩
01/29 20:07, 7F

01/29 20:11, 10月前 , 8F
厲害了 我的國
01/29 20:11, 8F

01/29 20:14, 10月前 , 9F
無聊 又不是首次有人用ptx
01/29 20:14, 9F

01/29 20:33, 10月前 , 10F
那做transformer 加速器有搞頭嗎
01/29 20:33, 10F

01/29 20:42, 10月前 , 11F
資料都開源了是在恐怖三小
01/29 20:42, 11F

01/29 21:18, 10月前 , 12F
翻譯:中國人礦便宜用人硬幹
01/29 21:18, 12F

01/29 21:42, 10月前 , 13F
難移植的是後端吧,前端我怎麼記得
01/29 21:42, 13F

01/29 21:42, 10月前 , 14F
CUDA 4早就改LLVM了
01/29 21:42, 14F

01/29 22:10, 10月前 , 15F
nv賺,還是用它的
01/29 22:10, 15F

01/29 22:12, 10月前 , 16F
請問 SM 用於通訊是什麼意思
01/29 22:12, 16F

01/29 22:30, 10月前 , 17F
換個硬體就不能用很麻煩欸
01/29 22:30, 17F

01/29 22:49, 10月前 , 18F
黃大:不講武德改我晶片?
01/29 22:49, 18F

01/29 23:15, 10月前 , 19F
不用C語言改用ASM組合語言優化的概
01/29 23:15, 19F

01/29 23:15, 10月前 , 20F
01/29 23:15, 20F

01/29 23:43, 10月前 , 21F
井蛙:看吧,他們就是用手刻
01/29 23:43, 21F

01/29 23:43, 10月前 , 22F
小量還可以啦 大量你換gpu要重寫會
01/29 23:43, 22F

01/29 23:43, 10月前 , 23F
死人的
01/29 23:43, 23F

01/29 23:43, 10月前 , 24F
一樓黑熊部隊嗎?這裡是科技版不是
01/29 23:43, 24F

01/29 23:43, 10月前 , 25F
八卦版
01/29 23:43, 25F

01/29 23:57, 10月前 , 26F
沒事 到時候真的證明抄襲chatgpt會
01/29 23:57, 26F

01/29 23:58, 10月前 , 27F
哭的更大聲
01/29 23:58, 27F

01/30 01:14, 10月前 , 28F
反正窮人又換不起 deepseek指定的硬
01/30 01:14, 28F

01/30 01:14, 10月前 , 29F
體 有錢換的也是一批就買幾千台以上
01/30 01:14, 29F

01/30 01:14, 10月前 , 30F
然後操到爛 又不會頻繁更換硬體規
01/30 01:14, 30F

01/30 01:14, 10月前 , 31F
格接著再頻繁改寫
01/30 01:14, 31F

01/30 01:35, 10月前 , 32F
CUDA開發方便啊 但優化還是得取捨
01/30 01:35, 32F

01/30 02:49, 10月前 , 33F
ds繞過CUDA直接寫PTX很厲害嗎 PTX對
01/30 02:49, 33F

01/30 02:49, 10月前 , 34F
於ds來說不就只是當成另一種語言而
01/30 02:49, 34F

01/30 02:49, 10月前 , 35F
01/30 02:49, 35F

01/30 04:19, 10月前 , 36F
做cuda優化的都會碰PTX吧...
01/30 04:19, 36F

01/30 06:30, 10月前 , 37F
太吹,靠底層語言優化這種事也能拿
01/30 06:30, 37F

01/30 06:30, 10月前 , 38F
來吹是三小,那大家都改寫C不就飛
01/30 06:30, 38F
還有 62 則推文
01/30 19:59, 10月前 , 101F
用攝影機拍JohnWick
01/30 19:59, 101F

01/30 19:59, 10月前 , 102F
那對 我會開嗆
01/30 19:59, 102F

01/30 20:01, 10月前 , 103F
這就邏輯很奇怪的講法啊w
01/30 20:01, 103F

01/31 00:10, 10月前 , 104F
他也沒宣傳主打繞過什麼啊
01/31 00:10, 104F

01/31 00:12, 10月前 , 105F
而且好萊塢又不是協會組織
01/31 00:12, 105F

01/31 00:18, 10月前 , 106F
就像人踩在地球一樣呼吸空氣 「繞過
01/31 00:18, 106F

01/31 00:18, 10月前 , 107F
」講得好像要不依靠地球空間生存 和
01/31 00:18, 107F

01/31 00:18, 10月前 , 108F
不呼吸氧氣 來達成某成就才能讓你
01/31 00:18, 108F

01/31 00:18, 10月前 , 109F
信服
01/31 00:18, 109F

01/31 00:20, 10月前 , 110F
就像人人都有權利站在地球上呼吸空
01/31 00:20, 110F

01/31 00:20, 10月前 , 111F
氣一樣自然*
01/31 00:20, 111F

01/31 00:21, 10月前 , 112F
那你說看看黑神話 你有想要要求繞過
01/31 00:21, 112F

01/31 00:21, 10月前 , 113F
什麼?
01/31 00:21, 113F

01/31 07:43, 10月前 , 114F
ptx比cuda低階沒錯,但也沒有低到
01/31 07:43, 114F

01/31 07:43, 10月前 , 115F
沒有維護性吧,那這麼華
01/31 07:43, 115F

01/31 08:59, 10月前 , 116F
黑神話有繞過什麼?不就正常用UE5
01/31 08:59, 116F

01/31 09:00, 10月前 , 117F
這個對比更怪 他沒有特定硬體依賴
01/31 09:00, 117F

01/31 09:30, 10月前 , 118F
所以黑神話不用顯卡就能玩?
01/31 09:30, 118F

01/31 09:34, 10月前 , 119F
我還以爲你會要求繞過windows(=電影
01/31 09:34, 119F

01/31 09:34, 10月前 , 120F
的好萊塢)
01/31 09:34, 120F

01/31 10:33, 10月前 , 121F
喔 所以你是問 黑神話"假設"要繞過
01/31 10:33, 121F

01/31 10:33, 10月前 , 122F
什麼的場景嗎?
01/31 10:33, 122F

01/31 14:16, 10月前 , 123F
一個轉譯程式的事,是要多難
01/31 14:16, 123F

01/31 14:18, 10月前 , 124F
也許AI都能自己轉了
01/31 14:18, 124F

01/31 15:33, 10月前 , 125F
已經開始耍賴用問題回答問題了 那就
01/31 15:33, 125F

01/31 15:33, 10月前 , 126F
沒有必要理你了
01/31 15:33, 126F

01/31 20:05, 10月前 , 127F
我一直在回答問題 是你自己一個跳
01/31 20:05, 127F

01/31 20:05, 10月前 , 128F
過一個 場景沒建立清楚就往下跑 誰
01/31 20:05, 128F

01/31 20:05, 10月前 , 129F
知道你的對比標準是什麼?
01/31 20:05, 129F

01/31 20:05, 10月前 , 130F
你看spec或開spec也這樣搞的嗎
01/31 20:05, 130F

01/31 20:29, 10月前 , 131F
我想想喔 拿你最常講的黑神話來說
01/31 20:29, 131F

01/31 20:29, 10月前 , 132F
你要假設他繞過什麼 對照回直接用
01/31 20:29, 132F

01/31 20:29, 10月前 , 133F
PTX而不用CUDA的場景 那就是遊戲科
01/31 20:29, 133F

01/31 20:29, 10月前 , 134F
學跟Epic講好 UE整包太大不想用 只
01/31 20:29, 134F

01/31 20:29, 10月前 , 135F
抽某一部分lib出來做一些常見的圖
01/31 20:29, 135F

01/31 20:29, 10月前 , 136F
形運算和cross-platform的功能 完
01/31 20:29, 136F

01/31 20:29, 10月前 , 137F
成後遊戲爆紅 媒體各種報到 接著有
01/31 20:29, 137F

01/31 20:29, 10月前 , 138F
篇文跳出來說遊戲科學打破Epic限制
01/31 20:29, 138F

01/31 20:29, 10月前 , 139F
繞過UE 用xx模組做ooo...
01/31 20:29, 139F

01/31 20:29, 10月前 , 140F
呃 那 看起來依然是可以吐槽的樣子
01/31 20:29, 140F
文章代碼(AID): #1dcXT88h (Tech_Job)