[情報] AMD承認EPYC Rome伺服器晶片有個奇妙Bug

看板PC_Shopping作者 (司馬雲)時間11月前 (2023/06/05 20:57), 11月前編輯推噓41(41057)
留言98則, 51人參與, 11月前最新討論串1/1
看了一下好像沒人貼,雖然我只是用5600的小咖,這種高貴的u跟我沾不上邊 但看在這bug還蠻特別的就貼上來了 有高手可以說明一下這到底什麼Bug嗎? https://www.techbang.com/posts/106924-amd-admitted-that-the-epyc-rome-server-chip-will-crash-afterhttps://bit.ly/3IW4dB2 AMD 承認 EPYC Rome 伺服器晶片有個奇妙Bug:運行 1044 天會當機、暫無計畫修復 AMD 在近日發佈的 EPYC 7002 「Rome」伺服器晶片指南中,承認由於時鐘倒計時器存有 個BUG,導致第二代 EPYC 晶片正常運行 1044 天後出現核心卡死情況。 使用這款 EPYC 晶片的伺服器,需要每隔 2.93 年時間重新啟動一次,但AMD 官方表示不 會修復上述 BUG。 AMD 在指南中表示,導致這個問題的原因是核心無法脫離 CC6 省電模式(Core C6 State ),進入該模式之後,會降低電壓和時脈頻率。AMD 澄清說,誤差的時間可能取決於擴頻 調製和 REFCLK 頻率參考。 AMD 承認 EPYC Rome 伺服器晶片有個奇妙Bug:運行 1044 天會當機、暫無計畫修復 Reddit 使用者 acid_migrain 經過詳細的演算,認為實際導致卡死的時間並非 1044 天 ,而是 1042 天 12 個小時。 AMD 於 2018 年推出 EPYC “Rome”系列伺服器晶片,部分客戶已經向 AMD 反應遇到了 這個問題。 AMD 表示沒有計畫修復該漏洞,外媒 technewsspace 判斷,不修復的理由原因之一是修 復成本太高,不然就是受影響用戶規模不大。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.133.46.215 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1685969842.A.5F6.html ※ 編輯: filiaslayers (220.133.46.215 臺灣), 06/05/2023 20:57:52

06/05 20:58, 11月前 , 1F
所以到底為什麼是144天?
06/05 20:58, 1F

06/05 20:58, 11月前 , 2F
*1044
06/05 20:58, 2F

06/05 20:59, 11月前 , 3F

06/05 21:01, 11月前 , 4F
唉 賺最多的市場 結果客戶遇到bug
06/05 21:01, 4F

06/05 21:01, 11月前 , 5F
還直接說不修理 有夠誇張
06/05 21:01, 5F

06/05 21:01, 11月前 , 6F
因為修復成本太高
06/05 21:01, 6F

06/05 21:02, 11月前 , 7F
而且人家不修財報也是繼續噴
06/05 21:02, 7F

06/05 21:02, 11月前 , 8F
不過這個問題 重開就好了吧
06/05 21:02, 8F

06/05 21:05, 11月前 , 9F
幾乎所有公司都會定期重開,大多是每
06/05 21:05, 9F

06/05 21:05, 11月前 , 10F
個月至一季
06/05 21:05, 10F

06/05 21:05, 11月前 , 11F
對阿 就算是伺服器電腦也不可能完
06/05 21:05, 11F

06/05 21:06, 11月前 , 12F
全不維護吧
06/05 21:06, 12F

06/05 21:06, 11月前 , 13F
然後a黑:有夠誇張der AMD趕快倒一倒啦
06/05 21:06, 13F

06/05 21:06, 11月前 , 14F
特級A黑又來見獵心喜了
06/05 21:06, 14F

06/05 21:10, 11月前 , 15F
真正會受影響的客戶很少吧 就算真的有
06/05 21:10, 15F

06/05 21:10, 11月前 , 16F
用專案的方式解決應該都比較省
06/05 21:10, 16F

06/05 21:10, 11月前 , 17F
那就在那天安排個系統維護就好了ㄅ
06/05 21:10, 17F

06/05 21:17, 11月前 , 18F
正常啊, 像Windows 95連續開機49.7天也會
06/05 21:17, 18F

06/05 21:17, 11月前 , 19F
因為計時器溢位而BSOD而要重開機 XD
06/05 21:17, 19F

06/05 21:19, 11月前 , 20F
怕啥 年度高裝檢就會重開機了啦
06/05 21:19, 20F

06/05 21:20, 11月前 , 21F
GPS已經溢位歸零兩次了
06/05 21:20, 21F

06/05 21:20, 11月前 , 22F
不過想想也很有趣,因為內容寫到是部
06/05 21:20, 22F

06/05 21:20, 11月前 , 23F
分客戶反應問題的,表示這些客戶仍屬
06/05 21:20, 23F

06/05 21:20, 11月前 , 24F
於超長時間不關機XD
06/05 21:20, 24F

06/05 21:22, 11月前 , 25F
那你加一個沒1042天重啟的task吧 不過能發
06/05 21:22, 25F

06/05 21:22, 11月前 , 26F
現這bug的機房很猛耶 三年多都沒有重開XD
06/05 21:22, 26F

06/05 21:33, 11月前 , 27F
06/05 21:33, 27F

06/05 21:33, 11月前 , 28F
你倒是關機阿lol
06/05 21:33, 28F

06/05 21:35, 11月前 , 29F
3年多連fw update都沒有...蠻屌的XD
06/05 21:35, 29F

06/05 21:37, 11月前 , 30F
2年10個月又10天不重開就會遇到 好喔
06/05 21:37, 30F

06/05 21:37, 11月前 , 31F
公司每季都會斷電檢查高壓設備,根
06/05 21:37, 31F

06/05 21:37, 11月前 , 32F
本沒機會開三
06/05 21:37, 32F

06/05 21:37, 11月前 , 33F
年XDD
06/05 21:37, 33F

06/05 21:38, 11月前 , 34F
A黑集合,集合了
06/05 21:38, 34F

06/05 21:40, 11月前 , 35F
三年早該碰到歲修了吧
06/05 21:40, 35F

06/05 21:40, 11月前 , 36F
3年不重開 這公司的工程師心臟真大
06/05 21:40, 36F

06/05 21:40, 11月前 , 37F
重開機不就好了 公司買來都沒有有伺服
06/05 21:40, 37F

06/05 21:40, 11月前 , 38F
器維護時間可以搞嗎
06/05 21:40, 38F

06/05 21:46, 11月前 , 39F
真的有公司可以這麼久不重開耶好猛
06/05 21:46, 39F

06/05 21:48, 11月前 , 40F
不可能三年不維護,所以基本不影響使
06/05 21:48, 40F

06/05 21:48, 11月前 , 41F
用 所以就不修了
06/05 21:48, 41F

06/05 21:48, 11月前 , 42F
還好吧 巴哈一堆電腦也是沒關機過的
06/05 21:48, 42F

06/05 21:48, 11月前 , 43F
直接好像有哪款NAS用的CPU兩年多會掛?
06/05 21:48, 43F

06/05 21:48, 11月前 , 44F
在那邊好像關機電腦會爆炸一樣= =
06/05 21:48, 44F

06/05 21:48, 11月前 , 45F
(*之前) 也無解所以時間到就GG的?
06/05 21:48, 45F

06/05 21:50, 11月前 , 46F
不是兩年吧 是好幾年
06/05 21:50, 46F

06/05 21:51, 11月前 , 47F
C2000 CPU
06/05 21:51, 47F

06/05 21:51, 11月前 , 48F
DS1515+等
06/05 21:51, 48F

06/05 22:02, 11月前 , 49F
哪有好幾年 cisco說1.5年可能發生 大
06/05 22:02, 49F

06/05 22:02, 11月前 , 50F
概3年左右壽命
06/05 22:02, 50F

06/05 22:15, 11月前 , 51F
歲修重開不就得了
06/05 22:15, 51F

06/05 22:17, 11月前 , 52F
就算是伺服器想要完全不重啟也很困難
06/05 22:17, 52F

06/05 22:21, 11月前 , 53F
這種超多核心的大部份都VM或AP堆疊
06/05 22:21, 53F

06/05 22:22, 11月前 , 54F
就算一台重開,整體服務也不受影響
06/05 22:22, 54F

06/05 22:23, 11月前 , 55F
看起來就軟體很難修,3年都下一代了
06/05 22:23, 55F

06/05 22:40, 11月前 , 56F
做 planned outage 就好了 幾年都不更新
06/05 22:40, 56F

06/05 22:40, 11月前 , 57F
修這個沒什麼意義 能撐3年不重開發
06/05 22:40, 57F

06/05 22:40, 11月前 , 58F
現這bug也是厲害
06/05 22:40, 58F

06/05 22:40, 11月前 , 59F
其實也不太可能 而且還有安全隱患
06/05 22:40, 59F

06/05 22:41, 11月前 , 60F
三年多沒重開在工廠產能滿載時很正常吧
06/05 22:41, 60F

06/05 22:45, 11月前 , 61F
server不太可能3年不重開,機電系統總要停電
06/05 22:45, 61F

06/05 22:46, 11月前 , 62F
檢查.牽涉到消防安全法規
06/05 22:46, 62F

06/05 22:49, 11月前 , 63F
會被發現的意思就是有哪個衰小的東
06/05 22:49, 63F

06/05 22:49, 11月前 , 64F
西跑了兩年多快要出來了結果當機了
06/05 22:49, 64F

06/05 22:49, 11月前 , 65F
嗎xDDD
06/05 22:49, 65F

06/05 22:51, 11月前 , 66F
修復成本就是要重開光罩重弄一顆阿
06/05 22:51, 66F

06/05 22:52, 11月前 , 67F
直接給你一顆milan換還比較實際
06/05 22:52, 67F

06/05 22:53, 11月前 , 68F
反正MB幾乎都是相容的 就幫你無痛升級
06/05 22:53, 68F

06/05 22:59, 11月前 , 69F
資訊工程師:我們下車再上車重新試試
06/05 22:59, 69F

06/05 23:01, 11月前 , 70F

06/05 23:02, 11月前 , 71F
好像與資料型態益位有關係 猜的
06/05 23:02, 71F

06/05 23:09, 11月前 , 72F

06/05 23:24, 11月前 , 73F
AMD TIMER
06/05 23:24, 73F

06/05 23:31, 11月前 , 74F
用這種cpu的機器半年沒重開就很強了
06/05 23:31, 74F

06/05 23:33, 11月前 , 75F
完全沒因為其他任何因素持續運行三
06/05 23:33, 75F

06/05 23:33, 11月前 , 76F
年也是很猛了
06/05 23:33, 76F

06/05 23:41, 11月前 , 77F
3年不重開還好吧.放在aws 的 win s
06/05 23:41, 77F

06/05 23:41, 11月前 , 78F
erver 已經700多天沒重開了
06/05 23:41, 78F

06/05 23:44, 11月前 , 79F
不過跑在VM上的虛擬伺服器重開也無
06/05 23:44, 79F

06/05 23:44, 11月前 , 80F
助於事,只有整片Server那一台整個
06/05 23:44, 80F

06/05 23:44, 11月前 , 81F
重啟才有用
06/05 23:44, 81F

06/05 23:47, 11月前 , 82F
28*2^53=0x380000000000000,我圖打錯成253
06/05 23:47, 82F

06/05 23:49, 11月前 , 83F
我公司那幾台linux跟vm機是除了停電以外
06/05 23:49, 83F

06/05 23:50, 11月前 , 84F
沒重開過的啊...
06/05 23:50, 84F

06/05 23:50, 11月前 , 85F
如果客戶實際應用不會碰到可以不用修..
06/05 23:50, 85F

06/05 23:50, 11月前 , 86F
客戶更怕你修這個又搞了一個更詭異的bug吧
06/05 23:50, 86F

06/05 23:57, 11月前 , 87F
阿就放出個維修時間 給他重開機 遊戲
06/05 23:57, 87F

06/05 23:58, 11月前 , 88F
不也是週期性維修時間
06/05 23:58, 88F

06/06 00:11, 11月前 , 89F
都不用維修的嗎?
06/06 00:11, 89F

06/06 00:13, 11月前 , 90F
你VM沒重開不代表host沒重開啊w
06/06 00:13, 90F

06/06 00:22, 11月前 , 91F
可以這麼久不重開我反而比較佩服欸
06/06 00:22, 91F

06/06 01:17, 11月前 , 92F
沒防斷電的話 挺厲害的 我們沒這問題
06/06 01:17, 92F

06/06 01:50, 11月前 , 93F
都不update的嗎…
06/06 01:50, 93F

06/06 05:44, 11月前 , 94F
欸.. 我們機房真的有主機連開超過三年
06/06 05:44, 94F

06/06 05:44, 11月前 , 95F
不關的
06/06 05:44, 95F

06/06 06:37, 11月前 , 96F
除非有ha不然server重開都是風險
06/06 06:37, 96F

06/06 09:58, 11月前 , 97F
三年不重開才碰的到XDD
06/06 09:58, 97F

06/06 10:02, 11月前 , 98F
媒體搬文章也不把原文解釋寫清楚
06/06 10:02, 98F
文章代碼(AID): #1aVTkoNs (PC_Shopping)