[新聞] Google:晶片愈小,反讓CPU運算錯誤難預測

看板Tech_Job作者 (凡所有相皆是虛妄)時間2年前 (2021/06/19 13:10), 編輯推噓25(30525)
留言60則, 46人參與, 2年前最新討論串1/1
CPU 不可靠了?Google:晶片愈做愈小,反而讓 CPU 運算錯誤難以預測 https://buzzorange.com/techorange/2021/06/18/small-chip-cause-cpu-error/ 作者:新智元 Google 正在警惕一件事情,那就是:電腦晶片已經發展到不再可靠的地步,並且可能無 法以可預測的方式執行運算。 但並不是說它們曾經完全可靠。 實際上,CPU 錯誤的存在時間與 CPU 本身一樣長。錯誤不僅產生於設計上的疏忽,也產 生於環境條件和產生故障的物理系統故障。 但是這些錯誤已經趨於罕見,只有最敏感的運算才會受到廣泛的核查。如果系統看起來像 預期的那樣運行。大多數情況下,電腦晶片被視為值得信賴的。 Google:晶片縮小可能是 CPU 錯誤無法預測的根本原因 Google 工程師 Peter Hochschild 在本週作為操作系統熱點話題(HotOS)2021 會議的 一部分發佈的影片中說:「我們的冒險,開始於生產團隊越來越多地抱怨慣犯機器破壞數 據。」 「這些機器被可靠地指控破壞了多個不同的、穩定的、經過調試的大規模應用程式。每台 機器都被獨立的團隊反覆指控,但傳統的診斷方法沒有發現它們有任何問題。」 在更深入地研究相關程式碼和來自他們機器的操作遙測數據後,Google 工程師開始懷疑 他們的硬體有問題。他們的調查發現,硬體錯誤的發生率比預期的要高,而且這些問題在 安裝後很久才零星出現,而且是在特定的、單獨的 CPU 核心上,而不是在整個晶片或部 件家族上。 Google 的研究人員在研究這些無聲的破壞性執行錯誤(CEEs)後得出結論:「易變的內 核(mercurial core)」是罪魁禍首——CPU 在不同情況下偶爾會計算錯誤,其方式無法 預測。 這些錯誤不是晶片架構設計失誤的結果,也不是在製造測試中檢測出來的。相反, Google 工程師推斷,這些錯誤的出現是因為我們已經將半導體製造推到了一個故障越來 越頻繁的地步,而我們缺乏提前識別它們的工具。 在一篇題為「不算數的內核」(Cores that don’t count)的論文中,Hochschild 及其 同事列舉了電腦內核不可靠的幾個看似合理的原因,包括使罕見問題更加明顯的大型伺服 器群、對整體可靠性的關注增加,以及減少軟體錯誤率的軟體開發改進。 「但我們認為有一個更根本的原因:越來越小的特徵尺寸使其更接近 CMOS 的擴展極限, 再加上架構設計的複雜性不斷增加。」研究人員指出,現有的驗證方法不適合發現零星出 現的缺陷或部署後物理惡化的結果。 Facebook 也發現 CPU 的運算錯誤 今年 2 月,Facebook 發表了一篇相關的論文「規模化的無聲數據破壞」(Silent Data Corruption at Scale),其中指出:『無聲數據破壞正在成為數據中心中比以前觀察到 的更常見的現象。」 該論文提出了緩解策略,但沒有解決根本原因。 在 Google 的研究人員看來,Facebook 發現了一個不可靠核心的症狀——無聲的數據損 壞。但確定問題的原因,並提出修復方法,將需要進一步的工作。 行為不端的內核所帶來的風險不僅包括崩潰(現有的錯誤處理的故障停止模型可以適應) ,還包括不正確的運算和數據丟失,這可能會被忽視,並在規模上構成特殊的風險。 「我們的一個易變的內核破壞了加密,」他解釋說,「它是以這樣一種方式做到的,即只 有它能解密它錯誤加密的內容。」 Google 的研究人員以「商業原因」為由拒絶透露其數據中心檢測到的 CEE 率,儘管他們 提供了一個大致的數字,「每幾千台機器有幾個易變的內核– 與 Facebook 報告的比率 相似。」 理想情況下,Google 希望看到自動化的方法來識別易變的內核,並建議在整個晶片的生 命週期內進行 CPU 測試,而不是只在部署前依賴燒機測試。 這家公司目前依靠的是人類驅動的內核完整性審訊,這不是特別準確,因為識別可疑內核 的工具和技術仍在進行中。 ---- 微縮到一定程度, 會不會終究是有物理極限? 發生錯誤的機會就高了起來 對於消費性電子可能還好, 不過某些工商業應用可能就會出大事了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 58.114.83.137 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1624079405.A.4D8.html

06/19 13:12, 2年前 , 1F
做不贏就放消息,學綠營?
06/19 13:12, 1F

06/19 13:15, 2年前 , 2F
覺得硬體不可靠就自己做啊,GoogleFB領多少,相信強者自己
06/19 13:15, 2F

06/19 13:15, 2年前 , 3F
拿紙筆算一樣很強
06/19 13:15, 3F

06/19 13:26, 2年前 , 4F
那就裝三組來投票吧
06/19 13:26, 4F

06/19 13:27, 2年前 , 5F
容錯運算老題目了 很多解法啦
06/19 13:27, 5F

06/19 13:36, 2年前 , 6F
量子
06/19 13:36, 6F

06/19 13:40, 2年前 , 7F
林納斯好像也講過類似的話
06/19 13:40, 7F

06/19 13:43, 2年前 , 8F
量子力學了
06/19 13:43, 8F

06/19 13:43, 2年前 , 9F
硬體本來就一直都會錯,就是錯誤修正要再加強啦
06/19 13:43, 9F

06/19 13:46, 2年前 , 10F
要越做越大了?
06/19 13:46, 10F

06/19 14:02, 2年前 , 11F
HW bug?
06/19 14:02, 11F

06/19 14:07, 2年前 , 12F
你乾脆說 邏輯閘越多越難預測好了
06/19 14:07, 12F

06/19 14:10, 2年前 , 13F
stadia:
06/19 14:10, 13F

06/19 14:32, 2年前 , 14F
趕快跑個prime95 v298b6壓壓驚
06/19 14:32, 14F

06/19 14:49, 2年前 , 15F
硬體當然會錯 不過google自己軟體bug一大堆…
06/19 14:49, 15F

06/19 14:58, 2年前 , 16F
這裡怎麼好像沒人知道銅原子擴散早就是大問題了?
06/19 14:58, 16F

06/19 15:53, 2年前 , 17F
這是不是google翻譯的文章啊
06/19 15:53, 17F

06/19 16:22, 2年前 , 18F
你們的手機也不能維修只能換新阿。未來硬體就是這樣了
06/19 16:22, 18F

06/19 16:33, 2年前 , 19F
這家公司出嘴的比做事的多,做出來再說吧
06/19 16:33, 19F

06/19 17:13, 2年前 , 20F
它在說 silicon 不可靠,其實CPU 也有可能有很多 b
06/19 17:13, 20F

06/19 17:13, 2年前 , 21F
ug, 軟體不容易發現,你看CPU 廠商發一堆 errata 就
06/19 17:13, 21F

06/19 17:13, 2年前 , 22F
只到有人踩到有感覺,有人沒踩到或沒感覺。複雜的電
06/19 17:13, 22F

06/19 17:13, 2年前 , 23F
路本來就無法保證沒問題。
06/19 17:13, 23F

06/19 17:26, 2年前 , 24F
Error, fault, failure, 自行google 一下
06/19 17:26, 24F

06/19 18:27, 2年前 , 25F
快來個量子容錯算法
06/19 18:27, 25F

06/19 18:28, 2年前 , 26F
垃圾google. 幹 做不贏開始放消息帶風向
06/19 18:28, 26F

06/19 18:30, 2年前 , 27F
尤其google是一家以軟體為主的公司。硬體不是本行也可以
06/19 18:30, 27F

06/19 18:30, 2年前 , 28F
講得煞有其事
06/19 18:30, 28F

06/19 18:33, 2年前 , 29F
chipping
06/19 18:33, 29F

06/19 18:57, 2年前 , 30F
整篇都沒提到跟晶片縮小關聯性...
06/19 18:57, 30F

06/19 19:21, 2年前 , 31F
有論文嗎 沒有就先觀望
06/19 19:21, 31F

06/19 20:30, 2年前 , 32F
三小翻譯文章
06/19 20:30, 32F

06/19 21:43, 2年前 , 33F
要嘛是IC設計的時候出問題,要嘛是你軟體寫的有問題,去
06/19 21:43, 33F

06/19 21:43, 2年前 , 34F
怪晶片太小而出錯..是不是搞錯什麼
06/19 21:43, 34F

06/19 21:46, 2年前 , 35F

06/19 21:47, 2年前 , 36F
所以跟縮小有甚麼關係~
06/19 21:47, 36F

06/19 21:50, 2年前 , 37F
做不贏
06/19 21:50, 37F

06/19 21:56, 2年前 , 38F
做越小 device的charge越少 約容易被外部干擾flip
06/19 21:56, 38F

06/19 22:00, 2年前 , 39F

06/19 22:19, 2年前 , 40F
英國研究指出:電晶體越多越複雜
06/19 22:19, 40F

06/20 00:08, 2年前 , 41F
reliability跟radiation的問題比較難分析 而且目前還沒
06/20 00:08, 41F

06/20 00:08, 2年前 , 42F
有一個評量的標準
06/20 00:08, 42F

06/20 00:37, 2年前 , 43F
一顆有疑慮可以買兩顆, 選我正解
06/20 00:37, 43F

06/20 03:17, 2年前 , 44F
東西壞了就要換,搞不好歲修的時間來個 ATPG 檢測
06/20 03:17, 44F

06/20 09:44, 2年前 , 45F
Emc
06/20 09:44, 45F

06/20 11:02, 2年前 , 46F
英特爾表示:
06/20 11:02, 46F

06/20 11:09, 2年前 , 47F
做贏的cpu就沒bug嗎?人家的網站呑吐是全世界前三的當然
06/20 11:09, 47F

06/20 11:09, 2年前 , 48F
可以出來說
06/20 11:09, 48F

06/20 11:19, 2年前 , 49F
tunneling effect?
06/20 11:19, 49F

06/20 13:08, 2年前 , 50F
IC裡面的資料一直都有極小的機率性的讀寫錯誤問題,但是在
06/20 13:08, 50F

06/20 13:09, 2年前 , 51F
極大量的吞吐量級下,變成不能忽視的存在
06/20 13:09, 51F

06/20 13:13, 2年前 , 52F
跟越來越小有關係的就量子穿隧效應阿?
06/20 13:13, 52F

06/20 14:17, 2年前 , 53F
這篇文章能看出google翻譯還有很大的改善空間
06/20 14:17, 53F

06/20 14:39, 2年前 , 54F
幹,一樓吃大便是不是。
06/20 14:39, 54F

06/20 15:19, 2年前 , 55F
lockstep不會?
06/20 15:19, 55F

06/20 20:26, 2年前 , 56F
量子糾結,老高有講過。
06/20 20:26, 56F

06/20 21:55, 2年前 , 57F
他這個意思是要說 牙膏或其他廠的CPU有問題 然後又沒辦
06/20 21:55, 57F

06/20 21:55, 2年前 , 58F
法找出證據? 用大數據debug感覺很猛
06/20 21:55, 58F

06/21 12:25, 2年前 , 59F
raid cpu ,選我正解
06/21 12:25, 59F

06/21 22:31, 2年前 , 60F
智子開始科技鎖定了啦
06/21 22:31, 60F
文章代碼(AID): #1WpNmjJO (Tech_Job)