[問題] 當機怎麼查?

看板Linux作者 (狗狗)時間11年前 (2012/09/24 00:34), 編輯推噓5(5026)
留言31則, 6人參與, 最新討論串1/1
本身是將桌機做backend 這些都是跑運算用的 裝的是Suse Linux Enterprise Server 11 sp2 我有將Xwindow關閉 也設定為開機不開啟 跑job跑一段時間就會沒回應 沒固定週期的沒回應 這裡指的沒回應就是當機 在電腦面前無論怎麼按鍵盤 螢幕就是沒畫面 沒有設定休眠 主機的power和CPU風扇都還在運轉 也無法在別的機器使用ssh login 網路也沒問題 因為強制重開機就正常了 有測過memtest86+ 都沒問題 硬碟也用HD TUNE測過 也無壞軌 過熱的狀況也排除 機房冷氣是大台水冷式的那種 設定是20度 走進去都會冷= =" 跑的軟體是Gaussian與VASP 在 /var/crash 無資料 還有哪裡可以去看當機的資訊?@@" 麻煩大家了... -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.118.160.178 ※ 編輯: s6414073 來自: 140.118.160.178 (09/24 00:36)

09/24 01:57, , 1F
建議每隔幾分鐘把mem和swap使用率紀錄起來,有沒可能是
09/24 01:57, 1F

09/24 01:57, , 2F
記憶體吃完了,swap又太小無法置換?
09/24 01:57, 2F

09/24 02:22, , 3F
看syslog 你的狀況可能是像是樓上講的一樣
09/24 02:22, 3F

09/24 11:03, , 4F
我記憶體有12GB 一開始安裝有割swap為24GB 這樣會不夠嗎?
09/24 11:03, 4F

09/24 11:20, , 5F
先想辦法留一個交談式的shell不斷線,最好一直跑著top之類
09/24 11:20, 5F

09/24 13:00, , 6F
請問一下是雙通道但插3條記憶體嘛?? 4GBx3 ??
09/24 13:00, 6F

09/24 13:14, , 7F
這是三通道的 2G*6=12G
09/24 13:14, 7F

09/24 13:16, , 8F
都是同週期的 也有跑過memtest86+ pass15次 我才關掉
09/24 13:16, 8F

09/24 13:18, , 9F
我有看一台電腦跑2個禮拜還沒跑完 swap用不到5%
09/24 13:18, 9F

09/24 13:37, , 10F
同意一樓 曾經程式寫出bug把48G記憶體吃光 機器運作正常但
09/24 13:37, 10F

09/24 13:39, , 11F
無法回應 所以你寫個小script去抓每五秒MEM資訊log下來看看
09/24 13:39, 11F

09/24 13:39, , 12F
會不會是程式有BUG?
09/24 13:39, 12F

09/24 14:20, , 13F
可是同樣的input檔丟國網中心的超級電腦就沒問題
09/24 14:20, 13F

09/24 14:20, , 14F
這問題困擾很久都無解>"<
09/24 14:20, 14F

09/24 14:21, , 15F
我試試看寫個script去抓mem的log 先感謝大家^^
09/24 14:21, 15F

09/24 14:41, , 16F
你也可以看你的程式在國網要吃多少記憶體啊 這樣比較簡單
09/24 14:41, 16F

09/24 16:25, , 17F
CPU一樣?會不會剛好給你碰到BUG XD
09/24 16:25, 17F

09/24 16:31, , 18F
CPU不一樣@@"
09/24 16:31, 18F

09/24 17:37, , 19F
lib版本相同嗎?? XD 有沒限定特別版本...
09/24 17:37, 19F

09/24 17:38, , 20F
像以前就只能在centos 5 跑,6效能就差很多... (舉例)
09/24 17:38, 20F

09/24 17:51, , 21F
你也可以安裝ganglia套件,可查看即時系統狀態,非常好用
09/24 17:51, 21F

09/24 21:50, , 22F
沒有限制 只限定RedHat和SuSE
09/24 21:50, 22F

09/24 22:19, , 23F
CPU都是I社或A社?
09/24 22:19, 23F

09/25 01:55, , 24F
i7-920~i7-950都有 全都I社
09/25 01:55, 24F

12/30 04:03, , 25F
自問自答..JOB太大 記憶體吃光光 所以電腦最後沒有回應了
12/30 04:03, 25F

12/30 04:03, , 26F
還有一個大問題是 記憶體有插上去卻沒讀到
12/30 04:03, 26F

12/30 04:04, , 27F
插了12G只讀到4G 跑MPI的時候 因那太記憶體不足
12/30 04:04, 27F

12/30 04:04, , 28F
所以整個沒有回應
12/30 04:04, 28F

12/30 04:05, , 29F
所以最後還是解決了
12/30 04:05, 29F

12/30 04:05, , 30F
98年組的電腦 快102年才發現記憶體都沒讀到
12/30 04:05, 30F

12/30 04:06, , 31F
只能說廠商真是扯到爆 前人沒驗收 導致後人很無奈...
12/30 04:06, 31F
文章代碼(AID): #1GNpePLG (Linux)