[請益] 系統&服務監控

看板Soft_Job作者 (批踢踢首席執行長)時間6年前 (2019/08/03 22:09), 編輯推噓9(909)
留言18則, 12人參與, 6年前最新討論串1/1
目前有需求是要監控系統資訊跟服務 並且做警報(Email通知) 請問各位大大 有沒有推薦的 系統跟服務監控 解決方案? 需求有以下幾點: 1.監控基本的系統資訊項目(CPU, Memory, Disk usage, Disk IO) 2.監控項目需要比較複雜的定義(例如CPU連續5分鐘平均 > 90) 3.監控服務是否還在運作(簡單的探測一下API) 4.監控某個RESTful API的狀態(例如系統授權是否即將到期) 5.監控的服務項目需要discover(打某個API取得目前有哪些instance) 6.符合警報後寄送email通知 7.Email通知需要支援群組設定(例如TechSupport群組, 客服群組, Sales群組) 8.通知規則需要支援複雜規則(一個period內的警報只寄送一次, 警報後特定條件內不再 發mail) 9.需要同時支援Windows跟Linux平台(系統資訊採集Windows透過WMI, Linux透過別的) 10.需要能夠單機執行(非一個master搭配agent做群集監控) 原本的想法是自己用熟悉的語言(Java or GO)刻一個簡單的程式 但發現要做到那些規則的定義跟configuration 包括Email通知規則 好像也不是這麼簡單的一個小program 也不太想要從輪子開始打造 Survey了好一番 監控的解決方案從Zabbix到其他一大堆 眼花撩亂的 但有些非免費 有些僅限Linux平台 有些功能太多 有些功能又缺了些 像是這個GOLang寫的Checkup https://github.com/sourcegraph/checkup 差了系統資訊監控跟規則&警報定義 只能做到status check而已 目前找到的只有 Prometheus https://prometheus.io/ 應該都有符合需求 搭配AlertManager, WMI_exporter, Blackbox exporter 可惜還差了discover service以及監控某個API狀態的需求 可能得自己刻一個json exporter? 或者已經有現成的exporter呢? 不知道是否有其他的解決方案可以參考的 感謝各位~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.250.83.50 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1564841379.A.939.html

08/03 22:22, 6年前 , 1F
除了四跟五我好像都有現成方案
08/03 22:22, 1F

08/03 22:23, 6年前 , 2F
zabbix、nagios
08/03 22:23, 2F

08/03 22:25, 6年前 , 3F
自己寫資訊來接服務比較好吧
08/03 22:25, 3F

08/03 22:27, 6年前 , 4F
Qt可以做桌面的 四五沒做過 不過應該也是可以測
08/03 22:27, 4F

08/03 23:07, 6年前 , 5F
普羅米修斯
08/03 23:07, 5F

08/03 23:08, 6年前 , 6F
普羅米修斯+grafa
08/03 23:08, 6F

08/03 23:08, 6年前 , 7F
na
08/03 23:08, 7F

08/03 23:22, 6年前 , 8F
Prometheus
08/03 23:22, 8F

08/03 23:57, 6年前 , 9F
WhatsupGold
08/03 23:57, 9F

08/04 02:00, 6年前 , 10F
這年代除非你很熟其他方案之外,還有比Prometheus + g
08/04 02:00, 10F

08/04 02:00, 6年前 , 11F
rafana更強大的選擇嗎,會來問基本上就是不用考慮了,
08/04 02:00, 11F

08/04 02:00, 6年前 , 12F
入門簡單又強大。
08/04 02:00, 12F

08/04 10:54, 6年前 , 13F
Zabbix
08/04 10:54, 13F

08/04 18:41, 6年前 , 14F
Zabbix
08/04 18:41, 14F

08/05 21:56, 6年前 , 15F
Prometheus
08/05 21:56, 15F

08/06 12:45, 6年前 , 16F
推自己磕
08/06 12:45, 16F

08/06 12:46, 6年前 , 17F
加油 OS跟web server也做一下
08/06 12:46, 17F

08/06 12:47, 6年前 , 18F
還有程式語言跟編譯器
08/06 12:47, 18F
文章代碼(AID): #1THPMZav (Soft_Job)