了解最新公司動態及行業資訊
隨著網絡的快速發展,各大運營商由于業務的多樣性,部署了數以萬計的IT設備。 設備的種類、制造商和型號很多。 現場運維團隊人工巡檢無法滿足業務需求,也增加了人力成本,因此需要一套成熟的小型數據中心IT監控系統來支撐日常運維。
一、什么是IT運維監控
一般我們把IT設備分為:主機、數通、存儲、系統、數據庫、中間件等,還包括虛擬化、云化、物聯網的一些設備,而IT運維監控是指一種技術手段采集IT設備指標,保證系統和業務管理軟件的正常運行。
2、運維監控分類
1、基于監控指標的描述對象可分為硬件級監控和系統級監控:
(1)硬件級監控:主要采集設備的一些固件信息(廠商、大小、序列號等)和工作狀態指標(溫度、速度、電壓、到位狀態等)。
(2)系統級監控:主要采集操作系統、中間件、應用程序的一些運行信息(CPU、內存、磁盤使用率等)。
2. 基于監控指標的采集方式分為帶外指標監控和帶內指標監控:
(1)帶外指標監控:通過專用的硬件管理收集帶外監控指標。
(2) 帶內指標監控:通過在監控對象上部署插件或網絡合約來采集帶內監控指標。
三、常用監控技術
1. 帶外采集
(1)IPMI監控
一套獨立于操作系統運行的管理系統依賴于特殊的硬件模塊。 雖然業務操作系統沒有加載或關閉,但它仍然可以工作。 由于IPMI合約的制定比較簡單,各個廠商在標準中擴展了很多實用的功能,而擴展的功能缺乏統一的標準,而且大部分的采集命令和解析規則不具有通用性,降低了采集難度對于監控方。
一些常用的命令包括:??...fru,...sdr,,show等。據悉,還可以通過SSH合約登錄IPMI管理操作系統執行采集命令。
(2)
由于IPMI擴展性差,自身存在安全隱患,IPMI也在2015年公布了2.0v1.1標準,將不再更新,將永久替代。 英特爾也宣布不再維護它。 它是一種基于HTTPs服務的管理標準。 它具有安全性、高度可擴展的管理()、人類可讀的數據接口()等特點,可以基于現有硬件實現。
2.帶內采集
(1)代理監控
Agent監控就是通過在被監控對象上部署一套插件來監控系統的各項指標。 Agent可以獨立完成指標采集和簡單分析,然后將結果傳輸給端,增加了數據處理的工作量和對服務器的性能要求。 主要用于收集虛擬機和數據庫。 通過代理采集中心的任務分發和節點控制,通過分布式架構,實現采集能力的便捷垂直擴展。
(2)SNMP合約
SNMP合約主要是一種網絡設備的集合技術。 和IPMI一樣,各廠商型號的設備對MIB庫的支持和擴展差異較大it運維技術,指標定義不同也會增加監控的難度。
(3) SSH/合約
通過SSH/連接被監控設備,然后執行采集命令或運行腳本并將運行結果傳輸到監控終端實現監控。 這些方式較為靈活,但存在一定的操作安全風險。
四。 概括
IT運維監控技術有效緩解了IT系統數量多、系統復雜度高的問題,大大提高了運維人員的工作效率。 未來,IT運維監控技術必然與AI技術相結合it運維技術,利用AI技術實現運維智能化、高效化、高質量發展。