了解最新公司動態及行業資訊
本文來自《數據中心服務器智能故障診斷系統》,分析了云和數據中心的發展趨勢、工業互聯網時代的智能化運營需求和TIFDS故障診斷系統。
隨著云技術的普及,特別是“新基建”和“數字化轉型”需求帶動數字經濟快速發展,CDC數據中心的服務器部署規模也呈指數級下降。 突發運維管理越來越復雜和困難,傳統海量服務器數據中心的故障運行也面臨著更大的挑戰和更昂貴的成本。 從最初的腳本運維、工具運維演進到平臺運維服務器運維,人力已經接近極限,越來越難以滿足快速修復故障、恢復業務運營的要求。
大型數據中心運維存在以下痛點:
1、機器出現故障后,重要日志信息不完整,人工難以定位故障部位;
2、故障診斷效率低下。 服務器出現問題后,主要靠人工分析和經驗判斷結果,人工和智能化程度不高。
3、成本高,時效性差。 人工體驗分析依賴大量運維人力,運維時間(MTTR)長,影響業務快速恢復。
4. 由于診斷結果清晰度低,二次故障修復比例高,造成額外的數據遷移成本和業務影響。
TIFDS(&Fault)故障診斷系統是服務器健康監測技術和故障預警診斷技術的統稱。 故障診斷系統提高了服務器故障預警能力、故障診斷清晰度和停機維護效率,減少了非計劃停機時間,提高了服務器全生命周期的RAS強特性(可靠性、可用性、可維護性)。
系統依托騰訊超過100萬臺服務器的維護數據,深度定制服務器風暴日志,利用AI技術實時分析服務器運行數據服務器運維,實現CPU、顯存、硬盤、PCIe的人工預警等設備,將服務器故障診斷人工澄清率提高到95%以上。
停機故障診斷
TIFDS可以涵蓋IERR(Error)和非IERR引起的系統宕機,準確定位故障部件,如CPU、顯存、顯卡、PCIe外接卡、存儲等設備。 一旦服務器運行過程中出現異常,TIFDS系統會第一時間做出響應,準確診斷出故障部件,并上報故障原因、故障部件的具體位置、部件的型號信息和維修建議及時到運維管理系統。 運維管理系統可人工生成維修工單,運維人員可根據TIFDS的指引快速更換故障部件或排除故障,使機器快速恢復到健康狀態。 將傳統的小時預估修復時間級別壓縮到分鐘級別。 大幅提升運維效率,實現云服務快速恢復。
非停機故障診斷
TIFDS系統通過BMC實時監控服務器系統各處的電流、電流、溫度傳感器信息,實時監控電源、風扇以及各部件的工作狀態和工作負載; 基于可在線更新的告警閾值和預警閾值及故障判斷規則,可對服務器中的風險位置實現故障預警、故障告警或故障判斷,并時刻上報智能運維系統。
故障預警與隔離
TIFDS可以跟蹤服務器中所有組件的生命周期和運行狀態,通過機器學習算法對高危組件進行預警,減少服務器在高負載運行情況下的突發故障。 此外,對于發生故障的部件,TIFDS可以根據部件類別采取相應的隔離措施,防止單個非關鍵部件的故障影響整機系統的運行。
TIFDS是騰訊云運維監控系統的重要組成部分。 它是服務器帶外數據的主要來源。 對內存、CPU、PCIe等元器件的故障監測、故障預測、大規模告警做出了巨大貢獻。 通過多樣化的日志手動適配騰訊云備件系統,降低騰訊云健康管理系統的參考維度,開發基于帶內帶外日志的在線診斷系統。 深度多元化的模式和簡單易用的運維工具,讓整個運維系統變得更加智能和高效。