了解最新公司動態及行業資訊
隨著互聯網、5G、IoT等的快速發展,數字化、智能化建設對算力提出了更高的要求,數據中心正朝著規模化、集約化、綠色化發展方向發展。根據《全球數據中心托管服務市場機遇》報告顯示,超大規模數據中心預計將從 2019 年的 509 個下降到 2025 年的 890 個,這將改變數據中心的建設和使用方式。規模不斷擴大,小型數據中心的服務器數量已經達到10臺,超過10000臺的數量級,這意味著對運維的難度、人力、成本、專業性提出了更高的要求。企業數據中心的運維壓力面臨著前所未有的挑戰。“監督、管理、控制、預防”智能運維是解決問題的關鍵。
什么是智能運維?
首先,我們需要了解數據中心運維的發展歷程,主要包括三個階段:人工運維、自動化運維、智能化運維。
所謂人肉運維,是指在早期,數據中心的大部分運維工作都是由運維工程師手動完成的。服務器的運行狀態取決于運維工程師日常的目視檢查來定位和解決問題。每個工程師的運維上限為400臺左右。這些低效的運維形式在數據中心服務器數量不斷增加、勞動力成本不斷增加的時代是不可持續的。
因此,人工操作和維護應運而生。運維工程師根據運維經驗編寫腳本進行批量設備巡檢,后來發展為任務型設備巡檢。這是人工操作和維護的初始形式。這大大提高了檢測異常設備的效率,降低了運維成本。而且,面對故障根因、故障預測、性能趨勢和控制決策,人工運維是不夠的。
根據發布的《2021中國ICT技術成熟度周期報告》,AIOps市場將持續下滑,影響整個IT運營管理市場。報告預測,AIOps將在未來2-5年內進入成熟階段,將幫助企業大幅節省成本。從服務器運維的角度分析智能服務器運維,目標是收集帶外信息(配置信息、狀態信息、性能信息、日志等)和帶內信息(配置參數、性能信息、日志信息),利用機器學習的方法解決上述問題,提高系統的預警能力和穩定性,降低運維成本,
浪潮信息構建智能數學基礎設施管理平臺(ISPIM)
浪潮信息數學基礎設施管理平臺ISPIM通過對數據中心IT設備的7*24h管理和監控,實現異常檢測、故障診斷、故障預測、故障自愈、性能預測等多維度的智能運維。
在服務器運維中,最根本的就是檢查異常,而最常見的三個數據是狀態指標、性能指標和日志數據的度量。
狀態指示燈:當服務器狀態異常時,浪潮信息ISPIM管理軟件以主動/被動的形式聚合服務器的異常情況,避免重復告警和誤報。形成警報麻痹。
性能指標:在性能指標檢測方面,傳統的方法是設置一個閾值,但由于某個時刻暗角數據的形成,經常會出現誤報。可解決99%由噪聲數據引起的誤報;但是面對周期性變化的數據很難動態調整,也會出現誤報,大大降低了報警的準確性。浪潮信息ISPIM管理軟件通過AI優化,對性能數據的頻域、頻域、能量變化進行動態分析,利用LSTM和隨機森林進行預測,報警準確率達到98%。
日志數據:日志通常是半結構化數據,根據日志級別形成告警,不夠精確服務器運維技術服務器運維技術,只能衡量已知和確定模式的異常。浪潮信息ISPIM管理軟件擁有4000+運維專家資源庫,助力實現服務器故障快速診斷。同時,在日志智能故障診斷方面,將對采集到的日志進行重新編碼,深化對深度學習、LSTM等算法的研究。在實際應用中,可以從多個維度對服務器異常進行分析,異常檢查的準確率高達99%。
為進一步提升運維效率,浪潮信息ISPIM管理軟件不僅對日志故障進行診斷,還對系統宕機后的數據進行深度分析,快速定位問題,提高效率。
通過對收集到的海量數據進行分析,我們發現服務器宕機一般是由于CPU MCE(Check)故障造成的。一般來說,MCE有兩種來源,一種是CPU本身的故障,另一種是來自CPU以外的組件。浪潮信息ISPIM管理軟件通過帶外方式采集服務器CPU寄存器數據,基于MCA(Check)技術框架,通過定位CPU觸發源,分析,分析CSR和MSR寄存器,實現原因確認故障和故障部件的精確位置。根據浪潮信息專家經驗庫,提供專業的故障問題解決方案,提升運維效率。
據統計,數據中心因顯存和硬盤引起的故障占50%以上。主要原因是硬盤和內存量大,生命周期相對較短,使用率高。當顯存或硬盤出現故障時,很容易發生嚴重的停機車禍。
對于顯存來說,顯存形成的CE(可糾正錯誤)可以通過ECC()機制進行糾正,頻繁的CE往往會形成UCE()。一旦形成UCE,系統經常崩潰。因此,視頻內存故障的預測可以轉換為UCE預測。浪潮資訊ISPIM管理軟件通過多維度統計分析顯存CE,從CE的總頻率、內存固定化學地址CE頻率閾值、固定頻率閾值、CE分布范圍、頻率閾值等維度統計到獲得UCE和CE之間的關系,從而預測UCE。
至于硬盤,數據中心的存儲陣列大多采用了一些冗余機制。但是,這只能保證有限的硬盤故障場景。一旦故障磁盤數量超過 RAID 冗余的限制,就有可能導致系統停機或數據丟失的風險。浪潮信息ISPIM管理軟件分析SMART(自與)標準,獲取硬盤故障預測關鍵數據特征,基于模型算法進行訓練,優化模型算法,輸出推理算法模型,貫穿SMART指標和硬盤日志,預測風險盤。同時,當硬盤預測達到換盤指標時,可以支持換盤操作。
通過本次技術優化,浪潮信息ISPIM管理軟件可以實現顯存和硬盤的故障預測,大大提高系統穩定性。
浪潮信息ISPIM管理軟件可支持手動隔離顯存故障,實現故障自愈。在操作系統層面,結合MCE(Check)日志數據信息,根據CE故障信息,采用虛擬顯存故障頁診斷算法確定顯存故障頁。,并在操作系統內核中執行Page,通過虛擬顯存技術隔離對故障顯存區域的訪問,從而實現顯存故障隔離。在數學顯存層面,基于CE故障信息,通過數學顯存故障診斷算法,借助SPPR()和HPPR()隔離化學顯存故障行,技術上實現故障顯存永久隔離,完善操作系統。穩定性和可靠性,從而保證業務的穩定可靠運行。
性能預測是指服務器的性能數據。通過ARIMA、指數平滑、LSTM等智能算法,系統可以感知數據在未來幾小時、幾天或一年內的趨勢、增長或周期性變化。等待。憑借自主研發的性能分析核心組件,浪潮信息ISPIM管理軟件可支持數萬臺服務器同時對性能數據進行秒級監控和告警,幫助運維人員及時掌握設備的性能狀態。實時,實現對C盤壽命和容量的預測。,準確率為 99%。
浪潮信息數學基礎設施管理平臺ISPIM()具有資源管理、故障監控、性能監控、能耗管理、自動部署、報表統計、網絡拓撲、3D視圖等功能。對存儲、網絡設備等設備進行統一監控、運維、告警管理,運維效率成倍提升。基于浪潮信息故障專家庫的大數據規則故障診斷功能,故障診斷準確率可提升至93%,在快速處理故障的同時,大大降低數據泄露風險,幫助用戶建立無人值守數據中心,提高運維效率,降低運維成本,確保安全、可靠、