了解最新公司動態及行業資訊
北京,2022年4月27日——隨著互聯網、5G、IoT等的快速發展,數字化、智能化建設對算力提出了更高的要求,數據中心不斷向大型化、集約化方向發展和綠色演進,根據《全球數據中心托管服務市場機遇》報告,超大規模數據中心預計將從2019年的509個增長到2025年的890個,這將改變數據中心的建設和使用方式,規模的數據中心繼續增長。不斷擴大,大型數據中心服務器數量已達到10萬多臺,這意味著對運維的難度、人力、成本、專業性提出了更高的要求,企業數據中心的運維壓力也越來越大面臨前所未有的壓力。解決問題的關鍵在于打破傳統運維方式,打造“監督、管理、控制、預防”的智能化運維。
【圖片】
什么是智能運維?
首先要了解數據中心運維的發展歷程,主要包括三個階段:人工運維、自動化運維和智能運維。
所謂人工運維是指——在早期,數據中心的大部分運維工作都是由運維工程師手動完成的。服務器的運行狀態取決于運維工程師日常的目視檢查來定位和解決問題。每個工程師的運維上限為400臺左右。這種低效的運維方式,在數據中心服務器越來越多、人工成本越來越高的時代很難維護。
于是自動化運維應運而生。運維工程師根據運維經驗編寫腳本進行批量設備巡檢,后來發展為任務型設備巡檢。這是自動化運維的早期方式。這大大提高了發現異常設備的效率,降低了運維成本。然而,面對故障根源、故障預測、性能趨勢和控制決策,自動化運維卻無能為力。
根據發布的《2021中國ICT技術成熟度周期報告》,AIOps市場將持續增長,影響整個IT運營管理市場。報告預測,AIOps 將在未來 2-5 年內進入成熟階段,將幫助企業節省大量成本。從服務器運維角度分析服務器智能運維,目標是收集帶外信息(配置信息、狀態信息、性能信息、日志等)和帶內信息(配置參數、性能信息、日志信息),利用機器學習解決上述問題,提高系統預警能力和穩定性,降低運維成本,提高運維效率。
浪潮信息構建智能物理基礎設施管理平臺(ISPIM)
浪潮信息物理基礎設施管理平臺ISPIM,在異常檢測、故障診斷、故障預測、故障自愈、性能預測等維度實現多維度智能運行。
在服務器運維中,最基本的就是異常檢測。最常見的是檢測三大數據:狀態指標、性能指標和日志數據。
狀態指示燈:當服務器狀態異常時,浪潮信息ISPIM管理軟件以主動/被動模式聚合服務器的異常情況,防止重復告警和誤告警。警報風暴服務器運維,產生警報癱瘓。
性能指標:在性能指標檢測方面,傳統的方法是設置閾值,但由于某一時刻產生的噪聲數據,經常會出現誤報。通過重復次數、閾值抖動范圍和自學習數據密度分布等,解決99%的噪聲數據產生的誤報;但面對周期性變化的數據,無法動態調整,也會出現誤報,大大降低了報警的準確性。浪潮信息ISPIM管理軟件通過AI優化,對性能數據進行時域、頻域、能量等變化的動態分析,利用LSTM和隨機森林進行預測,報警準確率達到98%。
日志數據:日志一般是半結構化數據。警報是根據日志級別生成的。準確性不足,只能檢測到已知的和確定性的異常模式。浪潮信息ISPIM管理軟件擁有4000+運維專家資源庫,有助于實現服務器故障的快速診斷。同時,在日志智能故障診斷方面,將對采集到的日志進行重新編碼,深化對深度學習、LSTM等算法的研究,在實際應用中可以多維度分析服務器異常,并將異常檢測準確率高達99%。
為了進一步提高運維效率,浪潮信息ISPIM管理軟件不僅對日志進行故障診斷,而且對系統宕機后的數據進行深度分析,方便用戶使用快速定位問題,提高效率。
通過對收集到的海量數據進行分析,浪潮發現服務器宕機通常是由CPU MCE(Check)故障引起的。一般來說,MCE的來源有兩種,一種是CPU本身的故障,另一種是CPU本身的故障。外部零件。浪潮信息ISPIM管理軟件帶外采集服務器CPU寄存器數據,基于MCA(Check)技術架構,定位CPU觸發源,分析MC Bank,分析CSR和MSR寄存器,實現故障原因確認和準確定位有故障的組件。并根據浪潮信息專家經驗庫,對故障問題給出專業的解決方案,提高運維效率。
據統計,數據中心內存和硬盤造成的故障中,50%以上是由于硬盤和內存量大、生命周期相對較短、使用率高造成的。當內存或硬盤出現故障時,極易發生嚴重的停機事故。
對于內存來說,內存產生的CE(可糾正錯誤)可以通過ECC(Error Code)機制來糾正,但是頻繁的CE往往會產生UCE(Error),而一旦產生UCE,往往會導致系統停機機器。因此,預測內存故障可以轉化為預測UCE。浪潮信息ISPIM管理軟件通過多個維度分析內存CE,包括總CE頻率、內存固定物理地址CE頻率閾值、固定Cell CE頻率閾值、CE分布范圍、頻率閾值等維度統計,得到UCE與CE,從而預測UCE。
在硬盤方面,數據中心的大部分存儲陣列都會使用一些冗余機制,但這只能保證有限的硬盤故障場景。一旦故障磁盤數量超過 RAID 冗余的限制,就有可能導致系統停機或數據丟失的風險。浪潮信息ISPIM管理軟件分析SMART(自和)標準,獲取硬盤故障預測的關鍵數據特征,基于模型算法訓練,優化模型算法,輸出推理算法模型。通過SMART指標和硬盤操作日志,預測風險盤。同時,當硬盤預測達到換盤索引時,可以支持換盤操作。
通過這些技術優化,浪潮信息ISPIM管理軟件可以實現內存和硬盤的故障預測,大大提高系統穩定性。
浪潮信息ISPIM管理軟件在故障自愈方面支持內存故障自動隔離。在操作系統層面,結合MCE(Check)日志數據信息,根據CE故障信息服務器運維,通過虛擬內存故障Page診斷算法確定內存故障Page,并在操作系統內核中執行Page,通過虛擬內存技術,隔離對故障內存區域的訪問,實現內存故障隔離。在物理內存層面,根據CE故障信息,通過物理內存故障診斷算法,使用SPPR(Soft Post)和HPPR(Hard Post)隔離物理內存故障Row。操作系統的穩定性和可靠性,從而保證業務的穩定可靠運行。
性能預測是指服務器的性能數據。通過ARIMA、指數平滑、LSTM等智能算法,可以感知系統數據在未來幾小時、幾天或一年內的趨勢、增長或周期性變化。等待。浪潮信息ISPIM管理軟件憑借自主研發的性能分析核心組件,可支持數萬臺服務器同時對性能數據進行秒級監控和告警,幫助運維人員實時掌握設備性能狀態,并實現對磁盤壽命和容量的準確預測。率達到99%。
浪潮信息物理基礎設施管理平臺ISPIM()具有資源管理、故障監控、性能監控、能耗管理、自動部署、報表統計、網絡拓撲、3D視圖等功能。對服務器、存儲、網絡設備等設備進行監控、運維,統一進行告警管理,運維效率成倍提升。基于浪潮信息故障專家庫的大數據規則故障診斷功能,故障診斷準確率可提升至93%。此外,能夠快速處理故障的同時,大大降低數據泄露風險,幫助用戶搭建無人值守數據中心,提高運維效率,降低運維成本,保障數據中心安全、可靠、穩定運行.