了解最新公司動態及行業資訊
在數字化浪潮下,運維能力逐漸成為現代企業的競爭力之一。
在過去的幾十年里,運維經歷了幾個階段。從早期的人工運維到標準化運維、自動化運維、AIOps,全過程追溯不難發現,隨著技術的不斷發展,運維方式正在逐漸智能化。
2016年,為運維提供了一個新概念——“AIOps”,中文意思是智能運維。即以AI等手段為核心,為運維提供更加智能化、數字化的支持。也就是說,運維應該從“人”元素中分離出來it運維技術,更多地放在“數據”端。包含更多場景,包括異常告警、告警收斂、故障分析、趨勢預測、故障畫像等。
所謂AIOps,簡單理解,就是基于自動化運維,將AI和運維很好的結合起來。
AIOps 的實施直接擊中了傳統運維多方面的痛點。 AI算法承擔著分析海量運維數據的重任,能夠自動準確地發現和定位問題,從決策層面提升運營效率,助力企業運營運營。維護工作在成本、質量和效率方面的優化提供了重要支持。
在市場方面,全球IT研究機構預測:“到2022年,40%的大型企業將部署AIOps(智能運維)平臺。”
可見,AIOps在企業中的作用進一步放大。但實際上,很多企業并不清楚AIOps能解決什么問題。今天我們就從華晨數據的AIOps的三種場景和算法入手。
Brill Data 的 AIOps 實踐
作為領先的APM應用性能管理廠商,在AIOps實踐方面,華晨數據多年來積極擁抱人工智能、機器學習等新技術浪潮,并以AI和機器學習技術為基礎,自主研發了“數據接口”。 “傳入、處理、存儲、分析技術”核心技術體系,全面部署智能基線、異常檢測、智能告警、關聯分析、根因分析等豐富廣泛的智能運維功能,集成AIOps能力融入端到端全棧監控產品線可為傳統企業提供強大的數據處理、存儲和分析軟件工具,幫助客戶整合各種IT運維監控數據,實現數據統一存儲和關聯分析,打破數據孤島,構建統一的IT運維。運維管理平臺讓企業的IT運維更加智能化、自動化。
在此基礎上,華晨數據還依托完善的IT運維監控能力,利用大數據和機器學習技術,不斷打造先進的智能運維監控產品。 2021年,將推出新一代AI能力。 APM產品.0和新版統一智能運維平臺繼續實現智能異常檢測、根因分析、故障預測等場景。基于AI的能力在運維監控場景中實現信息整合、特征關聯和業務洞察,幫助企業保障數字化業務的順利運營和良好的數字化體驗。
博瑞數據AIOps場景與算法
目前,華晨數據在AIOps技術上主要實現了三個場景。即智能基線預測、異常檢測和告警收斂。
首先看看智能基線預測。
智能基線預測是指基于歷史數據,利用智能算法進行深度學習,準確預測未來每個時間點的值,并將預測值作為基線進行監控和告警。
如上圖所示,未來24小時的數據預測結果用虛線表示,灰色區域表示正常數據的波動范圍。如果實際值超出灰色區域,則會出現異常。
當IT運維人員發現業務服務數據出現問題時,通常會使用動態基線來測試和測量實時數據。如果實時數據和動態基線數據兩條曲線擬合度相近,則服務相對健康;如果動態基線與實時數據的離散程度較大,則說明當前服務存在問題。
目前華晨數據在智能基線預測中使用的算法包括實時預測算法、離線算法預測和流式算法預測三種。
讓我們再看看異常檢測。
異常檢測是指通過對歷史數據的機器學習來動態預測數據的趨勢。無需手動設置閾值,可根據指標數據特征自動識別異常。
如圖,灰色區域代表正常數據的波動范圍,紅色數據點為異常數據點。
在檢測應用服務運行狀態的過程中,IT運維人員可以通過AIOps異常檢測算法判斷圖中紅色區域的數據為異常數據,深灰色條形區域為業務波動的可容忍范圍。同時,運維人員還可以通過數據集的特征數據對當前事件周期內的數據進行聚合,綜合分析當前事件對應用的整體影響和波動范圍。
目前華晨數據在異常檢測中應用的算法有靜態基線(絕對靜態基線+差分靜態基線)、智能基線+判別等。
最后,我們來看看警報收斂。
所謂告警收斂,是指基于多個相關告警信息,組合成一個故障,可以預測判斷當前處于故障狀態的告警可能產生的影響,從而實現預警故障并減少冗余報警事件。干擾運維工作。
目前華晨數據在告警收斂中使用和規劃的算法包括事件熵、頂點熵、時域相關、文本相似相關、拓撲相關、NMF+等。
為AIOps行業的發展做出貢獻
進一步擴展和豐富華晨數據現有的AIOps場景、算法和能力,打磨日志異常檢測、根因分析、影響分析、自然語言處理、DIY算法等能力,用AI算法賦能日志業務場景管理、一體化運維、應急自愈快速恢復等,算法實驗室助力企業加速數字化轉型進程。
隨著企業業務規模的擴大以及云原生和微服務的興起,企業IT架構的復雜性呈指數級增長。但是,傳統的IT運維方式在故障發生后很難找到故障原因,且故障平均修復時間長,已經不能滿足新的運維需求。因此,不可避免地要用人工智能賦能運維,替代緩慢易出錯的人為決策,快速給出運維決策建議,減少問題影響,提前預警問題. AIOps作為當前運維發展的最高目標,未來將賦能運維,為用戶帶來全新體驗。
但需要注意的是,目前智能運維的很多產品和項目在企業端并不理想。原因可以歸結為三點:一是數據采集與AI平臺分離,多源數據之間缺乏關聯,導致AI平臺缺乏優質數據,從而導致模型訓練結果不佳;二是數據采集主要基于和日志,導致應用場景狹窄和數據孤島問題;第三it運維技術,AI平臺能力仍存在提升空間。目前落地場景多以異常檢測和智能告警為主。未來需要進一步提高根本原因分析和故障預測能力。
因此,未來企業首先要搭建一體化的監控運維平臺,而一體化是智能化的基礎。基于綜合監控運維平臺采集的優質可觀測數據以及數據之間的關聯性,將AIOps能力進一步落實到綜合監控運維平臺中,實現精準問題定位和洞察能力。
另外,在實際應用中,根據中國信息通信研究院的相關調查,被調查企業中具備智能監控和運維決策能力的企業不到20%,超過70%的企業是應用系統故障的第10起。在幾分鐘內什么都不做。
各行業的數字化轉型正在改變這一現狀。不僅是互聯網企業,更多傳統企業的數字化轉型,為智能運維開辟了更廣闊的市場。智能運維有著巨大的發展空間。現在是等待行業領先公司努力的好時機。
提升創新能力,推進智能運維,既是相關服務商自身發展的要求,也是提升中國企業應用管理和運維水平的使命。
中國企業數字化轉型的加速,無論是前端應用服務的迭代更新,還是后端IT運維架構復雜度的提升,都在加速智能運維的成長.