了解最新公司動態及行業資訊
阿里巴巴的運維系統經歷了腳本時代、工具時代和時代,目前正在實現人工運維和探索智能運維階段。 2008-2009年,阿里巴巴的運維還處于腳本時代,大量的運維工作需要通過腳本來實現。 隨著業務規模和復雜度的擴大,腳本的形式越來越難以維護,于是阿里巴巴開始引入運維工具。 在運維工具時代,阿里巴巴的運維體系經歷了:從工具團隊和運維團隊并行的階段,到工具團隊為了更好的保證質量的階段的工具,然后到部分軟件有想法和功能的工具組階段。 終于,阿里巴巴的應用運維團隊迎來了一次大變革。 原有的應用運維團隊全部解散,并入各業務的軟件開發團隊,全面推進思想。
進入階段后,成熟的流程化運維工具實際上提升了部分運維效率,而且各個工具實際上是獨立分離的,比如監控工具和運維工具分離,巡檢工具和快速恢復工具也是碎片化的,導致在日常應用的持續運維過程中,從監控到問題發現、定位、快速恢復的環節漫長且效率低下。 對于運維開發,期望的狀態是業務應用上線后可以“NoOps”。 監控和運維系統可以自行檢測異常并手動解決,使應用和業務恢復正常。 處理完成后,發送消息通知下載即可。 發力于“NoOps”方向,阿里巴巴應用運維開始構建“管控一體化”體系。
新的挑戰
隨著阿里巴巴業務的不斷發展和技術架構的不斷變化,新的場景和問題不斷涌現。 這種以應用為中心的監控運維帶來了新的挑戰。
超大規模
阿里巴巴不僅業務種類多,體量大,尤其是一年一度的淘寶雙11大促,需要超大規模IAAS資源的支持。 2015年之前,阿里巴巴每年都要花費巨資訂購服務器,建設一代又一代的IDC數據中心; 2015年到2019年it運維技術,阿里巴巴正處于全面云化的過程中。 這期間,阿里巴巴的基礎設施一部分在云下的數據中心,一部分在阿里云上的數據中心。 還需要支持同城多活到異地多活,所以需要有強大的cloud-on-cloud整合超大規模資源管理的能力; 阿里巴巴在2019年實現全面云化后,開始面臨一個全新的超大規模資源管理場景:混合云。
運維效率
業務發展瞬息萬變,尤其是公司的重要業務,迭代變化的速度非常快。 在超大規模集群管理的前提下,為保證業務的連續性和快速迭代,我們需要能夠持續高效地實現應用的發布、部署、配置變更等運維變更。 這是持續運維領域要解決的問題。
運維安全
安全是任何行業的基礎,尤其是IT運維領域。 系統宕機、數據異常、數據丟失、數據庫刪除、逃逸等運維故障和風波層出不窮,可能給企業帶來致命打擊,甚至影響企業生死存亡。 為此,預防和遏制高危運維故障仍是不懈追求的目標。 在當代眾多業務形態和云技術架構下,如何保障企業IT運維的安全運行顯得尤為重要。
業務連續性
在阿里巴巴傳統的監控運維模式中,應用的運維開發需要在監控系統上配置一些監控項和預警規則。 當監控項觸發告警規則時,運維開發會收到告警通知。 然后運維開發需要打開記事本,在運維工具平臺創建相應的處理工單。 運維系統工單執行完成后,運維開發要繼續觀察監控項是否恢復正常。 節假日、節假日收到預警通知,不能及時上線查看情況,需要聯系其他團隊成員上線處理; 如果你在晚上睡夢中收到預警通知it運維技術,你需要立即喚醒大腦,打開筆記本上網。 . 整個預警異常處理過程持續時間長,需要人工參與的任務多,人工成本高,使得運維開發的工作幸福感很低。
另一方面,隨著業務的不斷發展,系統也在不斷減少,監控項和預警也在快速增加。 漸漸地,運維開發會僵化或輕視預警信息,很容易遺漏一些重要的上報信息,導致線路故障。 生意失敗。 近年來,天貓直播、盒馬線下門店、餓了么訂餐、釘釘在線教育等新業態蓬勃發展。 這類業務基本上對生產故障零容忍。 原有系統最好的99.99%可用性早已無法滿足新業務的要求,而傳統的監控、運維、單打獨斗的模式,更難以滿足100%業務連續性的要求。新服務。
解決方案
為保障生產業務的持續運行,提升業務系統從異常預警到異常恢復的整體效率,在保障安全的同時降低人力成本,我們考慮將監控預警與運維執行合二為一,并然后實現異常人工檢測、自動快速定位、人工快速恢復的目的,實現應用運維的“NoOps”狀態。
在應用監管一體化建設之前,傳統的監控和運維處于分離狀態。 運維開發如果想在應用的迭代變更過程中關注系統運行狀態,需要提前在監控平臺上定義和配置應用的關注度。 各項指標。 在應用變更期間,需要持續主動查看應用監控指標的變化情況,或者為各個指標設置預警規則,通過訂閱接收配置的監控報告,及時獲取應用運行異常情況。 當應用變更出現異常上報時,運維開發需要通過查看監控、應用日志、應用調用鏈接等信息分析異常原因,決定需要對運維執行哪些任務和維護平臺恢復,最后驗證任務執行結果是否符合預期。 為此,明確需求->配置監控指標并上報->分析異常原因->決策處理方法->執行任務->驗證執行結果,整個過程需要運維開發的介入。
解決方案
以保障業務連續性為動力源泉,在逐步深化監管融合的過程中,阿里巴巴從實戰經驗中積累了一套業務系統安全工程標準,實現了業務異常的早期發現,自動定位,快速回收。 聯創在監控、運維、安全防護等領域探索了多元化的解決方案。
安全
在推進的過程中,我們要求的底線是不要給現有的情況帶來更多不可控的激勵,尤其是高風險場景的保護,不要因為運維工作交接給運營造成全局性的系統性問題和維護開發人員。 風險,所以安全防護方案應運而生。
全景監控
監控是運維的基礎。 傳統的資源監控或應用監控模式早已無法滿足運維發展快速發現生產故障的需求。 基于阿里巴巴大規模實踐,我們開發了以應用為中心,從底層業務到PaaS再到底層資源的全鏈路監控解決方案,為業務異常檢測和定位提供有力支撐。
多元化運維
為實現監管一體化,促進業務異常快速、人工恢復,應用運維從原有的以應用為中心的可編排運維、智能運維等運維模式探索單風暴執行模式,打通運維。 維度領域的新視角。
總結
阿里巴巴應用運維管控一體化建設隨著業務形態和技術架構的不斷探索和發展。 本文主要介紹應用運維監控一體化建設的背景和思路。 我們以應用為中心,從應用監控管理的角度,通過全視圖監控實時掌握應用的運行狀態,通過高效的發布部署和靈活的運維安排對應用進行安全變更,實現它通過智能運維和安全防護對應用進行中層保護,我們會在后續章節為大家詳細展開。
【關于云霄】
云效,云原生時代一站式平臺,支持公有云、專有云、混合云多種部署形態。 通過云原生新技術、新開發模式,推動創新創業、數字化轉型企業快速實現開發敏捷和組織敏捷,打造“雙敏”組織,實現效率10倍提升。
立即體驗:阿里云云效_云效_云原生時代新平臺-阿里云