了解最新公司動態及行業資訊
只有昨天的縝密“謀略”,才能“維持”未來的穩定。前不久,阿里云和中國計算機行業商會信息存儲與安全專業委員會邀請了阿里云、字節跳動、華中科技大學的多位專家,共同講解存儲系統的運維在數字經濟時代。
一、減少延遲以防止系統性能發生較大變化
運維的本質是對網絡、服務器、服務的生命周期的各個階段進行運維,使其在成本、穩定性、效率等方面達到可以接受的狀態。在ICT行業,運維人員經常調侃“運維是對應用的承諾,一輩子都不會放棄”。他們就像數據中心和公司中 IT 資源的管家、保安和消防員。
阿里云智能高級技術專家、對象存儲研發負責人羅清超對此深有體會。他回憶了過去阿里巴巴清大客戶要求延遲和振動保護的情況,并強調當云存儲服務請求延遲和振動嚴重時,應用程序的整體性能會發生過山車式的變化。
云端的請求延遲包括網絡延遲和存儲延遲。云服務的網絡非常復雜,包括BGP()和數據中心的靜態網段和網絡。識別影響延遲和合理調度的串擾點對于防止交通擁堵至關重要。
存儲服務還需要處理媒體訪問的延遲。機械/SSD也是一個復雜的系統。壓力越大,延遲越高。尤其是在分布式存儲系統中it運維技術,會帶來病毒傳染效應。為了減少延遲抖動,對象存儲OSS從快速監控、精準告警、根因分析、優化調度入手,將延遲抖動控制在合理的剩余范圍內,保證良好的客戶體驗。
華北理工大學研究員、博士生導師吳飛笑著說,因為自己來自大學,沒有親身感受到運維人員的壓力,但他明白7*24隨叫隨到的難度,被稱為永動機。目前云存儲的可靠性要求是 11 個 9s。固態硬盤和傳統機械硬盤是云存儲中最基本的數據存儲單元,維護起來并不容易。后者的存儲介質由閃存組成。原則上,閃存就像一扇門。每次打開都會生銹。在使用的過程中,難免會造成老化,逐漸吱吱作響,故障層出不窮;前者就像一扇門。機械機器不斷擺動,但也有停止的時候。在由數千個固態硬盤或光驅組成的存儲系統中,要保證如此高的可靠性,運維人員的壓力是顯而易見的。
二、智能運維的大趨勢是隨著時間而變化的
“如果要完善新的基礎設施,首先要從運維中受益。”在企業數字化的過程中,運維是一門工夫。
字節跳動數據庫存儲技術負責人張磊表示,從傳統的自動化運維,到人工運維,再到AIOps智能運維,運維技術在過去十年實現了跨越式發展。開發。字節云數據庫云存儲整個運維系統的開發過程大致分為三個階段。
第一階段是2016年,整體的數據庫和存儲量都不是很大,團隊運維還處于“刀陶”的狀態,也就是基本由人來完成。
第二階段為2017年至2021年,業務規模快速發展。云存儲系統也達到了EB級別。數據庫的規模是上千甚至上萬套數據庫。因此,運維團隊轉而建立一些人工運維平臺,依靠這個平臺解決運營問題。
第三階段是從2021年年中開始,構建基于人工智能等技術的第三代運維系統。將運維人員的知識和經驗與大數據和機器學習技術相結合,融入運維系統中替代人力,從而更大規模地解決運營效率問題。
在這三個階段,整個業務系統的發展呈現出兩個能力的轉變:一是運維的文化、組織和能力的提升。從運維到系統,成立專職運維SRE團隊進行運維;另一方面,整個運維體系和一些面向服務的技術體系也在不斷推進,比如從最初的管理十臺服務器到今天管理了幾十萬臺服務器,這是技術不斷演進的支撐。系統。總而言之,運維的文化和組織,以及運維的技術體系,這兩條路徑是齊頭并進的。
三、快速定位診斷問題根源
隨著業務上云,運維逐漸“云化”。資源監控、終端管控、安全保障等運維服務轉化為云應用,企業可按需訂閱。
張磊表示,他普遍關注服務的黃金指標,尤其是一些與穩定性相關的黃金指標,因為對于小型在線服務來說,穩定性可能是第一位的。據悉,他更關注自己常年依賴的服務的一些技術演進路徑,以便提前做好規劃,確保運維/運營系統在技術或產品形式變化。
羅清超強調,阿里云對象存儲OSS作為服務商,必須履行服務承諾的SLA( Level )和SLO( Level )兩個關鍵指標。詳細來說,OSS官網承諾99.995%業界領先的SLA,所以作為服務商,肯定會按照參考標準衡量請求的成功率,千方百計確保這個指標。 SLO是更細化的服務項承諾,比如保證客戶請求的整體帶寬可以達到穩定的Tbps級別,一些典型的請求信噪比可以保證在100ms左右,不會有太大的波動. .
近期,阿里云將發布可觀察服務,為客戶提供主流云產品的運維知識。為對象存儲OSS提供劑量分析、性能監控、安全分析、數據保護、異常檢查、訪問分析等功能,從成本、性能、安全、數據保護、穩定性、安全等六個維度為客戶提供支持。訪問分析。管理能力。
吳飛覺得,為了支持應用的快速發展,存儲技術也在不斷發展。從傳統的 C 盤陣列到集中式存儲,再到當今系統中可能有數十或數萬臺服務器的分布式存儲。從技術上講,首先要考慮的是如何確保數千臺服務器能夠可靠運行。從運維的角度來說,就是應該沒有故障或者故障少,或者故障要快速發現,從而達到快速修復、快速恢復、快速檢查等指標。
近年來,人工智能的發展如火如荼,學術研究人員也在做利用人工智能提前預測系統故障的研究,希望在系統故障發生之前完成數據遷移,從而有效緩解用戶的壓力。運維。
四、產學研用,建設成長社區
運維為業務系統提供的保障it運維技術,離不開阿里云等服務商的布局,也離不開字節特等產品用戶的努力。高校和科研院所作為基礎理論技術和前沿技術研究的主體,在眾多關鍵前沿技術方面具有深厚的基礎技術儲備和豐富的理論研究基礎。因此,校企合作創新是產業發展中需要關注的藍籌股。
吳非說,用“共同成長體”來定義這樣的合作關系是微不足道的。這條鏈包括創新鏈、產業鏈和用戶鏈。正是因為這樣的聯盟,用戶端和研發端才聯動起來,共同促進彼此的發展。簡單來說就是產、學、研、用一體化,各方共同成長,推動技術的發展和落地。
例如,高校在研究云存儲的可靠性時,提出了一種新的算法。在推進算法應用的過程中,可能需要與字節跳動、阿里云等企業合作,將算法部署到實際系統上。促進產業發展。
吳飛還提到,校企界的跨界創新也成為高校專家學者專業發展規劃的重要組成部分。許多專家學者選擇在行業旨在推動技術落地后重返學術界。這被稱為“學術假期”。她相信,未來學術界與產業界會進一步深入融合。
張磊認為,校企融合是科技誕生到其廣泛應用的重要推動力。近年來,云存儲系統的一些技術已經固化。他首先希望學術界和研究界能在基礎設施領域帶來更多的突破:無論是存儲介質,還是整個云存儲架構的突破,或者是系統、運維思路、方法上的一些突破,都能帶來一些突破。為行業注入新的活力。其次,行業也要精益求精,大膽嘗試新技術、新技能、新理念,融入合適的場景。由于字節跳動等行業小企業,整體技術體量、服務器、數量存儲容量都比較大,雖然有特別好的技術杠桿效應。雖然看起來是一個很小的技術優化,但在大范圍的場景下只能形成一個非常大的價值。因此,學校和企業之間的相互支持是非常必要的。
羅清超強調,阿里云作為服務商,有兩個共同成長的核心點:一是提供基礎服務,共同運維能力;這反過來又有助于基地的發展。
針對兩位嘉賓提到的校企結合,羅清超表示,相互成長進化的兩個階段可能非常重要。第一階段,CCIA等組織為共同成長提供基礎和生態。本次CCIA的良好運行,可以為運維與技術的共同成長奠定堅實的基礎。第二階段,共同成長體必須產生成果。比如通過CCIA的組織,我們可以搭建溝通的橋梁,孵化一些在行業內有影響力的標準藍皮書或技術創新理念。
結論:隨著高校的職能從人才培養和科研向社會服務延伸,企業、協會、學院之間的合作將進一步推進,這無疑將有助于形成良性發展的循環和良性循環。推動儲備科技成果加快市場化。 ,而在這個過程中,用戶和廠商都將受益匪淺。
原文鏈接: