了解最新公司動態及行業資訊
多年來,云供應商停機并不是新聞:
運維失誤,硬盤故障服務器運維技術,機房被雷擊,調試時輸入錯誤的命令,不同的錯誤會導致不同的BUG,最終導致云服務故障,造成較大損失。 AWS的費良洪先生在回憶云計算的發展歷程時曾說:“在我眼里,云計算是十年的積淀,十年的教訓。” 故障一直是云服務命運的雙胞胎。 一次次的斷層之痛,都在逼著云服務廠商和用戶加速成長,但這一次對于初創公司“ CNC”來說,實在是太過痛苦了。
InfoQ 認為,云供應商和用戶在此類云服務故障事件中吸取了寶貴的教訓。
對于廠商來說,需要學習的是:
注意錯誤
供應商工程師在編寫代碼時應捕獲異常服務器運維技術,然后進行適當的錯誤處理。
盡可能緩存動態內容,甚至是靜態內容
Redis緩存、Nginx緩存、CDN都是緩存甚至靜態化內容的一些手段。 雖然多級緩存維護起來比較麻煩,但是當底層服務出現問題時,它們是不可多得的戰略緩沖。 緩存給你買來的半小時到幾個小時幾乎就是救命靈芝,可以幫助你度過最艱難的時刻(,相對冷靜地尋找解決方案,緊急發布新頁面,或者遷移服務,把損失降到最低。
失敗演練很重要
一個系統的高可用有很多因素,不僅僅是系統架構,更重要的是——高可用運維。 對于高可用運維,平時的故障演練非常重要。 每個季度擲一次骰子,隨機關閉一個 IDC 一天。 借助 Chaos,路透社每年還進行一次大規模的故障演練——災難演練。 目的是提高應對意外故障的能力。
充分告知用戶云計算服務并非 100% 可靠
云提供商在提供云服務時,應告知用戶存在極小概率的云存儲損壞或數據丟失。 建議用戶自行備份或購買云備份。 如果不告知或強調不夠,很多用戶會認為云提供商將對數據丟失造成的所有損失負責。
尊重用戶,妥善處理危機
如果你是一家科技公司,你會更相信技術而不是管理。 相信技術就會用技術解決問題,相信管理,那么只有制度、流程、價值觀才會解決問題。 沒有人愿意看到問題發生; 但出現問題后,最重要的是解決問題,反思問題,吸取教訓。 ——陳浩
對于用戶來說,需要學習的是:
檢查核心依賴性并增加關鍵服務的冗余
很多云服務,比如AWS自己的系統,在構建上都有冗余的特性,但是完全使用會增加很多管理復雜度和成本支出,因為跨環境之間的數據同步需要云用戶自己來處理。 大多數企業不會選擇以上方案,但單純的數據備份在短短幾個小時的周期內起不到任何作用。 但這是一件值得去做的事情。
主動做好備份
根據美國標準TIA-942《數據中心通信基礎設施標準》,從可用性、穩定性和安全性分為四個級別:T1,可用性為99.67%; T2,可用性為99.749%; T3,可用性為99.982%; T4,99.995% 的可用性。 年平均停機時間也從0.4小時到28.8小時不等,這意味著每年都可能因為各種原因出現不可用。 不管有多少個“9”的云服務,其可靠性仍然不是100%。 用戶需要自己做備份。 當云服務出現故障時,有恢復數據的通道,而不是像“邊疆CNC”一樣被蒙蔽了雙眼。
整理/江湖“云計算一姐”之稱的上海云暢網絡科技創始人兼CEO顧一楠,GLG簽約中國云計算行業信息化顧問,致力于用一站式人工智能運維管理平臺,國際一流的專業服務和標準化流程,幫助中國企業選好云、用好云、用好云。