了解最新公司動態(tài)及行業(yè)資訊
當一個數(shù)據(jù)中心建成并投入生產(chǎn)時,維護工作就開始了,直到數(shù)據(jù)中心的生命周期結束。一般來說,數(shù)據(jù)中心的維護工作可以分為四類:一是日常檢查;二是應用變更和部署;三是軟硬件升級;四是突發(fā)故障處理。說起這些維修工作,讓大家對維修工作有個了解。
日常檢查
任何故障都可能在它發(fā)生之前就顯現(xiàn)出來。小隱患不消除,可能導致大故障。因此,數(shù)據(jù)中心的日常巡檢是枯燥無味的,但也很重要。操作中的一些隱患可以及時發(fā)現(xiàn)。. 根據(jù)數(shù)據(jù)中心承載的服務的重要性,需要對數(shù)據(jù)中心內(nèi)所有運行設備進行例行檢查。一些數(shù)據(jù)中心設備制造商提供檢測軟件,例如網(wǎng)絡管理軟件和安全保護軟件。可以通過這些軟件查看數(shù)據(jù)中心網(wǎng)絡,查看日志中是否有異常告警,網(wǎng)絡是否短暫中斷,端口是否UP/DOWN。通過網(wǎng)絡檢測軟件檢查網(wǎng)絡質(zhì)量。檢查服務器應用服務是否正常,CPU和內(nèi)存的利用率是否正常。檢查應用業(yè)務。比如有搜索業(yè)務,可以通過服務器進行單詞搜索,看看搜索結果和延遲是否在正常范圍內(nèi)。這些檢查必須每天重復。一旦檢測到并排除異常,必要時將重要服務切換到備用環(huán)境,排除后再切換回來。
還要檢查數(shù)據(jù)中心的機房環(huán)境,看看環(huán)境的溫度、濕度、灰塵是否符合要求。空調(diào)和供電系統(tǒng)運行良好,設備是否過熱,地板、天窗、防火、監(jiān)控等都是需要檢查的部分。不合理的地方要及時整改,不能偷懶。經(jīng)常去一些數(shù)據(jù)中心的時候,會發(fā)現(xiàn)很多值班的維護人員都拿著電腦,一邊瀏覽網(wǎng)頁,一邊玩游戲。應付日常檢查,甚至根本不檢查。只要沒有故障,玩游戲就需要時間,這樣數(shù)據(jù)中心的故障只是時間問題。一旦出現(xiàn)故障it運維技術,就會一團糟,甚至是哪個設備,哪個端口,哪個網(wǎng)線用于哪個業(yè)務,不清楚。本來,小故障可能會因為不熟悉而導致大故障。因此,不得進行日常檢查。雖然需要重復,但非常重要。,在不斷的巡視過程中,對數(shù)據(jù)中心的了解會越來越深,讓每次巡視都有新的發(fā)現(xiàn),在巡視中學習。
應用更改
數(shù)據(jù)中心承載的服務不是靜態(tài)的。隨著服務的多樣化,服務也經(jīng)常進行調(diào)整,包括服務器和網(wǎng)絡設置。因此,要熟悉服務器和網(wǎng)絡設備的操作,主要是要掌握Linux服務器命令和網(wǎng)絡協(xié)議。根據(jù)您的應用程序的需要進行更改。這時對維護人員提出了更高的要求,不僅要對數(shù)據(jù)中心原有業(yè)務非常熟悉,還要對新的應用業(yè)務有正確的認識,做到不影響業(yè)務的情況下才能做到。原來的業(yè)務。調(diào)整。這樣的應用變更,一個月可以做幾次,是數(shù)據(jù)中心維護人員的必修課,凸顯了技術人員的基本技能水平。此時it運維技術,您應該熟悉設備操作指令,知道如何實現(xiàn)業(yè)務,并經(jīng)常與設備制造商的技術人員打交道,以便通過溝通盡快掌握設備操作方法。同時,由于設備制造商對應用服務缺乏了解,維護人員需要協(xié)調(diào)處理應用服務和設備實現(xiàn)。以最快的時間、最低的成本完成應用業(yè)務部署。由于設備制造商對應用服務缺乏了解,維護人員需要協(xié)調(diào)處理應用服務和設備實施。以最快的時間、最低的成本完成應用業(yè)務部署。由于設備制造商對應用服務缺乏了解,維護人員需要協(xié)調(diào)處理應用服務和設備實施。以最快的時間、最低的成本完成應用業(yè)務部署。
軟硬件升級
數(shù)據(jù)中心的設備一般運行五年。不斷有設備需要淘汰和更換,還有一些設備由于軟件缺陷需要升級。因此,軟硬件升級也是維護工作的一部分,尤其是在軟硬件出現(xiàn)故障時。需要更換。有時,為了不影響業(yè)務,往往需要設備廠商提供軟件補丁來解決問題。數(shù)據(jù)中心有數(shù)百臺設備,硬件和軟件出現(xiàn)故障是正常的。因此,有必要不斷升級軟件和硬件。這類工作往往是在業(yè)務量最小的清晨之后進行。維修人員熬夜是家常便飯。維修人員必須有良好的身體素質(zhì),否則會不堪重負。升級軟硬件時,需要做回滾機制,防止升級長時間無法回滾和業(yè)務恢復。當你接手數(shù)據(jù)中心的維護工作時,你會發(fā)現(xiàn)為什么會有這么多的升級。幾乎每個月都有升級操作,熬夜升級已經(jīng)成為維修人員的例行公事。
突然失敗
沒有一個數(shù)據(jù)中心是沒有故障的,在數(shù)據(jù)??中心的運行過程中會出現(xiàn)這樣那樣的問題。這時候就顯示出維修人員的高技能水平。據(jù)統(tǒng)計,80%的故障是人為故障。因此,維護人員的水平往往決定了數(shù)據(jù)中心運行的穩(wěn)定性。此外,對于突發(fā)性故障,高級維護人員可以冷靜分析故障的觸發(fā)原因,快速找到解決方案。如果短時間內(nèi)找不到解決方案,他們還可以通過切換到備用設備來恢復業(yè)務。,然后分析。此時,擁有高水平的維護人員對于數(shù)據(jù)中心來說至關重要,可以在關鍵時刻派上用場。
雖然這些工作看起來有些普通,但不要小看它們。數(shù)據(jù)中心維護其實非常重要,關系到整個數(shù)據(jù)中心業(yè)務的正常運行。目前,此類專業(yè)人員在市場上非常受歡迎,尤其是對于那些對故障排除有較深層次的人。只有重視數(shù)據(jù)中心的維護,數(shù)據(jù)中心才能安全。