了解最新公司動態及行業資訊
建行市級數據中心IT運維服務體系建設應包括運維服務體系、流程、組織、團隊、技術、對象等內容。 同時,結合某建行業務特點,整合運維服務資源,規范運維行為,保障服務質量和效率,打造統一管理、集約高效的綜合運維體系,從而保障某建行數據集中條件下的網絡及應用系統安全、穩定、高效、持續運行。
1、運維服務體系建設原則
運維服務體系建設的原則如下。
一是基于既定的運維服務體系和流程。 為保證運維工作的質量和效率,應制定比較完善、實用的運維管理制度和規范,確定各項運維活動的標準流程和相關崗位設置,使運維人員可以在約束下進行協作。
二是以先進成熟的運維管理平臺為手段。 通過構建統一、集成、開放、可擴展的運維管理平臺,實現對各種運維干擾的全面采集、及時處理和合理分析,實現運維工作的智能化和高效化。
三是有高素質的運維服務團隊保障。 運維服務的順利開展,離不開高素質的運維服務人員。 因此,需要不斷提高運維服務團隊的專業水平,能夠有效運用技術手段和工具做好各項運維工作。
2、運維服務體系總體架構
運維服務體系由運維服務體系、運維服務流程、運維服務機構、運維服務團隊、運維技術服務平臺和運維對象六部分組成,涉及四種類型激勵機制:制度、人、技術、對象,其總體結構如圖1所示。制度是規范運維管理工作的基本保障,也是流程改進的基礎。 運維服務機構相關人員按照制度要求和標準化流程,利用先進的運維管理平臺,對各類運維對象進行規范的運維管理和技術操作。
1、運維服務體系及流程
為保證正常、有序、高效、協調的運維服務,需要根據管理內容和要求制定一系列管理制度,涵蓋各種運維對象,包括從運營管理、日常運營和維護管理到線下管理和應急響應的各個環節。 據悉,為規范和規范運維服務工作流程,還需要制定流程規范,確定各流程流程執行過程中的崗位設置、職責分工和相關約束條件。
2、運維服務機構及團隊
某建行科技部根據其運維服務工作的內容和流程,確定了各項工作的崗位設置和職責分工,并根據相應崗位的要求,配備人員需要不同專業、不同層次的專業分工協作的運維團隊。 支行科技部負責市級數據集中處理應用系統和事業單位自主研發的應用系統的部署、運維工作,負責全市數據集中處理應用系統的部署、運維工作其管轄范圍內的網絡。 中心支行和轄內分行的技術人員負責全行系統的運維和故障排除。
3. 運維服務工作流程
為保證運維系統高效協同運行,應根據管理環節、管理內容、管理要求,制定統一的運維工作流程,實現運維工作的規范化、規范化。 它的鏈接包括事件管理、問題管理、變更管理和配置管理。
4、運維技術服務平臺
運維技術服務平臺包括各種實現運維和技術服務的方法和工具。 以技術手段固化標準化流程,積累和管理運維知識,開展主動運維工作。
三、運維范圍
1.全省集中核心應用系統
總行負責全省集中核心應用系統的運維,支行中心負責業務咨詢并向總行反饋使用情況。
2、分行部署的核心應用系統
分行中心負責分行部署的核心應用系統運維,分行中心負責技術維護,分行業務部負責業務維護。
3、支行自建系統
分行自建系統可分為以下三類:
(1) 全域使用。 該類系統運維由支行中心負責,技術維護由支行中心負責,業務維護由各支行營業部負責;
(2)在省內使用,該類系統的運維由分中心負責,分中心負責技術維護,分中心業務部負責業務維護;
(3)供分支機構使用,該類系統的運行維護由分支中心全面負責。
4、運維服務體系建設內容
1、運維管理體系建設
總結現有運維管理經驗,根據國內外相關運維標準,結合當前實際情況,制定統一的運維管理制度和規范。 通過定期和不定期的測試,推動各項制度和規范在支行數據中心落地,進而構建全轄區統一規范的運維管理工作方法。 同時,隨著建行信息化建設的不斷推進,也需要保證各系統的及時更新。 系統體系的內容應包括機房管理、網絡管理、資產管理、主機與應用管理、存儲與備份管理、技術服務管理、安全管理、文檔管理、人員管理等。 各種制度的具體內容視需要而定。 例如,網管系統需要涵蓋網絡接入管理、用戶管理、配置管理、日常網絡運行管理和應急響應等。 安全管理體系需要覆蓋機房設施、網絡、主機、數據庫、中間件、應用軟件、數據信息等絕密資源和人員的安全管理,以及安全風暴的應急響應。
2、運維技術服務平臺
運維技術服務平臺由運維風暴響應中心、運維管理系統、運維知識庫、運維輔助分析系統組成(如圖2所示)。 平臺采用分行和中分行分布式管理模式,分別部署在支行技術部和各中分行。
(1)整合分行IT監控平臺
將分行級數據中心的監控數據交換到運維風暴響應中心、運維流程管理系統、運維知識庫、運維輔助分析系統,為運維系統提供支持。
分行級中心向總行中心傳輸的信息包括:網絡管理、主機管理、數據庫管理、存儲備份管理、中間件管理、應用系統管理相關信息、設備資產、運營績效、運營風暴報告等。上報系統,風暴預警機制形成的關聯和上報信息; 市中心與市中心支行之間傳輸的管理信息為網管信息。
(2) 運維風暴響應中心
負責接收和轉發客戶端運行和應用系統問題的部門是各級科技部門。 問題接收分為網絡響應和電話響應兩種形式。 對于現場無法解決的問題,將轉發至運維部門相應崗位,并將解決方案反饋給用戶。 對于分行級數據中心運維無法解決的問題,向總行報告,配合總行解決。 同時實現問題庫的維護、方案的反饋、方案的查詢。
(3)運維服務管理體系
運維流程管理體系的完善,可以使日常運維工作井然有序,職責分工明確,從而有效提高解決問題的速度和質量,運維中的相關支持信息部門可以更加順暢、透明和高效。 誠信,實現知識的積累和管理,更好的量化管理和設置優化指標,持續改進服務,最終提升整個運維工作的效率和質量。
(4)運維知識庫建設
知識庫建設是某建行信息系統運維體系的重要組成部分。 基于統一的技術支撐平臺,通過整合總行、分行數據中心、合作單位、合作廠商的技術資源和解決方案,實現全行有效信息化。 技術支持工作。
運維知識庫由知識庫平臺和知識庫內容兩部分組成。 知識庫平臺包括知識檢索、知識維護和管理等功能,能夠以純Web形式向服務請求對象提供基于Web的查詢服務和檢索服務,實現知識庫中知識的完全共享。 在提供Web服務時,還可以使用響應中心平臺實時響應用戶請求的服務。
(5)運維輔助分析系統
基于日常監控平臺、運維響應中心、運維流程管理系統,通過統計分析,了解運維服務能力和服務質量的現狀,并可以進行趨勢分析,為運維提供支持運維管理決策。
3.運維管理流程
為加強信息系統的運維管理,保證運維系統高效協調運行,應根據運維管理環節、管理內容和管理要求,制定統一的運維工作流程,從而實現運維工作的標準化、規范化、人工化。 通過構建運維管理流程,簡化日常運維工作流程,職責分工更加清晰,從而有效提升問題解決的速度和質量,實現知識積累和知識管理,助力運維部門持續改進服務,提高客戶滿意度。 運維過程包括風暴管理、問題管理、變更管理和配置管理等環節。
(1) 風暴管理
所謂動蕩是指影響IT系統某一環節運行的動蕩it運維,包括系統崩潰、軟件故障、任何影響用戶業務運行和系統正常運行的故障,以及影響業務流程的情況。 風波還包括一個用戶。 懇求。
對于日常運維過程中發生的突發擾動(即日常運維管理平臺人工檢測產生的擾動)和用戶/維護人員上報的擾動,將轉入擾動管理流程,如圖在圖3中顯示。
(2) 問題管理
問題是指引起風波的原因,很多風波往往是同一個問題引起的。 問題的主要來源如下:
① 對處理過的風波進行回顧分析后,可能出現問題;
② 出現較大擾動,雖然經過緊急處理恢復了服務,但沒有找到根本原因,也出現了問題;
③趨勢擾動及問題分析。
問題管理流程可根據不同領域(如網絡、主機、中間件、數據庫、應用等)的問題,由相關領域的技術支持專家進行處理。 原則上,這些專家可以是二線支持專家。 在接受一線支持人員的支持請求的同時,他們還負責分析之前的動蕩,找出動蕩的根源,然后確定消除這些根源的解決方案。 最終,這樣的風波不會再發生; 另一方面,也需要從已經發生的風暴中,發現風暴的發展趨勢或潛在問題,積極提供預防措施,增強系統可靠性,降低運維成本。
問題管理過程的重點是消除風暴或減少風暴的發生,并確定風暴的根本原因。 流程如下:首先,定期分析風暴找出潛在問題,調查問題找出原因,并制定解決方案、變通方案或預防措施,以消除原因,或在重新發布時將其影響降到最低。 其次,記錄解決方案、解決方法、預防措施,并根據需要添加到知識庫中。 第三,提出變更請求,評估問題的解決方案,通過提出變更請求來測試和實施解決方案。 最后,必須對問題進行回顧性審查,以確定改進機會或總結預防措施,包括改進事件檢測、技能差距識別和文檔改進。
(3) 變更管理
變更請求的形成一般是因為解決一個問題需要對生產環境進行個別變更,變更請求來源于問題管理或者用戶提交。 變更管理通過單一的功能流程控制和管理整個信息系統運行環境中的所有變更。 范圍可能包括軟件、硬件、網絡設備和文檔的變更。 過程如下。
①問題管理環節的用戶或維護人員提交變更申請,運維負責人檢測并建立其內容,初步評估風險等級和優先級。
②通過分類判斷是重大變更還是緊急變更。 如果是例行變更請求it運維,由運維負責人安排實施; 如果是風險級別為“重大”的變更請求,則應報告給變更管理團隊。
③根據具體的變更請求建立具體的變更管理小組,其成員包括有權批準變更申請的人員、為變更的評估和批準提供參考意見的技術人員和管理人員。 評估內容包括變更的技術可行性、對系統性能的影響、對現有服務的影響、對資源的需求等。
④ 變更管理團隊評估并決定是否批準變更申請。 變更請求通過后,運維負責人安排相應資源對變更進行規劃和測試,制定實施方案,確定實施時間表,分配相應資源,并通知請求方。
⑤變更在相應崗位實施,運維負責人監控實施過程,必要時進行協調。
⑥定期檢討變更管理流程,以提高效率和效果。 變更過程實施后不久,可以進行第一次審查,以確保過程正確實施并達到預期目的。 發現的問題一定要追溯,及早解決,然后可以定期回顧。
(4) 配置管理
配置管理是服務管理的一個核心流程,它可以確保所有IT設備/系統及其在應用系統及其運行環境中的配置信息得到有效、完整的記錄和維護,包括各種IT設備/系統之間的數學和邏輯關系。系統,從而為有效的服務管理奠定基礎。
配置管理過程著重于管理生產環境中必須控制的所有組件,并為其他相關過程(如風暴管理等)提供信息,使這個過程更有效地運行,從而保證完整性和應用系統環境的穩定性,其主要過程內容如下。
① 識別和維護配置元素:確定需要配置管理的元素和所有必要的配置屬性,并指明與生產環境中其他配置元素的關系。 為配置管理數據庫提供日常維護。
②配置狀態匯總:按要求定期生成配置管理報表,并可供相關人員提取和查詢相關配置,定期生成配置項狀態報表,反映配置項的版本和變更歷史。
③審核確認:定期審核配置數據庫中的全部或部分配置項,確認其與化學環境的一致性,從而保證配置信息的完整性。
④計劃、回顧和改進:定期制定計劃(如半年),明確下一階段的配置管理工作; 定期回顧流程和初審結果,找出需要改進的配置項。
⑤配置管理數據庫(CMDB):配置管理數據庫由配置標識活動定義,不僅需要定義配置項,還需要定義配置結構和配置項之間的關系。
4.運維項目管理流程
項目管理模塊主要管理IT項目從項目計劃、立項、采購、實施、驗收、收尾的整個生命周期各階段的任務和參與者。 從功能上看,項目管理類似于發布管理流程,即總公司部署的應用系統分公司只需要進行實施和前期檢查工作,而分公司的自建項目是完整的項目管理流程。
(1)系統開發。 開發管理流程需要進一步建立和規范,尤其是在文檔管理、測試和版本管理方面。 同時,加大開發計劃管理力度,明確《開發項目管理規范》中的要求:根據項目內容進行系統全面的需求監督,提出短期和長期開發計劃,編制需求分析報告。 根據需求分析報告對系統進行可行性分析,包括經濟可行性分析、技術可行性分析和運行可行性分析,并在此基礎上編制可行性報告。 根據需求分析報告進行系統設計,根據系統設計進行系統實施。
(2)系統測試。 首先要制定詳細的測試計劃和方案、測試數據和測試用例,并生成測試大綱。 其次,根據測試大綱對系統進行反復測試,并做好詳細的測試記錄。 為保證系統的正確性,應對系統進行現場測試。 應選擇環境多、需求復雜的機構進行試運行。 新的應用軟件系統的功能和性能應按照設計方案進行全面的測試和評估,并生成。 量化運營報告。
(3) 外部資源管理。 合理利用外部資源是推動支行信息化建設的重要動力。 支行外部資源主要包括設備供應商和軟件供應商。
5、運維知識庫系統
運維知識和經驗的總結、維護和分享,是提高員工運維技能、增強單位凝聚力的重要手段。 也是保障人員頭腦中寶貴經驗教訓逐步沉淀和固化的重要形式。 知識維護不僅要鼓勵員工主動提交知識,防止知識庫變“空”,還要及時進行預審和維護,防止知識庫變“垃圾”。
(1)知識來源主要包括以下幾個方面:一是各級運維保障人員在日常工作中積累的經驗; 二是知識管理者總結和引進的經驗。 知識管理者在研究獲取外部知識和經驗后,定期或隨時整理這些知識,輸出到知識庫中供所有用戶共享。 知識的獲取和維護是信息網絡管理員的重要職責之一。
(2)提交初審的知識。 每個系統管理員向知識庫提交知識后,需要經過知識管理員的審核和修正,才能成為發布狀態,以減少知識中的謬誤和錯誤。 知識經理定期(每季度一次)檢查所有即將到來的知識,并逐項檢查、修正和優化。 更正和維護操作與新提交的知識稿初審流程相同。
(3) 知識檢索和使用。 知識變為即將發布狀態后,可供各類用戶隨時檢索和引用。 用戶可以學習學習這些知識,也可以在解決問題的過程中有目的地檢索。 知識記錄維護用戶閱讀次數和用戶參考以解決問題的計數器。 參考文獻和閱讀次數越多,知識的價值就越大。
6、運維團隊建設
(1) 團隊成立。 根據信息系統IT資源現狀和技術支持需求,組建由各類維護人員組成的專家團隊,集中開展運維工作。
(二)人員管理。 針對各級運維人員尤其是中層運維人員的管理,制定一套有效可行的管理辦法,包括人員配置、職責界定、人才庫建設、人員培訓、人員考核、人員通過科學的管理方法和有效的激勵機制,充分調動各級運維人員的積極性和責任感,為信息系統的運維工作打下堅實的基礎。
7、完善的運維體系
為保證運維工作正常、有序、高效地開展,需要對運維的管理流程和內容制定相應的運維管理制度,實現規范化管理的各種任務。 運維管理系統可以分為以下幾個方面。
(1)網絡管理系統:包括網絡接入管理系統、網絡配置管理系統、網絡運行/監控管理系統等。
(2)系統和應用管理系統:包括主機、數據庫、中間件和應用系統的配置管理系統、運行/監控管理系統、數據管理系統等。
(3)安全管理系統:包括網絡、主機、數據庫、中間件、應用軟件、數據安全管理系統和安全事故應急處理系統。
(4)存儲和備份管理系統:包括備份數據管理系統和備份設備管理系統。
(5)故障管理制度:包括故障處理過程管理制度、故障處理過程變更管理制度、故障信息使用管理制度、重大故障應急管理制度等。
(6)技術支撐工具管理系統:包括日常運維平臺、響應中心、運維流程管理平臺、運維知識庫、運維輔助分析系統的使用和維護。
(7)人員管理制度:包括運維人員基本狀態管理制度、獎懲制度、考核制度、建行系統外部人力資源使用管理制度等。
(八)質量評價體系:制定相關制度,對上述制度的實施情況進行評價。 隨著整個信息化應用內容的不斷發展,一些舊的運營管理制度勢必不能適應新發展的要求,必須不斷完善,制定相應的新管理制度,逐步建立管理機制。