資料中心維運管理方案

twt社区 twt企业IT社区

【導讀】本文整理了資料中心運維分類,各類運維所包含內容、效能監控檢查清單、各主要組件巡檢內容、維運優化評估、緊急保障措施及組織、IT維運服務工具等。 非常詳細,具有實操性。

【作者】王巧雷

第一章 某資料中心基礎維運概述
資料中心的基礎維運工作主要包含包括四個部分:基礎環境、網路、伺服器儲存和基礎軟體。

其中第一部分機房基礎環境部分,包含機櫃位置、空調、消防、安防、弱電、UPS等最基礎的機房環境設施。 需要對這些基礎環境部分進行維運維護,確保整個機房環境正常穩定。

第二部分為網路環境,包括目前資料中心所有的交換器、路由器等設備,以及由這些設備組成的所有網絡,需要監控網路運作並提出網路風險評估,定期對網路進行最佳化配置,提高網路運作效率 ,確保整個網路環境的安全。

第三部分伺服器和儲存部分,包含整個資料中心的小型主機、伺服器、儲存設備、SAN交換器等設備。 這些設備支撐著整個業務系統,是非常重要的基礎硬體環境。 需要監控這些設備的運作情況,及時處理出現的問題和變更,並基於整個環境提供最佳化。

第四部分為基礎軟體部分,包括各種作業系統、資料庫、中介軟體、備份軟體等等。 要求這些軟體可以正常運作,並優化配置,為平台和工作站正常服務,當這些軟體出現問題時,能發現並提出解決方案;可以協助應用人員解決故障或進行對應的變更、升級等操作。

本方案將基於這幾個面向進行設計,確保資料中心正常、有效率運作。

第二章 資料中心維運分類
某資料中心維運團隊將根據目前資料中心的實際情況和對應的管理制度,透過主動性、預防性維護,執行日常維護作業計劃,對警告、效能、運作狀態進行檢查分析,及時進行資料備份, 並定期對備份資料進行恢復性測試驗證,對系統運行品質進行分析,並進行維護記錄。 對監控或維護中發現的問題及時處理,消除隱患,保障平台的穩定運作。 我們將基於以下幾個方面對維運工作進行描述

2.1 基礎環境維運管理
針對基本的機房環境設施,我們的工作內容包含以下內容:

1) 機房機櫃擺放規劃及機櫃管理;

2) 伺服器和網路設備擺放規劃和日常管理;

3) 設備出入機房核准登記管理;

4) 內部人員出入機房核准登記管理;

5) 外部來賓機房參觀審核登記管理;

6) 機房電力系統監控、問題及時上報;

7) 消防監控系統監控、接收警報簡訊及聯絡第三方;

8) 空調警報系統監控、接收警報簡訊及聯絡第三方;確認空調運作狀態良好。 清潔機房的空調防塵網。

9) 溫濕度警報監控、接受警報簡訊及聯絡專業第三方;

10) 漏水警報系統監控、接受警報簡訊及聯絡專業第三方;

11) IC卡門禁系統日常運維;

12) 視訊監控系統日常運維;

13) UPS警報系統監控及聯絡第三方;

14) 機房資產管理系統(CMDB)。

15) 機房環境。 清理機房的雜物,將機房物品定置。 清潔機房門窗、地面。 定期清潔電池室的地面;檢查機房所有與外界的空洞是否已嚴密封堵,嚴密防鼠;檢查機房玻璃、地板、天花板、通氣口,牆體表面是否正常,外觀是否完好,有否出現老化現象 。 檢查機房是否有漏水現象。 檢查機房牆壁是否有滲水現象。 填寫巡檢紀錄,有問題及時通報。

16) 巡視電池間;檢查電池工作狀態。

17) 確認機房照明良好,出現問題及時通報。

18) 視訊網路播放系統。 定期檢查可用性,有問題及時與專業第三方公司聯繫解決。

19) 填寫巡檢紀錄。

2.2 網路維運管理
針對資料中心的網路部分,維運內容主要包含以下內容:

1) 測試網路存取速度,監控網路存取可用性和存取質量,出現問題第一時間直接聯絡接取商解決。

2) 網路接取商變更時,配合網路接取商對網路變更方案的可行性檢討、問題檢討。 配合網路接入商更替施工。

3) 區域網路。 本地區域網路日常管理與維護;VLAN 劃分;網路效能最佳化;故障排除;網路節點週期性檢查,發現潛在問題,並解決。

4) 無線區域網路。 負責無線區域網路的日常管理與維護;用戶端無法正常接取網路的故障排除;網路效能最佳化;故障排除;網路節點週期性檢查,發現潛在問題並解決。

5) 遠端接入。 制定VPN使用策略,實施VPN使用者日常遠端存取伺服器的管理,以及效能最佳化和故障排除等。

6) 網路病毒查殺及網路安全保護。

7) 依實際項目或安排而產生的其他工作。

2.3 伺服器和儲存維運管理
2.3.1 伺服器運作狀況及效能監測
資料中心維運團隊將透過綜合監控系統實施7*24小時平台設備監控,發現告警,並進行處理,解決問題。 對系統運作進行即時檢查。 對監控或維護中發現的問題及時處理,消除隱患,保障平台的穩定運作。 並且還提供針對各伺服器實體資源的使用情況和作業系統的運作情況、進行即時監控,提供伺服器安全監測報告。

主機效能監控的檢查清單包括:

CPU利用率

記憶體使用情況

交換區使用狀況

磁碟I/O情況

關鍵檔案系統的狀態

重要進程的運作情況(例程數、消耗CPU、佔用記憶體)

作業系統的各類日誌文件

網路、連接埠資訊

維運團隊需根據檢查列表進行日常檢查,並持續改善日常檢查列表,以滿足對系統監控的需求。

2.3.2 伺服器軟硬體相容性檢查
資料中心維運團隊在維護系統穩定運作的同時,需主動收集系統關鍵補丁、軟體修補程式、硬體微碼等信息,在透過資料中心專家評審的前提下,對相關設備進行升級服務,並在升級完成 後配合應用方對系統進行測試。 升級前後需要和應用方及時做好溝通確認工作,確保不會產生相容性導致的故障。

2.3.3 磁碟陣列設備管理
維運團隊需要對磁碟陣列設備及其相關的部件(如硬碟、控制器等)進行編號,並記錄在案,對軟體設定中的參數也要進行詳細的記錄,並在每次變更後及時更新 相關的資訊。

除此之外,維運團隊定期(暫定每半年)對於每個伺服器的系統容量監測的審核,並制定相應的容量規劃,主要監控文件系統的空間、資料庫的空間資源利用情況,分析資源利用 趨勢,並提供資源狀況報表。

檔案系統空間管理

定期檢查檔案系統的空間使用情況,根據業務發展需求和新業務的增加,制定合理的空間分配方案,新增、修改或刪除空間。

對檔案系統空間的使用進行監控,發現空間使用不合理或需要清理的協調解決。

資料庫空間管理

應即時監控資料儲存空間的使用情況,根據業務資料的資料量、資料結構以及成長速度,制定合適的資料儲存和結構最佳化策略,動態增加新的空間以存放業務資料;

定期檢查資料儲存空間的使用情況,根據實際狀況規劃增加新的空間,填寫資料庫空間新增/修改/刪除申請表,經審核後實施,並更新資料庫配置狀況記錄表。

2.3.4 機櫃、電源、網路線佈局管理
運維團隊對於新上架安裝的設備,需要進行拍照留檔,確認各線路位置,並對伺服器的電源部分進行編號整理,最終登記在冊。

2.3.5 協助第三方維護
對於由專業第三方提供維運的設備,設備出現問題後維運團隊需及時通知第三方並告知採購人,視情況嚴重性,決定是否啟動應急預案;配合第三方服務商一起排查和解決問題, 實施為了解決故障而進行的系統軟硬體的修補程式、升級及維護工作。 獨立處理初級系統故障,與第三方廠商或服務商配合解決高階系統故障。 記錄問題、故障的解決方法及解決過程。 做出臨時的配置變更以排除故障,在必要的時候,提出永久性配置變更建議。

2.4 基礎軟體維運管理
2.4.1 作業系統
維運團隊充分保障伺服器作業系統的穩定運行,將提供以下服務內容:

1) 系統升級

維運團隊在維護系統穩定運作的同時,需主動收集系統關鍵補丁、軟體修補程式等信息,在透過資料中心專家評審的前提下,對相關係統進行升級服務,並在升級完成後配合應用方對系統 進行測試。 升級前後需要和應用方及時做好溝通確認工作,確保不會產生相容性導致的故障。

2) 作業系統穩定監控定時查看作業系統日誌及IIS日誌,查看CPU、記憶體佔用率,排除故障。

3) 權限與檔案管理

伺服器應明確責任人及管理帳號持有人,不應出現多人單帳戶,單人多帳戶的情況,不利於在伺服器出現問題後,對伺服器進行操作維護、查找問題。

4) 定期檢查磁碟空間

進行磁碟檔案排列的最佳化和錯誤掃描,並處理錯誤;安全地刪除系統各路徑下存放的臨時檔案、無用檔案、備份檔案等等,完全釋放磁碟空間。

5) 維護系統註冊表。

6) 系統配置。 優化系統配置,關閉無用服務和端口,以最適合系統運作方式,最小化安裝等。 維護系統配置文件。

7) 負責系統使用者管理,如增加、刪除使用者、重設使用者密碼、管理使用者權限等。 進行系統使用者管理時,記錄所有相關的系統變更。

8) 對於新安裝的伺服器,維運團隊應負責安裝必要的應用軟體:如遠端監控工具、備份工具、防毒軟體等。

2.4.2 資料庫
維運團隊將對資料進行日常維護,在資料庫效能監控的檢查清單包括:

資源使用情況

運作情況

資料庫進程狀態

資料庫連線狀態

資料庫進程使用資源

資料庫的表空間(資料表空間、索引空間、臨時表空間等等)使用;

資料庫日誌空間

回滾段使用情況

資料庫鎖的數量

死鎖的發生、死鎖資源

資料庫碎片的數量

磁碟I/O

資料庫運行日誌

資料庫使用者登入狀況

監控結果應做登記管理,如實記錄系統日常運作狀況及異常狀況,填寫日常運作記錄表;

除此之外,資料庫的維運工作還包含一些其他工作,如:

1) 資料庫備份與恢復

2) 做好備份計劃,工程師定時完成,因備份佔用記憶體較大,在訪問量大的情況下進行。 當出現資料問題時,向採購人管理部門通報,說明資料狀況,後恢復。

3) 存取效能優化及資料庫同步

4) 伺服器管理人員需記錄詳細的設定;資料庫如需要同步,應明確同步時間或即時同步等方式。

5) 資料庫日誌和表空間,定期進行整理,問題解決。

2.4.3 中介軟體
維運團隊針對中介軟體的維運工作,內容如下:

1) Oracle Weblogic,輔助開發公司進行配置,保留配置文件。 模組配置與更新,配合第三方配置.java及wls的版本及更新工作。 作業系統模組配置與更新,配合第三方配置作業系統到可用的版本及更新。 配合回饋第三方解決服務錯誤日誌中的問題。

2) 新軟體安裝,收集安裝光碟、安裝合約(可影印學習)、使用說明書、授權書(Liscense)。 紙本文件掃描後入庫,電子版文件進入設定庫。

2.4.4 備份系統
為確保在系統崩潰或停止運作時能盡快恢復系統,將會制定相關的資料備份制度。 應針對不同系統制定備份方案,應包括備份方法、頻率等。 資料備份包括定期和不定期備份。 重要資料應每月進行全備份和增量備份;不定期備份應在資料變更後立即進行,更新前的備份按需要保存一定時間。

2.4.5 應用系統
目前的應用系統及相關的開發工作由第三方公司負責,維運團隊主要扮演配合作用,相關的工作內容如下:

1) 應用程式出現問題,及時聯絡第三方解決,並做問題記錄。

2) 配合第三方進行作業系統、資料庫及中介軟體的系統配置,並做設定記錄,在有授權運維的系統中,熟悉應用系統維護方法。

3) 配合第三方新應用系統上線,需收集安裝文件,原始碼,部署文件、運維文檔。 掃描後,入配置庫。 與合約庫相關聯,記錄維護期間聯絡人,原公司保固期。

4) 每日上班後、下班前檢查可用性,確認無災難性問題、駭客篡改問題。

5) 其他待完成工作,依實際情況處理。

第三章 維運工作內容
3.1 日常維護工作
維運團隊的值班安排分三班,維持7×24小時的人員安排,在任何時間資料中心都由值班人員。 維警團隊根據資料中心的維運管理制度,透過主動性、預防性維護,執行日常維護作業計劃,對警告、效能、運作狀態進行檢查分析,及時進行資料備份,並定期對備份資料進行恢復性 測試驗證,對系統運作品質進行分析,並進行維護記錄。 對監控或維護中發現的問題及時處理,消除隱患,保障平台的穩定運作。

3.2 系統效能監控管理
維運團隊透過綜合監控系統等實施7*24a小時平台設備監控,發現告警,並進行處理,解決問題。 使用綜合監控系統對系統運作進行即時檢查。 對監控或維護中發現的問題及時處理,消除隱患,保障平台的穩定運行。

3.3 系統維護管理
故障處理

維運團隊負責故障發現、故障分析、故障處理工作,在規定時間內,處理完成故障,同時負責調查故障原因,最後編寫詳細的《故障報告》,包括故障發生的起止時間、原因、現象、處理 過程、處理結果和處理經驗。 如果故障設備或組件為第三方維保,值班工程師負責和第三方對接,迅速解決問題。

軟體和修補程式維護

作業系統層級的軟體和修補程式服務

維保團隊對於維保設備提供所有軟體補丁,提供預警服務,對於軟體的維護版本提供補丁,並按穩定性和安全性的要求,提供是否升級的建議,評估風險和製作實施方案。

故障經工程師的分析顯示它是由一個軟體錯誤所造成的,那麼運維團隊需提供對應的軟體版本和修補程式。

對於軟體版本和修補程式的安裝,維運團隊首先將確認是否可以在對應平台上進行裝載。 若確認可實施,維運團隊將提供修補程式升級服務,升級前要配合相關應用程式做好測試。

緊急應變計畫及演練

為加強風險管理意識,提高緊急應變計畫相關人員的緊急處置能力,及時發現應急計畫可能存在的問題,確保在緊急情況下,應急計畫能夠真正發揮作用,需要透過週期性的演習演練來不斷檢驗應急體系 緊急應變計畫的可靠性、有效性和可操作性。

緊急應變計畫的演習演練方式、演習演練頻度等內容明確如下:

1.演練分為桌面演練和實戰演練兩種方式,每次演練都應該有相關技術人員全程參與。

2、定期桌面演練,定期實戰演練;

3、每次演練結束後應進行分析與總結,及時完成緊急應變計畫的更新、最佳化與完善。

協助第三方維護

在服務期間內,維運團隊將配合第三方或服務商進行系統的升級、替換、新零件(模組)安裝等,並在實施完成後確認正常運作。

備份

為確保在系統崩潰或停止運作時能盡快恢復系統,將會制定相關的資料備份制度。 應針對不同系統制定備份方案,應包括備份方法、頻率等。 資料備份包括定期和不定期備份。 重要資料應每月進行全備份和增量備份;不定期備份應在資料變更後立即進行,更新前的備份按需要保存一定時間。

系統最佳化

對於巡檢或日常維護過程中發現的系統隱患或系統不是處於滿意狀態,提供相關係統優化的報告。

對於運行情況跟踪,預防性診斷設備存在的隱患,提供系統優化建議,提供系統規範和流程的建議,提供系統優化概要。

硬體設備統計

維運團隊將定期對參保設備進行統計。

品質分析報告

維運團隊建立資料中心平台的品質分析報告。 每月彙總設備運作品質、系統效能等指標,進行資料中心平台運作品質分析,排除品質隱患,不斷提升網路運作品質與服務品質。

運維工程師應每周和每月對於數據中心在網系統運行情況作分析,數據採集、統計和分析系統設備的運行數據,形成系統運行週報和月報。

分析報告,包括優化設備運行的績效,提高系統穩定性的建議,對於系統擴容和優化投資的建議,提供系統運行情況概要,系統中關鍵設備的運行情況分析,並能識別和解決潛在問題,做 好預警,制定並實施相應的優化措施,並對於系統的擴容和專案投資提供建議報告。

3.4 系統配置與支援維護
在維運團隊的日常工作中,在系統配置與支援方面的工作內容如下:

維護系統軟硬體配置文件;

負責系統使用者管理,如增加、刪除使用者、重設使用者密碼、管理使用者權限等;

進行系統使用者管理時必須遵循資料中心的帳戶命名規則及帳戶密碼策略,並文件記錄所有相關的系統變更;

每月提交系統帳戶變更月報;

配合第三方進行升級、安裝系統,及時更新作業系統補丁,進行系統軟體備份;

根據維運報告及統計報表,每月制定維護作業計劃,並提交日常維護報告;

3.5 系統容量管理
維運團隊至少每半年進行一次對於每個伺服器的系統容量監測的審核,並製定相應的容量規劃,主要監測文件系統的空間、資料庫的空間資源利用情況,分析資源利用趨勢,並提供資源月 報表。

檔案系統空間管理

定期檢查檔案系統的空間使用情況,根據業務發展需求和新業務的增加,制定合理的空間分配方案,新增、修改或刪除空間。

對檔案系統空間的使用進行監控,發現空間使用不合理或需要清理的協調解決。

資料庫空間管理

應即時監控資料儲存空間的使用情況,根據業務資料的資料量、資料結構以及成長速度,制定合適的資料儲存和結構最佳化策略,動態增加新的空間以存放業務資料;

定期檢查資料儲存空間的使用情況,依實際狀況規劃增加新的空間,填寫資料庫空間新增/修改/刪除申請表,經審核後實施,並更新資料庫配置狀況記錄表;

3.6 巡檢工作
除了依賴資料中心的監控軟體,還要求維運團隊對伺服器、儲存、作業系統、資料庫、中介軟體等基礎架構進行巡檢,並撰寫巡檢報告。 透過巡檢可以對目前系統的運作狀況有一個詳細的了解,對巡檢中發現的問題可以及時採取預防性措施,降低故障發生的機率,提高系統的可靠性。

巡檢工作需要檢查以下幾個方面:

場地環境檢查:包括機房的溫度、濕度、通風及UPS工作狀態等的檢測;

作業系統:檢查修補程式完整性,記錄軟體版本,以確保系統發揮最佳效能;

週邊檢查:偵測網路卡或HBA卡、磁碟機的讀寫、磁帶機的讀寫;

網路設備檢查:運行環境檢查、LED控制面板、IOS版本資訊、進程狀態、記憶體使用率、介面狀態、路由表狀態、網路連接測試;

設備清潔:對相關設備進行維護與清潔工作,使設備保持良好的運作狀態;

系統日誌檢查;

文件系統檢查、清理;

系統配置檢查;

系統和資料備份檢查;

系統運作情況分析;

系統總體性能評估。

1.機房環境日常檢查內容

機房環境服務是為機房設備如小型機、網路設備和儲存設備等提供一個安全可靠的實體環境,確保機房設備不會因為環境因素而無法正常運作或損壞。

為了達到此目的,機房環境需具備以下標準:

確保機房溫度在24+2℃之間,最大溫度變化率不超過10℃/小時;

確保機房濕度在50+5%之間;

確保機房電壓在220V+5%之間,電壓頻率在50.5~49.5之間,瞬間變動電壓不超過220V+/-15%,總諧波不高於5%;

機房電源接地線方面確保機房接地線與任何導線完全隔離及絕緣,接地線線徑至少為3.5mm,系統接地電阻在電源插座連線與地線間不大於2歐姆,在電源輸出座連線與 地線間電壓小於1V,在接地線的接地端測的接地電阻不大於1歐姆;

確保機房為網路設備、空調、視訊等提供獨立的冗餘雙電源供應系統,杜絕電源公用現象,確保網路設備電源無隱患;

確保機房整潔乾淨,避免機房在陽光直射之下;

確保機房無線電雜波幹擾低於0.5V/公尺;

2.伺服器、儲存、作業系統、資料庫、中介軟體巡檢及巡檢報告內容

針對伺服器、儲存、作業系統、資料庫、中介軟體等較重要的元件,資料中心製定了按月巡檢的計劃,需要按照巡檢報告的範本進行檢查,巡檢報告要涵蓋以下內容:

圖片

3.7 定期服務報告
系統維護檔案,詳細記錄與資料中心相關的設備資訊和專案管理資訊。 在日常維運中,服務報告和技術文件由維運團隊的相關人員負責維護和更新。

系統維護檔案將分為以下四個部分:

3.7.1 設備配置檔案
維護設備及軟體清單、系統功能、詳細設定資訊及軟體版本及設備PN號;
設備位置、網路拓樸、設備連接拓樸及各種工程圖;
若係統發生變更,如實施軟體、修補程式、微碼升級或業務調整,同步更新設定檔;
系統雙機、備份設定和運作情況。
3.7.2 服務文檔
技術參數的配置文件;
處理故障時的《故障處理報告》;
每季的《季度運維總結》;
每次重大故障處理後發布《重大問題分析報告》;
共享維護內容及其他技術資源整理知識庫;
每次巡檢時的《巡檢報告》;
微碼更新、效能分析及最佳化、機房搬遷等服務實施方案、專業服務報告及技術建議等。
3.7.3 服務總結
維運團隊根據自身的工作內容,每季需要對自己的工作進行總結,並產生《季度維運總結》。

報告中的具體內容包括:

故障處理及備品更換情況總表;

設備狀況分析及評估;

人員出勤狀況,工作量,或資源使用情況,包括第三方供應商服務狀況;

重大事件和變更情況;

配置管理相關資訊;

趨勢資訊;

下一步工作計劃;

3.8 運轉維護優化評估
(1) 建立以資料中心為基礎的基礎維運服務管理架構系統及維運團隊,根據網路的現況提出整體安全規劃,包括日常維護計畫、安全風險控制計畫、緊急應變計畫等

(2) 提供風險評估、災難復原、緊急應變、安全訓練服務並提供報告

(3) 安全檢測

每季定期對服務範圍內的網路設備、伺服器作業系統、資料庫系統、應用軟體系統的安全性策略和安全性配置進行檢查和測試,從中獲得相關的資訊、發現系統面臨的威脅以及存在的安全性。

(4) 安全評估。

每季對服務範圍內的整體網路系統進行全面、統一的系統性的安全風險評估,識別和控製網路中的關鍵資產及可能會產生的安全風險,並對所發現的問題提供優化、改進建議。 並根據評估的結果為關鍵資產建立緊急應變計畫以及細微調整其後安全維護服務所需監控的內容。

(5) 策略優化

根據安全評估的結果每半年對系統策略及網路系統進行最佳化設計,制定調整系統策略最佳化、網路拓樸最佳化、安全域規劃與設定、IP規劃、VLAN最佳化等策略,並依實際狀況調整與實施。

(6) 緊急應變計畫與演練

根據資料中心的現狀,模擬實際災難發生場景,提供各種緊急計畫,經過採購人討論,協助採購人實施演練。

(7) 培訓

在維運服務期間內,安排以維運管理、安全為主題的培訓,數量為4~5人次,依要求制定相應的培訓計畫。

(8) 資料收集存檔

參與機房維運涉及的專業第三方機構合約的起草、談判,與採購人一起管理第三方機構。 整理收集涉及到的第三方合同,中間文檔、過程記錄,備查,按照採購人規定進行提交。

3.9 緊急保障措施與組織
3.9.1 緊急應變系統
維運團隊在處理緊急情況和重大事項時,會啟用緊急指揮系統:

介面人:應用系統下,各相關方的固定介面人,一般為專案經理

維運團隊:事故發生期間提供直接的技術諮詢、指導服務,負責直接處理故障。

二線專家:嚴重事件由承保的第三方服務商或原廠商的二線專家最快速度到達現場處理事故。

3.9.2 緊急應變過程
緊急應變過程分為四個主要階段:緊急應變準備、監測與預警、緊急處置措施和總結改善。
圖片

a)緊急應變準備階段的工作包括:組成緊急應變組織,確定緊急應變制度,系統性識別運作維護服務對象及運行維護活動中可能出現的風險,定義應急事件級別,制定預案,進行培訓和演練;

b)監測與預警階段的工作包括:進行日常監測,及時發現應急事件並有效預警,進行核實和評估,以規定的策略和程序啟動預案,並保持對應急事件的跟踪;

c)緊急處置階段的工作包括:採取必要的緊急調度手段,基於預案進行故障排查與診斷,對故障進行有效、快速的處理與系統恢復,及時通報應急事件,提供持續性服務保障,進行結果評價 ,關閉事件;

d)總結改善階段的工作包括:對緊急事件發生原因、處理過程和結果進行總結分析,持續改善緊急工作,完善資訊系統。

3.9.3 制定緊急保障計畫及演練
為了因應業務系統可能出現的緊急故障,維運團隊將定期模擬故障演練服務。

維運團隊有一套整體的應急方案,以確保資料中心在系統發生突發事件或災難情況下能夠迅速恢復IT服務,從而確保系統業務的持續運作。 根據普遍認可的最佳實務指導原則,IT緊急和IT災難復原的定義應該是:

「電腦系統災難是指任何造成電腦系統不能處理業務的時間超過了可容忍程度的事故。緊急方案是指電腦系統災難發生後,按照既定的緊急復原方案在一定時間內恢復系統運作和業務處理的 過程。”

為了因應生產系統可能出現的緊急故障(重大、嚴重故障),資料中心將從事前預防和事後處理兩個方面製定緊急故障應處理預案。

(A)事前預防:

緊急應變涉及多個層面的配合,每方都需要指定專人負責在緊急故障發生時及時溝通

資料中心專家支援團隊進行系統風險評估,提出系統整改建議,制定緊急故障應變計畫

進行一定次數的實際演練,包括後備系統切換測試、備份資料還原測試

對流程進行持續性跟踪,系統出現變更後,重新評估流程的有效性

(B)事後處理:

回應時間:由工程師立即回應

故障修復:由經驗

豐富的專家支援團隊提供專人支持,包括搭建測試環境、遠端和現場故障診斷和排除;同時啟動緊急故障處理流程,依照既定程序做緊急處理

應急演練:

應急演練計劃至少每季一次進行測試和演練,以確保:

計劃內容能夠反映當前的狀況;

計劃的有效性和可操作性;

應急演練人員熟悉緊急復原流程。

所有測驗和演練的結果應當依據事先確定好的標準,來判斷測驗和演練是否成功。 如:多長時間恢復服務,會出現多少問題,及問題的嚴重性等。 在測試完成後應記錄下結果,並根據需要對應急恢復計劃進行修訂。 針對演練或測試過程中出現的問題和失敗應該進行說明並體現在相應的改進計劃中。

3.10 IT維運服務工具
3.10.1 維運監控平台
維運服務事件管理系統是支撐維運管理組織中各維運角色依照規定的維運事件流程進行維運活動的資訊化系統。 一方面,該系統要支援維運服務提供者對維運服務事件管理對象進行管理,以實現運維服務的能力;另一方面,要支援維運服務提供者依照商定的服務等級協定方便地向 維運服務使用者提供維運服務;同時,要支援維運服務管理者對整個維運服務事件的評估、監督與評估。 維運服務事件管理工具是構成運作管理體係不可缺少的元素,從被動管理轉化為主動管理的重要部分,為整個運作管理系統的高效實施奠定了基礎。

監控拓撲

目前資料中心採用了某運維監控平台,對資料中心設備進行監測。 使用者透過客戶端登入維運監控平台,查看所有被監控設備的運作。 目前監控平台支援機房環境、網路設備、儲存設備、伺服器設備、系統和資料庫等組件的監控,支援故障預警等服務。