2009年10月26日 星期一

[觀點] 從服務中斷事件談營運持續管理

今日企業對於IT的倚賴已愈來愈深,無論是網路連線、資料傳輸或是系統問題,一旦無法正常的運作,連帶會使企業重要的營運服務也隨之中斷,當IT問題演變成為營運問題,也就代表資訊人員的責任更加重大,更需要去思考如何確保IT的持續營運。

2007年5月,日本全日空航空公司,因為國內線電腦系統當機,使得旅客櫃台作業停擺,飛機大排長龍,共有127個航班被取消,超過250個航班誤點一個小時以上,估計約有五萬名旅客受到影響;2008年3月,華航的電腦主機系統,也因為突然大當機,無法辦理旅客報到和行李託運,使得前往東南亞和東北亞的航班,被迫延誤一、二個小時,使得三千七百多人的行程受到影響。

除此之外,中華電信在2008年2月時因為簡訊中心發生軟體故障,導致有數十萬用戶,無法正常收發簡訊,經過數小時搶修之後,才慢慢恢復運作,但是恢復過程中,仍然有流量壅塞的問題,使得簡訊發送也受到延誤;同樣的時間前後,微軟MSN即時通訊也因為伺服器定期維修時間逾時,造成亞太地區的使用者,不能正常登入使用,斷訊時間長達了6個小時,連帶使其提供的電子郵件信箱也無法正常服務。

從國際標準來看營運持續管理

面對IT系統問題所造成的服務中斷,對資訊人員而言,最好的辦法就是在意外事件發生之前,根據各種可能的狀況,擬定好如何應對的策略,一旦災難真的不幸發生,就可以根據這些事先定義的作業程序來緊急應變,以確保關鍵的業務運作不會因災害而中斷,並且在最短的時間內,盡快將所有系統和服務回復到正常運作。

因此,企業的營運持續管理主要是從經營層面來看,或許你會說,我只是個小小的資訊人員,並不像老闆擁有決策權,談經營管理對我來說有點太遙遠,但事實上,正因為我們是資訊人員,是確保組織關鍵運作的小齒輪,所以更要吸收持續管理的概念,在危機來臨的時候發揮實力,減少災難對企業所造成的傷害。

目前,有關營運持續管理(Business Continuity Management)的規範,英國的BS25999是個很好的參考,這項標準分為兩個部份:BS25999-1是作為落實營運持續的參考手冊,對於營運持續管理系統,有完整的描述與實施說明;BS25999-2則是對於營運持續的管理要求,同時也是一個可以作為驗證的標準。

在BS25999標準中,營運持續管理的實施過程主要分為四個階段,分別是「了解您的組織」、「制訂BCM策略」、「發展與實施BCM回應」和「演練測試與改進」,礙於篇幅的關係,無法在此一一解說,建議可以參考BSI的官方網站 ( http://www.bsigroup.tw/zh-tw/ ),或是Business Continuity Institute (http://www.thebci.org/ ) 網站,可取得非常豐富的參考資訊。

落實營運持續管理精神

營運持續管理的精神是要去「預料無法預料」的事,根據各項可能造成損失的事件,預先擬訂相對應的劇本,一旦不幸發生時,就可以按照劇本演出,避免因手忙腳亂而造成企業更大的損害。

換句話說,營運持續的精神也可以落實到生活之中,例如我們要維持一個家庭的運作,首先要了解的就是家庭的關鍵活動是什麼?其中有一項可能就是你的工作,因為你的工作所帶來的收入,可以負擔家庭的生活支出,提供生活的基本保障。

但是,有沒有想過你的工作面臨的風險有哪些?可能的風險包括:因公司倒閉或工作績效不佳,被公司資遣或開除而失業;或是因為不小心受傷或生病,導致無法工作。所以為了要降低失業的風險,我們可以擬訂的策略是什麼?簡單來說,可能的方法有:
  • 避免風險 - 把工作辭掉,乾脆自己當老闆,就不會被開除。
  • 降低風險 - 待在經營穩健的公司,並且努力工作拿出表現。
  • 接受風險 - 公司營運良好,倒閉的機率很低,所以不必怕。
  • 轉移風險 - 購買醫療保險,一旦生病時不必擔心醫療費用。
根據以上這些策略,我們要自己評估適合並且可行的做法,再去收集更多資訊以訂出詳盡的計畫,像是想轉移風險時,到底該買什麼保險(意外、防癌或住院險)?一年能承擔的保費是多少?要找哪一家保險公司投保?適合的保額是多少?把它訂出來之後,再依照計畫一一去實施。

所以,同樣的方法回到企業來看,由於企業的經營型態與員工環境比家庭複雜,管理階層要考量的風險就更加廣泛了,而對於網管人員來說,我們要做的就是去找出網路管理的關鍵活動是什麼?當這些關鍵活動中斷時,可能造成的損失或影響有哪些?服務可容許中斷的時間是多久?我們要如何去降低發生中斷的機率?能夠實施的應對措施有哪些?最後,還要再經由不斷的演練、測試,以確認這些計劃是可行的,再針對有缺點的地方加以改進。

如何擬訂緊急應變計劃

在BS25999標準中,它提供了整個營運持續管理實施的策略與框架,讓我們可以依照不同的產業屬性,擬訂有效的應對策略,目的就是要降低災難發生時的損失。其中最重要的就是必須成立緊急應變小組,在災難發生的第一時間內,依照所擬定的緊急應變計劃來進行,避免人員、系統、組織受到更多的傷害。

因此,擬訂一個緊急應變程序是非常重要的,例如企業在撰寫網路營運應變程序時,建議可從以下角度來思考:
  • 偵測 – 網管人員必須設定一些工具或偵測措施,來偵測網路流量是否異常,或是發現某個網路裝置是否產生負載問題。
  • 通報 – 一旦發現異常事件,我們可能需要通知其他的網管人員或資訊主管來共同防範,也需要選擇快速有效的通報方法,例如透過簡訊或電話。
  • 判斷 – 網管人員必須進行初步判斷,是否要針對事件進行持續監控,或是採取更進一步的處理,因此,必須清楚定義事件的等級與對應的措施。
  • 處理 – 網管人員可視損害情況,取得授權後進行緊急處理,例如是否要阻擋惡意IP來源封包、是否要停用網路介面或設備、是否需要更改設定組態等。
  • 記錄 – 最後,網管人員務必牢記,所有的過程都必須要留下文件或記錄檔,以便進行後續的事件查核,並且作為日後改善的目標。
凡事預先防患於未然

在古書《左傳》裡提到:「居安思危,思則有備,有備無患。」相信這是大家在學校都有唸過的一句成語,但是要如何去縮短知道與落實之間的差距,對我們來說才是一大考驗。幸好,我們可以隨時看看別人、想想自己,從已經發生過的事件,或是參考國際的標準規範,來思考出適合的應對方法,而透過了解營運持續管理的概念,無論是在工作或生活之中,對我們一定都會有實質的幫助。(本文刊載於2008年5月號網管人雜誌)

沒有留言: