大型醫(yī)院信息系統(tǒng)的容災(zāi)設(shè)計和應(yīng)用
翁錦陽、何萍、朱鐵兵
上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院計算機中心
通信地址:上海市盧灣區(qū)瑞金二路197號科教樓13樓計算機中心 翁錦陽收
郵編:200025
電子郵件:wjy@rjh.com.cn
聯(lián)系電話:(021)64370045轉(zhuǎn)611399
摘要:容災(zāi)的實質(zhì)是通過各種容災(zāi)技術(shù)和手段保持信息系統(tǒng)的業(yè)務(wù)持續(xù)性。大型醫(yī)院信息系統(tǒng)容災(zāi)設(shè)計和應(yīng)用是一項系統(tǒng)工程,它涉及到管理、流程、規(guī)范等各個方面,而不僅僅是技術(shù)。容災(zāi)不僅僅簡單的數(shù)據(jù)備份和恢復(fù),還包括信息系統(tǒng)應(yīng)用上的恢復(fù)。本文共享了在醫(yī)院信息系統(tǒng)容災(zāi)設(shè)計過程中的經(jīng)驗,給出適合大型醫(yī)院使用的容災(zāi)系統(tǒng)設(shè)計方案,并且詳細(xì)說明其原理和實現(xiàn)過程。
關(guān)鍵詞:容災(zāi) 存儲局域網(wǎng) 服務(wù)器群集 連續(xù)數(shù)據(jù)保護(hù) 鏈路冗余
Abstract: The essence of disaster tolerance is to maintain the continuity of information system through a variety of disaster tolerance techniques and tools. Large-scale hospital information system design and application of disaster tolerance is not only technology, but also a systematic project, which involves management, processes, standards and other aspects. Disaster tolerance is not simple data backup and recovery. It includes restoration of information systems applications. This shared disaster tolerance in the large-scale hospital system design process the experience, the use of disaster tolerance for large-scale hospital systems design, and detailed description of its principle and realization.
Key words: Disaster Tolerance Storage Area Network Server Cluster Continuous Data Protection Link Redundancy
一、醫(yī)院信息系統(tǒng)的容災(zāi)目的和需求
當(dāng)前,大型醫(yī)院已普遍建有醫(yī)院信息系統(tǒng),并已成為醫(yī)院高效、有序開展醫(yī)療服務(wù)的基本保障。由于大型醫(yī)院全年365天、全天24小時不間斷服務(wù)和高峰期業(yè)務(wù)并發(fā)量大的特點,一旦信息系統(tǒng)發(fā)生故障,整個醫(yī)院的業(yè)務(wù)將陷于癱瘓,因此對醫(yī)院信息系統(tǒng)的運行安全性和連續(xù)性提出了很高的要求。為此,醫(yī)院信息系統(tǒng)的容災(zāi)設(shè)計性對于大型醫(yī)院來說顯得尤為重要。
容災(zāi),就是利用技術(shù)手段、管理手段,或者任何可以獲取的管理資源,來確保一些關(guān)鍵的數(shù)據(jù)、處理關(guān)鍵數(shù)據(jù)的手段,以及關(guān)鍵的業(yè)務(wù),在災(zāi)難發(fā)生后可以盡可能多、盡可能快地恢復(fù)的過程。醫(yī)院信息系統(tǒng)的容災(zāi)目的,不僅是確保數(shù)據(jù)的完整性,還要保障關(guān)鍵業(yè)務(wù)的運行持續(xù)性。即當(dāng)醫(yī)院信息系統(tǒng)發(fā)生故障時,仍能夠不間斷地或盡可能快地恢復(fù)提供關(guān)鍵業(yè)務(wù)支持,并盡可能避免關(guān)鍵數(shù)據(jù)的丟失,以保證醫(yī)療業(yè)務(wù)的正常進(jìn)行。
系統(tǒng)的容災(zāi)設(shè)計有兩個評價標(biāo)準(zhǔn):恢復(fù)時間目標(biāo)(RTO,即在災(zāi)難發(fā)生后需要恢復(fù)的緊迫性)和恢復(fù)點目標(biāo)(RPO,在災(zāi)難發(fā)生后恢復(fù)運轉(zhuǎn)時數(shù)據(jù)丟失的可容忍程度)。RPO針對的是數(shù)據(jù)丟失,而RTO針對的是服務(wù)丟失。即系統(tǒng)容忍丟失的數(shù)據(jù)量越小,RPO的值越小;系統(tǒng)服務(wù)的緊迫性要求越高,RTO的值越小。由于醫(yī)院承擔(dān)救死扶傷任務(wù)的特殊性,決定了醫(yī)院信息系統(tǒng)對RPO和RTO具有很高的要求。
二、醫(yī)院信息系統(tǒng)的容災(zāi)設(shè)計和實現(xiàn)
醫(yī)院信息系統(tǒng)有三大核心資源——計算資源、傳輸資源和存儲資源。計算資源主要包括具有計算能力和業(yè)務(wù)處理能力的服務(wù)器。傳輸資源主要包括網(wǎng)絡(luò)和各類網(wǎng)絡(luò)交換設(shè)備。存儲資源主要包括存放數(shù)據(jù)的各類存儲設(shè)備。醫(yī)院信息系統(tǒng)的容災(zāi)設(shè)計重點就是要保護(hù)這三種核心的資源。
1、計算資源的保護(hù)
計算資源的傳統(tǒng)容災(zāi)方式主要是通過采用服務(wù)器群集技術(shù)來實現(xiàn)的。以典型的三層架構(gòu)(一般將醫(yī)院信息系統(tǒng)架構(gòu)由上至下劃分為表示層、業(yè)務(wù)邏輯層和數(shù)據(jù)訪問層)分別獨立部署在服務(wù)器或服務(wù)器群集上運行為例:
位于數(shù)據(jù)訪問層的數(shù)據(jù)庫服務(wù)器采用基于共享存儲的雙機熱備方式。兩臺數(shù)據(jù)庫服務(wù)器可以采用互備、主從、并行等不同的方式。在工作過程中,兩臺服務(wù)器將以一個虛擬的IP地址對外提供服務(wù),依工作方式的不同,將服務(wù)請求發(fā)送給其中一臺服務(wù)器承擔(dān)。同時,服務(wù)器通過心跳線偵測另一臺服務(wù)器的工作狀況。當(dāng)一臺服務(wù)器出現(xiàn)故障時,另一臺服務(wù)器根據(jù)心跳偵測的情況做出判斷,并進(jìn)行切換,接管服務(wù)。這一過程自動在短時間內(nèi)完成(分鐘級),對業(yè)務(wù)不會造成影響。由于使用共享的存儲設(shè)備,因此兩臺服務(wù)器使用的實際上是一樣的數(shù)據(jù),由雙機或集群軟件對其進(jìn)行管理。通過服務(wù)器群集的方式,能夠以較短的時間在部分計算資源發(fā)生災(zāi)難后恢復(fù),保障業(yè)務(wù)系統(tǒng)的持續(xù)穩(wěn)定、可靠。
在上兩層中——業(yè)務(wù)邏輯層(應(yīng)用服務(wù)器)和表示層(頁面服務(wù)器)由于只提供應(yīng)用服務(wù)和用戶訪問界面,并不保存數(shù)據(jù),一般不需要使用共享的存儲設(shè)備,而應(yīng)配置多臺服務(wù)器建立負(fù)載均衡機制。一來避免在這兩層上出現(xiàn)單點失效,實現(xiàn)容災(zāi);二來可以為用戶提供更好的訪問質(zhì)量、提高服務(wù)器響應(yīng)速度。
對于服務(wù)器供電中斷這類故障,可通過UPS的冗余并聯(lián)實現(xiàn)快速甚至無縫的災(zāi)難恢復(fù)。UPS冗余并聯(lián)實現(xiàn)了若干UPS設(shè)備本身的災(zāi)難恢復(fù),一旦主機故障停機,系統(tǒng)自動選擇作為從機(哪臺先開哪臺就是主機,而后開機的都是從機)運行的另一臺UPS接替主機的工作,保持供電不間斷。
2、傳輸資源的保護(hù)
傳輸資源的保護(hù)主要通過虛擬路由技術(shù),以及雙鏈路冗余和負(fù)載均衡來保障系統(tǒng)容災(zāi)的RTO。虛擬路由技術(shù)中最具代表性的是VRRP(虛擬路由冗余協(xié)議),可將一組用于醫(yī)院信息系統(tǒng)服務(wù)器與客戶端通信的路由器協(xié)同工作,共同構(gòu)成一臺虛擬路由器。該虛擬路由器對外表現(xiàn)為一個具有唯一固定IP地址和MAC地址的邏輯路由器。處于同一個組中的路由器具有兩種互斥的角色:主控路由器和備份路由器,一個組中有且只有一臺處于主控角色的路由器,可以有一個或者多個處于備份角色的路由器。VRRP協(xié)議使用選擇策略從路由器組中選出一臺作為主控,負(fù)責(zé)ARP響應(yīng)和轉(zhuǎn)發(fā)IP數(shù)據(jù)包。組中的其它路由器作為備份角色處于待命狀態(tài)。當(dāng)主控路由器發(fā)生故障時,備份路由器能在幾秒鐘的時延后升級為主路由器。由于此切換非常迅速而且不用改變IP地址和MAC地址,故對醫(yī)院信息系統(tǒng)客戶端用戶是透明的。
同時,通過合理的網(wǎng)絡(luò)設(shè)計,可以到達(dá)備份和負(fù)載均衡雙重效果。比如讓兩臺路由器同時屬于互為備份的兩個組:在組1中路由器A為IP地址所有者;組2中路由器B為IP地址所有者。將客戶端1的默認(rèn)網(wǎng)關(guān)設(shè)定為路由器A;客戶端2、客戶端3的默認(rèn)網(wǎng)關(guān)設(shè)定為路由器B。這樣,既分擔(dān)了設(shè)備負(fù)載和網(wǎng)絡(luò)流量,又提高了網(wǎng)絡(luò)可靠性。同樣的,可以利用如Port-channel等技術(shù)可以實現(xiàn)鏈路的冗余和負(fù)載均衡。
3、存儲資源的保護(hù)
存儲資源由于承擔(dān)保存醫(yī)院信息系統(tǒng)數(shù)據(jù)的功能,建議在數(shù)據(jù)庫服務(wù)器群集中采用雙存儲陣列作為共享存儲(雙鏈路雙控制器冗余的存儲陣列最佳),并以鏡像方式同步。這樣,即使作為共享存儲的其中一個盤陣離線,服務(wù)依然能夠無間斷運行。
此外,可利用連續(xù)數(shù)據(jù)保護(hù)技術(shù)(CDP)對醫(yī)院信息系統(tǒng)數(shù)據(jù)進(jìn)行備份,此技術(shù)可以捕捉到一切文件級或數(shù)據(jù)塊級別的數(shù)據(jù)寫改動,可以對備份對象進(jìn)行更加細(xì)化的粒度的恢復(fù),可以恢復(fù)到任意時間點。硬盤部分,設(shè)置RAID容錯報錯,且有熱拔插功能,一旦硬盤毀損,立刻抽換硬盤,系統(tǒng)仍可正常運作,無需中斷或關(guān)機。
4、建立異地災(zāi)備中心
上述技術(shù)手段實現(xiàn)了醫(yī)院信息系統(tǒng)的本地容災(zāi),但對于機房遭遇火災(zāi)等大型災(zāi)害,本地容災(zāi)則顯得無能為力。有鑒于此,應(yīng)當(dāng)在數(shù)據(jù)中心所處的建筑之外建
|
|