PlusWell Cluster
容
錯
軟
件
技
術
白
皮
書
北京天行健達信息技術有限公司
2005年3月
一、 PlusWell Cluster容錯軟件技術簡介及其應用 (支持共享磁盤陣列方式)
(一) PlusWell Cluster Cluster容錯軟件原理
1、 PlusWell Cluster Cluster容錯軟件定義、特性、資源保護
PlusWell Cluster Cluster 容錯軟件提供了一個完全容錯的軟件解決方案,并提供數據、應用程序和通信資源的高度可用性。PlusWell Cluster容錯軟件不需要任何特別的容錯硬件,并訪問特定節點的配置數據。PlusWell Cluster容錯軟件會自動地提供錯誤檢測和現場恢復。
在出現故障的情況下,PlusWell Cluster容錯軟件會將保護資源自動轉換到一個根據預先設定好優先權的系統。在實際進行切換用戶時, 會經歷一個十分短暫的休眠,但是,當系統完成了切換操作后,PlusWell Cluster容錯軟件會在所選擇的節點上自動地恢復操作。
可以被PlusWell Cluster容錯軟件保護起來的資源是:
卷(Volume)
IP 地址
共享文件
管理器服務器名稱
應用程序
定義的用戶
2、心跳故障檢測Heartbeat
PlusWell Cluster容錯軟件在集群節點間保持著間歇的通信信號,也叫做心跳信號,是錯誤檢測的一個機制。即通過每一個通信路徑,在兩個對等系統之間進行周期性的握手,如果連續沒有收到的心跳信號到了一定的數目,PlusWell Cluster 容錯軟件就把這條路徑標示為失效(紅色)。
如果你只定義了一條通信路徑,當PlusWell Cluster 容錯軟件把這唯一的一條通信路徑標為失效時, PlusWell Cluster容錯軟件便立即開始恢復過程。然而,如果你有冗余路徑, PlusWell Cluster容錯軟件能夠通過第二條路徑確定是系統故障還是只是通信路徑有問題。如果PlusWell Cluster 容錯軟件開啟優先級第二的通信路徑并收到了心跳信號,它就不開始failover恢復,只需要把第一條通信路徑標成紅色(失效),作為信號告訴你需要修復有故障的路徑。
一般情況下PlusWell Cluster容錯軟件 只在下列事件發生時,啟動系統恢復功能:
所有的通信路徑故障。如果所有節點都沒能收到心跳信號, 把所有通信路徑都標為失效, PlusWell Cluster 容錯軟件開始安全檢查。
安全檢查失敗。當所有通信路徑故障時,PlusWell Cluster容錯軟件向整個網絡發出安全檢查信號。如果信號指出配對系統還“活”著的時候,PlusWell Cluster容錯軟件不啟動Failover。如果安全檢查沒從配對節點返回信號,PlusWell Cluster容錯軟件就開始Failover。
因而,為了減少由于潛在的通訊錯誤所引起的不必要的系統切換,建議您使用不同介質的多條通信路徑。
3、 通信路徑
PlusWell Cluster容錯軟件支持在節點之間和心跳通訊中,使用如下通訊路徑:
(1) socket,即套接字。你使用任何的網絡硬件接口,只要它能夠支持TCP/IP的通訊協議。這樣的硬件包括:以太網、快速以網。
(2)串行口 在PlusWell Cluster容錯軟件配置中, 你應當配置有一個串行口通信路徑。串口通信路徑需要利用RS232的擬調解線路來與PlusWell Cluster容錯軟件系統相連接。
PlusWell Cluster 容錯軟件假定當通過心跳信號檢測其它服務器失敗時,則認為此服務器是關閉的。因此,為了避免不必要的失效切換,最好建立兩種以上獨立的物理路
|
|