Tải bản đầy đủ (.pdf) (103 trang)

Các giải pháp nâng cao tính sẵn sàng hệ thống mạng, mạng ISP công ty viễn thông quân đội VIETEL

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (37.62 MB, 103 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
KHOA CÔNG NGHỆ
Chy Ty
CÁC GIẢI PHÁP NÂNG CAO TÍNH SẴN SÀNG
HỆ THỐNG MẠNG, MẠNG ISP CÔNG TY
VIỄN THÔNG QUÂN ĐỘI VIETEL
Chuyên ngành: Công nghệ thông tin
Mã số: 01.01.10
LUẬN VĂN THẠC sĩ
NGƯỜI HƯỚNC. DẪN KHOA HỌC:
1. PGS TS Nguyễn Văn Vỵ
2. TS Tôn Quốc Bình
Hà Nội - Năm 2003
Chv 7'v Khoa Cóng nghe Dại học Quốc gia Hà nội
MỰC LỤC
Mỏ dầu 1
( hương f Hệ thông sàn sàng cao 3
1.1. Khái niệm về hệ thống sẩn sàng cao (High Availabiỉity) 3
1.1.1. Định nghĩa tính sẵn sàng cao của hệ thống
3
1.1.2. Các mức sẵn sàng cao 3
1.1.3. Quan niệm về hệ sẩn sàng cao 4
1.2. Các rủi ro và mức độ rủi ro trong một hệ thống 6
IA Các giải pháp chung đảm bảo tính sẩn sàng cao 7
1.3.1. Giải pháp phần cứng 7
1.3.2. Giải pháp phán mềm 9
1.3.3. Giái pháp liên quan đến mối trường 10
1.3.4. Giải pháp liên quan đến người dùng 10
1.3.5. Lựa chọn một giải pháp tổng hợp 1 i
Chương II Công nghệ kết cum 12
2.1. Định nghĩa kết cụm (Cluster) 12


2-2. Các lợi ích và hạn chế của sự kết cụm 13
2.2. ]. Lợi ích của sự kết cụm 13
2.2.2. Những hạn chế 14
2.3. Kêì cụm nhiều địa điếm và phân tán về địa ỉý 14
2.3.1. Kiểu thiếl kế thực hiện đầy đủ
.

14
2.3.2. Kiếu thiết kế thực hiện lừng phần 15
2.3.3. Phân bố rải rác các kết cụm 16
2.4. Tổ chức kết cụm 16
2.4.1. Trại kết cụm (Clusler Farm) 17
2.4.2. Gói kết cụm (Cluster Pack) 18
2.5. Nguvên [ỷ hoạt động kết cụm ỉ 8
2.6. Các cơ chế thứ lôi (Failover) 2 ỉ
2.7. Nhịp tim (Heartbeat) 27
2.8. Cản hàng tái mạng (Network Load Balancing- NLB)

28
2.9. MC/Service Guard (Kết cụm của HP) 32
2.9.1. Giới thiệu 32
2.9.2. Đặc điểm và lợi ích của MC/Service Guard 33
2.9.3. Khóa kết cụm (Clusier Lock) 34
2.9.4. Nhịp l i m .

.

35
2.9.5. Gói tin (Packaging) 36
2.9.6. NODE Fail Fast.r


36
2.9.7. Các cơ chế thứ lỗi (Failover Policies)
37
2.9.8. Còng cụ MC/Service Guard 38
2.10. SteelEye LifeKeeper (Kết cụm của SteelEye) 39
2.10.1. Giới thiệu 39
2.10.2. Phàn mềm công cụ khói phục ứng dụng 40
2.10.3. Đường truyển thông (Communication Path) 4Ü
2.11. Microsoft Cluster (Kết cụm của Microsoft) 42
2.11.1. Giới thiệu về việc thiết lập Microsoft Cluster 42
2. ] ỉ .2. Đặc điổm Microsoft Cluster 43
Luận văn Thạc sĩ Trang 100
Chy TV Khoa Cóng nghệ Đại học Quốc gia Hà nội
2.11.3. Các ứng dụng hỗ trợ bởi Microsoft Cluster windows 2000

44
2.11.4. Các máy dịch vụ ả o 45
2.12. Kết luận

.
46
2.12.1. MC/Service Guard 47
2.12.2. LifeKeeper 47
2.12.3. Microsoft Cluster 48
Chương III Công nghệ lưu trữ và khôi phục dữ liệu

50
3 .1. 'l ổng quan 50
3.2. Mô hình lưu trữ dữ liệu 50

3.2.1. Kho lưu trữ kết nối trực tiếp (Direct Attach Storage- DAS) 50
3.2.2. Kho hru trừ kết nối qua mạng (Network Attach Storage-NAS)
51
3.2.3. Kho lưu trữ mạng (Storage Area Networks-SAN) 52
3.3. Lưu trữ ảo 53
3.4. Sao lưu không có thời gian chết (Zero downtime Backup - ZDB) 55
3.5. Côna. nghệ kênh sợi quang (Fible Channel-FC) 57
3.6. Công nghẹ RAID 58
3.7. Quản trị lưu trữ 61
Chương IV Thiết kê hệ thông sẵn sàng cao, mạng ISP Vietel 63
4.1. Giới thiệu mạng Viên thông quân đội Vietel 63
4.2. Hiện trạng mạng ISP Vietel 64
4.2. [ Các thành phán trong mạng ISP của Vieteỉ 64
4.2.2. Mô tả chi tiết hệ thống 67
4.2.3. Dự phòng và khôi phục dữ liệu 68
4.2.4. Các hệ Quản trị mạng 70
4.3. Mạng có lính sẩn sàng cao 71
4.3.1. Dự phòng bộ định tuyến 72
4.3.2. Dự phòng NSÕOO 73
4.3.3. Dự phòng Switch 73
4.3.4. Môi (rường kết cụm 74
4.4. Các vấn đề cần giải quyết để nâng cao tính sẵn sàng mạng ISP Vieteỉ 74
4.5. Thiết kế và các giải pháp 76
4.5.1. Giái pháp cho bộ định tuyến (Cisco Router 2600) 76
4.5.2. Giải pháp cho NS-500 79
4.5.3. Giải pháp cho Cisco Switch 6500 80
4.5.4. Giải pháp kết cụm 81
4.5.4.1. MC/Service Guard 81
4.5.4.2. LifeKeeper 84
4.5.5 Giải pháp Primary và Secondary 85

4.5.6. Giái pháp nguồn cung cấp điện 85
4.5.7. Xâv dựng hẹ thống kết cụm cho dịch vụ M ail 86
4.6. Kịch bán kiếm tra hệ thống trong mồi trường kết cụm MC/ServiceGuard 94
Kết luận
.
97
Tài liệu tham khảo
.

98
Luận vãn Thạc sĩ
Trang 101
TtrVIÉT TÄT
AAA
Authentication, Authorization, and Accounting
CRM
Customer Ralationship Management
DAS Direct Attach Storage
RMS
Event Monitoring Service
ERP Enterprise Resource Planing
FTP
File Tranter Protocol
GRE
Generic Routing Encapsulation
IISTP
Hot Standby Routing Protocol
LDAP Lightweight Directory Access Protocol
MTBF
Mean Time Between Fault

MTTR
Mean Time To Repair
NAS Network Attach Storage
NFS
Network Pile System
NIB
Network Load Balancing
NMS Network Management Server
NOC Network Operation Center
ÜLPT
Online Transaction Processing
RAID Redundant Array of Independent Disk
RAS
Remote Access Server
SAN
Storage Area Network
TCP
Transmission Control Protocol
L'DP
User Datagram Protocol
VLAN Vitual LAN
VA Virtual Array
VPN
Virtual Private Network
ZDB Zero Downtime Backup
Ch V Ty Khoa Công nghệ Đại học Quốc ỊỊÌa Hà nội
MỞ ĐẨU
Với nến kinh tế toàn cấu dang phát triển, các Công ty với quy mô trên loàn Ihế giới
đà và đang đua công nghệ thông tin vào các ứng dụng thực tế. Thương mại điện tứ đã tạo
diều kiện dế mọi người có Ihê’ tiến hành kinh doanh 24 giờ một ngày, 7 ngày một tuần.

Những ứng dụng mới có thể cho phép tiến hành tin học hoá các hoạt động hàng ngày của
mình với mức độ cao nhất từ xưa đến nay.
Xu hướng như vậy đã rõ ràng, tất cả chúng ta đều cần phải dựa vào một hệ thống ổn
định đô có thể truy cập bất cứ lúc nào. chính nhu cầu nàv làm tăng đáng kể tính sẩn sàng
của hệ thống. Chính vì các cồng ty và các tổ chức đều phải dựa vào hệ thống máy tính của
mình, bất cứ thời gian ngừng hoạt động nào của hệ thống đều có thể ảnh hưởng nghiêm
trọna đến kinh doanh của công ty. nó không chí là sự sút giảm về nãng suất lao động mà
còn là sự thất thoát vé doanh thu hay thậm chí là sự suy giám vị thế trên thị trường.
Hiện này các hãng lớn về lĩnh vực cóng nghệ thông tin đã và đang dược nghiên cứu
các giải pháp nâng cao tính sẵn sàng cao hệ thông mạng bao gồm cả giải pháp phân cứng
và phần niềm. Các cồng ty. Lổ chức với quy mò lớn đang được áp đụng các giải pháp tính
sàn sàng cao đế đảm bảo hệ thống của họ vận hành liên tục. Và lương lai mọi cổng ty, tổ
chức vừa và nhỏ mà hoạt động của họ đéu dựa vào hệ [hống mạng thì cần phái có một giải
pháp sẩn sàng tích hợp.
Mạng cung cấp dịch vụ Iniernei (ISP) của công ty Viễn thông quân đội là một
iroim số mạng ISP Việi Nam vừa xây dựng để phục vụ khách hàng có nhu cầu kết nối
Internet. Mạng có đường kết nối quốc lế 2MB, và sắp tới sẽ tăng thêm một số đường kết
nối ra quốc tế với đường truyền lốc độ cao. Để đáp ứng tốt các dịch vụ không bị gián đoạn
cho các khách hàng như là các doanh nghiệp và các cơ quan chức năng với nhu càu trao
dổi thõng lin liên tục cần có một giải pháp đổ tăng độ sẩn sàng, đảm bảo hệ ihống vận
hành với thời gian ngừng hoạt động là nhỏ nhất. Hiện nay, mạng ISP công ty viễn thông
quán đội đã thực hiện giái pháp dự phòng bằng cách mua thém một số thiết bị phụ để
phòng ngừa trong trường hợp phấn cứng bị hỏng. Giải pháp như vậy chí là tạm thời, nó
chưa đáp ứng được đầy di) các nhu cầu cúa các khách hàng, vì một sô' lỗi chưa the khác
Luận văn 1 'hcic sỉ Trang l
Chy Ty Khoa Công nghệ Đợi học Quốc ỊỊÌa Hà nội
phục dược như lỗi phần mềm và ihậm chí cần phải cấu hình lại hệ thống sau mội số lần
thất hại. cho nên cán có mội giái pháp mới tối ưu hơn với thời gian khôi phục rất nhỏ. Với
những lý do irén mà dề tài cua luận văn dược chọn là “Các giải pháp nâng cao tính sẵn
sàng hộ thống mạng, Mạng ISP của công ty viễn thống quân đội Vietel”

Mục tiêu của đề tài là nghiên cứu tổng hợp những vản đề chung nhất vé một hệ
ỉhôiig san sàng cao. những giài pháp công nghệ chúng đang được sử dụng trên thực tẽ và
vận dụng nó để phân tích, để xuất các giải pháp nâng cao tính sẵn sàng cao của hệ thống
mạng ISP của công ty viễn thống quân đội.
Nội dung của luận văn bao gồm:
r
Chương 1: Hệ thống sẩn sàng cao, mô tả các khái niệm về một hệ thống tin có
tính sẩn sàng cao, phân tích các rủi ro có Ihể xây ra cho nó và các công việc cần
thực hiện để nâng cao tính sẵn sàng cúa hệ thống.
r Chương 2: Công nghệ kết cụm. mô tả Công nghệ kết cụm bao gổm: nguyên lý
hoạt động, cách thức tổ chức Cluster và một sô cồng cụ iiên quan tới giải pháp
Cluster như MC/Service Guard, LifeKeeper. Microsoft Clustering.
r Chương 3: Công nghệ lưu trữ và khôi phục dữ liệu, mõ tả công nghệ lưu trữ và
khói phục dữ liệu bao gồm mô hình lưu irữ, cách khôi phục và sao chép dữ liệu
cùng với việc quản trị lưu trữ dữ liệu.
r Chương 4: Thiết kế hổ thống sẵn sàng cao mạng 1SP Vieteí mô tả việc phân tích
hiện trạng Mạng 1SP cổng ty viễn thông quàn đội Vietel và xây dựng giải pháp
có độ sẵn sàng cao cho mạng ISP này.
r- Kếi luận
Luận vân Thạc sĩ
Trang 2
City Ty Khoa Công nghệ Đại học Quốc gia Hà nội
CHƯƠNG I
HỆ THỐNG SẴN SÀNG CAO
1.1. Khái niệm về hệ thống sẳn sàng cao (High Availability)
1.1.1. Định nghĩa tính sân sàng cao của hệ thống
Tính sẩn sàng cao cùa hệ thống được hiểu là khá nàng hoạt động của một hệ thống
Irựe tuyốn và sẩn sàng đáp ứng nhu cầu khách hàng ở mọi thời điếm. Có rất nhiều nhân tố
làm cho hệ thống ngìmg hoại động không thể đáp ứng được yêu cầu của khách hàng trong
đó bao gôm cá thời gian cần để bảo trì hệ thống. Mục đích của các giải pháp tính sẩn sàng

cao là hạn chế tối thiểu việc ngừng hoạt động và sự khôi phục hệ thống một cách nhanh
chónạ khi có sự cô' xẩy ra.
Tính sẵn sàng cao không phái là một công nghệ riêng biệt hoặc ỉà một đặc trưng rõ
ràng cua hệ ihống. Đúng hơn, tính sẵn sàng cao là khả năng để đạt được mục tiêu và mang
nhiều ý nghĩa cụ thể tuỳ theo nhu cầu đặt ra. Để đạt được mục tiêu chiến lược này có rất
nhicu chiến lược còng nghệ và dịch vụ đã được dùng và mỗi công nghệ hay dịch vụ lại
hướnạ đốn đặt một mục tiêu cụ thế. [18]
1.1.2. Các mức sản sàng cao
Trong một phạm vi nào đó. tính sẩn sàng caơ chỉ đơn giản mang ý nghĩa khôi phục
một thám hoa và đưa tổ chức trở lại hoạt động bình thường của hệ thống một cách nhanh
chóng. Với những hệ thống nhỏ thì nó có thể chỉ đơn gián là có một hệ thống điện và cônơ
nghệ lưu Irữ dừ liệu được bảo vệ an toàn không bị ngắt kỹ thuật. Với một phạm vi rộng
hưn Ihì tính sẩn sàng cao là hệ thông có thể sần sàng làm việc liên tục đáp ứng mọi nhu
cẩu cùa khách hàng với cường độ, tẩn xuất và khối lượng khác nhau. Ví du như công nghệ
chia sẻ một khối ìượng lớn cống việc đế tiến hành ở nhiều nơi, đám bão tính trong suốt đối
với khách hàng khi sử dụng các dữ liệu được phân bổ ở nhiều nơi với khoảng cách lớn thì
khách hànạ cám nhận như sử dụng các dữ liệu tại chồ. Cho nên, có thể nói rầng, có rấí
Luán vàn Thạc sĩ
Trang 3
Chy Tv Khoa Công nghệ Đại học Quốc gia Hà nội
nhicu mức độ tính sần sàng cao khác nhau nằm giữa hai mực độ tối thiổu và lối đa được đé
cập tiến, i 18 1
Người ta chia mức độ sần sàng trung bình theo các mức độ sau:
Sán sàng
Mực độ sẵn sàng Thời gian ngừng hoạt động/năm
: Sần sàng liên lục
(Continuous Availability)
100% 0 phút
Tính chịu lồi cao
(Fault Tolerant)

99.9999% 5 phút
Tính chịu lồi thường
(Fault Resilient)
99.99%
53 phút
Sán sàng cao
(High Availability)
99.9%
8,8 tiếng
Sẩn sàng bình thường
(Basic Availability)
99-99.5% 44-87 tiếng
Mức độ sẵn sàng được tính bàng công thức sau:
A _ MTBF
" MTBF + MTTR
Trong dó MTBF (Mean Time Between Fault) là thời gian mà hệ thống hoạt động
cung cấp dịch vụ, MTTR {Mean Time To Repair) là thời gian mà hệ thống ngừng hoạt
độne cung cấp dịch vụ.
Như vậv chúng ta có thể nâng cao mức độ sẩn sàng bàng cách giám thời gian
ngừng hoạt dộng cứa hệ thống và thời gian khôi phục lỗi khi hệ thống gặp sự cô. [27]
1.1.3. Quan niệm về hệ sản sàng cao
> Quan niệm đơn thuần về kỹ thuật
Khổng có một giải pháp nào là đưn giản, dể dàng và rẻ tiền cho tính sẵn sàng cao.
Bấi kv giái pháp nào cũng phải đâm báo cân đối giữa nhu cẩu thực tế và tính kinh tế cùa
nó.
Luán văn Thạc sĩ
Trang 4
('hy Ị y Khoa CônỊị nghệ tìại học Quốc gia Hà nội
Xu hướng của chúng ta là lập hựp những thành phần quan trọng khác nhau về phấn
cứng, phần mềm, các tiến trình của những hệ thống độc lập để tạo thành một hệ thống

phối hợp dế cổ thế quán lý một cách tập trung. Cụ ihể hơn là, tập hợp những thành phổn có
mõi quan hệ phụ thuộc lẫn nhau cua hệ thống phức lạp ihành một hệ thống tổng thể để
(láp ứng đirợc các yêu cầu đặt ra.
Một hệ ihống phối hợp ihường dược cấu hình và đo đạc bởi một trung tâm máy
dịch vụ và Irung tâm mạng.
Trung tâm máy dịch vụ ỉà tập hợp các máy dịch vụ được kết cụm với tính sẵn sàng
CỈU» do bàng phần trảm thời gian dịch vụ trực tuyến mà các khách hàng ở bất cứ nơi nào
trong miền cúa hệ thống đều có thế truy cập được.
Trung tàm mạng dựa vào mỏt kiến trúc phân tán. Tính sẵn sàng đo bằng phần trăm
thời gian dịch vụ trực tuyến tại mức người dùng cuối cùng.
Giải pháp nâng cao tính sẩn sàng thường tập trung vào hai mặt là: ngăn ngừa và
tránh những sự cố của tất cả các vấn đề có thể làm cho hệ thống bị gián đoạn việc cung
cấp dịch vụ. Thèm vào đó, cần tập trung vào việc phục hổi nhanh và hạn chế mọi xung đột
mà có thể xay ra làm cho hệ thống ngừng hoạt động.
> Quan niệm kinh té kỹ thuật
Thực hiện cách tiếp cận tiên tiến đòi hỏi không những phải lựa chọn thiết bị phần
cứng tốt. đổng bộ mà còn biết iựa chọn dịch vụ phần mềm và tổ chức quản lý chúng để có
thế đạt dược một giải pháp toàn bộ hiệu quả.
Sự cần thiết của một dịch vụ phẩn mềm bổ .sung cho CO' sở hạ tầng là một điểm rất
quan trọng. Tính sẩn sàng cao không chỉ là việc đạt được thông qua các giải pháp kỹ
thuậl. mặc dù công nghệ là một phán quan trọng trong bất kỳ giải pháp nào. Việc mua
thiếl bị và công nghệ với một giá cao. tính chịu lồi cao, trạng thái của một hệ thống nghệ
ihuậi không phái lúc nào cũng cần thiết. Điều đó có nghĩa là, việc kinh doanh cần đặt
Luân ván Thạc sĩ
Trang 5
Chy Ty Khoa Công nghệ Đại học Quốc gia Hà nội
được mức: độ của tính sẩn sàng mong muốn chỉ với những cồng nghệ có dịch vụ 1 hích hợp,
vói SƯ quán trị, sự hổ trợ phòng ngừa rủi ro, quản lý và đặt kế hoạch khôi phục đúng đắn.
Bái kỳ một giải pháp sẩn sàng cao nào đểu cần đến một sự hiểu biết thấu đáo về hệ
thống và có một kê hạch xát xao. Tính sắn sàng của hệ thống phải được đánh giá, đo đạc

bổ cứu, phòng ngừa và những kế hoạch điểu khiển hoạt động của hệ thống một cách thích
hựp. Tính chuvẻn môn cao là một yêu cầu cho một giải pháp đạt hiệu quả cao. [18]
1.2. Các rủi ro và mức độ rủi ro trong một hệ thông
Qua các nghiên cứu cho thấy, nguyên nhân chính làm cho nhiều hệ thống bị trục
trặc, sụp đổ có nguồn gốc từ: phần mềm, phần cứng, người dùng và mói trường.
r Lỏi plúỉn cứng: Phần cứng ihường là nguyên nhản chính dẫn tới hệ (hống bị lỗi.
Theo thống kê cho thấy. 39% trường họp đều liên quan tới phần cứng, trong đó
lỗi do thiết bị lưu trữ là 5.1,7%, bộ nhớ là 23%, các bảng mạch 16,7%, bộ xử lý
2,9% và nguồn điện là 5,7%. Những lỗi này là hậu quả của quá trình sản xuất
bao gổm các công nghệ sán xuất và sự quản lý nó. Ngày nay, rất nhiều nhà sản
xuất đã không ngừng cái tiến công nghệ và tổ chức quản lv để xây dựng các
ihiồì bị phần cứng với độ tin cậy cao. Các thiết bị phàn cứng ngày càng có nhiều
tính năng và sức mạnh lớn hơn với độ tin cậy cao hơn. Ngoài các lỏi do bản
thân thiết bị, lỗi phân cứng còn xảy ra ở khâu kết nối như cáp, các card mạng,
bộ chuyển mạch.v.v.
r Lồi phán mềm: Lỗi phần mềm tồn tại như một sự tất yếu. Nhất là việc xuất hiện
các phiên bản phần mềm mới càng ngày càng gia tăng khả năng lỗi đi kèm theo
phần mém đó. Theo thống kê cho thấy, lỗi ph-ần mềm chiếm 31% tổng số lỗi.
Trong đó, do hệ điểu hành là 61,7% và các ứng dụng là 39,3%. Cũng như đối
với lỗi phần cứng, các nhà sản xuất phần mềm thường xuyên hoàn thiện và sử
dụns cổng nghệ mới (hướng đối tượng), tăng cường quá trình tự động hóa việc
sán xuất phần mém. sử dụng Ihành phần dùng lại để giảm thiểu lỗi phần mềm.
ỈMỚtì vàn Thạc sĩ
Trang 6
Chv Ty Khoa Cóng nghệ Đại học Quốc gia Hà nội
r
Lồi môi n ư<'ỉng\ Môi trường mà trong đó hệ thống hoạt động có thể có nhiều sự
cố chủ quan đưa lại. Nó bao gồm sự mất nguồn điện và thảm hoạ môi trường
như cháy, khủng bố, lũ lụt, động đất.v.v. Theo thống kê, lỗi do mỏi trường
chiếm 12%.

r ' Lồi người dùng: Theo thống kê cho thấy, 18% lỗi do người dùng gây ra, trong
đó 66,6% là (io người điều khiển. Nguyên nhân dẫn đến lỗi người dùng có thể
chương trình khổng tiện dùng, do trình độ thành thạo của người dùng còn hạn
chế. Vì vậy, có thể giảm lỗi người dùng bàng một số phương pháp như tăng
cường đào tạo, phần mểm dễ sử dụng và tổ chức quản lý tập trung. [12]
Hình U Biếu dồ mức lỗi trung bình các Ị oại tron ọ một hệ thống
1.3. Các giải pháp chung đảm bào tính sản sàng cao
ĩ .3.1. Giải pháp phần cứng
Nhin vào biểu đổ lỗi ta thấy, số lỗi phần cứng là lớn nhất. Vì vậy, các giải pháp để
khắc phục các lỗi phần cứng được quan tâm trước hết.
r- Sứ dạng dư phòng trong két nổi các máy khách!dịch vụ
Luận vãn Thạc sĩ Trang 7
Chy Ty Khoa Còng nghệ Đoi hoc Quốc gia Hà nội
Trong một hệ sẩn sàng cao cần có giải pháp cho các vấn để xẩy ra khi máy khách
Iruy cập các địch vụ từ máy dịch vụ qua mạng. Ta có thế loại bỏ lỗi đơn khâu kết nối bằng
cách dự phòng các thành phần kết nối như sử dụng nhiều card mạng. Hub, Switch, Router
và Cáp, v.v. từ đó một hệ thông có thể chuyển tới một card dự phòng m à không ánh hướng
đón sự ạián đoạn trong việc kết nối bời máy khách.
r Sử dụng còng nghệ kết cụm đê han chê tói đa sự ngừng hoạt động dịch vụ
Đê hạn chế lối đa sự ngừng trễ sự hoạt động của dịch vụ ta có thể trang bị hai hoặc
nhiều máy dịch vụ kết nối với nhau trong một môi trường kết cụm thực hiện một hay
nhiêu cônẹ việc khác nhau, trong trường họp một dịch vụ hay máy dịch vụ bị hỏng các
dịch vụ đó sẽ chuyển sang m áy dịch vụ khác trong môi trường kết cụm đó với thời gian
ngừng chi vài giây.
Có rất nhiều công nghệ kết cụm đã phát triển để hạn chế tối đa sự ngừng trễ cúa hệ
thống. Cáo công nghệ đó đã được thiết kế cho từng dịch vụ và đối với mỗi hệ điều hành
nhất định. Công nghệ kết cụm được xem là giải pháp chủ yếu để đảm bảo tính sẩn sàng
cao cua toàn hệ Ihống.
r Công nghệ lưu trữ và bảo vệ dữ liệu
Tính sẩn sàng cao liên quan đến việc truy cập dừ liệu với thiết bị lưu trữ. Việc thiết

kế kết hợp phần cứng bằng công nghệ RAID (Redundant Array of Inexpensive Disk) với
việc sir dụng phấn mềm bản sao dữ liệu là rất cần thiết. Để đạt được mục đích tính sẵn
sàn g cao và hiệu suất cao thì việc thiết kế nên có nhiều bộ điều khiển thiết bị lưu trữ cùng
với dường dẫn và cáp dự phòng tới thiết bị lưu trữ.
Những câu hỏi sau đáy liên quan tới sự bảo vệ dữ liệu
• Có cần khôi phục dữ liệu trực tuyến không?
• Có đễ dàng thay đổi một ổ đĩa bị hỏng không?
• Có cần thiết phối hợp các mức RAID và lăng khả năng thực hiện?
Luán vãn Thạc sĩ
Trang 8
Ch
V
Tv Khoa Cóng nghệ Đại hoc Quốc gia Hà nội
r Dự phòng các thiết bị phần cứng cho thay thế
Đe nâng cao tính sẵn sàng của hệ thống thì cần phải dự phòng một số thiết bị cần
thiol dê đám báo kịp thời trong việc thay thế thiết bị đã bị hỏng khi sự cố phẩn cứng xẩy
ra. Khi dự phòng cho ihay thế cần tính đốn xác xuất thống kế về sự hư hỏng mồi loại thiết
bị
'r- Quản lý, dụ báo và báo cáo tình trạng phản cứng hệ thông
Để nâng cao tính sẩn sàng của hộ thống cần phải nói đến việc dự đoán rúi ro để báo
vệ và lập báo cáo về hiện trạng của hệ íhống. Trên cơ sở đó ta có thế ngăn ngừa các rủi ro
và sứm đưa ra giải pháp khác phục sự cố. Cho nên, cần có phẩn mềm giúp cho người quán
trị như giám sái các tài nguyên của hệ thống, giám sáĩ các yêu cầu của người dùne, kiểm
tra lình trạng của tài nguyên và gứi thông điệp kịp thời mỗi khi gặp sự cố, đặc biệt ưưừng
hợp khàn cấp.
Phần mềm Event Monitoring Service (EMS) của HP hồ trợ việc nâng cao tính sẩn
sàng cao của hệ thống. Nó có ihể báo cáo khi mất (hỏng) lài nguyên. Nó có thể nhận ra và
báo cáo khi lỗi (lơn có thế xây ra, giúp cho người quản trị hành động trước sự kiện xảy ra
dè bào vệ sự mất mái thòng tin và nâng cao tính sẵn sàng cao.
1.3.2. (ỉỉaỉ pháp phần mểm

Tính sán sàng của hệ thống có thể được bảo đảm bằng các phầm mềm
ứng dụng hoạt động tốt tránh bị lỗi. Cho nền, để nâng cao các ứng dựng họat động tốt và
tì Ún ổ đắn thì cần chú V đến các vấn đề sau:
• Sao lưu dữ liệu và phục hổi dữ liệu: Khi một chương trình ứng dụng không
hoạt động được thì có thể phục hồi từ trạng thái cũ.
• Phân tán dữ liệu: Có thể phân lán dữ liệu để chia sẻ sự thực hiện của hệ
Ihống cùng với chia sẻ lỗi của mội hệ thống.
Luưn văn Thạc sĩ
Trang 9
Chy Tỵ Khoa Công nghệ Đại học Quốc gia Hà nội
• Các hệ quản trị cơ sơ dữ liệu: Hệ quản trị cơ sả dữ liệu phái có khả năng
phục hổi và sao lưu dữ liệu cùng với việc phàn tán dữ liệu đế nâng caơ tính
sẩn sàng cao cùa dịch vụ. Không những có các tính nằng trên, mà một hệ
quán trị cơ sờ dữ liệu còn cần phải tin cậy, ít lỗi, dễ dứ dung và đễ quán trị.
1.3.3. Giải pháp Hên quan đến mỏi trường
Đế phòng chống hệ thống khỏi sự cố và nâng cao tính sẵn sàng có thể thực hiện
bănụ cách sử cỉụng nhiều địa điểm vật lý (multiple physical sites). Kiến trúc nhiều địa
diêm (multi-siie architecture) có thể được thiết kế theo rất nhiều cách khác nhau, trong đó
phổ biên nhất là có site gốc (primary site) và một hay vài site ở xa (remote site) để tránh
khỏi những tham họa do môi trường như bão, lũ lụt, cháy v.v.
Đối với nguồn điện thì nên sứ dụng hai nguồn cung cấp điện cho hệ thống, bao
gốm dường cung cấp điện và thiết bị lưu điện (UPS). Nếu một nguồn điện bị mất thì mạch
diện sẽ chuyển sang một nguồn khác mà không làm cho hệ thống bị ngắt.
Để đạt được một mức độ tính sẵn sàng cao của nguồn điện trong trường hợp mất
điện Ihì nên sử dụng thiêì bị lưu điện riêng biệt cho mỗi máy dịch vụ và cho các thiết bị
Um trữ chia sẻ.
1.3.4. (ỉiải pháp liên quan đến người dùng
Để nâng cao tính săn sàng của hệ thống không những tập trung chú ý đến việc đầu
ur còng nghệ hoặc thiết bị đắt tiền có tính chịu lồi cao mà cần tập trung vào đào tạo đội
ngũ cán bộ kv thuật công nghệ thông tin làm sao để họ hiểu biết về các giá phải trả khi hệ

thông bị ngưng hoạt động và cách bảo vệ cũng như cách khắc phục lỗi. Trên cơ sở đó, đưa
ra các quy định về cách thức sử dụng hệ Thống để tránh những lồi của người quản trị.
Không những đào tạo để khắc phục hoặc bảo vệ mà còn nghiên cứu các công nghệ mới đê
đáp ứng nhu cầu tính sắn sàng của hệ thống.
Luận văn Thac sĩ
Trang 10
Chy Ty Khoa Cong nghé Đại học Quôc gia Hà nội
1.3.5. Lựa chọn một giải pháp tổng hựp
Đế có dược một giải pháp thích hợp đáp ứng nhu cầu tính sẩn sàng của hệ thống thì
cán tợp hợp rất nhiều giải pháp khác nhau, từ đó xem xét và lựa chọn các phương án thích
hợp đáp ứng các nhu cầu đặt ra tùy {heo hoàn cảnh, đảm báo tính kinh tế và tính kỹ thuật.
Luận văn Thạc sĩ
Trang II
Chy Ty Khoa Cóng nghệ Đại học Quốc gia Hà nội
CHƯƠNG II
CÔNG NGHỆ KẾT CỤM
2.1. Địnli nghĩa kết cụm (Cluster)
Trong mỏi mạng máy tính của một cơ quan hay một cơ sở kinh doanh lớn. các dừ
liệu cần thiết để hoạt động đéu được lưu giữ trên các máy dịch vụ. Người dùng cuối liên
tục truy cập các dữ liệu này để phục VỌI cho công việc của mình. Điều này yêu cầu hệ
Ihôny mạng phải đám bảo luôn sắn sàng phục vụ người sử dụng. Trong thực tế. mặc dù
các hãng sán xuất đã cố gắng làm mọi cách để nâng cao chất lượng của hệ thống máy
tính, nhưng cũng như tất cả các phương tiện kỹ thuật khác, việc xảy ra sự cô' là vấn đề
không bao giờ tránh khói của hệ thống mạng. BỞI vậy, vấn đề quan trọng đặt ra là làm thế
nào để cho các dữ liệu luôn luôn sẵn sàng để cho người dùng truy cập, ngay cả khi có sự
cỏ xay ra. Kết cụm là một giải pháp mà các hãng sản xuất máy tính đưa ra để giải quyết
vấn đế này.
Kết cụm là một kiến trúc kết nối một số máy dịch vụ cùng với những phần mềm
chuyên dụng nhàm đảm bảo nâng cao khả nàng sần sàng cho các hệ thống mạng máy tính
nhờ khá năng Ihay thế hay thứ lỗi khi gặp lỗi của cả hệ thống. Kiến trúc này được thiết kế

sao cho hệ ihống vẫn hoạt động bình thường khi có một sự cô' nào đó xảy ra ở một máy
dịch vụ đang làm việc. Sự kết cụm cho phép sử dụng một số máy dịch vụ kết nối với nhau
tạo thành một cụm có khá năng khắc phục hay thứ lỗi nhằm nâng cao độ sẵn sàng của hệ
thống mạng. Nếu một máy dịch vụ ngừng hoạt động do bị sự cố hoặc để nâng cấp, bảo trì
v.v thì toàn bộ công việc mà máy dịch vụ này đảm nhân sẽ được tự động chuyển sang
cho một máv dịch vụ khác (trong cùng một kết cụm) mà không làm cho hệ thống bị ngắt
hay gián đoạn. Quá trình này gọi là quá trình thứ lỗi và việc phục hồi tài nguyên trở lại
máy dịch vụ cũ được gọi là phục hổi lại “fail-back”.
Mỗi nhà sán xuất có một chiến lược và công nghệ riêng cho việc thiết kế hệ kết
cụm. Ví dụ như một giải pháp đơn giản của HP là kết hợp các kỹ thuật chịu đựng sai sót
nhỏ bao aổm các việc bố trí bộ nguồn điện dự phòng và có độ an toàn cao, cộng với các ổ
dìu RAIDv.v. [1J
Luãn văn Thạc sĩ
Trang 12
Chy Ty Khoa Cõng nghệ Đại học Quốc gia Hà nội
2.2. Các lựi ích và hạn chê của sự kết cụm
2.2.1. Lọi ích của sụ kết cụm
Việc, kêì cụm được sử dụng để phục vụ cho ba vấn đề cơ bản sau:
r- Yéu cầu về tính sần sàng cao (Availability)
Tính sẩn sàng cao ở đây muốn để cập đến việc cung cấp cho người dùng cuối khá
nâng cao nhái để truy cập đến các dữ liệu hay dịch vụ mạng và giảm thiểu sự ngìmg hoạt
động ngoài ý muốn. Giải pháp đưa ra cẩn đáp ứng được nhu cầu hoạt động của cơ quan.
r Yéu cầu vê độ tin cậy cao của hệ thông (Reliability)
Độ tin cậy cao được hiểu là khả nâng giảm thiểu tần xuất xảy ra các sự cố. và nâng
cao khá năng chịu đựng sai sót của hệ Ihống. Một giải pháp được coi là có độ tin cậy cao
nếu nó giám thiểu được số các sự cố riêng rẽ xảy ra cũng như sự ảnh hưởng của cấc sự cố
này đến các dịch vụ mà hệ thống cung cấp. Người ta náng cao độ tin cậy của hệ thông dựa
vào các kỷ thuật như dự phòng, thứ lỗi, cũng như các phầm mềm ứng dụng. Khả năng chịu
đựng sai sót phái được hiểu là khá nồng phát hiện được lỗi, nhưng không làm cho hệ thống
bị ngừng hoại động do cơ chế để xứ lý lỗi.

r Yêu cẩu vê khả năng mở rộng được (Scalablility)
Khả năng có thể cải thiện hoạt động của hệ thống bằng cách trang bị thêm tài
nguyên hay máy tính cho hệ thông đó được gọi là khá năng mở rộng được. Các hẹ thống
riêng rẽ có thể được mở rộng bằng cách thêm các tài nguyên (như CPUs, bộ nhớ, ỏ đĩa).
Các dịch vụ cũng có thể được mở rộng bằng cách thêm các thiết bị vào hệ thống để tảng
khả năng làm dịch vụ của hệ thống cả về qui mô và chất lượng.
Luán văn Thạc sỉ Trang 13
Ch V Tv Khoa Công nghệ Đại học Quốc gia Hà nội
Mọt dịch vụ mạng được thiết kế tốt thường sử dụng kỹ thuậi hệ thống và ihành
phan du ihừa để dự phòng các sự cố làm ảnh hưởng đến sự sẩn sàng của toàn bộ dịch vụ
dó.
Ba yêu cầu trên còn được gọi tắt là RAS (Reliability-Availability-Scalability) cũng
như những hệ thống đáp ứng dược ba yêu cầu trên còn được gọi là hệ thống RAS. [1]
2.2.2. N hừng hạn ché
KỸ thuật kết cụm phụ thuộc vào sự tương thích giữa các ứng dụng và dịch vụ để có
thè hoạt động tốl. Các phần mểm cần phải có những đáp ứng thích họp khi có sự cố xảy
ra. Tuy nhiên, kỹ ihuật kết cụm không thể chống lại các sự cố xáy ra do virus, sai sót của
phần mém hay các sai sót do người sử dụng. Để chống lại các sự cỏ' này cần xây dựng một
cơ sử dữ liệu được báo vệ chác chắn cũng như có các kế hoạch khõi phục, sao lưu dữ liệu.
2.3. Kết cụm nhiều địa điểm và phân tán về địa lý
Hầu hêi các doanh nghiệp đều xây dựng hệ ihống phòng chổng sự cố và nâng cao
tính sần sàng bằng cách sử dụng nhiều địa điểm vật lý (multiple physical sites). Kiến trúc
nhiều địa điểm (multi-site architecture) có thể được thiết kế theo rất nhiều cách khác nhau,
trong đó phổ biên nhất là có địa điểm chính (primary site) và một hay vài địa điểm ở xa
(remote sile). Hình 2.1 trình bày một ví dụ về một địa điểm chính và một địa điểm ở xa
cho mội lổ chức (hương mại điện tứ.
2.3.1. Kiểu thiết kè thực hiện đày đủ
Với kiểu thiết kế đầy đủ. toàn bộ cấu trúc của địa điểm chính được xây dựng lại
đáv ctú ở các địa điếm ở xa. Điều này cho phép địa điểm ở xa hoạt động độc lập hay xử iỷ
toàn bộ khối lượng công việc của địa điểm chính nếu cần. Trong trường họp này, việc thiết

kế phải đảm báo sao cho cơ sớ dữ liệu và các ứng dụng phải đổng bộ và được sao lặp ỉại
ngay lập tức hay dược sao lặp ở chê độ thời gian thực (real-time replication).
Luạn vãn Thạc sĩ Trang 14
Chy Ty Khoa Công nghệ Đại học Quốc gia Hà nội
Sự sao lặp ở chế độ thời gian thực đám bảo một trạng thái ổn định cho dữ liệu và
các ứng dụng dịch vụ giữa các địa điểm. Trong trường hợp không thổ thực hiện việc cập
nhật theo Ihời gian thực như nêu trên thì cơ sờ dữ liệu và ứng dụng phái được cập nhật
càn« sớm càng tốt.
HO i.tí 1f: Yi)
Hình 2.1
2.3.2. Kiêu thiết kế thực hiện từng phần
Với kiổu thiết kế thực hiện từng phẩn thì chi có các thành phần cơ bản là dược cài
đãi ỏ'các dia điếm ờ xa nhằm:
Xử lý các khối lượng cổng việc quá tải trong các giờ cao điểm
Ị Mận văn Thạc sĩ
Trang 15
ChV Ty Khoa Còng nghệ Đai học Quốc gia Hà nội
r Duv trì hoạt động ờ mức cơ bản Irong trường hợp địa điếm chính bị sự cố
^ Cung cấp một số dịch vụ hạn chế nêu cần.
2.3.3. Phân bô rải rác các kết cụm
Cá kiểu thiết kế đầy đú hay từng phần đều dùng phương cách phân tán các máy
dịch vụ trong kết cụtn nẳm rải rác về mặt địa lý (geographically dispersed). Kết cụm phân
tán về địa lý sử dụng mạng LAN ảo (VLAN) để kết nối các mạng khu vực lưu trữ SAN
(storage area network) qua những khoảng cách lớn. Một kết nối mạng LAN ảo với độ trễ
vào khoáng dưới 500 ms dám báo ràng sự kết cụm có thể duy trì được.
Việc mở lộng các kho lưu trữ, nếu có, sẽ được xử lý bang các phán cứng, còn sự kết
cụm sỗ không quán lý việc thực hiện các công việc này. Việc hóng hóc xảy ra (bao gồm
cá việc hỏng kho lưu trữ gốc) cẩn được can thiệp bằng thủ công để duy trì chức năng sự
kết cụm.
2.4. Tổ chức kết cụm

Kết cụm được tổ chức thành các nhóm gọi là các trại (farm) hay gói (pack). Trong
hầu hết các trường hợp, như trình bày ironR hình 2.2, các dịch vụ ỏ tầng trước và giữa
dược tổ chức thành các trại sử dụng các clone, trong khi đó các địch vụ tầng sau được tổ
chức ihành các gói.
Luận vãn Thạc sĩ Trang 16
Ch> Ty Khoa Công nghệ Đại học Quốc gia Hà nội
Hình 2.2 Kết cụm được tổ chức thành các trại và (ỊÓi
2.4.1. Trại kết cụm (Cluster Farm)
Một trại lủ một nhóm các máy dịch vụ chạy các dịch vụ giống nhau và sử dụng dữ
liệu gióng nhau, nhưng không dùng chung các dữ liệu. Các trại xử lý bất cứ yêu cầu nào
được gửi đến cho chúng với các dữ liệu giống hệt nhau được lưu giữ cục bộ trên chúng.
Do các máy dịch vụ sử dụng các bản sao dữ liệu giống hột nhau (chứ không dùng chung
một bản dữ liệu), nôn các máy dịch vụ thành viên trong trại có thể làm việc độc lập và
chúng cũng được gọi là clone.
Một ví dụ về trại là dịch vụ thông tin Internet (Internet Information Services-IIS)
chạy ớ trước máy dịch vụ Web sử dụng cân bẳng tải mạng (Network Load Balancing-
NLB). Với một trại máy dịch vụ Web như thế, các dữ liệu giong hệt nhau được sao lặp lại
trong mỗi máy dịch vụ, vì thế nó có thế' xử lý bất cứ yêu cầu nào được gửi đến cho trại.
Các máy dịch vụ giống hệt nhau và dữ liêu được sao lặp giống nhau với tất cả các máy
dịch vụ trong trại máy dịch vụ Web cho nên được gọi là clone.





-
j V * . HCC >" ■- H • ■ ■
TRijNG ÍÁM ĩnn:?:-~ •- ri!‘J - i ị
L ' ^ ■
Ị M ậ n vòn Thac s ĩ

Trang 17
Chy Ty Khoa Cóng nghệ Đại học Quòc gia Hà nội
2.4.2. (»ỏi kết cụm (Cluster Pack)
Mót Ịịỏì là một nhóm các máy dịch vụ hoạt dộng củng với nhan và chia se vớì nhau
các phần dữ liệu. Chúng làm việc với nhau để quản lv và duy trì các dịch vụ. Các thành
viên của ẹói làm việc theo một phương thức điều hành thống nhất.
Một ví dụ về gói kết cụm là một kết cụm các máy dịch vụ cơ sơ dữ liệu (Database
Server Cluster) chạy SQL Server 2000 và mỗi máy dịch vụ với các khung nhìn dữ liệu
thành phẩn (partitioned database view). Mỗi thành viên của gói này chia Iihau ra xứ lý một
đoạn dữ liệu thav vì phải xử lý toàn bộ cơ sở dữ liệu. [1]
Vi dụ trong bốn nút SQL Server kết cụm: chúng được phân chia như sau
r Máy dịch vụ CSDL 1 có thể xử lý các account bắt đầu bằng A-F.
r Máy dịch vụ CSDL 2 có thể xử lý các account bắt đầu bằng G-M.
Máv dịch vụ CSDL 3 có thể xử lý các account bắl đầu bằng N-S.
r Máy dịch vụ CSDL 4 có thể xử lý các account bắt đầu bằng T-Z.
2.5. Nguyên lý hoạt động kết cụm
Sự tin cậy và tính sẵn sàng là một thách thức lớn cho các ứng dụng, trong khi hậu
quả của việc ứng dụng đó có thế la một thảm hoạ rất nặng nể. Ví dụ như hệ thống điều
khiến máy bay. hệ thống theo dõi bệnh nhân, ứng dụng trực tuyến giao dịch tài chính. Rõ
ràng dối với các hệ thống này. một sự cố làm hệ thống ngừng hoạt động có thể gây ra hậu
qua không thế lường được. Những ứng dụng như vậy đều yêu cầu những hệ thống máy
tính liên tục hoạt động kể cả trong trường hợp xảy ra sự cố vể phần cứng hoặc phần mềm
hoặc cả phần cứng và phần mém.
Trước đây người ta thiết kế phần cứng có tính chịu đựng lỗi cao để nâng cao tính
sẩn sàng và độ (in cậy của hệ thống ví dụ như máy Stratus, Tanden. Tuy nhiên để thiết kế
Luận vàn Thac sĩ Trang 18
Chv Ty Khoa Cóng nghệ Đại học Quốc gia Hà nội
đươc mội công nghệ như vậy thường rất đắt tiền. Đó là một khổ khăn cho các khách hàng
khí muốn sử đ ụnạ chúng.
Gần đây. người ta đã quan tãm tới xây dựng hệ thống có tính chịu lỗi cao bằng

cách dự phòng các thành phần .sứ dụng công nghệ “Kết cụm”. Nhiều sản phẩm dã được
thươna mại hóa Iìhư MC/Service Guard, Life keeper, Microsoft Cluster Service. Trong hệ
thôntí xâv dựng theo kiến trúc này, nếu một nút bị lỗi trong một hệ kết cụm, ứng dụng
đang chạy trên nút đó sê được chuyên sang nút khác năm trong hệ kết cụm đó. Đày là một
quá trình khác phục lỗi, khắc phục lỗi cho phép hệ thống tiếp tục cung cấp dịch vụ. Tuy
nhiòn. sự thực hiện của toàn hệ thống có thể giảm sút.
Xây dựng một hệ tin cậy và sẩn sàng thường bao gồm việc dự phòng thiết bị phần
cứng đổ sẩn sàng thay thế và hệ thông có thể tiếp lục thực hiện công việc của thiết bị bị
lỗi. Nút chính của kết cụm chạv một ứng dụng, trong khi nút dự phòng hoặc trong chế độ
chờ đợi hoặc chạy một số ứng dụng khác. Nút chính trao đổi thông tin với nút dự phòng
qua một mạng, nút dự phòng vẫn truy cập được dữ liệu khi nút chính bị lỗi vì dữ liệu được
lưu liên đĩa ngoài dược kết nối tới cả hai nút.
Hình 2.3
Một cách tiêu biểu để thực hiện một hệ có độ tin cậy và sẵn sàng là kiểm tra định
kỳ {lữ lịẹu ứng dụng định kỳ của đĩa đùng chung. Khi nút chính bị lôi, nút dự phòng sẽ
nạp lại dữ liệu tại điểm kiếm tra trước đó từ đĩa dùng chung rồi tiếp lục chạy ứng dụng bắt
đầu từ điểm kiểm tra gần nhất này. Thực hiện kiểm trả thường xuyên nói chung làm tăng
chi phí thời gian thao tác thõng thường, nhưng giảm thời gian khắc phục lỗi nhờ hạn chế
tối thiếu số lượng công việc phải thực hiện lại.
Luận vàn Thac sĩ
Trang 19
Ch y Ty Khoa Công nghệ Đại học Quốc gia Hà nội
Hình 2.4
Quá trình tự động phát hiện ra lồi và dịch chuyển công việc tới nút dự phòng tại
điếm kiểm tra gần nhất được gọi là quá trình khắc phục lỗi.
Trong hình 2.4 mõ tả một quá trình khắc phục lỗi. Một cách chung nhất để phát
hiện lỗi là sử dụng cơ chế “ nhịp tim” (heartbeat) theo định kỳ. Một ứng dụng c chạy trên
máy dịch vụ chính được định kỳ gửi một thông báo tình trạng bình thường của nó tới máy
dụ phòng, úng dụng c được kiếm tra hàng mỗi T giây trong khi c đang chạy và cho phép
phát hiện ở thòi điểm X mà ứng dụng gặp lỗi trong khoáng T giây đó. Khi máy dự phòng

phát hiện ra sự vắng mật của thông tin nhịp tim từ máy dịch vụ chính, đầu tiên nó xác
nhận lỗi của máy dịch vụ chính hởi sử đụng cơ chế bỏ phiếu. Khi một lỗi của máy dịch vụ
chính được phát hiện, máy dự phòng sẽ tiếp tục hoạt động. Đầu tiên nó tải dữ liệu của c từ
dữ liệu chia sỏ và khởi động lại chương trình c cùng với trạng thái bắt đầu từ ihời điểm
kiểm tra gần nhấi. Cuối cùng máy dự phòng làm lại tất cả sự tính toán bắt đầu từ thời điểm
kiếm tra ũần nhất trước khi máy dịch vụ chính bị lỗi. Cuối cùng họ ihống có thể tiếp tục
cung cấp dịch vụ cho khách hàng.
Độ trễ cúa sự khác phục lỏi là thước đo quan trọng của sự khấc phục lỗi của hệ
thông, đặc biệt cho những ứng dụng trọng yếu. Độ trễ khắc phục lỗi xác định bởi khoảng
ihời gian mà dịch vụ không hoại động. Độ trễ khắc phục lỗi bao gổm thời gian phát hiện
lồi. phục hổi trạng thái bộ nhớ tại thời điểm kiểm tra gần nhất và thực hiện lại việc tính
loán từ điểm bị lỗi.
Đa số hệ íhống kết cụm hiện tại có thời gian khắc phục lỗi hệ thống khá dài (hơn
10 oiâv), chủ yếu do hai lý do: Đầu tiên ứng dụng phải nạp dữ liệu từ đĩa để khôi phục lại
Luận ván Thạc sĩ
Trang 20
Chy Ty Khoa Công nghệ Đại hạc Quốc gia Hà nội
trạng thái ớ điểm kiểm tra gần đây nhất. Thứ hai, đa số các giải pháp đặt khoảng điểm
kiếm tra lớn. dần tới thời gian của quá trinh khắc phục lỗi thực hiện kéo dài hơn. [26]
2.6. Các cơ chê thứ lỗi (Failover )
Co chế thứ lỗi là đặc trưng của việc triển khai của một sổ ứng dụng cá biệt hoặc
một số phần riêng lẻ đế đạt được độ sẵn sàng cao.
Trong một kết cụm gồm hai nút, việc xác định cơ chế thứ lỗi ỉà một công việc dơn
¿ián, nêu một núi bị hỏng, một lựa chọn duy nhái thiết lập dể phục hồi hoạt động ở nút
còn lại. Nhưng khi số lượng nút của một kết cụm tãng lên thì có thể có rất nhiều phưng án
thứ lỏi khác nhau và khá năng này có các đặc tính khác nhau.
r Các cặp thứ lỗi (Failo ver pairs)
Trong một kết cụm lớn, các cặp thứ lỗi có thể định nghĩa một tập các cặp cơ chế phục
hổi lỏi giữa hai núi.
Ví dụ đơn gián minh hoạ trong hình 2.5 dưới đây biếu diễn hai ứng dụng: ứng dụng

mộ! và ứng hai trong mộl kết cụm bốn nút.
ì .11 me ÊVtìhi or
■ai.iK*ofNơđe 1
Afcv2
Fetou* to ỉtữiẹ
Hình 2.5 Cơ chếlliứ lỗi với hai ứng dụng trong một kết cụm bấn nút
Luận văn Thạc sĩ
Trang 21

×