Tải bản đầy đủ (.pptx) (35 trang)

Tìm hiểu về fault tolerance

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.34 MB, 35 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

BÁO CÁO ĐỀ TÀI: TÍNH TOÁN SONG SONG

Tìm
Tìm hiểu
hiểu về
về

Fault Tolerance
GVHD: Nguyễn Ngọc Tú
Nhóm ft


NỘI DUNG
Phần 1: Tổng quan Fault Tolerance.
Phần 2: Sơ lược về hệ thống chịu lỗi.
Phần 3: Giới thiệu công nghệ RAID.
Phần 4: Một số đặc điểm cơ bản
Fault Tolerance.

Phần 5: Một số phương pháp để đạt tới khả năng chịu lỗi.


Phần 1: Tổng quan Fault Tolerance

 Trong thiết kế nói chung, tùy thuộc vào mức độ quan trọng, tính chất
sống còn của hệ thống, đòi hỏi người thiết kế phải bảo đám tính liên tục
trong hoạt động của hệ thống.



Phần 1: Tổng quan Fault Tolerance

 Một vài ví dụ dễ thấy như hệ thống điều khiển bay, hệ thống cơ sở dữ
liệu của các ngân hàng, hệ thống active-directory của một doanh
nghiệp… Tính sẵn sàng (High Availability) của hệ thống phụ thuộc vào
nhiều quá trình, bao gồm quá trình thiết kế, quá trình cài đặt, quá trình
vận hành, quá trình phục hồi sau khi có sự cố.


Phần 1: Tổng quan Fault Tolerance

 Fault tolerance là khả năng đảm bảo cho hệ thống tiếp tục thực hiện

chức năng của mình khi một phần của hệ thống gặp sự cố.Fault tolerance
bao gồm disk subsystems, nguồn cung cấp và hệ thống các bộ điều khiển
đĩa dự phòng (redundant disk controllers).


Phần 1: Tổng quan Fault Tolerance

 Fault tolerance: Khả năng chịu đựng lỗi: nếu có một kết nối thành viên
hoặc một card mạng bị hỏng, lưu lượng sẽ chuyển qua các kết nối còn
lại.

 Fault Tolerance là khả năng cung cấp thêm đường dự phòng cho đường
chính để phòng khi đường chính bị down thôi.


Phần 1: Tổng quan Fault Tolerance


 Còn dữ liệu thì chỉ đi trên đường chính (Chẳng hạn như ngoài các kết
nối leased line, người ta có thể dùng thêm kết nối ISDN giá rẻ để dự
phòng khi đường leased line gặp sự cố, số liệu chỉ chuyển qua đường
ISDN khi leased line gặp sự cố)


Phần 2:Sơ lược về hệ thống chịu lỗi

 Khả năng của hệ máy tính đối phó với các trục trặc của phần cứng
bên trong máy, mà không ngưng hoạt động của hệ thống, thường là
bằng cách xử dụng các hệ thống backup (sao chép dự trữ) để tự
động đưa vào tuyến làm việc khi có một sai sót được phát hiện.


Phần 2:Sơ lược về hệ thống chịu lỗi

 Khả năng chịu đựng sai sót là một yêu cầu không thể thiếu khi máy
tính được giao các nhiệm vụ khẩn cấp ví dụ như hướng dẫn máy
bay hạ cách an toàn, hoặc bảo đảm một quá trình liên tục.

 Khả năng chịu đựng sai sót này cũng rất có lợi đối với những ứng
dụng thường ngày không đòi hỏi khẩn cấp.


Phần 2:Sơ lược về hệ thống chịu lỗi

 Fault tolerance Là khả năng "chịu đựng" được các sai sót, hỏng hóc và
một số "phong ba bão táp" thông thường khác mà vẫn bảo đảm "khả
năng đứng vững" tại vị trí và vẫn thực hiện tốt công việc được giao.



Phần 2:Sơ lược về hệ thống chịu lỗi

 Đĩa cứng có khả năng chịu lỗi (fault tolerant disk) là đĩa cứng có khả
năng tạo cho hệ thống một số khả năng dự phòng để chống lại các sự cố
lỗi. Khả năng chịu lỗi của đĩa cứng tùy thuộc vào công nghệ chế tạo đĩa
cứng, các thiết bị phần cứng và cả các phần mềm trong máy tính. Khả
năng chịu lỗi thường được sử dụng trong công nghệ RAID.


Phần 3:Giới thiệu công nghệ RAID

 Ngay thời điểm đầu tiên ứng dụng công nghệ RAID - năm 1988,
người ta đã gọi RAID là Redundant Array of Inexpensive Disks (Dãy
các đĩa cứng rẻ tiền dự phòng). RAID đã được hiểu một cách tương
phản với SLED (Single Large Expensive Disk - Đĩa cứng đơn đắt
tiền) là một loại đĩa cứng rất đắt tiền được sử dụng cho các hệ
thống máy tính lớn.


Phần 3:Giới thiệu công nghệ RAID

 Ngày nay, tất cả các ổ đĩa cứng đều trở nên "rẻ tiền" khi so sánh với

các thế hệ trước của chúng nên người ta (chính là tổ chức RAID
Advisory Board - Ủy ban Tư vấn về RAID) đã quyết định đổi tên
RAID thành "Independent" (độc lập) thay vì "Inexpensive" (rẻ tiền).


Phần 3:Giới thiệu công nghệ RAID


 Công nghệ RAID ban đầu được thiết kế chuyên dùng cho server (máy chủ) và
các hệ thống lưu trữ chuyên biệt (Stand-alone disk storage system, hệ thống
lưu trữ dữ liệu bằng nhiều đĩa cứng được đặt trong một hộp chứa đĩa độc lập
có hình dáng như một thùng máy tính, hộp chứa đĩa này được kết nối với máy
tính "mẹ" thông qua một giao diện kết nối có tốc độ rất cao, xem hình bên:
thiết bị lưu trữ của hãng AC&NC.)


Phần 3:Giới thiệu công nghệ RAID

 Nhưng ngày nay, RAID cũng được sử dụng ngày càng phổ biến trong
các máy tính để bàn nhằm cung cấp khả năng chịu lỗi cho các ứng dụng
rất quan trọng (mission-critical applications). Ngày nay, chúng ta có thể
mua mainboard có hỗ trợ RAID từ các thương hiệu mainboard phổ
biến ở thị thường Việt Nam như: ASUS, DFI, ECS, MSI, SuperMicro
v.v...


Phần 4: Một số đặc điểm cơ bản
Fault Tolerance

 Để một hệ thống có độ sẵn sàng cao, người thiết kế phải quan tâm
đến Fault Tolerance, tạm hiểu là khả năng chịu đựng lỗi.


Phần 4: Một số đặc điểm cơ bản
Fault Tolerance

Hình minh họa: Một hệ thống đáp ứng độ ổn định hoạt động của hệ thống.



Phần 4: Một số đặc điểm cơ bản
Fault Tolerance

 Lỗi khoan dung là khả năng của một ứng dụng để tiếp tục chạy hoặc
làm cho tiến độ thậm chí nếu một vấn đề phần cứng hoặc phần
mềm gây ra một nút trong cluster không thành công. Đây cũng là
khả năng chịu đựng được thất bại trong việc áp dụng chính nó.


Phần 4: Một số đặc điểm cơ bản
Fault Tolerance

 Ví dụ, một trong những nhiệm vụ bên trong một ứng dụng song

song có thể nhận được một lỗi và hủy bỏ, nhưng phần còn lại của
nhiệm vụ có thể mang về tính toán.


Phần 4: Một số đặc điểm cơ bản
Fault Tolerance

 Bởi vì cụm Beowulf được xây dựng từ các thành phần hàng hóa

được thiết kế dành cho máy tính để bàn hơn là máy tính nặng, thất
bại của các thành phần bên trong cluster một cao hơn trong một hệ
thống đa đắt hơn có một RAS tích hợp (đáng tin cậy, sẵn có, bảo trì)
hệ thống.



Phần 4: Một số đặc điểm cơ bản
Fault Tolerance

 Trong khi các chương trình khoan dung lỗi có thể được coi là thích
ứng, các "chương trình hạn thích ứng" được sử dụng ở đây nói
chung có nghĩa là song song (hoặc nối tiếp) chương trình tự động
thay đổi đặc điểm của họ tốt hơn đáp ứng nhu cầu của ứng dụng và
các nguồn lực sẵn có.


Phần 4: Một số đặc điểm cơ bản
Fault Tolerance

 Ví dụ như một ứng dụng thích nghi bằng cách thêm hoặc phát

hành các nút của cluster theo nhu cầu hiện tại tính toán của mình và
một ứng dụng tạo ra và giết chết các nhiệm vụ tính toán dựa trên
những gì các nhu cầu.


Phần 4: Một số đặc điểm cơ bản
Fault Tolerance
Những đặc điểm cơ bản mà một hệ thống fault-tolerance đòi hỏi:



Hệ thống có thể tiếp tục hoạt động khi một thành phần của nó bị sự cố




Hệ thống có thể tiếp tục hoạt động trong khi một thành phần nào đó đang được sửa chữa


Phần 4: Một số đặc điểm cơ bản
Fault Tolerance



Khả năng cách ly lỗi khỏi thành phần bị lỗi (yêu cầu phải có cơ chế riêng để xác định lỗi cho
mục đích cách ly)



Khả năng cô lập lỗi (để không gây phản ứng dây chuyền tới những thành phần khác trong hệ
thống)



Khả năng roll-back lại hệ thống khi gặp lỗi.


Phần 4: Một số đặc điểm cơ bản
Fault Tolerance

Một số hình ảnh minh hoạ về hệ thống
Fault Tolerance



×