Sao lưu dữ liệu phân tán

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.07 MB, 77 trang )

..

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

Đinh Xuân Thọ

SAO LƯU DỮ LIỆU PHÂN TÁN

Chuyên ngành : CÔNG NGHỆ THÔNG TIN

LUẬN VĂN THẠC SĨ KHOA HỌC
CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC :
1. TS.Hà Quốc Trung

Hà Nội –2012

Sao lưu dữ liệu phân tán.

LỜI CAM ĐOAN.
Tôi là: Đinh Xn Thọ
Học viên lớp Cao học: Cơng nghệ Thơng tin
Khóa: 2009 Đại học Bách khoa Hà Nội
Mã số Học viên: CB091352
Tôi cam kết: Luận văn tốt nghiệp là kết quả nghiên cứu của bản thân tôi dưới
sự hướng dẫn của T.S.Hà Quốc Trung.
Các kết quả nêu trong Luận văn tốt nghiệp là trung thực, khơng phải sao chép

tồn văn của bất kì cơng trình nào khác.

Đinh Xn Thọ

Trang: 2

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán.

LỜI CẢM ƠN
Trước tiên, em xin được gửi lời cảm ơn chân thành, sâu sắc tới thầy Hà Quốc
Trung, Giám đốc Trung tâm Mạng Thông tin Đại học Bách khoa Hà nội, là người
trực tiếp hướng dẫn em thực hiện luận văn này. Trong suốt thời gian thực hiện luận
văn, Thầy đã rất nhiệt tình hướng dẫn, đưa ra những định hướng, góp ý quý báu cho
bản luận văn tốt nghiệp của em.
Tôi cũng gửi lời cảm ơn tới bạn Ngô Thị Vinh, Lê Anh Dũng cùng tập thể lớp
Cao học Công nghệ Thông tin khóa 2009 Đại học Bách khoa Hà nội vì đã có những
đóng góp, chia sẻ rất kịp thời các thơng tin hữu ích trong suốt q trình học tập và
thực hiện luận văn tốt nghiệp của tôi.
Lời cuối cùng, tôi xin gửi lời cảm ơn tới người thân, gia đình, bạn bè đã luôn
động viên, cổ vũ tôi trong suối thời gian tôi thực hiện bản luận văn này.

Hà nội, ngày 05 tháng 3 năm 2012
Đinh Xuân Thọ
Lớp Cao học Công nghệ Thông tin 2009
Đại học Bách khoa Hà Nội

Đinh Xuân Thọ

Trang: 3

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán.

Mục lục

DANH MỤC HÌNH VẼ. .................................................................................................................... 6
DANH MỤC CÁC KÍ HIỆU, VIẾT TẮT. ........................................................................................ 7
LỜI NÓI ĐẦU ................................................................................................................................... 9
1.

Chương 1. ................................................................................................................................. 11
1.1.

Giới thiệu về hệ dữ liệu phân tán. .................................................................................... 11

1.1.1.

Hệ dữ liệu phân tán là gì?............................................................................................. 11

1.1.2.

Phân loại hệ dữ liệu phân tán. ...................................................................................... 13

1.1.3.

Quản lí dữ liệu phân tán và trong suốt. ........................................................................ 15

1.1.4.

Ưu và nhược điểm của hệ dữ liệu phân tán. ................................................................. 17

1.2.

Sao lưu dữ liệu phân tán................................................................................................... 19

1.2.1.

Giới thiệu về sao lưu dữ liệu. ....................................................................................... 19

1.2.2.

Những vấn đề chính của sao lưu dữ liệu. ..................................................................... 21

1.2.3.

Điều khiển song song. .................................................................................................. 22

1.2.4.

Tính nhất quán của sao lưu dữ liệu. ............................................................................. 23

1.2.5.

Phương thức quản lí cập nhật. ...................................................................................... 25

1.2.5.1.

Phương pháp cập nhật Eager. ............................................................................... 25

1.2.5.2.

Phương pháp cập nhật Lazy. ................................................................................ 26

1.2.5.3.

Phương pháp Two-Tier Replication. .................................................................... 28

Chương 2:......................................................................................................................................... 33
2.1.

Mơ hình hoạt động của hệ thống siêu thị. ........................................................................ 33

2.1.1.

Hoạt động thu ngân, tính tiền của một số hệ thống siêu thị hiện tại. ....................... 33

2.1.2.

Mơ hình hoạt động của hệ thống chuỗi siêu thị. ...................................................... 34

2.2.
2.2.1.

Tổ chức dữ liệu và phương thức hoạt động của siêu thị. ................................................. 35
Tổ chức dữ liệu bán hàng của phần mềm Daisy Soft. .................................................. 35

2.2.1.1.

Thực hiện thanh toán. ........................................................................................... 35

2.2.1.2.

Cập nhật giao dịch bán hàng. ............................................................................... 37

2.2.2.

Tổ chức dữ liệu bán hàng của phần mềm Thành Đô Soft. ........................................... 37

2.2.2.1.
2.2.3.

Cơ chế bán hàng. .................................................................................................. 37

Ưu nhược điểm của mơ hình hệ thống. ........................................................................ 38

Chương 3:......................................................................................................................................... 40

Đinh Xn Thọ

Trang: 4

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán.

3.1.

Sự cần thiết có một giải pháp. .......................................................................................... 40

3.2.

Ý tưởng chính của giải pháp. ........................................................................................... 40

3.3.

Chiến lược quản lí. ........................................................................................................... 42

3.3.1.

Tổ chức dữ liệu. ....................................................................................................... 42

3.3.2.

Phương thức hoạt động. ........................................................................................... 43

3.4.

Một số giải pháp đồng bộ dữ liệu..................................................................................... 44

3.4.1.

Giải pháp sử dụng truyền câu lệnh. .......................................................................... 44

3.4.2.

Giải pháp sử dụng Microsoft Sync Framework. ...................................................... 44

3.5. Xây dựng modun đồng bộ dữ liệu bất đối xứng theo chức năng –Phương pháp Two-Tier
Replication sửa đổi ...................................................................................................................... 48
3.5.1.
3.5.1.1.

Theo dõi thay đổi dữ liệu. .................................................................................... 49

3.5.1.2.

Bảng theo dõi thông tin cập nhật từ phía máy chủ: .............................................. 49

3.5.1.3.

Đưa thơng tin cần đồng bộ vào bảng theo dõi...................................................... 50

3.5.1.4.

Theo dõi thơng tin cập nhật từ phía máy thu ngân: .............................................. 52

3.5.1.5.

Các bước quá trình đồng bộ. ................................................................................ 52

3.5.2.

Phương pháp đồng bộ sử dụng MicroSoft Sync Framework. .................................. 56

3.5.2.1.

Xác định bảng cần đồng bộ: ................................................................................. 57

3.5.2.2.

Tạo bảng theo dõi cho bảng dữ liệu cần đồng bộ................................................. 58

3.5.2.3.

Tạo các Triger để cập nhật các thay đổi từ bảng chính vào bảng theo dõi. ......... 61

3.5.2.4.

Xác định phạm vi đồng bộ ................................................................................... 62

3.5.2.5.

Tạo các thủ tục (Store Procedure) để lấy những dữ liệu thay đổi, cập nhật. ........ 63

3.5.2.6.

Tiến hành đồng bộ................................................................................................ 66

3.5.2.7.

Thiết kế giao diện. ................................................................................................ 67

4.5.

Thử nghiệm. ..................................................................................................................... 69

4.6.1.

Đồng bộ trong mạng LAN: ...................................................................................... 70

4.6.2.

Đồng bộ qua mạng internet: ..................................................................................... 72

4.6.

2.

Phương pháp gửi câu lệnh thực thi........................................................................... 49

Đánh giá hiệu năng........................................................................................................... 73

4.7.1.

Ưu điểm của mơ hình. .............................................................................................. 75

4.7.2.

Nhược điểm. ............................................................................................................. 75

KẾT LUẬN CHUNG ............................................................................................................... 76

TÀI LIỆU THAM KHẢO. ............................................................................................................... 77

Đinh Xuân Thọ

Trang: 5

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán.

DANH MỤC HÌNH VẼ.
Hình 1.1: Mơi trường dữ liệu tập trung trên một mạng. ..........................................12
Hình 1.2: Mơi trường Hệ dữ liệu phân tán. ..............................................................13
Hình 1.3: Mơi trường hệ dữ liệu phân tán thuần nhất. ............................................14
Hình 1.4: Môi trường hệ dữ liệu phân tán không thuần nhất. ..................................15
Hình 1.5: Mơ hình sao nhân bản đơn giản. ..............................................................20
Hình 2.1: Hoạt động thu ngân. .................................................................................33
Hình 2.2: Mơ hình tổ chức dữ liệu siêu thị ..............................................................34
Hình 2.3: Truy vấn dữ liệu. ......................................................................................36
Hình 2.4:Lưu đồ thực hiện thanh tốn tiền tại Daisy soft. .......................................36
Hình 2.5: Lưu đồ thực hiện thanh tốn tiền tại phần mềm Thành Đơ Soft.............38
Hình 3.1: Mơ hình dữ liệu phân tán bán hàng. ........................................................41
Hình 3.2: Mơ hình đồng bộ. .....................................................................................42
Hình 3.3: Mơ hình thành phần của Sync Framework. .............................................45
Hình 3.4: Mơ hình truyền dữ liệu của Sync Framework. ........................................47
Hình 3.5: Bảng theo dõi thay đổi ............................................................................49
Hình 3.6: Đưa dữ liệu vào bảng theo dõi. ................................................................52
Hình 3.7: Mơ hình đồng bộ dữ liệu từ máy chủ về máy thu ngân. ..........................53
Hình 3.8: Mơ hình đồng bộ giao dịch từ máy thu ngân về máy chủ. ......................56
Hình 3.9: Giao diện đăng kí bảng vào phiên đồng bộ..............................................68
Hình 3.10: Giao diện đăng kí mới phiên và chiều đồng bộ. ....................................68

Hình 3.11: Biểu đồ tỉ lệ thời gian đồng bộ và số bản ghi đồng bộ mạng LAN. ......71
Hình 3.12: Biểu đồ tỉ lệ thời gian đồng bộ và số bản ghi đồng bộ qua internet. .....73

Đinh Xuân Thọ

Trang: 6

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán.

DANH MỤC CÁC KÍ HIỆU, VIẾT TẮT.
1. DBMS

Hệ quản trị cơ sở dữ liệu.

2. Global User

Người dùng toàn cục.

3. Distribute DBMS

Hệ quản trị Cơ sở dữ liệu phân tán.

4. Global Schema

Lược đồ toàn cục.

5. Local User

Người dùng cục bộ.

6. Bottneck

Thắt nút cổ chai.

7. 2 phase-locking protocol(2PL)

Giao thức khóa hai pha.

8. ROWA

Đọc một – ghi tất cả.

9. 2PC – two-phase-commit

Ủy thác hai pha.

10. Dealock - timeout

Khóa chốt.

11. Deadlock rate

Tốc độ ra tăng khóa.

12. Replication

Nhân bản.

13. Timestamps

Nhãn thời gian.

14. Mobile nodes

Các nút luôn di động.

15. Base nodes

Các nút ln kết nối.

16. Master version

Bản chính.

17. Tentative Version

Bản cục bộ tại các nút di động.

18. Transaction

Giao dịch.

19. Barcode

Mã vạch của sản phẩm.

20. Offline

Không kết nối.

21. Extensible Markup Language (XML)

Ngôn ngữ đánh dấu mở rộng.

22. Metadata

Siêu dữ liệu.

23. Sync Section

Phiên đồng bộ.

24. SV2CL

Máy chủ tới máy con.

25. LAN

Mạng cục bộ.

26. SQL (Structured Query Language)

Ngơn ngữ truy vấn mang tính cấu

trúc.
Đinh Xuân Thọ

Trang: 7

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán.

DANH MỤC CÁC BẢNG.
Bảng: 3.5-1: Bảng Tracking theo dõi thay đổi. .........................................................60
Bảng: 3.5-2 Scope_name: lưu trữ thông tin và chiều của phiên đồng bộ. ................62
Bảng: 3.5-3 Table_updatelist: Lưu trữ danh sách các bảng được đồng bộ theo phiên.
...................................................................................................................................62
Bảng: 4.5-1: Thơng Số cấu hình máy thử nghiệm. ...................................................69
Bảng: 4.5-2: Tỉ lệ giữa thời gian và số lượng bản ghi, đồng bộ qua LAN. ..............71

Đinh Xuân Thọ

Trang: 8

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán.

LỜI NÓI ĐẦU
Cùng với sự phát triển mạnh mẽ của mạng máy tính nói riêng, cơng nghệ thơng
tin nói chung, việc tính tốn, quản lí, lưu trữ ngày nay không chỉ đơn giản tập trung
trong một máy tính đơn như trước nữa mà địi hỏi các hệ thơng tính tốn, lưu trữ
phải được kết hợp từ một số lượng lớn các máy tính kết nối, chia sẻ với nhau thông
qua mạng tốc độ cao. Thường được gọi là các hệ phân tán.

Ngày nay các hệ phân tán được phát triển rất nhanh và ứng dụng rộng khắp, ứng
dụng vào rất nhiều ngành và lĩnh vực khác nhau, đó có thể là các dịch vụ thơng tin
phân tán, các dữ liệu, xử lí phân tán, các ứng dụng phân tán như trong ngân hàng,
viễn thông,…và trong các hoạt động kinh doanh thương mại khác. Trong hệ phân
tán địi hỏi một kĩ thuật quan trọng đó là sự đồng bộ thông tin giữa các điểm phân
tán với nhau, hay còn gọi là sao lưu, đồng bộ dữ liệu phân tán. Trong lĩnh vực siêu
thị, bán lẻ cũng là một ví dụ. Việc ứng dụng cơng nghệ thơng tin vào quản lí kinh
doanh là một xu thế tất yếu, nhất là hiện nay các siêu thị bán lẻ đã trở thành chuỗi,
hệ thống, vì vậy nhu cầu quản lí đồng bộ, phân tán là yêu cầu cần thiết tất yếu.
Đa số các hệ thống bán hàng, thu ngân hiện nay đều chạy với mơ hình CientServer, mọi xử lí, lưu trữ đều tập trung tại máy chủ. Mỗi khi thực hiện mới giao
dịch máy Client sẽ thực hiện tải lại toàn bộ dữ liệu bán hàng từ máy chủ, dẫn đến
việc bán hàng chậm, có thể tắc ngẽn hệ thống, do liên tục phải đọc ghi dữ liệu,
không đồng bộ kịp thời các thông tin thay đổi hàng hóa, sản phẩm đến máy bán
hàng khơng kịp thời, thanh tốn chậm, sai. Hệ thống bán hàng hồn tồn phụ thuộc
vào máy chủ, khi máy chủ, hoặc mạng bị lỗi, ngừng hoạt động thì tồn bộ hệ thống
cũng ngừng hoạt động theo.
Xuất phát từ thực tế đó tác giả đề xuất, nghiên cứu mơ hình mới, ứng dụng sao
lưu dữ liệu phân tán, bất đối xứng vào hệ thống tính tiền siêu thị. Với ý tưởng chính
là thiết lập một tập dữ liệu thu gọn tại các máy thu ngân, lưu trữ các dữ liệu cần

Đinh Xuân Thọ

Trang: 9

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán.

thiết, truy cập thường xuyên. Chuyển các truy vấn thường xuyên khi bán hàng từ

máy chủ sang chính máy thu ngân đó, đồng thời lưu trữ các giao dịch bán hàng của
chính trạm thu ngân này nhằm giảm tải cho máy chủ, tăng hiệu năng, độ tin cậy,
tính sẵn sàng của hệ thống.
Đồng thời tác giả đề xuất, thiết kế modun sao lưu, đồng bộ dữ liệu giữa máy chủ
và máy bán hàng, và giữa các máy chủ theo chức năng, có chọn lọc các thơng tin,
phân tán xử lí, phân tán dữ liệu truy vấn về máy bán hàng. Tác giả sử dụng ứng
dụng công nghệ Sync Framework của MicroSoft, không đồng bộ lại tồn bộ thơng
tin hàng hóa, chỉ đồng bộ các dữ liệu mới thay đổi, hai chiều giữa máy chủ và máy
bán hàng.
Nội dung của Luận văn bao gồm ba chương:
Chương 1: Tác giả khái quát các khái niệm cơ bản về hệ dữ liệu phân tán, các
đặc điểm chung, các ưu và nhược điểm của hệ dữ liệu phân tán so với tập trung,
đồng thời giới thiệu các khái niệm đặc điểm, những vấn đề chính và phương pháp
sao lưu dữ liệu phân tán, bao gồm một số phương thức quản lí sao lưu phân tán như
Eager, Lazy và Two tier Replication.
Chương 2: Tác giả giới thiệu về mơ hình tổ chức dữ liệu của hệ thống siêu thị,
mơ hình tổ chức hoạt động thu ngân, các bước của hoạt động thu ngân và phương
thức tổ chức hoạt động của một số phần mềm hiện nay trên thị trường (Phần mềm
Daisy Soft, Thành Đô Soft) đồng thời đánh giá ưu và nhược điểm của từng mơ hình.
Chương 3: Tác giả đề xuất mơ hình mới giải quyết một số nhược điểm của mơ
hình hiện tại với ý tưởng chính là: phân tán dữ liệu cần truy vấn khi bán hàng của
máy thu ngân từ máy chủ sang máy bán hàng, tạo dữ liệu thu gọn tại máy bán hàng,
thiết kế modun đồng bộ giao tiếp dữ liệu giữa máy bán hàng và máy chủ. Tác giả đã
thiết kế, thử nghiệm thành công modun đồng bộ dữ liệu, sử dụng một số thư viện
Sync Framework của hãng Microsoft. Tác giả sử dụng phương pháp tạo bảng
tracking để theo dõi các thay đổi của dữ liệu, nhằm tối ưu hóa dữ liệu phải đồng bộ.
Đinh Xuân Thọ

Trang: 10

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán.

1.

Chương 1.
TỔNG QUAN VỀ SAO LƯU LIỆU PHÂN TÁN.

1.1.

Giới thiệu về hệ dữ liệu phân tán.

Hệ dữ liệu phân tán là sự kết hợp của hai hướng tiếp cận đối với quy trình xử lí
dữ liệu: Cơng nghệ quản lí dữ liệu và cơng nghệ truyền thơng mạng máy tính. Vậy
tại sao lại thực hiện phân tán, phải chăng dữ liệu tập trung không đáp ứng được yêu
cầu? có nhiều câu trả lời cho câu hỏi này chỉ ra rằng việc phân tán là nhằm thích
ứng tốt hơn cho sự phân bố ngày càng rộng rãi của các cơng ty, xí nghiệp, tập đồn
đa quốc gia, đồng thời hệ thống phân tán có độ tin cậy cao hơn, khả năng đáp ứng
tốt hơn. Quan trọng hơn là, việc phân tán như một hệ quả tất yếu, giao dịch ngân
hàng, các ứng dụng đa phương tiện…Tuy nhiên một cách tổng thể lí do của sự phân
tán là nó có thể giải quyết tốt hơn các vấn đề phức tạp mà chúng ta gặp phải hiện
nay.

1.1.1. Hệ dữ liệu phân tán là gì?
Chúng ta có thể định nghĩa một hệ dữ liệu phân tán như sau: Hệ dữ liệu phân tán
là một tập hợp nhiều cơ sở dữ liệu, dữ liệu có liên quan logic và được phân bố trên
một mạng máy tính. Hệ quản trị dữ liệu phân tán là một hệ thống phần mềm cho
phép quản lí các dữ liệu phân tán. Chúng ta nhấn mạnh rằng một hệ dữ liệu phân tán

là một hệ dữ liệu phân tán đích thực, khơng phải bao gồm tập hợp các tệp tin. Hệ dữ
liệu phân tán vẫn được quản trị như một hệ dữ liệu tập trung, như một nguồn tài
nguyên trong khi vẫn có được sự linh hoạt và tùy biến. Mạng phải cho phép người
dùng chia sẻ dữ liệu với người dùng khác hoặc chương trình tại điểm A phải có thể
truy cập dữ liệu đặt tại điểm B và ngược lại. Các trạm làm việc của hệ thống phân
tán được trải rộng trên một phạm vi địa lí lớn như một quốc gia.. hoặc nhỏ như một
tịa nhà, trường học. Các trạm máy tính có thể từ máy tính nhỏ đến máy tính lớn
thậm chí siêu máy tính.

Đinh Xuân Thọ

Trang: 11

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán.

Điều quan trọng để phân biệt giữa hệ dữ liệu phân tán và hệ dữ liệu phân cấp là:
Một hệ dữ liệu phân cấp cũng được lưu trữ trên các máy tính tại nhiều địa điểm.
Nhưng người dùng tại các trạm khác nhau không thể chia sẻ dữ liệu. Một hệ dữ liệu
phân cấp chính là một tập các hệ dữ liệu độc lập, chứ khơng phải là có sự phân bố
địa lí của một hệ dữ liệu duy nhất. Ngoài ra một hệ dữ liệu phân tán khơng phải là
hệ thống mà cứ có sự hiện diện của mạng máy tính, dữ liệu chỉ nằm ở một nút
mạng. Trong trường hợp này vấn đề quản trị dữ liệu như là quản trị trong môi
trường tập trung, hệ dữ liệu này được quản lí tập trung, mọi yêu cầu được chuyển
đến trạm đó. Điều quan trọng của hệ dữ liệu phân tán là môi trường mà trong đó dữ
liệu được phân tán đến một số vị trí (Hình 1.2).
CSDL

Trạm 2
Trạm 1

Trạm 6

Mạng truyền dữ liệu
Trạm 3

CSDL
CSDL

Trạm 5

Trạm 4

Hình 1.1: Mơi trường dữ liệu tập trung trên một mạng.

Đinh Xuân Thọ

Trang: 12

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán.

CSDL
CSDL

Trạm 2

Trạm 1

Trạm 6

Mạng truyền dữ liệu
Trạm 3

CSDL

Trạm 4

Trạm 5

CSDL

Hình 1.2: Mơi trường Hệ dữ liệu phân tán.
Nói một cách đơn giản, hệ dữ liệu phân tán là tập hợp dữ liệu logic thuộc về
cùng một hệ thống nhưng trải rộng ra nhiều điểm trên mạng máy tính. Như vậy có
hai vấn đề của hệ dữ liệu phân tán với tầm quan trọng tương đương nhau:
-

Việc phân tán: Trong thực tế dữ liệu không đặt trên cùng một vị trí vì vậy

đây là đặc điểm để phân biệt hệ dữ liệu phân tán với hệ dữ liệu tập trung và dữ liệu
đơn lẻ.
-

Liên quan logic: Trong hệ dữ liệu phân tán, dữ liệu có một số đặc tính liên

kết chặt chẽ với nhau như tính kết nối, tính liên quan logíc.. Trong hệ dữ liệu tập

trung, mỗi vị trí tự quản lý dữ liệu và người sử dụng phải truy cập đến dữ liệu ở
những vị trí khác nhau để lấy thơng tin tổng hợp.

1.1.2. Phân loại hệ dữ liệu phân tán.
Hệ dữ liệu phân tán có thể phân loại thành các làm hai loại:
+ Hệ dữ liệu phân tán thuần nhất: Tức là cùng một hệ quản trị dữ liệu được sử
dụng tại mỗi nút.

Đinh Xuân Thọ

Trang: 13

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán.

-

Tự trị: Mỗi hệ quản trị dữ liệu làm việc một cách độc lập, gửi thông điệp qua

dạng mesages và cập nhật vào dữ liệu chia sẻ.
-

Khơng tự trị: Một trung tâm hoặc trạm chính, hệ quản trị dữ liệu điều phối

truy cập dữ liệu và cập nhật qua các nút.
-

Dữ liệu được phân tán qua tất cả các nút.

-

Cùng một hệ quản trị dữ liệu được sử dụng ở mỗi nút.

-

Tất cả dữ liệu được quản lí bởi hệ quản trị dữ liệu phân tán.

-

Tất cả người sử dụng truy cập hệ dữ liệu thông qua một lược đồ tổng thể.

-

Lược đồ tổng thể đơn giản là kết hợp của tất cả các lược đồ dữ liệu cục bộ.

Hình 1.3: Mơi trường hệ dữ liệu phân tán thuần nhất.
+ Hệ dữ liệu phân tán không thuần nhất: các hệ quản trị dữ liệu khác nhau được
sử dụng mỗi nút.
-

Hệ quản trị dữ liệu đầy đủ chức năng: Hỗ trợ tất cả các chức năng của một hệ

dữ liệu phân tán.

Đinh Xuân Thọ

Trang: 14

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán.

-

Một phần- dữ liệu phân tán: Hỗ trợ một số tính năng của một hệ dữ liệu phân

tán.
-

Dữ liệu được phân tán qua tất cả các nút.

-

Mỗi nút có thể sử dụng một hệ quản trị dữ liệu riêng.

-

Một vài người sử dụng yêu cầu chỉ truy cập cục bộ tới hệ dữ liệu, mà có thể

đã hồn thành bởi chỉ sử dụng lược đồ và hệ quản trị dữ liệu cục bộ.
-

Tồn tại một lược đồ tổng thể cho phép người dùng cục bộ truy cập vào dữ

liệu từ xa.

Hình 1.4: Mơi trường hệ dữ liệu phân tán khơng thuần nhất.

1.1.3. Quản lí dữ liệu phân tán và trong suốt.
Đặc tính trong suốt muốn nói đến sự tách biệt về ngữ nghĩa của hệ thống ở cấp
độ cao và các vấn đề cài đặt ở cấp độ thấp. Nghĩa là một hệ thống vô hình sẽ che
khuất các cài đặt, khơng cho người dùng nhìn thấy chi tiết phương thức, cách thức
bên trong, như vậy việc trong suốt hoàn toàn là mong muốn của tất cả các hệ quản
trị dữ liệu tập trung và phân tán.
-

Trong suốt vị trí: Mục tiêu cho thiết kế hệ dữ liệu phân tán là người sử dụng,

chương trình sử dụng dữ liệu không cần biết dữ liệu ở đâu. Hệ thống dữ liệu phân
tán cung cấp truy cập dữ liệu một cách dễ dàng cho nhiều người dùng tại nhiểu vị trí
Đinh Xuân Thọ

Trang: 15

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán.

khác nhau, bất kì yêu cầu nào select hay update dữ liệu từ bất kì trạm nào được tự
động chuyển tiếp bởi hệ thống tới trạm hoặc trạm liên quan tới việc xử lí yêu cầu.
-

Sự độc lập dữ liệu: Độc lập dữ liệu là một dạng trong suốt cần có của một hệ

quản trị dữ liệu. Định nghĩa dữ liệu có thể xuất hiện ở hai mức, đặc tả cấu trúc logic
của dữ liệu và đặc tả cấu trúc vật lí của dữ liệu. Do vậy có đến 2 loại độc lập dữ liệu

là độc lập logic và độc lập vật lí. Độc lập logic nói đến sự khơng ảnh hưởng của các
ứng dụng đối với sự thay đổi của cấu trúc logic của dữ liệu. Độc lập vật lí nghĩa là
các ứng dụng khi viết không quan tâm đến chi tiết tổ chức vật lí của dữ liệu.
-

Trong suốt kết nối mạng: Là làm cho hệ thống phân tán hoạt động giống như

hệ thống tập trung, làm cho khơng có sự khác biệt nào so với các hệ tập trung, cố
gắng che dấu ngay cả sự tồn tại của mạng nếu được.
-

Trong suốt đặt tên: đòi hỏi phải cung cấp một tên duy nhất cho mỗi đối

tượng hệ dữ liệu. Khi khơng có tính trong suốt đặt tên, người dùng phải đặt tên vị
trí, định danh, thành phần của tên đối tượng.
-

Trong suốt nhân bản: vì các lí do hiệu năng, độ tin cậy, tính sẵn sàng, hệ

thống tự động tạo các bản sao giúp cho tăng hiệu năng, độ tin cậy, khi mà một trạm
ngừng hoạt động thì vẫn cịn các trạm khác đáp ứng hoạt động của hệ thống.
-

Trong suốt phân mảnh: Phân mảnh là tách mỗi quan hệ thành các mảnh dữ

liệu nhỏ hơn và xử lí mỗi mảnh này như một đối tượng dữ liệu độc lập. Việc phân
mảnh vì các lí do hiệu năng, tính sẵn sàng và độ tin cậy. Việc phân mảnh làm giảm
chi phí cho nhân bản vì mỗi bản sao khơng phải tất cả các quan hệ đầy đủ mà chỉ là
tập con của nó. Có hai kiểu phân mảnh đó là phân mảnh ngang và phân mảnh dọc.
-

Trong suốt lỗi: Đối với hệ dữ liệu phân tán, khi có lỗi xảy ra thì hệ thống tự

khắc phục và phục hồi hoạt động, không làm ảnh hưởng đến hoạt động của hệ
thống.

Đinh Xuân Thọ

Trang: 16

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán.

1.1.4. Ưu và nhược điểm của hệ dữ liệu phân tán.
Hệ dữ liệu phân tán có nhiều ưu điểm so với tập trung, trong đó quan trọng nhất
là các ưu điểm sau đây:
-

Tăng độ tinh cậy và tính sẵn sàng: Tồn bộ dữ liệu khơng tập trung tại một

trạm, do đó khi một trạm bị lỗi thì hệ thống vẫn hoạt động. Đối với hệ thống tập
trung, trung tâm dữ liệu bị lỗi thì sẽ ngừng hoạt động tồn bộ hệ thống.
-

Kiểm sốt cục bộ: Phân tán dữ liệu khuyến khích các nhóm dữ liệu cục bộ

kiểm sốt tốt hơn trên dữ liệu đó, thúc đẩy toàn vẹn và quản trị dữ liệu. Tại cùng
một thời điểm người dùng có thể truy cập dữ liệu phi cục bộ nếu cần thiết, phần

cứng có thể lựa chọn cho trạm cục bộ để phụ hợp với điểm cục bộ đó, xử lí cục bộ
dữ liệu.
-

Khả năng mở rộng và chia sẻ tài nguyên: Dễ dàng mở rộng hệ thống, gia

tăng các trạm, chia sẻ tài nguyên, các điểm làm việc mà không làm gián đoạn hệ
thống.
-

Giảm chi phí truyền thơng: Với hệ thống phân tán, dữ liệu có thể định vị truy

cập gần với người sử dụng cuối nhất, do đó điều này làm giảm chi phí truyền thông
so với hệ thống dữ liệu tập trung.
-

Nâng cao khả năng đáp ứng: Phụ thuộc vào cách mà dữ liệu được phân tán,

hầu hết các yêu cầu dữ liệu của NSD được đáp ứng bởi dữ liệu được lưu tại trạm
đó, điều này làm tăng tốc độ xử lí truy vấn, độ trễ từ truyền thơng và máy tính trung
tâm được giảm thiểu. Các truy vấn phức tạp cũng có thể được phân chia thành nhiều
truy vấn con và thực hiện đồng thời tại nhiều trạm khác nhau, làm giảm thời gian
đáp ứng.
Các nhược điểm chính của hệ thống dữ liệu phân tán:

Đinh Xuân Thọ

Trang: 17

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán.

-

Tính phức tạp: Các vấn đề của hệ thống phân tán phức tạp hơn so với các hệ

thống tập trung đặc biệt là vấn đề khi cập nhật dữ liệu cũng như xử lý khi gặp lỗi,
phục hồi hoạt động sau sự cố.
-

Chi phí: Các hệ thống phân tán cần có những thiết bị mới, các phần mềm và

phương pháp truyền thông phức tạp hơn nhằm giải quyết các vấn đề kĩ thuật, đặc
biệt là phần mềm quản trị dữ liệu. Tăng chi phí nhân sự quản trị dữ liệu do dữ liệu
được đặt ở nhiều nơi khác nhau.
-

Phân tán quyền điều khiển: Điểm này cũng được nêu ra như một ưu điểm

nhưng cũng là nhược điểm, vì sự phân tán gây ra các vấn đề đồng bộ và nhất quán,
làm ra tăng tính phức tạp.
-

Tính an ninh, bảo mật: Một trong những ưu điểm của hệ thống tập trung là

đảm bảo kiểm soát được các truy suất dữ liệu, an ninh một cách dễ dàng qua hệ
thống trung tâm thông qua hệ quản trị dữ liệu. Tuy nhiên trong hệ thống phân tán
môi trường mạng kèm theo các yêu cầu an ninh, các truy cập sẽ phức tạp hơn, dữ

liệu phân tán cũng khó kiểm soát truy cập hơn.

Đinh Xuân Thọ

Trang: 18

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán.

1.2.

Sao lưu dữ liệu phân tán.

Trong hệ dữ liệu phân tán cùng một mục dữ liệu được lưu trữ ở nhiều trạm khác
nhau như các bản sao. Bản sao có thể cho phép người dùng truy cập dữ liệu nhanh
hơn và tăng khả năng chịu lỗi. Trong phần này chúng ta xem xét các vấn đề của sao
lưu dữ liệu phân tán và một số phương pháp sao lưu được nghiên cứu gần đây.

1.2.1. Giới thiệu về sao lưu dữ liệu.
Sao lưu dữ liệu có thể được coi như q trình xử lí các bản sao của dữ liệu. Dữ
liệu được lưu trữ ở nhiều trạm khác nhau (trên một vùng địa lí phân tán) chứ khơng
phải một trạm duy nhất. Mặc dù có nhiều bản sao của toàn bộ hệ dữ liệu phân tán
hoặc chỉ một phần của dữ liệu, nhưng toàn bộ ứng dụng trông giống như một hệ dữ
liệu lớn trong suốt. Người dùng dữ liệu sẽ có ấn tượng rằng chỉ có một ứng dụng
duy nhất và khơng quan tâm dữ liệu đến từ đâu. Nói cách khác một hệ thống sao lưu
dữ liệu phải làm việc như một bản sao duy nhất. Sao lưu của tập mục dữ liệu, đối
tượng hoặc tập các đối tượng dữ liệu có thể được áp dụng, cho phép tăng hiệu suất,
độ sẵn sàng cao và chịu lỗi. Những đặc tính trên được mơ tả chi tiết hơn như sau:

-

Hiệu năng hệ thống: Khi dữ liệu được lưu trữ tại một máy chủ duy nhất,

điều này dễ dẫn đến tính trạng thắt nút cổ chai (Bottneck) và toàn bộ hệ thống chạy
chậm, tăng thời gian đáp ứng. Khi dữ liệu được nhân bản, phân tán, các u cầu có
thể được xử lí một cách song song. Đồng thời, nhân bản cho phép chúng ta có thể
xác định vị trí các dữ liệu gần hơn với các điểm truy cập đầu cuối. Do đó cục bộ hóa
hầu hết các truy cập đó, đóng góp cho việc giảm thời gian đáp ứng, tăng hiệu năng
hệ thống.
-

Tin cậy: Dữ liệu được sao lưu thì tăng độ tin cậy của hệ thống. Nếu một file

hệ thống sau khi đã được nhân bản thì nó vẫn có thể tiếp tục làm việc nếu nó bị lỗi,
bằng cách đơn giản là chuyển qua sử dụng một trong các bản đã sao lưu. Ngồi ra,
bằng cách duy trì nhiều bản sao, có thể bảo vệ tốt hơn chống lại việc dữ liệu bị
hỏng, lỗi. Ví dụ, ta có ba bản sao của một tập tin, mọi hoạt động đọc và ghi được

Đinh Xuân Thọ

Trang: 19

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán.

thực hiện trên mỗi bản sao. Chúng ta có thể bảo vệ chống lại lỗi thao tác ghi bằng
cách xem xét giá trị được trả về từ ít nhất hai bản sao.

-

Khả năng mở rộng: Khi hệ thống phát triển về mặt địa lí và tăng số lượng các

điểm truy cập, nhân bản cho phép một cách dễ dàng để hỗ trợ sự phát triển này với
thời gian đáp ứng nhanh.

Trạm 1 Tệp X

Trạm 2 Tệp X

NSD 2

NSD 1

Mạng truyền dữ liệu

NSD n
Trạm 3

Tệp X

Trạm n

Tệp X

Hình 1.5: Mơ hình sao nhân bản đơn giản.
Theo mơ hình 1.5, dữ liệu X được lưu trữ lại trạm 2 đồng thời được nhân bản ra
tất cả các trạm khác trên mạng. NSD 1 muốn truy cập vào tệp X thì có thể truy cập
tệp X thơng qua trạm 1 hoặc trạm 3, rõ ràng là gần với NSD hơn so với dữ liệu ban

đầu từ trạm 2. Như vậy chi phí truyền thơng được giảm thiểu, đồng thời nếu một vài
trạm lỗi, ngừng hoạt động thì NSD vẫn có thể truy cập được thơng qua trạm khác.
Nếu nhân rộng giúp cải thiện độ tin cậy và hiệu năng, điều gì chúng ta phải đối
mặt? Thật khơng may, có một giá phải trả khi dữ liệu được nhân rộng. Đó là các
vấn đề với các bản sao có thể dẫn đến các vấn đề nhất quán. Bất cứ khi nào một bản
sao được sửa đổi thì nó sẽ trở thành khác với các bản sao còn lại. Do đó, sửa đổi
phải được thực hiện trên tất cả các bản sao để đảm bảo tính nhất quán. Mỗi bản sao
lại nằm trên một trạm khác nhau và có thể giống nhau toàn bộ (Full copy) dẫn đến

Đinh Xuân Thọ

Trang: 20

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán.

vấn đề không gian bộ nhớ. Chúng ta phải sử dụng nhiều không gian bộ nhớ hơn để
lưu trữ tại từng trạm và mất thời gian để cập nhật cho mỗi bản sao trên mỗi trạm.

1.2.2. Những vấn đề chính của sao lưu dữ liệu.
Phân biệt giữa hai phương pháp nhân bản khác nhau: Phương pháp tiếp cận theo
kiểu lan truyền và phương pháp xử lí nhóm truyền thơng. Trong khi phương pháp
tiếp cận lan truyền cập nhật, lan truyền chậm (Lazily) tới tất cả các bản sao. Trong
phương pháp nhóm truyền thơng cập nhật theo kiểu multicast tới tất cả các bản sao
tại cùng một thời điểm. Vấn đề chính là phải xem xét cách mà bản sao được cập
nhật. Cập nhật tới một bản sao cũng phải kích hoạt q trình cập nhật các bản sao
khác. Nhiều nghiên cứu đã được thực hiện để tìm ra một chiến lược tuyên truyền,
cập nhật sao cho phù hợp, ta có một số vấn đề sau cần phải chú ý:

-

Khi nào thì cập nhật được thực hiện? Ngay lập tức (đồng bộ) hay sau một

khoảng thời gian (khơng đồng bộ)?
-

Làm thế nào xử lí vấn đề một trạm bị lỗi?

-

Làm thế nào để giải quyết vấn đề mạng lỗi?

Một điểm quan trọng khác trong sao lưu dữ liệu là sao lưu toàn bộ (Fully
replicated) hoặc chỉ một vào đối tượng của hệ dữ liệu (sao lưu thành phần). Về căn
bản chúng ta có thể phân biệt giữa hai mơ hình sao lưu căn bản: đồng bộ hoặc
khơng đồng bộ. Với mơ hình đồng bộ (hay cịn gọi là phương pháp sao lưu Eager)
chỉ sau khi một yêu cầu cập nhật duy nhất hiện tại đã được xử lí ở tất cả các trạm
lưu giữ bản sao điều khiển mới được gửi trở lại cho trạm mà u cầu cập nhật. Mơ
hình này các bản sao được lưu giữ chính xác đồng bộ bằng cách cập nhật tất cả các
bản sao như một phần của giao dịch, tính nhất qn chặt chẽ được duy trì theo một
thứ tự tổng quát. Hạn chế của giải pháp này là tốn thời gian, thời gian đáp ứng chậm
và thông lượng kém, thậm chí kém hơn cả mơ hình một máy chủ đơn. Ngược lại là
mơ hình khơng đồng bộ (sao lưu Lazy), các cập nhật được lan truyền không đồng
bộ sau khi thao tác cập nhật được thực hiện cục bộ. Điều này có thể dẫn đến việc
Đinh Xuân Thọ

Trang: 21

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán.

không nhất quán về mặt dữ liệu. Ví dụ: tại một trạm một mục dữ liệu được thay đổi
nhưng cập nhật chưa được lan truyền tới các bản cập nhật khác, khi có hai truy vấn
khác nhau đọc mục dữ liệu này từ hai bản sao khác nhau, chúng có thể nhận được
hai giá trị khác nhau.

1.2.3. Điều khiển song song.
Một vấn đề chính trong hệ dữ liệu phân tán là vấn đề điều khiển đồng thời. Giao
dịch cục bộ cũng như phân tán phải được thực thi một cách tuần tự để đảm bảo tính
nhất quán và ngăn chặn đọc ghi bất thường. Một phương pháp cơ bản để tuần tự là
sử dụng giao thức khóa hai pha (2 phase-locking protocol).
Khi thực hiện đọc ghi có ba khả năng gây xung đột khi thực thi:
-

Read –Read : khơng xung đột, có thể có nhiều truy vấn đọc trên cùng một tập

dữ liệu.
-

Read – Write: xung đột, chỉ một thực thi ghi (write) được thực hiện cho phép

tại một thời điểm, thực thi đọc (read) có thể gây xung đột tại cùng thời điểm.
-

Write – Write: xung đột (giống như trường hợp trên).

Ngược lại với 2PL tồn tại chiến lược cập nhật khác gọi là ROWA (read one,

write all) mà cơ bản như sau: Giả định rằng để đọc một mục dữ liệu nhân bản ta chỉ
cần gửi một yêu cầu đọc một bản sao duy nhất tùy ý, khi hoạt động ghi được thực
thi thì u cầu khóa ghi. Tất cả các bản sao sẽ được khóa và được cập nhật (sử dụng
giao thức 2PC – two-phase-commit). Điều này dẫn đến tăng hiệu suất đọc vì có thể
đọc từ một bản sao gần nhất.
Ta có quy tắc xung đột như sau:
-

Nếu một giao dịch X đã thực thi một thao tác đọc trên một mục dữ liệu thì

một giao dịch đồng thời T phải khơng được phép ghi cho đến khi X hồn tất hoặc
bỏ qua.

Đinh Xuân Thọ

Trang: 22

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán.

-

Nếu một giao dịch X đã thực thi một thao tác ghi trên một mục dữ liệu thì

một giao dịch đồng thời T phải khơng được phép ghi cho đến khi X xác nhận hoặc
bỏ qua.
Việc đọc và ghi có sử dụng các khóa, như vậy sẽ dẫn đến việc các thực thi phải
chờ cho đến khi thực thi trước đó thực hiện xong, dễ gây ra độ trễ về thời gian và

dẫn đến tính trạng Dealock - timeout (khóa chốt).

1.2.4. Tính nhất qn của sao lưu dữ liệu.
Tính nhất quán là việc các bản sao hội tụ về cùng giá trị, trong khi giao dịch nhất
quán yêu cầu lịch sử toàn cục được thực hiện tuần tự. Có thể có một nhân bản
được hai bên nhất quán, giao dịch xác thực thành công, nhưng lịch sử tồn cục có
thể khơng được thực hiện tuần tự. Điều này được chứng minh trong ví dụ sau đây:
Ví dụ:
Xem xét 3 Sites (A,B và C) và 3 mục dữ liệu (x,y,z) được phân tán như sau: Site
A host x, Site B host x,y, Site C host x,y,z. Chúng ta sẽ sử dụng định danh Site như
là chỉ số dưới vào các mục dữ liệu để chỉ một bản sao cụ thể.
Bây giờ xem xét 3 giao dịch:
T1 : x ← 20

T2 Read (x)

T3 Read(x)

Write(x)

y ← x+y

Read(y)

Commit

Write(y)

z ← (x*y)/100

Commit

Write(z)
Commit

Chú ý rằng Write của T1 đã được thực thi tại tất cả ba trạm (x được nhân bản ở
tất cả 3 trạm), T2 Write đã được thực thi ở trạm B và C, và T3 write (ghi) đã được

Đinh Xuân Thọ

Trang: 23

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán.

thực thi chỉ ở C. Chúng ta đang giả định một giao dịch thực hiện mơ hình nơi giao
dịch có thể đọc bản sao cục bộ của nó, nhưng phải cập nhật tất cả các bản sao.
Giả sử rằng theo ba lịch sử cục bộ sau được tạo ra tại trạm:
HA={W1(xA),C1}
HB={ W1(xA),C1,R2(xB),W2(yB),C2}
HC={W2(yC),C2,R3(xC),R3(yC),W3(zC),C3,W1(xC),C1}
Tuần tự theo thứ tự trong HB là T1 -> T2 trong khi trong HC nó là:
T2 -> T3 - > T1.
Vì vậy, lịch sử tồn cục là khơng tuần tự. Tuy nhiên, dữ liệu là nhất quán lẫn
nhau. Giả định ví dụ: ban đầu xA = xB=xC=10; yB=yC=15, và zC=7. Với lịch sử trên,
các giá trị cuối cùng xA = xB=xC=20; yB=yC=35; zC=3.5 . Tất cả các bản sao vật lí đã
hội tụ về cùng một giá trị.
Tuy nhiên không phải với lịch sử tồn cục khơng tuần tự các bản sao lúc nào

cũng hội tụ về cùng một giá trị, như thể hiện trong ví dụ sau đây:
Xem xét 2 trạm (A và B), và một mục dữ liệu item(x) mà được nhân bản trên cả
hai trạm (xA và xB) hơn nữa xem xét hai giao dịch sau đây:
T1 : Read (x)

T2 Read (x)

x←x+5

x←x*10

Write(x)

Write(x)

Commit

Commit

Và lịch sử cục bộ sau đây được tạo ra ở hai địa điểm.
HA= {R1(xA),W1(xA),C1,W2(xB),C2}

Đinh Xuân Thọ

Trang: 24

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán.

HB= {R2(xB),W2(xB),C2,W1(xA),C1}
Mặc dù cả hai là lịch sử nối tiếp, chúng tuần tự T1 và T2 trong thứ tự đảo ngược
lại, do đó lịch sử tồn cục là khơng tuần tự. Giả sử rằng giá trị của x trước khi thực
hiện các giao dịch này là 1. Khi kết thúc việc thực hiện những lịch trình HA, giá trị
của x là 10 tại trạm A trong khi nó là 6 tại trạm B theo lịch trình HB. Như vậy,
trong ví dụ này, lịch sử tồn cục là không tuần tự, và các hệ dữ liệu không nhất
quán lẫn nhau. Như vậy là mặc dù dữ liệu được nhân bản nhưng các giao dịch cần
phải được thực hiện như thực hiện tại một điểm, trên một bộ các mục dữ liệu. Nói
cách khác, lịch sử tương đương với một số thực hiện nối tiếp không nhân bản các
mục dữ liệu.

1.2.5. Phương thức quản lí cập nhật.
Giao thức cập nhật có thể được phân loại theo cách các bản cập nhật được nhân
bản, nơi mà cập nhật được phép xảy ra, trong phần này chúng ta xem xét một số
phương pháp cập nhật, Eager update, Lazy Update, Two-Tier Replication…
1.2.5.1.

Phương pháp cập nhật Eager.

Theo phương pháp này cập nhật lan truyền áp dụng thay đổi tới tất cả các bản
sao trong nội dung của giao dịch cập nhật, do đó. Khi giao dịch cập nhật được xác
nhận, tất cả các bản sao có cùng trạng thái. Thơng thường, kĩ thuật nhân bản Eager
sử dụng 2PC tại thời điểm xác thực. Hơn nữa nhân bản Eager có thể sử dụng lan
truyền đồng bộ của một lần cập nhật bằng cách áp dụng nó trên tất cả các bản sao
cùng một lúc (khi lệnh write được thực hiện) hoặc lan truyền chậm, theo cách đó
các bản cập nhật được áp dụng cho một bản sao khi chúng được thực hiện, nhưng
những ứng dụng trên các bản sao khác là trì hỗn đến cuối giao dịch. Lan truyền trì
hỗn có thể được thực hiện, bao gồm các thông tin cập nhật trong thông điệp
“Chuẩn bị để cam kết” khi bắt đầu thực hiện 2PC.

Kĩ thuật Eager thường được thực thi với các tiêu chuẩn nhất quán mạnh. Vì tất
cả các bản sao đều nhất quán vào cuối của mỗi giao dịch cập nhật, một thao tác đọc

Đinh Xuân Thọ

Trang: 25

Đại Học Bách Khoa Hà Nội

Sao lưu dữ liệu phân tán

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về