Các thành viên nhóm
1
Họ và Tên MSSV
Mai Lê Bảo Nguyên 51202448
Nguyễn Thiên Nam 51202275
Phan Thành Nhân 51202539
Tô Tuấn Nghĩa 51202382
HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN
ĐỀ TÀI
2
I. Các khái niệm
Cơ sở dữ liệu phân tán là tập hợp nhiều cơ sở dữ liệu có liên quan luận lý với nhau được phân tán
qua một mạng máy tính, còn hệ quản trị cơ sở dữ liệu phân tán là một phần mềm hệ thống quản
lý cơ sở dữ liệu phân tán và làm dữ liệu minh bạch, rõ ràng cho người dùng.
Cơ sở dữ liệu phân tán là tập hợp nhiều cơ sở dữ liệu có liên quan luận lý với nhau được phân tán
qua một mạng máy tính, còn hệ quản trị cơ sở dữ liệu phân tán là một phần mềm hệ thống quản
lý cơ sở dữ liệu phân tán và làm dữ liệu minh bạch, rõ ràng cho người dùng.
Khái niệm CSDL phân tán
Khái niệm CSDL phân tán
3
Sự kết nối các nút cơ sở dữ liệu thông qua một mạng
máy tính
Sự kết nối các nút cơ sở dữ liệu thông qua một mạng
máy tính
Sự tương quan luận lý của các cơ sở dữ liệu kết nối
Sự tương quan luận lý của các cơ sở dữ liệu kết nối
Không có sự đồng bộ bắt buộc giữa các trạm kết nối
với nhau
Không có sự đồng bộ bắt buộc giữa các trạm kết nối
với nhau
Sự khác nhau đối với hệ thống đa xử lý
Sự khác nhau đối với hệ thống đa xử lý
4
Khái niệm “trong suốt” được mở rộng từ ý tưởng chung của việc che giấu chi tiết việc thực thi
hoạt động khỏi người dùng cuối cùng.
Khái niệm “trong suốt” được mở rộng từ ý tưởng chung của việc che giấu chi tiết việc thực thi
hoạt động khỏi người dùng cuối cùng.
Tính trong suốt
Tính trong suốt
5
Các dạng trong suốt
Tổ chức dữ liệu trong suốt
Tổ chức
Trong suốt về nhân bản
Nhân bản
Trong suốt phân đoạn
Phân đoạn
6
Sự tự quản quyết định mức độ các trạm độc lập hay cơ sở dữ liệu trong kết nối với cơ sở dữ liệu
phân tán có thể tổ hoạt động một các độc lập. Sự tự quản cấp cao giúp tăng sự linh hoạt và tùy
chỉnh trong bảo trì một trạm độc lập. Sự tự quản có thể ứng dụng cho thiết kế, giao tiếp và thực
thi.
Sự tự quản quyết định mức độ các trạm độc lập hay cơ sở dữ liệu trong kết nối với cơ sở dữ liệu
phân tán có thể tổ hoạt động một các độc lập. Sự tự quản cấp cao giúp tăng sự linh hoạt và tùy
chỉnh trong bảo trì một trạm độc lập. Sự tự quản có thể ứng dụng cho thiết kế, giao tiếp và thực
thi.
Sự tự quản
Sự tự quản
7
Độ tin cậy và tính sẵn sàng là hai trong số ưu điểm tiềm năng phổ biết nhất của cơ sở dữ liệu
phân tán. Độ tin cậy được định nghĩa là sự chắc chắn khi hệ thống hoạt động ở một thời điểm,
trong khi tính sẵn sàng là sự chắc chắn khi hệ thống sẵn sàng trong một khoảng thời gian.
Độ tin cậy và tính sẵn sàng là hai trong số ưu điểm tiềm năng phổ biết nhất của cơ sở dữ liệu
phân tán. Độ tin cậy được định nghĩa là sự chắc chắn khi hệ thống hoạt động ở một thời điểm,
trong khi tính sẵn sàng là sự chắc chắn khi hệ thống sẵn sàng trong một khoảng thời gian.
Độ tin cậy và tính sẵn sàng
Độ tin cậy và tính sẵn sàng
8
Ư
u
đ
i
ể
m
c
ủ
a
C
S
D
L
p
h
â
n
t
á
n
1
2
3
4
C
ả
i
t
h
i
ệ
n
s
ự
d
ễ
d
à
n
g
v
à
l
i
n
h
h
o
ạ
t
t
r
o
n
g
p
h
á
t
t
r
i
ể
n
ứ
n
g
d
ụ
n
g
T
ă
n
g
đ
ộ
t
i
n
c
ậ
y
v
à
t
í
n
h
s
ẵ
n
s
à
n
g
C
ả
i
t
h
i
ệ
n
h
i
ệ
u
s
u
ấ
t
D
ễ
d
à
n
g
m
ở
r
ộ
n
g
9
C
á
c
h
à
m
b
ổ
s
u
n
g
c
ủ
a
C
S
D
L
p
h
â
n
t
á
n
C
á
c
h
à
m
b
ổ
s
u
n
g
c
ủ
a
C
S
D
L
p
h
â
n
t
á
n
Keeping track of data distributeion.
Distributed query processing
Distributed transac%on management
Replicated data management
Distributed databse recovery
Security
Distributed directory (catalog) management
10
Các dạng CSDL phân tán
Các dạng CSDL phân tán
Hệ cơ sở dữ liệu tập trung truyền
thống
Hệ cơ sở dữ liệu tập trung truyền
thống
Hệ cơ sở dữ liệu phân tán thuần nhất
Hệ cơ sở dữ liệu phân tán thuần nhất
Hệ cơ sở dữ liệu liên kết
Hệ cơ sở dữ liệu liên kết
Hệ đa cơ sở dữ liệu
Hệ đa cơ sở dữ liệu
11
Kiến trúc song song và kiến trúc phân tán
Kiến trúc song song và kiến trúc phân tán
Kiến trúc chung của CSDL phân tán thuần nhất
Kiến trúc chung của CSDL phân tán thuần nhất
Kiến trúc giản đồ CSDL liên kết
Kiến trúc giản đồ CSDL liên kết
Kiến trúc CSDL phân tán
Kiến trúc CSDL phân tán
12
Phân mảnh dữ liệu
Phân mảnh dữ liệu
Dữ liệu nào chứa ở trạm nào?
13
Phân mảnh dữ liệu
Phân mảnh dữ liệu
1. Phân mảnh ngang
Tập hợp các tuple
Xác định bằng phép CHỌN trong ĐSQH
2. Phân mảnh dọc
Tập hợp các thuộc tính
Xác định bằng phép CHIẾU
3. Phân mảnh hỗn hợp
Kết hợp 2 loại trên
14
1. Phân mảnh ngang
Tập hợp các tuple
Xác định bằng phép CHỌN trong ĐSQH
15
Phân mảnh dữ liệu
Phân mảnh dữ liệu
Mỗi phân mảnh chứa
một số thuộc tính của
quan hệ
Có thể dùng phép
chiếu trong ĐSQH
2. Phân mảnh dọc
Tập hợp các thuộc tính
Xác định bằng phép CHIẾU
16
Phân mảnh dữ liệu
Phân mảnh dữ liệu
3. Phân mảnh hỗn hợp
Kết hợp 2 loại trên
17
Phân mảnh dữ liệu
Phân mảnh dữ liệu
Nhân bản
Nhân bản
Sao chép dữ liệu và lưu ở nhiều trạm
Sao chép dữ liệu và lưu ở nhiều trạm
18
Nhân bản
Nhân bản
Ưu điểm Nhược điểm
Sự cố xảy ra ở một trạm chứa r không làm
cho r mất trên toàn bộ DBS
Chi phí cao hơn
Nhiều trạm có thể truy vấn r song song Cập nhật dữ liệu khó khăn hơn
Giảm chi phí truyền dữ liệu
19
TRUY VẤN TRONG CSDL PHÂN TÁN
QUERY PROCESSING
OPTIMIZATION
IN DDBS
20
Query mapping
Query mapping
Localiza%on
Localiza%on
Global Query
Op%miza%on
Global Query
Op%miza%on
Local Query
Op%miza%on
Local Query
Op%miza%on
1. Xử lí truy vấn phân tán
21
22
2. Chi phí truyền dữ liệu
Chiến lược dùng JOIN
Di chuyển tất cả
Chỉ lấy khi cần
Semijoins
Bloomjoins
Cách nào tốt?
23
2. Chi phí truyền dữ liệu
Di chuyển tất cả: truyền toàn bộ quan hệ
Phép kết theta R và S
24
2. Chi phí truyền dữ liệu
Xử lí tại R
Gửi yêu cầu tới node S
Gửi yêu cầu đã nhận trở lại R
Chi phí: 2 tin, 18 giá trị
Gửi yêu cầu tới node R
Gửi yêu cầu đã nhận trở lại S
Xử lí tại S
Chi phí: 2 tin, 14 giá trị
25
2. Chi phí truyền dữ liệu