Tải bản đầy đủ (.pdf) (46 trang)

Báo cáo tìm hiểu về hệ cơ sở dữ liệu phân tán

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.22 MB, 46 trang )

TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

TRUNG TÂM ĐÀO TẠO TÀI NĂNG
KHOA KỸ SƢ CHẤT LƢỢNG CAO
LỚP HỆ THỐNG THÔNG TIN VÀ TRUYỀN THÔNG

BÁO CÁO TÌM HIỂU
HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN

IT4994 – THỰC TẬP CHUYÊN NGÀNH NĂM HỌC
2011-2012
Phụ trách hướng dẫn

: ThS. Hồ Sỹ Bàng

Sinh viên

: Đào Thanh Tùng

SHSV

: 20082978

Lớp

: HTTT-KSCLC-K53

Hà Nội, 6-2012


Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán



Mục lục
IT4994 – THỰC TẬP CHUYÊN NGÀNH NĂM HỌC 2011-2012..................... 1
Mục lục.......................................................................................................................... 2
Danh mục các hình ..................................................................................................... 3
Lời mở đầu.................................................................................................................... 4
Chương 1: Tổng quan về cơ sở dữ liệu phân tán ................................................. 5
I.

Giới thiệu về cơ sở dữ liệu phân tán ....................................................................... 5
1.

Đặt vấn đề ..................................................................................................................................................5

2.

Định nghĩa.................................................................................................................................................5

3.

So sánh c ơ sở dữ liệu tập trung và cơ sở dữ liệu phân tán.............................................................6

4.

Ưu điểm và nhược điểm của hệ cơ sở dữ liệu p hân tán................................................................10

II.

4.1.


Ưu điểm............................................................................................................................................ 10

4.2.

Nhược điểm ..................................................................................................................................... 11

Hệ quản trị CSDL phân tán ( DDBMS) ............................................................ 11
1.

Định nghĩa...............................................................................................................................................11

2.

Thành phầ n và chức năng ...................................................................................................................11

3.

Cách thức truy cập.................................................................................................................................12

4.

3.1.

Trực tiếp........................................................................................................................................... 12

3.2.

Gián tiếp........................................................................................................................................... 13

Kiến trúc tổng thể của CSDL phân tán........................................................... 14

1.

Sơ đồ tổng thể ( Global Schema ).............................................................................................. 14

2.

Sơ đồ phân đoạn ( Fragment schema) ..................................................................................... 15

3.

Sơ đồ định vị ( Allocation Schema) ........................................................................................... 15

4.

Sơ đồ ánh x ạ địa phương (Local mapping schema) .......................................................... 15

5.

Các yếu tố suy ra từ kiến trúc .................................................................................................... 16
5.1

Tách rời khái niệm phân đoạn dữ liệu với khái niệm định vị dữ liệu ................... 16

5.2.

Biết được dữ liệu dư th ừa : .................................................................................................. 17

5.3.

Độc lập với các DBMS địa ph ươn g ..................................................................................... 17


Chương 2: Thiết kế CSDL phân tán ...................................................................... 19
I.

Phương pháp thiết kế CSDL phân tán............................................................ 19
1.

Sơ đồ thiết kế tổng thể cơ sở dữ liệu phân tá n ..........................................................................19

2.

Các phương pháp thiết kế CSDL phân tá n ...............................................................................20

II.

2.1.

Phương pháp thiết kế từ trên xuốn g .................................................................................... 20

2.2.

Phương pháp thiết kế từ dưới lên ......................................................................................... 21

Phân mảnh dữ liệu............................................................................................ 22
1.

Các lý do phân mả nh .........................................................................................................................22

Đào Thanh Tùng – Lớp HTTT – KSCLC – K53
2



Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán

2.

Các kiểu phân mảnh .............................................................................................................................23
2.1.

3.

Phân mảnh nga ng: ..................................................................................................................... 23

a.

Định nghĩa...................................................................................................................................... 23

b.

Các yêu cầu về thông tin.............................................................................................................. 24

c.

Phân loại: ....................................................................................................................................... 26

d.

Phân mảnh ngang nguyên thủy:................................................................................................. 27

e.


Phân mảnh ngang dẫn xuất ......................................................................................................... 31

2.2.

Phân mảnh d ọ c: .......................................................................................................................... 33

2.3.

Phân mảnh hỗn hợp : ................................................................................................................ 43

Các yêu cầu của việc phân mả nh ..................................................................................................43
3.1.

Tính đầy đủ: ................................................................................................................................... 43

3.2.

Tính tái thiết được : ...................................................................................................................... 43

3.3.

Tính tách biệt: ............................................................................................................................... 43

Kết luận ....................................................................................................................... 46

Danh mục các hình
Chương 1: Tổng quan về cơ sở dữ liệu phân tán ...................................................5
Hình 1.1. Một hệ cơ sở dữ liệu phân tán ..................................................................6
Hình 1.2 – Bảng so sánh giữa CSDL tập trung và CSDL phân tán...................10

Hình 1.3 - Mô hình các thành phần của hệ quản trị cơ sở dữ liệu phát triển
theo kiểu thương mại..............................................................................................................12
Hình 1.4. Mô hình truy cập từ xa trực tiếp qua chương trình ứng dụng của
hệ quản trị cơ sở dữ liệu ........................................................................................................13
Hình 1.5. Mô hình truy cập từ xa gián tiếp qua chương trình ứng dụng của
hệ quản trị cơ sở dữ liệu ........................................................................................................13
Hình 1.6 – Kiến trúc chung cho CSDL phân tán ..................................................14
Hình 1.7- Các đoạn và ảnh vật lý của một quan hệ tổng thể ..............................16
Chương 2: Thiết kế CSDL phân tán ........................................................................19
Hình 2.1 – Sơ đồ thiết kế tổng thể CSDL phân tán ...............................................19
Hình 2.2 – Sơ đồ thiết kế CSDL phân tán theo mô hình trên xuống ( Top
down) .........................................................................................................................................21

Đào Thanh Tùng – Lớp HTTT – KSCLC – K53
3


Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán

Lời mở đầu
Những năm của thập kỷ 70, máy tính đã có đủ khả năng xây dựng hệ thống
thông tin và hệ cơ sở dữ liệu. Một mặt đã hình thành và phát triển các mô hình lý
thuyết cho hệ cơ sở dữ liệu và mặt khác những nguồn phát triển hệ thống ứng dụng
ngày càng có nhiều kinh nghiệm. Hệ thống thông tin hình thành trên cơ sở kết nối các
máy tính khác nhau.
Những năm gần đây, hệ cơ sở dữ liệu phân tán được phát triển dựa trên cơ sở dữ
liệu và mạng máy tính. Cơ sở dữ liệu phân tán gồm nhiều cơ sở dữ liệu tích hợp lại với
nhau thông qua mạng máy tính để trao đổi dữ liệu, thông tin... Cơ sở dữ liệu được tổ
chức và lưu trữ ở những vị trí khác nhau trong mạng máy tính và chương trình ứng
dụng làm việc trên cơ sở truy cập dữ liệu ở những điểm khác nhau đó.

Vấn đề hoàn toàn mới là xây dựng và cài đặt một cơ sở dữ liệu phân tán. Cần
giải quyết vấn đề xây dựng và cài đặt cơ sở dữ liệu phân tán cụ thể như vấn đề thiết kế
phân tán, thiết kế cơ sở dữ liệu...

Đào Thanh Tùng – Lớp HTTT – KSCLC – K53
4


Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán

Chƣơng 1: Tổng quan về cơ sở dữ liệu
phân tán
I.
Giới thiệu về cơ sở dữ liệu phân tán
1. Đặt vấn đề
Vì yêu cầu của công ty, doanh nghiệp, đơn vị kinh doanh... về vấn đề tổ chức
sao cho kinh doanh có hiệu quả nhất và nắm bắt thông tin nhanh nhất khi các cơ sở của
công ty hiện ở những địa điểm xa nhau cho nên xây dựng một hệ thống làm việc trên
cơ sở dữ liệu phân tán là phù hợp xu hướng hiện nay vì hệ thống này thoả mãn được
những yêu cầu tổ chức của đơn vị.
Lợi điểm về tổ chức và kỹ thuật của xu hướng phát triển cơ sở dữ liệu phân tán
là: giải quyết được những hạn chế của cơ sở dữ liệu tập trung và phù hợp xu hướng
phát triển tự nhiên với cơ cấu không tập trung của các tổ chức, công ty doanh nghiệp...

2. Định nghĩa
Một cơ sở dữ liệu (CSDL) phân tán là một tập hợp dữ liệu, mà về mặt logic
tập hợp này thuộc cùng một hệ thống, nhưng về mặt vật lý dữ liệu đó được phân tán
trên các vị trí khác nhau của một mạng máy tính.
Có hai điểm quan trọng được nêu ra trong định nghĩa:
 Phân tán: Dữ liệu không cư trú trên một vị trí mà được phân bố rộng

khắp trên nhiều máy tính đặt tại nhiều vị trí khác nhau, đây là điểm phân
biệt một cơ sở dữ liệu phân tán với một cơ sở dữ liệu tập trung.
 Tương quan logic: Dữ liệu trong hệ phân tán có một số thuộc tính ràng
buộc chúng với nhau. Điều này giúp chúng ta có thể phân biệt một cơ sở
dữ liệu phân tán với một tập hợp cơ sở dữ liệu tập trung, các file dữ liệu
được lưu trữ tại nhiều vị trí khác nhau, điều này thường thấy trong các
ứng dụng mà hệ thống sẽ phân quyền truy nhập dữ liệu trong môi trường
mạng.
Ví dụ về cơ sở dữ liệu phân tán:
- Một ngân hàng có ba chi nhánh đặt tại các vị trí khác nhau.
- Tại mỗi chi nhánh có một máy tính điều khiển một số máy kế toán cuối
cùng (teller terminal) và cơ sở dữ liệu thống kê của chi nhánh đó.
- Mỗi máy tính với cơ sở dữ liệu thống kê địa phương của nó tại mỗi chi
nhánh được đặt ở một vị trí của cơ sở dữ liệu phân tán. Các máy tính được nối với
Đào Thanh Tùng – Lớp HTTT – KSCLC – K53
5


Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán

nhau bởi một mạng truyền thông. Các nút trong một mạng phân tán một mặt xử lý
thông tin tại vị trí mà nó quản lý, mặt khác nó cũng tham gia vào việc xử lý các yêu
cầu về thông tin cần truy cập qua nhiều địa điểm. Ví dụ như việc lên danh sách tất cả
nhân viên của ngân hàng. Yêu cầu này đòi hỏi tất cả các máy tính ở các chi nhánh
của công ty đều phải hoạt động để cung cấp thông tin.

Hình 1.1. Một hệ cơ sở dữ liệu phân tán

3. So sánh cơ sở dữ liệu tập trung và cơ sở dữ liệu phân tán
Cơ sở dữ liệu tập trung cùng với cơ sở dữ liệu không qua thiết kế hình thành

trước khi có cơ sở dữ liệu phân tán. Hai hình thức này phát triển trên cơ sở tự phát và
hệ thống tập trung. Như vậy hai hình thức này không đáp ứng được yêu cầu tổ chức và
công việc trên phạm vi lớn.
Cơ sở dữ liệu phân tán được thiết kế khác cơ sở dữ liệu tập trung. Do đó c ần đối
sánh các đặc trưng của cơ sở dữ liêu phân tán với cơ sở dữ liệu tập trung để thấy được
lợi ích của cơ sở dữ liệu phân tán.
Đặc trưng mô tả cơ sở dữ liệu tập trung là điều khiển tập trung, độc lập dữ liệu,
giảm bớt dư thừa, cơ cấu vật lý phức tạp đối với khả năng truy cập, toàn vẹn, hồi phục,
điều khiển tương tranh, biệt lập và an toàn dữ liệu.
Đặc điểm
Điều khiển tập trung

CSDL tập trung

CSDL phân tán

Khả năng điều khiển tập
trung trên toàn nguồn tài
nguyên thông tin của tổ
chức, được xem là động

Ý niệm về điều khiển
tập trung ít được nhấn
mạnh hơn. Điều này phụ
thuộc vào kiến trúc của

Đào Thanh Tùng – Lớp HTTT – KSCLC – K53
6



Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán

cơ mạnh nhất cho việc ra
đời CSDL.
Chúng được phát triển
như là sự tiến hoá của hệ
thống thông tin, mà trong
đó mỗi ứng dụng có các
tập tin riêng của nó.

Độc lập dữ liệu

Là một trong những nhân
tố tác động đến cấu trúc
cơ sở dữ liệu để tổ chức
dữ liệu chuyển cho
chương trình ứng dụng.
Tiện lợi chính của độc lập
dữ liệu là các chương
trình ứng dụng không bị
ảnh hưởng khi thay đổi
cấu trúc vật lý của dữ liệu

Giảm dư thừa dữ liệu

Trong cơ sở dữ liệu tập
trung, tính dư thừa hạn
chế được càng nhiều càng
tốt vì:
-Dữ liệu không

đồng nhất khi có vài bản
sao của cùng cơ sở dữ
liệu logic; để tránh được

Đào Thanh Tùng – Lớp HTTT – KSCLC – K53
7

CSDL phân tán.
Một cách tổng quát,
CSDL phân tán được điều
khiển với cấu trúc phân
lớp dựa vào một hệ quản
trị CSDL toàn cục (có
trách nhiệm trên toàn bộ
CSDL phân tán) và hệ
quản trị CSDL địa
phương (có trách nhiệm
với CSDL địa phương
riêng).

Trong cơ sở dữ liệu phân
tán, độc lập dữ liệu có
tầm quan trọng cũng như
trong cơ sở dữ liệu
truyền thống. Khái niệm
cơ sở dữ liệu trong suốt
mô tả hoạt động chương
trình trên cơ sở dữ liệu
phân tán được viết như
làm việc trên cơ sở dữ

liệu tập trung. Hay nói
cách khác tính đúng đ ắn
của chương trình không
bị ảnh hưởng bởi việc di
chuyển dữ liệu từ nơi này
sang nơi khác trong mạng
máy tính. Tuy nhiên tốc
độ làm việc bị ảnh hưởng
do có thời gian di chuyển
dữ liệu.
Nói chung, nguyên nhân
đối lập với tính dư thừa
đưa ra trong môi trường
truyền thống vẫn còn
đúng cho hệ thống phân
tán và vì vậy công việc
định giá mức độ tốt của
tính dư thừa đòi hỏi định
giá lại công việc lựa chọn


Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán

nhược điểm này giải pháp
là chỉ có một bản sao duy
nhất.
-Giảm không gian
lưu trữ. Giảm dư thừa có
nghĩa là cho phép nhiều
ứng dụng cùng truy cập

đến một cơ sở dữ liệu mà
không cần đến nhiều bản
sao ở những nơi chương
trình ứng dụng cần.
Trong cơ sở dữ liệu
truyền thống tính dư thừa
dữ liệu cũng cần quan
tâm vì:
-Tính cục bộ của
chương trình ứng dụng sẽ
tăng nếu dữ liệu đặt ở mọi
nơi mà chương trình ứng
dụng cần.
-Khả năng sẵn
sàng của hệ thống cao bởi
vì khi có lỗi ở một nơi
nào đó trong hệ thống thì
không cản trở hoạt động
của chương trình ứng
dụng.

Cấu trúc vật lý và khả
năng truy cập

Người sử dụng truy cập
đến cơ sở dữ liệu tập
trung phải thông qua cấu
trúc truy cập phức tạp:
định vị cơ sở dữ liệu, thiết
lập đường truyền...


mức độ dư thừa dữ liệu.
Trong CSDL phân tán,
việc giảm dư thừa phức
tạp hơn vì ngoài hai lý
do trên, còn nhiều lý do
để giảm dư thừa như:
Hoạt động của các
trình ứng dụng có thể
bị tăng lên khi dữ liệu
được sao lại tất cả các
vị trí, nơi trình ứng
dụng cần nó.
Tính thường trực của
hệ thống sẽ tăng lên,
bởi vì khi có lổi xẩy
ra ở một trạm nào đó
sẽ không dừng việc
thực hiện các ứng
dụng của trạm khác
nếu dữ liệu đã được
sao chép lại.

Trong cơ sở dữ liệu phân
tán, cấu trúc truy c ập
phức tạp không phải là
công cụ chính để truy cập
hiệu quả đến cơ sở dữ
liệu. Hiệu quả có nghĩa là
thời gian tìm kiếm và

chuyển dữ liệu nhỏ nhất,
chi phí truyền thông thấp
nhất.
Mỗi cách thức truy cập cơ
sở dữ liệu phân tán viết
bởi người lập trình hoặc
tạo ra bởi một bộ tối ưu.

Đào Thanh Tùng – Lớp HTTT – KSCLC – K53
8


Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán

Công việc viết ra một
cách thức truy cập cơ sở
dữ liệu phân tán cũng
giống như viết chương
trình duyệt trong cơ sở dữ
liệu tập trung. Công việc
mà chương trình duyệt
này làm là xác định xem
có thể truy cập đến được
bao nhiêu cơ sở dữ liệu.
Tính toàn vẹn, hồi phục
và điều khiển tương tranh

Mặc dù trong cơ sở dữ
liệu, tính toàn vẹn, hồi
phục và điều khiển đồng

thời liên quan nhiều vấn
đề liên quan lẫn nhau. Mở
rộng hơn vấn đề này là
việc cung cấp các giao
tác. Giao tác là đơn vị cơ
bản của việc thực hiện:
giao tác cụ thể là bó công
việc được thực hiện toàn
bộ hoặc không được thực
hiện.

Trong cơ sở dữ liệu phân
tán, vấn đề điều khiển
giao tác tự trị có ý nghĩa
quan trọng: hệ thống điều
phối phải chuyển đổi các
quỹ thời gian cho các
giao tác liên tiếp. Như
vậy giao tác tự trị là
phương tiện đạt được sự
toàn vẹn trong cơ sở dữ
liệu Có hai mối nguy
hiểm của giao tác tự trị là
lỗi và tương tranh.

Biệt lập và bảo mật

Trong CSDL tập trung, hệ
quản trị CSDL tập trung
có thể đảm bảo truy cập

đến dữ liệu đã được ủy
quyền

Trong CSDL phân tán,
hệ quản trị dữ liệu địa
phương thực chất phải
đương đầu với các vấn đề
giống như hệ quản trị
CSDL trong CSDL truyền
thống.
Tuy nhiên, hai khía cạnh
đặc biệt sau đây của
CSDL phân tán cần phải
được xem xét:
Trong CSDL phân tán
với một mức độ tự trị
rất cao của các địa
phương, người chủ dữ
liệu địa phương cảm
giác được bảo vệ tốt

Đào Thanh Tùng – Lớp HTTT – KSCLC – K53
9


Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán

hơn vì họ có thể tự
chủ thực hiện bảo vệ
thay vì phụ thuộc vào

người quản trị CSDL
trung tâm.
Vấn đề bảo mật là
bản chất trong hệ
phân tán nói chung,
vì các mạng truyền
thông diện rộng cho
phép nhiều người cập
nhật và khai thác dữ
liệu nên cần được bảo
vệ.

Hình 1.2 – Bảng so sánh giữa CSDL tập trung và CSDL phân tán

4. Ưu điểm và nhược điểm của hệ cơ sở dữ liệu phân tán
4.1.

Ưu điểm

Có nhiều nguyên nhân để phát triển cơ sở dữ liệu phân tán nhưng tựu trung lại
chỉ gồm những điểm sau đây:
Lợi điểm về tổ chức và tính kinh tế: tổ chức phân tán nhiều chi nhánh và dùng
cơ sở dữ liệu phân tán phù hợp với các tổ chức kiểu này. Với vai trò là động lực thúc
đẩy kinh tế thương mại phát triển rộng hơn, thì việc phát triển các trung tâm máy tính
phân tán ở nhiều vị trí trở thành nhu cầu cần thiết.
Tận dụng những cơ sở dữ liệu sẵn có: Hình thành cơ sở dữ liệu phân tán từ các
cơ sở dữ liệu tập trung có sẵn ở các vị trí địa phương.
Thuận lợi cho nhu cầu phát triển: Xu hướng dùng cơ sở dữ liệu phân tán sẽ cung
cấp khả năng phát triển thuận lợi hơn và giảm được xung đột về chức năng giữa các
đơn vị đã tồn tại và giảm được xung đột giữa các chương trình ứng dụng khi truy c ập

đến cơ sở dữ liệu. Với hướng tập trung hoá, nhu cầu phát triển trong tương lai sẽ gặp
khó khăn.
Giảm chi phí truyền thông: Trong cơ sở dữ liệu phân tán chương trình ứng dụng
đặt ở địa phương có thể giảm bớt được chi phí truyền thông khi thực hiện bằng cách
khai thác cơ sở dữ liệu tại chỗ.
Tăng số công việc thực hiện: Hệ cơ sở dữ liệu phân tán có thể tăng số lượng
công việc thực hiện qua áp dụng nguyên lý xử lý song song với hệ thống xử lý đa
nhiệm. Tuy nhiên cơ sở dữ liệu phân tán cũng có tiện lợi trong việc phân tán dữ liệu
như tạo ra các chương trình ứng dụng phụ thuộc vào tiêu chuẩn mở rộng vị trí làm cho
Đào Thanh Tùng – Lớp HTTT – KSCLC – K53
10


Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán

các nơi xử lý có thể hỗ trợ lẫn nhau. Do đó tránh được hiện tượng tắc nghẽn cổ chai
trong mạng truyền thông hoặc trong các dịch vụ thông thường của toàn bộ hệ thống.
Tính dễ hiểu và sẵn sàng: Hướng phát triển cơ sở dữ liệu phân tán cũng nhằm
đạt được tính dễ hiểu và tính sẵn sàng cao hơn. Tuy nhiên để đạt được mục tiêu này
không phải là dễ làm và đòi hỏi sử dụng kỹ thuật phức tạp. Khả năng xử lý tự trị của
các điểm làm việc khác nhau không đảm bảo tính dễ sử dụng.
Kỹ thuật đáp ứng: Hai nguyên nhân về mặt kỹ thuật đáp ứng cho sự phát triển
hệ cơ sở dữ liệu phân tán:
- Công nghệ tạo ra máy tính nhỏ và nền tảng phần cứng có khả năng phục vụ
xây dựng hệ thống thông tin phân tán.
- Kỹ thuật thiết kế hệ cơ sở dữ liệu phân tán được phát triển vững chắc dựa trên
hai kỹ thuật thiết kế chính là Top-down và Bottom-up từ những năm thập kỷ 60.
4.2.

Nhược điểm


• Phần mềm đắt và phức tạp
• Phải xử lý các thay đổi thông báo trong mọi địa điểm
• Khó kiểm soát tính toàn vẹn dữ liệu với nhiều bản sao dữ liệu được phân
bố khắp mọi nơi.
• Đáp ứng chậm nhu cầu của các trạm trong trường hợp các phần mềm ứng
dụng không được phân bố phù hợp với việc sử dụng chung.

II.

Hệ quản trị CSDL phân tán ( DDBMS)

1. Định nghĩa
Hệ quản trị cơ sở dữ liệu phân tán cung cấp công cụ như tạo lập và quản lý cơ sở
dữ liệu phân tán. Phân tích đ ặc điểm của hệ thống quản trị cơ sở dữ liệu phân tán như
dưới đây để phân biệt hệ thống phát triển theo kiểu thương mại có sẵn và kiểu mẫu
phân tán.

2. Thành phần và chức năng
Hệ thống phát triển theo kiểu thương mại có sẵn được phát triển bởi những
người cung cấp hệ cơ sở dữ liệu tập trung. Hệ cơ sở dữ liệu tập trung mở rộng bằng
cách thêm vào những phần bổ xung qua cách cung cấp thêm đường truyền và điều
khiển giữa các hệ quản trị cơ sở dữ liệu tập trung cài đặt ở những điểm khác nhau trên
mạng máy tính.
Những phần mềm cần thiết cho việc xây dựng cơ sở dữ liệu phân tán là:
 Phần quản lý cơ sở dữ liệu ( Database Management - DB ).
 Phần truyền thông dữ liệu (Data Communication - DC ).
Đào Thanh Tùng – Lớp HTTT – KSCLC – K53
11



Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán

 Từ điển dữ liệu được mở rộng để thể hiện thông tin về phân tán dữ
liệu trong mạng máy tính (Data Dictionary - DD).
 Phần cơ sở dữ liệu phân tán (Distributed Database DDB).

Hình 1.3 - Mô hình các thành phần của hệ quản trị cơ sở dữ liệu phát triển
theo kiểu thƣơng mại
Những dịch vụ hệ quản trị cơ sở dữ liệu cung cấp:
- Cách thức truy cập dữ liệu từ xa: bằng chương trình ứng dụng.
- Lựa chọn một cấp độ trong suốt phân tán thích hợp: cho phép mở rộng hệ
thống theo nhiều cách khác nhau theo t ừng hoàn cảnh (phải cân nhắc giữa cấp độ trong
suốt phân tán và phân chia công việc thực hiện để công việc quản trị hệ thống đơn giản
hơn).
- Quản trị và điều khiển cơ sở dữ liệu bao gồm công cụ quản lý cơ sở dữ liệu,
tập hợp thông tin về các thao tác trên cơ sở dữ liệu và cung cấp thông tin tổng thể về
file dữ liệu đặt ở các nơi trong hệ thống.
- Điều khiển tương tranh và điều khiển hồi phục dữ liệu của giao tác phân tán.

3. Cách thức truy cập
Cách thức truy cập cơ sở dữ liệu từ xa qua chương trình ứng dụng theo hai cách
cơ bản: Truy cập từ xa trực tiếp và gián tiếp.
3.1.

Trực tiếp

Đào Thanh Tùng – Lớp HTTT – KSCLC – K53
12



Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán

Hình 1.4. Mô hình truy cập từ xa trực tiếp qua chƣơng trình ứng dụng của
hệ quản trị cơ sở dữ liệu
Theo mô hình trực tiếp trên, chương trình ứng dụng đưa ra yêu cầu truy cập đến
cơ sở dữ liệu từ xa, yêu cầu này được hệ quản trị cơ sở dữ liệu tự động tìm nơi đặt dữ
liệu và thực hiện yêu cầu tại điểm đó. Kết quả được trả lại cho chương trình ứng dụng.
Đơn vị chuyển đổi giữa hai hệ quả trị cơ sở dữ liệu là phương thức truy cập cơ sở dữ
liệu và kết quả nhận được (thông qua việc thực hiện phương thức truy cập này). Với
cách thức truy cập từ xa như vậy cấp độ trong suốt phân tán được xây dựng bằng cách
tạo ra tên file toàn bộ để đánh địa chỉ thích hợp cho những điểm lưu trữ dữ liệu ở xa.
3.2.

Gián tiếp

Hình 1.5. Mô hình truy cập từ xa gián tiếp qua chƣơng trình ứng dụng của
hệ quản trị cơ sở dữ liệu
Theo mô hình truy cập này, chương trình ứng dụng thực hiện yêu cầu qua
chương trình phụ ở điểm khác. Chương trình phụ này được người lập trình ứng dụng
viết để truy cập từ xa đến cơ sở dữ liệu và trả về kết quả của chương trình ứng dụng
Đào Thanh Tùng – Lớp HTTT – KSCLC – K53
13


Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán

yêu cầu.
Hệ quản trị cơ sở dữ liệu phân tán cung c ấp cả hai kiểu truy cập bởi vì mỗi cách
truy cập đều có ưu điểm của nó.


4. Kiến trúc tổng thể của CSDL phân tán
Trong hệ cơ sở dữ liệu phân tán, những người thiết kế hệ thống đã xây dựng nên
một hệ các phần mềm phục vụ yêu cầu người dùng trên cơ sở dữ liệu đã có sẵn. Hình
dưới đây trình bày kiến trúc chung của cơ sở dữ liệu phân tán. Tất nhiên kiến trúc này
không biểu diễn tường minh cho mọi hệ cơ sở dữ liệu phân tán. Các mức của cơ sở dữ
liệu phân tán được trình bày mang tính khái niệm thích hợp để dễ hiểu về tổ chức của
các cơ sở dữ liệu phân tán nói chung

Hình 1.6 – Kiến trúc chung cho CSDL phân tán

1. Sơ đồ tổng thể ( Global Schema)

 Xác định tất cả các dữ liệu sẽ được lưu trữ trong cơ sở dữ liệu phân tán
cũng như các dữ liệu không được phân tán ở các trạm trong hệ thống.
 Sơ đồ tổng thể được định nghĩa theo cách như trong CSDL tập trung.

Đào Thanh Tùng – Lớp HTTT – KSCLC – K53
14


Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán

 Trong mô hình quan hệ, sơ đồ tổng thể bao gồm định nghĩa của tập các
quan hệ tổng thể (Global relation).
2. Sơ đồ phân đoạn ( Fragment schema)
 Mỗi quan hệ tổng thể có thể chia thành một vài phần không giao nhau gọi
là phân đoạn (fragment).
 Có nhiều cách khác nhau để thực hiện việc phân chia này: chia theo chiều
ngang, chia theo chiều dọc và chia theo kiểu hỗn hợp theo chiều ngang và

chiều dọc
 Sơ đồ phân đoạn mô tả các ánh xạ giữa các quan hệ tổng thể và các đoạn
được định nghĩa trong sơ đồ phân đoạn (fragmentation Schema)
 Các đoạn được mô tả bằng tên của quan hệ tổng thể cùng với chỉ mục
đoạn.
Chẳng hạn, Ri được hiểu là đoạn thứ i của quan hệ R.
3. Sơ đồ định vị ( Allocation Schema)

 Các đoạn là các phần logic của một quan hệ tổng thể được định vị vật lý
trên một hay nhiều trạm.
 Sơ đồ định vị xác định đoạn dữ liệu nào được định vị tại trạm nào trên mạng.
 Tất cả các đoạn được liên kết với cùng một quan hệ tổng thể R và được
định vị tại cùng một trạm j cấu thành ảnh vật lý quan hệ tổng thể R tại trạm j.
- Ta có thể ánh xạ một-một giữa một ảnh vật lý và một cặp (quan hệ
tổng thể, trạm).
- Các ảnh vật lý có thể chỉ ra bằng tên của một quan hệ tổng thể và một chỉ
mục trạm.
Ký hiệu:
 Ri để chỉ đoạn thứ i của quan hệ tổng thể R
 Rj để chỉ ảnh vật lý của quan hệ tổng thể R tại trạm j
 Bản sao của đoạn i thuộc quan hệ R tại trạm j được ký hiệu là Rij
4. Sơ đồ ánh xạ địa phương (Local mapping schema)

 Thực hiện ánh xạ các ảnh vật lý lên các đối tượng được thực hiện bởi hệ
quản trị cơ sở dữ liệu địa phương
 Tất cả các đoạn của một quan hệ tổng thể trên cùng một trạm tạo ra một
ảnh vật lý

Đào Thanh Tùng – Lớp HTTT – KSCLC – K53
15



Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán

Hình 1.7- Các đoạn và ảnh vật lý của một quan hệ tổng thể

5. Các yếu tố suy ra từ kiến trúc
Thuật ngữ trong suốt mô tả bằng bản sao của đoạn tham chiếu đến vị trí
lưu trữ và bản sao xác định qua tên quan hệ và hai chỉ số (chỉ số đoạn và chỉ số vị
trí).
Trong kiến trúc lược đồ trên có ba mức độ độc lập theo thứ tự giảm: mức
tổng thể, mức cấp phát và mức ánh xạ. Vì vậy, ở mức thấp hơn cần thiết phải ánh
xạ sang mức cao hơn. Việc ánh xạ này gọi là sơ đồ ánh xạ và phụ thuộc vào kiểu
của cơ sở dữ liệu địa phương. Trong hệ thống đồng nhất mức độ độc lập có một
số kiểu khác nhau khi ánh xạ địa phương ở các vị trí khác nhau.
Ba yếu tố được suy ra từ kiểu kiến trúc này là:
 Tách rời khái niệm phân đoạn dữ liệu với khái niệm định vị dữ liệu.
 Biết được dữ liệu dư thừa
 Độc lập với các DBMS địa phương
Ba yếu tố này tương ứng với ba mức trong suốt tương ứng
5.1 Tách rời khái niệm phân đoạn dữ liệu với khái niệm định vị dữ liệu

Đào Thanh Tùng – Lớp HTTT – KSCLC – K53
16


Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán

 Phân đoạn dữ liệu, bao gồm những công việc mà người lập trình ứng
dụng làm việc với quan hệ tổng thể, phân chia quan hệ tổng thể thành các

đoạn.
- Thông qua tính trong
suốt phân
đoạn
(fragmentatio n
transp arency) người lập trình sẽ nhìn thấy được những đoạn dữ liệu
bị phân chia như thế nào.
- Trong suốt phân đoạn: là cấp độ cao nhất của mức độ trong suốt,
người sử dụng hoặc chương trình ứng dụng chỉ làm việc trên các
quan hệ của cơ sở dữ liệu.
 Định vị dữ liệu lại liên quan đến các công việc của người sử dụng và
người lập trình ứng dụng tại trên các đoạn dữ liệu được định vị tại các
trạm.
- Thông qua tính trong suốt vị trí (location transparency) người lập
trình sẽ biết được vị trí của các đoạn dữ liệu trên các trạm.
- Trong suốt định vị là cấp độ thấp hơn của độ trong suốt vì hệ thống
yêu cầu người sử dụng hay chuơng trình ứng dụng phải làm việc trên
đoạn logíc thay vì làm việc trên các quan hệ của cơ sở dữ liệu. Tuy
nhiên người đó không biết đoạn đó được đặt ở vị trí nào trong cơ sở
dữ liệu.
5.2. Biết được dữ liệu dư thừa
 Người lập trình ứng dụng có thể biết được dư thừa dữ liệu ở các trạm.
 Trên hình vẽ trên, chúng ta thấy rằng hai ảnh vật lý R2 và R3 có trùng
lặp dữ liệu. Do đó các đoạn dữ liệu trùng nhau có thể tránh được khi xây
dựng các khối ảnh vật lý.
5.3.

Độc lập với các DBMS địa phương

Đặc điểm này gọi là ánh xạ trong suốt đối với cơ sở dữ liệu địa phương: quản trị

cơ sở dữ liệu phân tán không cần quan tâm đến kiểu dữ liệu xác định của cơ sở dữ liệu
địa phương.
Mức trong suốt bản sao liên quan chặt chẽ tới mức trong suốt định vị. Mức trong
suốt bản sao có nghĩa là người sử dụng không biết bản sao của đoạn đặt ở vị trí nào.
Mức trong suốt bản sao tương đương mức trong suốt định vị. Tuy nhiên, trong những
trường hợp thực tế người sử dụng không có mức trong suốt định vị nhưng lại có mức
trong suốt bản sao.
Phân rã quan hệ thành các đoạn thực hiện qua việc áp dụng hai phân đoạn: phân
đoạn ngang và phân đoạn dọc.
Phân đoạn ngang: một đoạn được xác định qua biểu thức đại số quan hệ với
quan hệ là toán tử và các đoạn là kết quả. Hay nói cách khác, việc phân đoạn ngang bao
gồm việc chia các bộ của quan hệ thành các tập con. Mỗi tập con này có thuộc tính vị
trí thông thường. Các đoạn này được xác định qua việc coi mỗi đoạn là toán tử chọn
trên quan hệ.
Phân đoạn dọc: phân đoạn dọc một quan hệ là việc chia nhỏ tập thuộc tính thành
nhiều nhóm quan hệ và đoạn dọc. Phân đoạn đúng khi mỗi thuộc tính đều ánh xạ ít nhất
Đào Thanh Tùng – Lớp HTTT – KSCLC – K53
17


Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán

sang một thuộc tính của đoạn. Hơn nữa, có thể tạo lại quan hệ ban đầu bằng liên kết
các đoạn với nhau.
Có một số luật để xác định các đoạn:
Điều kiện hợp: mọi dữ liệu của quan hệ phải ánh xạ đến các đoạn. Không xảy ra
trường hợp dữ liệu thuộc về quan hệ nhưng không thuộc về một đoạn nào.
Điều kiện tái tạo lại quan hệ: luôn luôn có khả năng tạo lại quan hệ từ các đoạn
của quan hệ. Điều kiện cần: mỗi đoạn được lưu trữ trong cơ sở dữ liệu phân tán và
quan hệ phải xây dựng lại được khi cần thiết.

Điều kiện không liên kết: thích hợp khi các đoạn không liên kết với nhau vì vậy
các bản dữ liệu lặp lại có thể được điều khiển rõ ràng ở các mức cấp phát. Điều kiện
này chủ yếu có ích với phân đoạn ngang.

Đào Thanh Tùng – Lớp HTTT – KSCLC – K53
18


Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán

Chƣơng 2: Thiết kế CSDL phân tán
I.

Phương pháp thiết kế CSDL phân tán

1. Sơ đồ thiết kế tổng thể cơ sở dữ liệu phân tán
Hiện nay chưa có một kỹ thuật cụ thể nào nói một cách chi tiết việc thiết
kế một CSDL phân tán.
Tuy nhiên, một cách tổng quát chúng ta có thể thiết kế CSDL phân tán theo
các bước sau:

Hình 2.1 – Sơ đồ thiết kế tổng thể CSDL phân tán

 Thiết kế lược đồ quan hệ tổng thể:

Đào Thanh Tùng – Lớp HTTT – KSCLC – K53
19


Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán


- Thiết kế các quan hệ tổng thể
- Mô tả toàn bộ dữ liệu sẽ được dùng trong hệ thống
 Thiết kế phân đoạn: thực hiện chia nhỏ dữ liệu thành các phần.
 Thiết kế định vị các đoạn:
- Là quá trình thực hiện ánh xạ các đoạn vào các trạm khác nhau
- Tạo các ảnh vật lý tại các trạm.
- Các đoạn dữ liệu được đưa vào các vị trí lưu trữ thích hợp với yêu cầu
hoạt động thực tế của hệ thố ng.
 Thiết kế cơ sở dữ liệu vật lý: thiết kế dữ liệu vật lý cho các quan hệ tại
các trạm

2. Các phương pháp thiết kế CSDL phân tán
Có 2 phương pháp thiết kế CSDL phân tán
- Phương pháp tiếp cận từ trên xuống
- Phương pháp tiếp cận từ dưới lên
2.1.

Phương pháp thiết kế từ trên x uống

- Thiết kế từ tổng thể đến riêng biệt
- Phân rã một hệ thống lớn thành các hệ thống con
- Phân tích các yêu cầu nhằm định nghĩa môi trường hệ thống
- Thu thập các yêu cầu về dữ liệu và nhu cầu xử lý của các trạm có sử
dụng CSDL.
• Thiết kế view: xây dựng khung nhìn dữ liệu cho người sử dụng ở các trạm.
• Thiết kế mức quan niệm: là một tiến trình kiểm tra và xác định rõ hai
nhóm quan hệ: phân tích thực thể và phân tích chức năn g.
+ Phân tích thực thể: xác định các tập thực thể, các thuộc tính và các mối
quan hệ giữa chúng.

+ Phân tích chức năng: xác định các chức năng của hệ thống và đưa ra các
chức năng cơ sở.
• Thiết kế phân tán: bao gồm hai phần:

Đào Thanh Tùng – Lớp HTTT – KSCLC – K53
20


Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán

+ Thiết kế phân đo ạn
+ Thiết kế định vị
• Thiết kế lược đồ quan niệm địa phương: tạo ra các lược đồ mức quan niệm
tại
các địa phương
• Thiết kế vật lý: thực hiện ánh xạ lược đồ mức quan niệm tại các địa phương ra
các đơn vị lưu trữ vật lý
• Quan sát và kiểm tra: kiểm tra các giai đoạn của quá trình thiết kế cơ sở dữ
liệu

Hình 2.2 – Sơ đồ thiết kế CSDL phân tán theo mô hình trên xuống ( Top down)
2.2.
-

Phương pháp thiết kế từ dưới lên

Phương pháp thiết kế trên xuống thực sự có hiệu quả khi xây dựng một hệ
thống mới.

Đào Thanh Tùng – Lớp HTTT – KSCLC – K53

21


Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán

-

Trong thực tế, một số CSDL đã tồn tại trước, được tổ chức trong môi trường
tập trung và CSDL phân tán được phát triển bằng cách liên kết chúng lại thành
một CSDL mới thống nhất (Các DBMS địa phương khác nhau đã được sử
dụng)
Cách thiết kế
 Chọn một mô hình dữ liệu chung để mô tả lược đồ tổng thể
 Chuyển mỗi lược đồ địa phương theo mô hình dữ liệu chung đã chọn
 Tích hợp các lược đồ địa phương vào lược đồ tổng thể

II.

Phân mảnh dữ liệu

Những câu hỏi đặt ra đối với phân mảnh dữ liệu:







Tại sao cần phải phân mảnh?
Làm thế nào để thực hiện phân mảnh?

Phân mảnh nên thực hiện đến mức độ nào?
Có cách gì kiểm tra tính đúng đắn của việc phân mảnh?
Việc cấp phát các mảnh dữ liệu như thế nào
Những thông tin nào sẽ cần thiết cho việc phân mảnh và cấp phát?

Phân mảnh quan hệ là gì?
Việc chia một quan hệ thành nhiều quan hệ nhỏ hơn được gọi là phân
mảnh quan hệ.

1. Các lý do phân mảnh
- Khung nhìn hoặc đơn vị truy xuất của các ứng dụng không phải là
toàn bộ quan hệ mà thường là một mảnh.
- Việc phân rã một quan hệ thành nhiều mảnh, mỗi mảnh được xử lý như
một đơn vị, sẽ cho phép thực hiện nhiều giao dịch đồng thời.
- Việc phân mảnh các quan hệ sẽ cho phép thực hiện song song một câu
vấn tin bằng cách chia nó ra thành một tập các câu vấn tin con hoạt tác trên
các mảnh.
- Nếu các ứng dụng có các khung nhìn được định nghĩa trên một quan hệ
cho trước nằm tại những vị trí khác thì có hai cách chọn lựa đơn vị phân
tán:
+ hoặc là toàn bộ quan hệ
+ hoặc quan hệ được lưu ở một vị trí có chạy ứng dụng.
Nhận xét: Chọn lựa thứ nhất gây ra một số lượng lớn các truy xuất không cần
thiết đến dữ liệu ở xa. Chọn lựa sau sẽ gây ra nhiều vấn đề khi cập nhật và lãng
Đào Thanh Tùng – Lớp HTTT – KSCLC – K53
22


Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán


phí không gian lưu trữ.
Hạn chế của việc phân mảnh:
- Nếu ứng dụng có những yêu cầu ngăn cản việc phân rã thành các
mảnh để được sử dụng độc quyền, thì những ứng dụng có các khung nhìn được
định nghĩa trên nhiều mảnh sẽ bị giảm hiệu suất hoạt động.
- Nếu một khung nhìn đòi hỏi thông tin ở nhiều mảnh thì việc truy xuất
dữ liệu để nối lại sẽ có chi phí cao.
- Kiểm soát dữ liệu ngữ nghĩa (semantic data control): Do kết quả của
phân mảnh, các thuộc tính tham gia vào một phụ thuộc có thể bị phân rã vào
các mảnh khác nhau và được cấp phát cho những vị trí khác nhau. Trong trường
hợp này, một nhiệm vụ đơn giản như kiểm tra các phụ thuộc cũng phải thực
hiện truy tìm dữ liệu ở nhiều vị trí.

2. Các kiểu phân mảnh
- Phân mảnh ngang (horizontal fragmentation)
- Phân mảnh dọc (vertical fragmentation).
- Phân mảnh hỗn hợp (hibrid fragmentation)
Chú ý: Quá trình phân mảnh phải được gắn liền với vấn đề cấp phát dữ
liệu và bài toán cụ thể như thế nào.
2.1.

Phân mảnh nga ng:
a. Định nghĩa

Phân mảnh ngang một quan hệ tổng thể n-bộ R là tách R thành các
quan hệ con n-bộ R1, R2, ..., R k sao cho quan hệ R có thể được khôi phục lại
từ các quan hệ con này bằng phép hợp: R = R1 ∪ R2 ∪ ... ∪ Rk
Ví dụ 2.1:
Một công ty có các văn phòng ở Paris, London, NewYork, Toronto. Công
ty này có các cơ sở dữ liệu sau đây:

Cơ sở dữ liệu về nhân viên:

EMP (ENo, EName, Title)

Cơ sở dữ liệu về các dự án:
Cơ sở dữ liệu về lương:
Cơ sở dữ liệu về phân công:

PROJ (PNo, PName, Budget, Loc)
PAY (Title, Sal)
ASG (ENo, PNo, Dur, Resp)

Giải thích về các thuộc tính: Sal: Lương; Title: Chức vụ; Budget: Ngân
sách của dự án; Loc: Địa điểm; Dur: Duration – Thời hạn; Resp: Responsibility
– Trách nhiệm

Đào Thanh Tùng – Lớp HTTT – KSCLC – K53
23


Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán

Giả sử ta có một yêu cầu phân mảnh quan hệ PROJ thành hai bảng PROJ1
và PROJ2 sao cho một bảng chứa các dự án có ngân sách lớn hơn 100000 và cái
kia chứa các dự án có ngân sách nhỏ hơn 100000.

b. Các yêu cầu về thông tin
Để phục vụ cho các hoạt động phân mảnh ta cần có các loại thông tin sau
đây



Thông tin về cơ sở dữ liệu

Đào Thanh Tùng – Lớp HTTT – KSCLC – K53
24


Báo cáo tìm hiểu hệ cơ sở dữ liệu phân tán

Đây là thông tin về lược đồ dữ liệu toàn cục, chỉ ra các mối liên
kết giữa các quan hệ. Ta mô hình hóa sự liên kết này bằng một đồ
thị có hướng, các cung chỉ một liên hệ kết nối bằng, mỗi nút là
một lược đồ quan hệ. Quan hệ ở đầu đường nối gọi là quan hệ chủ
nhân (Owner) còn quan hệ ở cuối đường nối gọi là quan hệ thành
viên (Member). ta định nghĩa hai hàm Owner và Member từ tập
các đường nối đến tập các quan hệ.
Ví dụ 2.2:

Ta có các hàm Owner và Member xác định như sau:
Owner (L1) = PAY, Member (L1) = EMP
Owner (L2) = EMP, Member (L2) = ASG
Owner (L3) = PROJ, Member (L3) = ASG


Thông tin về ứng dụng
Thông tin về ứng dụng có hai loại: Thông tin định tính dùng để
phân mảnh và thông tin định lượng dùng để cấp phát.
Thông tin định tính về cơ bản là các vị từ dùng trong câu vấn tin,
các vị từ này được xây dựng dựa trên sự phân tích các ứng dụng.
Định nghĩa vị từ đơn giản: Cho lược đồ R = (A1 , A2 , ..., An) với

thuộc tính Ai có miền xác định Di ta có vị từ đơn giản

Tập P Ri chứa các vị từ đơn giản trên quan hệ Ri . Ví dụ với quan hệ PROJ ở trên
ta có tập vị từ đơn giản sau: P PROJ = { PName = „Xây dựng‟, Budget ≤ 100000 }
Định nghĩa vị từ hội sơ cấp: Cho tập P Ri = {pi1, pi2, ..., pim} chứa các vị từ đơn
giản trên Ri. Ta định nghĩa tập các vị từ hội sơ cấp M i = {mi1, mi2, ..., mit } như sau:

Đào Thanh Tùng – Lớp HTTT – KSCLC – K53
25


×