Tải bản đầy đủ (.docx) (107 trang)

xây dựng cõ sở dữ liệu phân tán phục vụ thông tin nhanh về nhân sự tại quảng bình

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.67 MB, 107 trang )

MỤC LỤC


DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT
CÁC KÝ HIỆU
1. Các phép toán tập hợp


x

Phép hợp
Phép giao
Tích đề các

2. Các phép toán quan hệ

σ

Phép chọn

π

phép chiếu



Phép nối

<

Phép nửa nối



3. Các ký hiệu khác
length(Ai)

Chiều dài của thuộc tính Ai

card(Rj) Số các bộ của quan hệ Rj
size(Fi)

Kích thước của một mảnh Fi

CÁC TỪ VIẾT TẮT
CSDL

Cơ sở dữ liệu

CSDLPT

Cơ sở dữ liệu phân tán

DDBMS

Hệ quản trị cơ sở dữ liệu phân tán

NSD

Người sử dụng

QTDL


Quản trị dữ liệu

TTDL

Truyền thông dữ liệu

TDDL

Từ điển dữ liệu


DANH MỤC CÁC BẢNG
Số hiệu bảng
Bảng 1.1.
Bảng 2.1.
Bảng 2.2.
Bảng 2.3.

Tên bảng
So sánh các tính chất đặc trưng của CSDL tập
trung và CSDL phân tán
Ký hiệu quy ước cho hệ thống mã
Dạng mã hóa sở ban ngành tương đương, huyện,
xã trực thuộc
Áp mã cho hệ thống cụ thể mã các sở, ngành
tương đương

Trang
9
34

35
35

Bảng 2.4.

Áp mã cho hệ thống cụ thể mã các huyện

36

Bảng 2.5.

Áp mã cho hệ thống cụ thể mã các xã thuộc huyện
Dạng mã hóa phòng trực thuộc sở ban ngành

36

Bảng 2.6.
Bảng 2.7.
Bảng 2.8.
Bảng 2.9.
Bảng 2.10.
Bảng 2.11.
Bảng 2.12.
Bảng 2.13.
Bảng 2.14.
Bảng 2.15.
Bảng 2.16.
Bảng 2.17.
Bảng 2.18.
Bảng 3.1.


tương đương hoặc huyện
Áp mã cụ thể cho phòng trực thuộc sở ban ngành
tương đương hoặc huyện
Dạng mã hóa chức danh cán bộ, công chức cấp xã
Áp mã cụ thể cho chức danh cán bộ, công chức
cấp xã
Dạng mã hóa nhân sự
Áp mã cho nhân sự cụ thể
Dạng mã hóa các quyền truy xuất ngang
Dạng mã hóa các quyền truy xuất dọc
Áp dụng bảng mã cụ thể cho quyền truy xuất dọc
các sở, ban ngành tương đương
Ma trận sử dụng thuộc tính
Ma trận thuộc tính hấp dẫn AA
Ma trận hấp dẫn tụ
So sánh kiểm soát toàn vẹn ngữ nghĩa tập trung và
phân tán
Bảng tương thích của các thể thức khóa

37
37
38
38
38
38
39
40
40
49

49
51
67
80


DANH MỤC CÁC HÌNH
Số hiệu

Tên hình

Hình
Hình 1.1.
Hình 1.2.
Hình 1.3.
Hình 1.4.
Hình 1.5.
Hình 1.6.
Hình 1.7.
Hình 1.8.
Hình 1.9.
Hình 1.10.
Hình 1.11.
Hình 1.12.
Hình 2.1.

Sự phân tán các cụm server trong hệ thống phục
vụ thông tin nhanh về nhân sự tại Quảng Bình
Môi trường hệ CSDL phân tán
Các thành phần của CSDL phân tán thông tin

nhanh về nhân sự tại Quảng Bình
Kiến trúc tham chiếu của CSDL phân tán
Các phân mảnh và mô hình vật lý cho một quan hệ
toàn cục
Truy xuất từ xa thông qua các tác vụ cơ bản
Truy xuất từ xa thông qua chương trình phụ trợ
Trong suốt phân đoạn
Trong suốt định vị
Trong suốt ánh xạ địa phương
Phân mảnh hỗn hợp
Mô hình giao dịch
Cơ cấu tổ chức các cơ quan hành chính tỉnh Quảng
Bình

Trang
5
6
8
11
12
13
13
15
15
16
23
29
32

Hình 2.2.


Mô hình phân cấp quản lý

42

Hình 2.3.

Sơ đồ thiết kế CSDL theo mô hình từ trên xuống

45

Hình 2.4.

Kịch bản chi phí đọc

52

Hình 2.5.

Kịch bản chi phí ghi

53

Hình 2.6.

Mô hình cấp phát dữ liệu phân tán

56

Hình 2.7.

Hình 3.1.
Hình 3.2.
Hình 3.3.
Hình 3.4.
a,b,c
Hình 3.5.

Lược đồ phân tầng tổng quát để xử lý truy vấn
phân tán
Biểu đồ phân cấp chức năng
Biểu đồ luồng dữ liệu mức ngữ cảnh
Biểu đồ luồng dữ liệu mức đỉnh
Các Biểu đồ luồng dữ liệu mức dưới đỉnh
Phân loại các thuật toán điều khiển tương tranh

57
68
68
69
69,70
78


Số hiệu
Hình
Hình 3.6.
Hình 3.7.
Hình 3.8.
Hình 3.9.
Hình 3.10.

Hình 3.11.
Hình 3.12.
Hình 3.13.
Hình 3.14.
a,b,c,d
Hình 3.15.
Hình 3.16.
Hình 3.17.
a,b
Hình 3.18.
a,b
Hình 3.19.
a,b

Tên hình

Trang

Biểu đồ khóa 2 pha (2PL)
Biểu đồ khóa 2 pha nghiêm ngặt
Cấu trúc truyền giao của khóa 2 pha tập trung
Cấu trúc truyền giao của khóa 2 pha phân tán
Kiến trúc chương trình ứng dụng phân tán phục vụ
thông tin nhanh về nhân sự tỉnh Quảng Bình
Mô hình phân tán và cập nhật mảnh trên các cụm
server
Chức năng đăng nhập
Giao diện NSD thêm thông tin nhân sự

80

81
82
82

Cập nhật các thông tin khác

93

Lựa chọn đơn vị để liệt kê nhân sự trực thuộc
Chức năng thuyên chuyển công tác
Đăng nhập hệ thống (a) và kết quả bảng dữ liệu
nhân sự (b) ở cụm server 3
Đăng nhập hệ thống (a) và kết quả bảng dữ liệu
nhân sự (b) ở cụm server 2
Đăng nhập hệ thống (a) và kết quả bảng dữ liệu
nhân sự (b) ở cụm server 1

94
95

87
89
91
93

96
96
97



6

MỞ ĐẦU
1. Tính cấp thiết của đề tài
Về cơ cấu tổ chức, tỉnh Quảng Bình có 159 đơn vị hành chính cấp xã, 8
huyện, thành phố và 20 sở, ban ngành là các cơ quan hành chính cấp tỉnh
thuộc Ủy ban nhân dân tỉnh quản lý. Sở Nội vụ là cơ quan chuyên môn, giúp
Ủy ban nhân dân tỉnh quản lý cán bộ, công chức, viên chức toàn tỉnh với 187
đầu mối các cơ quan, ban, ngành. Việc quản lý nhân sự được bố trí phân tán
theo tổ chức và phân cấp quản lý đa tầng.
Đến năm 2012, toàn tỉnh Quảng Bình có hơn 20.000 công chức, viên
chức. Đối với cấp xã, toàn tỉnh hiện có 3.300 cán bộ, công chức và 6.700
người hoạt động không chuyên trách. Như vậy, trong toàn tỉnh có gần 30.000
hồ sơ cán bộ, công chức, viên chức và những người hoạt động không chuyên
trách cần được quản lý.
Hồ sơ cán bộ, công chức là tài liệu quan trọng có tính pháp lý phản ánh
trung thực về lý lịch của từng cá nhân cán bộ, công chức.
Trên thực tế, công tác quản lý hồ sơ cán bộ, công chức bằng phương
pháp truyền thống (hồ sơ giấy) nói chung và hồ sơ điện tử về cán bộ, công
chức nói riêng thời gian qua chưa được quan tâm, chỉ đạo để thực hiện một
cách đầy đủ và nghiêm túc. Do vậy, khi các cơ quan Nhà nước có thẩm quyền
yêu cầu số liệu để phục vụ cho việc nghiên cứu hoạch định chính sách đối với
đội ngũ cán bộ, công chức hoặc ra quyết định về nhân sự thì các cơ quan
chuyên môn không cung cấp được hoặc nếu có thì bản thân số liệu đó lại lạc
hậu và thiếu chính xác, không đầy đủ và thường không kịp thời.
Từ thực tế nêu trên, để đáp ứng yêu cầu về tính kịp thời, nâng cao chất
lượng và hiệu quả công cụ quản lý cán bộ, công chức chính quy và hiện
đại, cần thiết xây dựng cơ sở dữ liệu thông tin về cán bộ, công chức hành



7

chính nhà nước của tỉnh. Vì vậy, đề tài “Xây dựng cơ sở dữ liệu phân tán
phục vụ thông tin nhanh về nhân sự tại Quảng Bình” được lựa chọn là
hướng đi phù hợp với hệ thống quản lý đa tầng, phức tạp, phải xử lý theo
hướng phân tán mới giải quyết được yêu cầu bài toán; đồng thời hỗ trợ
thực hiện cải cách hành chính, hướng tới chính quyền điện tử là vấn đề tỉnh
Quảng Bình đang quan tâm ưu tiên thực hiện trong giai đoạn hiện nay.

2. Mục tiêu nghiên cứu
Nghiên cứu lý thuyết cơ sở dữ liệu phân tán để xây dựng cơ sở dữ liệu
phân tán giải quyết bài toán đã đặt ra. Tập trung vào hai nội dung chính: tin
học hóa trong công tác quản lý hành chính nhà nước và trợ giúp thông tin
nhanh về nhân sự. Ứng dụng có khả năng kết nối mạng giữa ba cấp: tỉnh,
huyện và xã; có khả năng mở rộng để kết nối với cơ sở dữ liệu Trung ương
trong tương lai.

3. Đối tượng và phạm vi nghiên cứu
3.1. Đối tượng nghiên cứu
- Lý thuyết hệ tin học phân tán; cơ sở dữ liệu phân tán.
- Các công cụ, công nghệ được sử dụng để xây dựng cơ sở dữ liệu phân
tán theo mô hình giải pháp đã lựu chọn.
- Hồ sơ cán bộ, công chức, viên chức tỉnh Quảng Bình.
3.2. Phạm vi nghiên cứu
- Quy trình quản lý hồ sơ cán bộ, công chức; các văn bản quy phạm pháp
luật về quản lý hồ sơ cán bộ, công chức hiện hành.
- Thiết kế, phân mảnh cơ sở dữ liệu và cấp phát các mảnh; điều khiển
đồng thời phân tán.



8

4. Phương pháp nghiên cứu
- Nghiên cứu lý thuyết:
+ Các văn bản quy phạm pháp luật hiện hành quy định về
quản lý cán bộ, công chức;
+ Các nguyên lý về cơ sở dữ liệu phân tán.
- Nghiên cứu thực nghiệm:
+ Phân cấp, quy trình quản lý cán bộ, công chức, quản lý hồ
sơ cán bộ, công chức tại tỉnh Quảng Bình;
+ Cài đặt thực nghiệm cơ sở dữ liệu.

5. Bố cục luận văn
Luận văn gồm có 3 chương, gồm:
Chương 1. Tổng quan về cơ sở dữ liệu phân tán
Chương 2. Phân tích, thiết kế cơ sở dữ liệu phân tán phục vụ thông tin
nhanh về nhân sự tại Quảng Bình
Chương 3. Xây dựng chương trình phân tán phục vụ thông tin nhanh về
nhân sự tại Quảng Bình

6. Tổng quan tài liệu nghiên cứu
- Quy định hiện hiện hành của Nhà nước về quản lý cán bộ, công chức,
viên chức và tình hình thực tế của địa phương;
- Hệ tin học phân phân tán; nguyên lý hệ cơ sở dữ liệu phân tán
- Ngôn ngữ lập trình Java và JSP
- Hệ quản trị cơ sở dữ liệu MySQL


9


CHƯƠNG 1
TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN
Hệ cơ sở dữ liệu phân tán phục vụ thông tin nhanh về nhân sự tại Quảng
Bình là hệ thống hợp nhất quản lý từ cấp tỉnh đến tất cả các xã trực thuộc
huyện, do dó cơ sở dữ liệu phục vụ quản lý phải hợp nhất và là tài nguyên
dùng chung để khai thác hiệu quả về công tác quản lý nhân sự.
Hệ thống có sự phân cấp khác nhau nhằm mục đích quản lý, tra cứu,
thống kê và cập nhật thông tin một cách nhanh chóng, hiệu quả. Trên cơ sở
đó, hệ quản lý phân cấp thành 3 cụm Server khác nhau và phân tán trên phạm
vi địa lý khác nhau. Cụm thứ nhất quản lý nhân sự cấp sở, ban ngành tương
đương trực thuộc tỉnh. Cụm thứ hai quản lý nhân sự cấp huyện, ở đây chủ yếu
quản lý nhân sự các phòng trực thuộc huyện. Cụm thứ ba quản lý nhân sự cấp
xã, công tác quản lý tập trung là các cán bộ có chức danh thuộc xã.
Việc phân tán cơ sở dữ liệu và chương trình trên hệ thống 3 cụm Server
khác nhau theo Hình 1 buộc phải có sự phân tích, thiết kế và vận hành hệ đảm
bảo tính hoạt động ổn định và gắn bó trên hệ. Bên cạnh đó, công tác quản lý
các luồng dữ liệu khai thác dùng chung là yếu tố sống còn của hệ, như vậy ta
có thể phân chia hệ thành hai thành phần cơ bản là mạng máy tính và cơ sở dữ
liệu phân tán.

1.1. MẠNG MÁY TÍNH
- Là tập các máy tính tự vận hành, được kết nối lại và có khả năng trao
đổi thông tin giữa chúng.
- Các máy tính trên một mạng thường được gọi là các nút hay các trạm,
chúng tạo ra các phần cứng cơ bản của mạng và được kết nối lại với nhau bởi
một đường truyền.


10


- Một mạng máy tính là
một trường hợp đặc biệt của
môi trường xử lý phân tán,
trong đó các máy tính là các
thiết bị được kết nối vào kênh
truyền dữ liệu.
- Việc chuyển các ứng
dụng trên máy tính cá nhân
cũng như các ứng dụng trên
các hệ thống máy lớn trung
Hình 1.1. Sự phân tán các cụm server trong hệ
thống phục vụ thông tin nhanh về nhân sự tại
một xu hướng phát triển mạnh.
Quảng Bình
tâm sang mô hình phân tán là

- Cần lựa chọn hình thức phân tán thích hợp nào cho mỗi mô hình được
chuyển đổi. Đây là yêu tố quan trọng để xây dựng hệ thống phù hợp với từng
yêu cầu và chức năng của các ứng dụng khác nhau; đối với hệ phục vụ thông
tin nhanh về nhân sự tại Quảng Bình, phương pháp phân tán lựa chọn là phân
tán không đồng nhất, dữ liệu được phân mảnh dọc và bố trí trên các cụm
Server khác nhau. Dữ liệu phân mảnh dựa trên nền tảng của cơ sở dữ liệu
phân tán cho phép dữ liệu được cập nhật trên 1 cụm Server lập tức sẽ cập nhật
trên các cụm còn lại nếu được phân quyền và ở Server cấp cao hơn.


11

1.2. CƠ SỞ DỮ LIỆU PHÂN TÁN
1.2.1. Các khái niệm cơ bản về cơ sở dữ liệu phân tán

Nguyên lý các hệ cơ
sở dữ liệu phân tán được
xây dựng dựa trên sự kết
hợp của hai hướng tiếp cận
đối với quá trình xử lý dữ
liệu đó là: lý thuyết hệ cơ
sở dữ liệu và công nghệ
mạng máy tính [4].
Một cơ sở dữ liệu
phân tán là một tập hợp
nhiều cơ sở dữ liệu có liên
đới logic và được phân bố

Hình 1.2. Môi trường hệ cơ sở dữ liệu phân tán

trên một mạng máy tính theo Hình 1.2.
Mỗi vị trí có quyền tự quản cơ sở dữ liệu cục bộ của mình và thực thi các
ứng dụng cục bộ. Mỗi vị trí cũng phải tham gia vào việc thực thi ít nhất một
ứng dụng toàn cục mà yêu cầu truy xuất dữ liệu tại nhiều vị trí qua mạng.
Định nghĩa này nhấn mạnh hai khía cạnh quan trọng của cơ sở dữ liệu
phân tán:
- Tính phân tán: Dữ liệu thực tế không cư trú ở cùng một vị trí;
- Sự tương quan logic: Các dữ liệu có một số tính chất ràng buộc lẫn nhau.
Đối với hệ thống phục vụ thông tin nhanh về nhân sự tại Quảng Bình có
các đặc điểm về xử lý tại các cụm Server:
Cụm Server cấp xã: nhập liệu cán bộ, xử lý thông tin về cá nhân, thống kê
chuyển một phần thông tin về cán bộ mới cập nhật lên cụm Server cấp huyện.
Cụm Server cấp huyện: nhập liệu cán bộ, xử lý thông tin về cá nhân, thống



12

kê chuyển một phần thông tin về cán bộ mới cập nhật lên cụm Server cấp sở.
Cụm Server cấp sở, ban ngành và tương đương: nhập liệu cán bộ, xử lý
thông tin về cá nhân, thống kê thông tin về cán bộ, việc cập nhật chỉ tiến hành
cục bộ.
1.2.2. Hệ quản trị cơ sở dữ liệu phân tán (DDBMS)
Hệ quản trị cơ sở dữ liệu phân tán là hệ thống phần mềm cho phép quản
lý các hệ cơ sở dữ liệu phân tán và làm cho việc phân tán trở nên trong suốt
đối với người sử dụng [3].
Hệ quản trị cơ sở dữ liệu phân tán hỗ trợ việc tạo và bảo trì cơ sở dữ liệu
phân tán, chúng có các thành phần tương tự như một hệ quản trị cơ sở dữ liệu
tập trung và các thành phần hỗ trợ trong việc chuyển tải dữ liệu đến các trạm
và ngược lại.
Có ba kiểu kiến trúc DDBMS: Kiến trúc khách/đại lý, kiến trúc ngang
hàng; kiến trúc phức hệ.
Hệ quản trị cơ sở dữ liệu phân tán được phân làm 2 loại :
- Cơ sở dữ liệu phân tán thuần nhất;
- Cơ sở dữ liệu phân tán hỗn tạp.
Theo Hình 1.3 các thành phần nhất thiết một DDBMS thông tin nhanh về
nhân sự tại Quảng Bình phải có:
- Quản trị dữ liệu: QTDL
- Truyền thông dữ liệu: TTDL
- Từ điển dữ liệu: TDDL dùng để mô tả thông tin về sự phân tán của dữ
liệu trên mạng.
- Cơ sở dữ liệu phân tán: CSDLPT
- Người sử dụng: NSD


13


Theo hình 1.3, người sử dụng tác động đến truyền thông dữ liệu để yêu
cầu nguồn thông tin mà mình mong muốn, các hoạt động bên trong hệ thống
người dùng không quan tâm đến hay cần biết hiện nguồn dữ liệu đang nằm ở
vị trí nào. Các kết nối để lựa chọn dữ liệu trên các cụm Server khác được thực
hiện dựa trên thành phần là cơ sở dữ liệu phân tán.

Hình 1.3. Các thành phần của cơ sở dữ liệu phân tán
thông tin nhanh về nhân sự tại Quảng Bình

1.2.3. Các điểm đặc trưng của cơ sở dữ liệu phân tán
Cơ sở dữ liệu phân tán không đơn giản là việc phân tán các cơ sở dữ liệu
tập trung, nó cho phép thiết kế các hệ thống có các tính chất khác với hệ
thống tập trung truyền thống. So sánh các tính chất đặc trưng của cơ sở dữ


14

liệu tập trung và cơ sở dữ liệu phân tán như sau:
Bảng 1.1. So sánh các tính chất đặc trưng của cơ sở dữ liệu tập trung
và cơ sở dữ liệu phân tán
Tính chất đặc

Cơ sở dữ liệu tập trung

trưng

Cơ sở dữ liệu phân tán

- Điều khiển tập trung trên - Cấu trúc điều khiển phân

Cấu trúc

các tài nguyên thông tin.

cấp: quản trị cơ sở dữ liệu

điều khiển

- Cần có người quản trị cơ toàn cục và quản trị cơ sở dữ
sở dữ liệu.

liệu cục bộ phân tán.

- Tổ chức dữ liệu trong suốt - Tính chất độc lập dữ liệu như
với

lập

trình

viên.

Các trong cơ sở dữ liệu tập trung

chương trình được viết có - Bổ sung tính chất trong suốt
Độc lập
dữ liệu

cái nhìn “quan niệm” về dữ phân tán; tính đúng đắn của các
liệu.


chương trình ứng dụng không bị

- Ưu điểm: các chương trình ảnh huởng bởi sự di chuyển dữ
không bị ảnh hưởng bởi sự liệu từ vị trí này đến vị trí khác.
thay đổi tổ chức vật lý của
dữ liệu
- Giảm thiểu dư thừa dữ liệu
đảm bảo tính gắn bó.
Giảm thiểu dư thừa dữ liệu

Dư thừa dữ do:
liệu

- Tính gắn bó dữ liệu.
- Tiết kiệm dung lượng nhớ.

- Nhân bản dữ liệu đến các địa
điểm mà các ứng dụng cần đến,
giúp việc thực thi các ứng dụng
không dừng nếu có một địa
điểm bị hỏng. Tuy nhiên vấn đề
quản lý gắn bó dữ liệu sẽ phức
tạp hơn.


15

Tính chất đặc
trưng


Cơ sở dữ liệu tập trung

Cơ sở dữ liệu phân tán

Các cấu
trúc vật lý

Các cấu trúc vật lý phức tạp

Các cấu trúc vật lý phức tạp

phức tạp và giúp cho việc truy xuất dữ

giúp liên lạc dữ liệu trong cơ

truy xuất

liệu được hiệu quả.

sở dữ liệu phân tán.

Dựa vào giao dịch.

Dựa vào giao dịch phân tán.

hiệu quả
Tính toàn
vẹn, phục
hồi, đồng

thời
Việc chọn lựa cơ sở dữ liệu phân tán sẽ thích hợp đối với các ứng dụng
phát triển trong một hệ thống mạng diện rộng do cải tiến hiệu năng, giảm
tranh chấp và giảm chi phí truyền bằng cách phân mảnh và phân tán dữ liệu
hợp lý. Đối với trường hợp xây dựng hệ thống phục vụ thông tin nhanh về
nhân sự tại Quảng Bình, việc lựa chọn cơ sử dữ liệu phân mảnh dọc là bài
toán tối ưu cho ứng dụng quản lý, tra cứu và thống kê nhân sự tại tỉnh và đảm
bảo hiệu năng khai thác sử dụng và giảm chi phí truyền.
1.2.4. Kiến trúc tham chiếu của cơ sở dữ liệu phân tán
Kiến trúc tham chiếu không được cài đặt rõ ràng trên tất cả cơ sở dữ
liệu phân tán, tuy nhiên các mức của nó được khái quát chính xác, thích hợp
để mô tả tổ chức chung cho mọi hệ cơ sở dữ liệu phân tán.


16

Hình 1.4. Kiến trúc tham chiếu của cơ sở dữ liệu phân tán
- Lược đồ toàn cục: Mô tả tổng thể và thống nhất chung nhất của tất cả
dữ liệu của cơ sở dữ liệu phân tán độc lập với môi trường phân tán.
- Lược đồ phân mảnh: Mỗi quan hệ toàn cục có thể được chia thành các
thành phần không trùng nhau được gọi là các phân mảnh. Lược đồ phân mảnh
định nghĩa ánh xạ giữa các quan hệ toàn cục và các phân mảnh. Ánh xạ này là
một - nhiều: Một số mảnh tương ứng với một quan hệ toàn cục, nhưng chỉ
một quan hệ toàn cục tương ứng với một mảnh. Ký hiệu Ri là mảnh thứ i của
quan hệ toàn cục R.
- Lược đồ cấp phát: Các mảnh là các thành phần logic của các quan hệ
toàn cục, được lưu trữ vật lý tại một hay một số vị trí. Lược đồ cấp phát xác


17


định vị trí của một mảnh. Kiểu ánh xạ định nghĩa trong lược đồ cục bộ xác
định cơ sở dữ liệu phân tán có dư thừa hay không. Trong trường hợp ánh xạ là
một-nhiều thì nó dư thừa, ngược lại nếu ánh xạ có kiểu một-một thì nó không
dư thừa. Tất cả các mảnh tương ứng với cùng một quan hệ toàn cục R và được
lưu trữ tại vị trí j tạo thành ảnh vật lý của quan hệ R tại vị trí j. Kí hiệu Rj chỉ
ảnh vật lý của quan hệ toàn cục R tại vị trí j.

Hình 1.5. Các phân mảnh và mô hình vật lý cho một quan hệ toàn cục
( R12 chỉ một bản sao của mảnh R2 lưu trữ tại vị trí 1 )
- Lược đồ ánh xạ cục bộ: Ánh xạ các hình ảnh vật lý tới các đối tượng
được thao tác bởi các hệ quản trị cơ sở dữ liệu cục bộ. Trong hệ không thuần
nhất ta có các kiểu ánh xạ cục bộ khác nhau tại các vị trí khác nhau.
Ba đối tượng quan trọng nhất của kiến trúc này là sự tách biệt giữa sự
phân mảnh dữ liệu và sự cục bộ hóa dữ liệu, điều khiển dư thừa dữ liệu và
tính độc lập ở các hệ quản trị cơ sở dữ liệu cục bộ.


18

1.2.5. Các loại truy xuất CSDL phân tán
a. Truy xuất từ xa thông qua các tác vụ cơ bản
Chương trình ứng
dụng từ Sở Nội vụ phát
ra một yêu cầu truy
xuất CSDL thông tin cá
nhân phòng Giáo dục
và Đào tạo thuộc huyện
Lệ Thủy. Yêu cầu này
sẽ được DDBMS1 xử

lý, sau khi xử lý xong,
chương trình tiếp tục
gửi yêu cầu truy xuất
CSDL gửi DDBMS2 xử Hình 1.6. Truy xuất từ xa thông qua các tác vụ cơ bản
lý và gửi đến vị trí chứa dữ liệu đó. Thực hiện xong sẽ gửi kết quả trả về (theo
Hình 1.6).
b. Truy xuất từ xa
thông qua chương trình
phụ trợ
Một ứng dụng yêu
cầu

thực

hiện

một

chương trình phụ trợ.
Chương trình phụ trợ
này sẽ truy xuất CSDL
từ xa và trả lại kết quả
cho chương trình ứng
dụng đang yêu cầu. Tại
Hình 1.7. Truy xuất từ xa thông qua chương trình phụ trợ


19

Sở Nội vụ yêu cầu xem lý lích trích ngang của Chủ tịch Hội đồng nhân dân từ

cấp tỉnh đến cấp xã. Cụm Server 1 sau khi tiếp nhận yêu cầu, lập tức phái sinh
chương trình phụ trợ để lọc và trích xuất thông tin từ các cụm Server khác,
các yêu cầu lập tức xử lý nội bộ và gửi đến cụm Server 2 và cụm Server 2
chuyển tiếp yêu cầu đến cụm Server 3. Sau khi thực hiện xong các yêu cầu và
các kết quả trả về, chương trình phụ trợ sẽ tổng hợp lại và trả kết quả về cho
người sử dụng.

1.3. CÁC MỨC TRONG SUỐT CỦA CSDL PHÂN TÁN
1.3.1. Khái niệm tính trong suốt
Tính trong suốt là tính chất căn bản của hệ phân tán. Tính trong suốt của
hệ phân tán được hiểu như là sự che khuất đi các thành phần riêng biệt của hệ
thống máy tính đối với người sử dụng và những người lập trình ứng dụng.
Người sử dụng có quyền truy cập đến dữ liệu đặt tại một vị trí dữ liệu ở xa
một cách tự động nhờ hệ thống mà không cần biết đến sự phân tán của tất cả
dữ liệu trên mạng. Hệ thống tạo cho người dùng cảm giác là dữ liệu được coi
như đặt tại máy tính cục bộ của mình.
Sự che khuất thông tin phụ thuộc hệ thống khỏi người dùng dựa trên việc
cân bằng giữa tính đơn giản và tính hiệu quả. Đáng tiếc, hai tính chất này
xung đột nhau. Bởi vậy, mong muốn một mục tiêu trong suốt hoàn toàn là
không thích hợp. Hệ phân tán tốt là cố gắng đạt được tính trong suốt cao nhất
có thể được.
1.3.2. Một số khía cạnh điển hình của tính trong suốt
Tính trong suốt thể hiện trong nhiều khía cạnh, dưới đây là một số khía
cạnh điển hình nhất:
- Trong suốt phân đoạn (trong suốt duyệt lại) theo Hình 1.8 chỉ dẫn rằng
sự tăng trưởng hệ thống theo chiều dọc là tỷ lệ nghịch với sự tăng trưởng hệ
thống theo chiều ngang. Sự duyệt lại phần mềm bị che khuất đối với người


20


dùng. Khi dữ liệu đã được
phân mảnh thì việc truy cập
vào cơ sở dữ liệu được thực
hiện như lúc chưa phân tán và
không ảnh hưởng tới người sử
dụng.
- Trong suốt định vị
(trong suốt tên): theo Hình 1.9
người dùng không nhận biết
được vị trí của đối tượng. Đối

Hình 1.8. Trong suốt phân đoạn

tượng được định vị và chỉ dẫn theo tên lôgic trong một hệ thống thống nhất.
Trong suốt di trú (còn được
gọi là độc lập định vị): là tính
chất bổ sung vào trong suốt
định vị theo nghĩa không
những đối tượng được chỉ dẫn
bằng tên lôgic mà đối tượng
còn được di chuyển tới định vị
vật lý khác mà không cần đổi
tên.

Hình 1.9. Trong suốt định vị

Tính trong suốt định vị rất hữu ích, nó cho phép người sử dụng bỏ qua
các bản sao dữ liệu đã tồn tại ở mỗi vị trí. Do đó, có thể di chuyển một bản
sao dữ liệu từ vị trí này đến vị trí khác và cho phép tạo ra bản sao mới mà

không ảnh hưởng đến các ứng dụng.
- Trong suốt ánh xạ địa phương: theo Hình 1.10 đó là đặc tính quan trọng
trong một hệ thống DBMS không đồng nhất. Ứng dụng tham chiếu đến các
đối tượng có các tên độc lập từ các hệ thống cục bộ địa phương. Ứng dụng


21

được cài đặt trên một hệ
thống không đồng nhất
nhưng được sử dụng như
một hệ thống đồng nhất.
- Trong suốt nhân
bản: đưa ra tính gắn bó
của đa thể hiện (hoặc
vùng) của file và dữ liệu.

Hình 1.10. Trong suốt ánh xạ địa phương

Tính chất này quan hệ mật thiết với trong suốt đồng thời song được cụ thể
hơn vì file và dữ liệu là loại đối tượng đặc biệt.
- Trong suốt đồng thời: cho phép chia sẻ đối tượng dùng chung không
gặp tranh chấp. Nó tương tự như khái niệm phân chia thời gian theo nghĩa
khái quát.
- Trong suốt song song: cho phép các hoạt động song song mà người
dùng không cần biết hoạt động song song đó xảy ra như thế nào, ở đâu và khi
nào. Tính song song có thể không được người dùng đặc tả.
- Trong suốt truy nhập: Truy nhập đối tượng địa phương/toàn cục theo
cùng một cách thức. Sự tách rời vật lý của các đối tượng hệ thống được che
khuất tới người dùng.

- Trong suốt lỗi: cung cấp khả năng thứ lỗi của hệ thống được hiểu là lỗi
trong hệ thống có thể được biến đổi thành sự giảm hiệu năng hệ thống một
cách mềm dẻo hơn chứ không phải chỉ là làm cực tiểu sự đổ vỡ và nguy hiểm
đối với người dùng.
- Trong suốt hiệu năng: cố gắng giành được tính gắn bó và khẳng định
(không cần thiết ngang bằng) mức độ hiệu năng thậm chí khi thay đổi cấu trúc
hệ thống hoặc phân bố tải. Hơn nữa, người dùng không phải chịu sự chậm trễ
hoặc thay đổi quá mức khi thao tác từ xa. Trong suốt hiệu năng còn được thể


22

hiện là hiệu năng hệ thống không bị giảm theo thời gian.
- Trong suốt kích thước: liên quan đến tính mềm dẻo và tiềm tàng. Nó
cho phép sự tăng trưởng của hệ thống được che khuất đối với người sử dụng.
Kích thước hệ thống không tạo ra tác động đối với nhận thức của người dùng.

1.4. PHÂN MẢNH VÀ CẤP PHÁT DỮ LIỆU
1.4.1. Phân mảnh dữ liệu
a. Lý do phân mảnh
Trong các hệ quản trị CSDL, các quan hệ được lưu trữ dưới dạng các
bảng 2 chiều. Thao tác đối với CSDL được thực hiện trên các bảng. Tuy nhiên
trong thực tế, các ứng dụng chỉ yêu cầu thao tác trên các tập con của các quan
hệ, là khung nhìn dữ liệu của người sử dụng. Vì vậy việc xem tập con của
quan hệ là đơn vị truy xuất thông tin để phân tán dữ liệu là hợp lý.
Phân rã một quan hệ thành nhiều mảnh, mỗi mảnh được xử lý như một
đơn vị dữ liệu, sẽ cho phép thực hiện nhiều giao dịch đồng thời. Phân mảnh
các quan hệ cũng cho phép thực hiện song song một câu truy vấn bằng cách
chia nó thành một tập các câu truy vấn con hoạt tác trên các mảnh. Vì thế việc
phân mảnh sẽ làm tăng mức độ hoạt động đồng thời và tăng lưu lượng hoạt

động của hệ thống.
Tuy nhiên việc phân mảnh cũng thể hiện những hạn chế nhất định:
- Nếu ứng dụng có những yêu cầu “xung đột” ngăn cản phân rã thành các
mảnh được sử dụng độc quyền;
- Những ứng dụng có các khung nhìn được định nghĩa trên nhiều mảnh
khác nhau sẽ làm giảm hiệu suất hoạt động của hệ thống, làm tăng chi
phí truy xuất dữ liệu đến các mảnh và tăng chi phí kết nối các mảnh;
- Việc kiểm soát ngữ nghĩa, đặc biệt là vấn đề kiểm tra tính toàn vẹn sẽ
khó khăn hơn.
Đối với hệ thống phục vụ thông tin nhanh về nhân sự tại Quảng Bình, dữ
liệu được phân rã và phân tán trên 3 cụm Server khác nhau và với mức độ yêu


23

cầu tính chất về tra cứu, thống kê thông tin đối với bài toán quản lý nhân sự được
đặt ra tại tỉnh thì hệ thống phân mảnh dọc là thích hợp nhất với điều kiện hiện
nay. Nhưng với nhu cầu phát triển thì hệ thống có thể sử dụng phương pháp phân
mảnh lai sẽ mang lại hiệu quả cao hơn trong việc xây dựng ứng dụng và cơ sở
dữ liệu phân tán. Trong luận văn này, tôi giới thiệu cả ba phương pháp phân
mảnh nhưng giải pháp của bài toán là lựa chọn phân mảnh dọc, do đó các
phương pháp phân tích, thiết kế tập trung vào phân mảnh này sẽ được trình bày
trong Chương 2.
b. Các quy tắc phân mảnh
Các nguyên tắc để đảm bảo cơ sở dữ liệu khi phân mảnh sẽ đảm bảo tính
không thay đổi về ngữ nghĩa. Ba qui tắc phải tuân thủ khi phân mảnh cơ sở dữ
liệu quan hệ:
- Tính đầy đủ
Quan hệ R được phân rã thành các mảnh R1, R2, …, Rn , thì mỗi mục dữ
liệu có trong quan hệ R sẽ được chứa trong ít nhất một mảnh Ri (i=1,.., n).

Quy tắc này đảm bảo cho các mục dữ liệu trong R được ánh xạ hoàn toàn vào
các mảnh và không bị mất. Mục dữ liệu có thể hiểu là bộ trong phân mảnh
ngang và thuộc tính trong phân mảnh dọc.
- Tính phục hồi
Nếu một quan hệ R được phân rã thành các mảnh R1, R2 ,…, Rn khi đó:
R=∇Ri, ∀ Ri ∈ FR . Toán tử ∇ thay đổi tùy theo từng loại phân mảnh. Khả
năng phục hồi quan hệ từ các mảnh sẽ đảm bảo bảo toàn các phụ thuộc.
- Tính tách biệt
Nếu quan hệ R được phân rã ngang thành các mảnh Ri, i = 1,..,n và mục
dữ liệu dj nằm trong một mảnh Rj thì nó sẽ không nằm trong mảnh Rk , (k≠j).
Quy tắc này đảm bảo các mảnh phân rã rời nhau. Trong trường hợp phân
mảnh dọc, khóa chính của quan hệ phải được lặp lại trong tất cả các mảnh. Vì


24

vậy tính tách biệt trong phân mảnh dọc được hiểu không liên quan gì đến
khóa chính của quan hệ.
c. Mức độ phân mảnh
Phân mảnh cơ sở dữ liệu đến mức độ nào là đủ để không làm ảnh hưởng
đến hiệu năng của việc thực hiện truy vấn. Mức độ phân mảnh có thể là phân
mảnh một quan hệ chưa được phân mảnh, có thể phân mảnh các quan hệ đã
được phân mảnh. Có thể phân mảnh theo chiều dọc hoặc theo chiều ngang.
Một mức độ ứng phân mảnh thích hợp sao cho tránh được các hạn chế
khi phân mảnh chỉ được định nghĩa ứng với các ứng dụng sẽ chạy trên cơ sở
dữ liệu. Trong hệ thống phục vụ thông tin nhanh về nhân sự tại Quảng Bình,
việc phân mảnh dọc sẽ thực hiện phân mảnh trên cụm Server 1 và cụm Server
2; các mảnh được phân dựa trên chi phí cập nhật và tra cứu để tối ưu đối với
ứng dụng được triển khai và chi phí đường truyền cũng như truy vấn trong hệ.
d. Các phương pháp phân mảnh

Phân mảnh ngang
Chia quan hệ thành nhiều các nhóm bộ. Kết quả của quá trình phân mảnh
ngang là các quan hệ con, số lượng quan hệ con phụ thuộc vào điều kiện ràng
buộc của các thuộc tính. Các bộ trong các quan hệ con là tách biệt nhau. Phân
mảnh ngang thực chất là phép chọn quan hệ thỏa mãn một biểu thức điều kiên
cho trước.
Có hai phương pháp phân mảnh ngang:
- Phân mảnh ngang nguyên thủy: Là phân mảnh ngang được thực
hiện trên các vị từ của chính quan hệ đó.
- Phân mảnh ngang dẫn xuất: Là phân rã một quan hệ dựa trên các
vị từ của quan hệ khác.
Phân mảnh ngang nguyên thủy: được định nghĩa bằng phép chọn trên
quan hệ đích của lược đồ CSDL. Cho quan hệ R, các mảnh ngang của Ri là:


25

Ri = σ Fi ( R ) , i = 1..n

(1.1)

Trong đó Fi là biểu thức đại số quan hệ. Nếu Fi có dạng chuẩn hội, thì nó
là vị từ hội sơ cấp (mi).
Phân mảnh ngang Ri của quan hệ R gồm tất cả các bộ của R thoả một vị
từ hội sơ cấp mi. Vì vậy, cho một tập M các vị từ hội sơ cấp, số lượng phân
mảnh ngang của quan hệ R bằng số lượng các vị từ hội sơ cấp. Tập các mảnh
ngang được gọi là tập các mảnh hội sơ cấp. Định nghĩa phân mảnh ngang phụ
thuộc vào vị từ hội sơ cấp, vì vậy, cần phải xác định các vị từ đơn giản tạo ra
vị từ hội sơ cấp.
Phân mảnh ngang dẫn xuất: dựa trên các quan hệ thành viên của một

đường nối theo phép toán chọn trên quan hệ chủ.
Mục tiêu của phân mảnh ngang dẫn xuất là phân chia các quan hệ thành
viên thành các mảnh của quan hệ chủ được định nghĩa trên các thuộc tính của
quan hệ thành viên. Vì vậy, liên kết giữa quan hệ chủ và quan hệ thành viên
được định nghĩa như là một nối bằng và nối bằng có thể được cài đặt nối nửa.
Cho một đường nối L, trong đó, Owner(L) = S và Member(L) = R. Phân
mảnh ngang dẫn xuất của R được định nghĩa như sau:
Ri = R

Si

1 ≤ i ≤ k, trong đó, k là số mảnh

, Fi là biểu thức định nghĩa mảnh ngang nguyên thuỷ Si.
Nhận xét :
- Phân mảnh dẫn xuất có thể xảy ra dây chuyền, trong đó một quan hệ
được phân mảnh như là hệ quả của một phân mảnh cho một quan hệ khác, và
đến lượt nó lại làm cho các quan hệ khác phải phân mảnh.
- Một quan hệ có thể có nhiều cách phân mảnh. Chọn một lược đồ phân
mảnh nào cho tối ưu phụ thuộc vào ứng dụng và cấp phát.
- Phân mảnh dọc


×