Tải bản đầy đủ (.pdf) (109 trang)

Nghiên cứu mô hình cơ sở dữ liệu phân tán ứng dụng cho hệ thống thông tin

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (9.71 MB, 109 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

LÊ TRỌNG TUỆ

NGHIÊN CỨU MÔ HÌNH CƠ SỞ DỮ LIỆU PHÂN TÁN
ỨNG DỤNG CHO HỆ THỐNG THÔNG TIN ĐẤT ĐAI
TỈNH KHÁNH HOÀ

LUẬN VĂN THẠC SĨ KỸ THUẬT
Chuyên ngành Công nghệ thông tin

Hà Nội – Năm 2014


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

LÊ TRỌNG TUỆ

NGHIÊN CỨU MÔ HÌNH CƠ SỞ DỮ LIỆU PHÂN TÁN
ỨNG DỤNG CHO HỆ THỐNG THÔNG TIN ĐẤT ĐAI
TỈNH KHÁNH HOÀ
Chuyên ngành: Công nghệ thông tin

LUẬN VĂN THẠC SĨ KỸ THUẬT
CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:


GS. TS NGUYỄN THÚC HẢI.

Hà Nội – Năm 2014


LỜI CẢM ƠN
Tôi xin trân trọng cảm ơn GS.TS Nguyễn Thúc Hải, người thầy đã tận tình
hướng dẫn giúp tôi hoàn thành khóa luận.
Để hoàn thành chương trình cao học và viết luận văn, tôi xin tỏ lòng biết ơn
chân thành tới các Thầy Cô thuộc Viện Công nghệ thông tin và truyền thông –
Trường Đại học Bách khoa Hà Nội, những người đã cung cấp kiến thức và tạo môi
trường thuận lợi để tôi có thể hoàn thành luận văn này.
Xin gửi lời cảm ơn các tác giả của các tài liệu mà tôi đã tham khảo, trích dẫn
trong luận văn nhưng không có điều kiện xin phép.
Cảm ơn gia đình, người thân, bạn bè đã động viên và giúp đỡ tôi trong suốt
quá trình thực hiện khóa luận này. Mặc dù tôi đã cố gắng hoàn thành luận văn bằng
tất cả nhiệt huyết và năng lực nhưng chắc chắn không tránh khỏi thiếu sót. Rất
mong nhận được ý kiến góp ý của quý Thầy Cô và các anh chị đồng nghiệp.
Cuối cùng xin gửi đến tất cả mọi người lời chúc sức khỏe, hạnh phúc và thành đạt.
Nha Trang, tháng 3 năm 2014

Học viên Lê Trọng Tuệ


LỜI CAM ĐOAN
Tôi xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của cá
nhân, được thực hiện dưới sự hướng dẫn khoa học của GS. TSNguyễn Thúc Hải.
Các số liệu, những kết luận nghiên cứu được trình bày trong luận văn này
trung thực và chưa từng được công bố dưới bất cứ hình thức nào.
Tôi xin chịu trách nhiệm về nghiên cứu của mình.


Học viên

Lê Trọng Tuệ


MỤC LỤC
Trang
Trang phụ bìa
Lời cam đoan
Danh mục các ký hiệu, các chữ viết tắt
Danh mục các bảng
Danh mục các hình vẽ, đồ thị
MỞ ĐẦU

1

Chương 1 – TỔNG QUAN VỀ HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN

5

1.1. Thế nào Hệ cơ sở dữ liệu phấn tán

5

1.1.1. Khái niệm xử lý phân tán

5

1.1.2. Hệ thống phân tán


6

1.1.3. Định nghĩa Hệ CSDL phân tán

6

1.2 Cơ sở dữ liệu phấn tán

8

1.2.1 Định nghĩa

8

1.2.2 Các đặc điểm của cơ sở dữ liệu phân tán

9

1.2.2.1 Điều khiển tập trung

9

1.2.2.2 Độc lập dữ liệu

10

1.2.2.3 Giảm dư thừa dữ liệu

10


1.2.2.4 Độ tin cậy qua các giao dịch phân tán

11

1.2.2.5 Cải tiến hiệu năng

11

1.2.2.6 Dễ dàng mở rộng hệ thống

12

1.3 Hệ quản trị CSDL phân tán

12

1.3.1 Các định nghĩa

12

1.3.2 Hệ quản trị CSDL phân tán thuần nhất

15

1.3.3 Hệ quản trị CSDL phân tán không thuần nhất

15

1.4 Các mô hình kiến trúc của Hệ quản trị cơ sở dữ liệu phấn tán.


16


1.4.1 Tính tự vận hành

16

1.4.2 Tính phân tán dữ liệu

18

1.4.3 Tính hỗn hợp

18

1.4.4 Các kiểu kiến trúc

18

1.4.5 Các hệ Client/Server

20

1.4.6 Các hệ phân tán ngang hàng( Peer to Peer)

22

1.5 Ưu điểm và nhược điểm của Hệ CSDL phân tán.


26

1.5.1 Ưu điểm

26

1.5.2 Nhược điểm.

28

Chương 2 - XÂY DỰNG HỆ CSDL PHÂN TÁN CHO HỆ THỐNG
THÔNG TIN ĐẤT ĐAI.

29

2.1 Cách thức để thiết kế hệ thống thông tin đất đai phân tán

29

2.2 Các chiến lược phân tán dữ liệu

31

2.2.1 Tập trung dữ liệu

31

2.2.2 Chia nhỏ dữ liệu

31


2.2.3 Sao lặp dữ liệu

31

2.2.4 Phương thức lai

32

2.3 Lựa chọn phương pháp thiết kế cơ sở dữ liệu phân tán.

32

2.3.1 Sơ đồ thiết kế tổng thể cơ sở dữ liệu phân tán

32

2.3.2 Các phương pháp thiết kế CSDL phân tán

33

2.3.2.1 Phương pháp thiết kế từ trên xuống (top- down)

33

2.3.2.2 Phương pháp thiết kế từ dưới lên (bottom - up)

36

2.4 Các vấn đề về phân mãnh dữ liệu.


36

2.4.1 Lý do phân mảnh.

37

2.4.2 Các kiểu phân mảnh.

37

2.4.3 Mức độ phân mảnh.

37

2.4.4 Các quy tắc phân mảnh.

37


2.4.5 Các kiểu cấp phát

38

2.4.6 Các yêu cầu thông tin

39

2.5 Các phương pháp phân tán


39

2.5.1 Phương pháp phân mảng ngang.

40

2.5.2 Phương pháp phân mảnh dọc.

43

2.5.4 Phương pháp phân mảnh hỗn hợp

44

2.6 Cấp phát

45

2.6.1 Bài toán cấp phát

45

2.6.2 Thông tin cần thiết cho bài toán cấp phát

47

2.6.3 Mô hình cấp phát

48


2.7 Giải pháp đồng bộ cơ sở dữ liệu phấn tán

51

Chương 3 - ỨNG DỤNG CHO HỆ THỐNG THÔNG TIN ĐẤT ĐAI
TỈNH KHÁNH HÒA
3.1 Tổng quan dữ liệu đất đai và hiện trang hệ thống mạng của tỉnh

52
52

3.1.1 Tổng quan dữ liệu đất đai

52

3.1.2 Hiện trang hệ thống mạng của tỉnh

53

3.2 Mô hình Hệ thống thông tin đất đai tổng thể hướng phân tán

55

3.2.1 Mô hình tổng thể CSDL đất đai phân tán tỉnh Khánh Hòa

55

3.2.2 Phân tích dữ liệu phân tán và các hoạt động xử lý thông tin

57


3.3 Lựa chọn chiến lược phân tán dữ liệu

61

3.4. Thiết kế CSDL đất đai phân tán

62

3.4.1 Phân tích hệ thống thông tin

63

3.4.2 Phân tích chức năng

66

3.4.3 Phân tích thực thể

67

3.4.4 Thiết kế lược đồ tổng thể cho hệ thống thông tin

71

3.4.5 Thiết kế phân mảnh

74

3.4.6 Vấn đề cấp phát


81


3.5 Xây dụng CSDL đất đai từ các nguồn dữ liệu theo quy định của
ngành TNMT.

81

3.6. Hệ quản trị cơ sở dữ liệu phân tán cho HTTT đất đai tỉnh Khánh
Hòa

83

3.6.1 Lựa chọn Hệ quản trị CSDL phân tán thuần nhất

83

3.6.2 Sử dụng Hệ CSDL Client/Server ( Khách/Chủ)

83

3.6.3 Mô tả hoạt động và yêu cầu cài đặt Hệ quản trị CSDL phân
tán

84
3.6.4 So sánh giữa mô hình CSDL đất đai tập trung Mô hình

CSDL đất đai phân tán của tỉnh Khánh Hòa


87

3.6.4.1 Mô hình CSDL đất đai tập trung

87

3.6.4.2 Mô hình CSDL đất đai phân tán

89

3.6.5 Mô hình hệ thống mạng của HTTT đất đai Khánh Hòa theo
mô hình phân tán

90

3.6.5.1 Mô hình hệ thống tại cấp tỉnh

90

3.6.5.2 Mô hình hệ thống tại cấp huyện

90

3.7 Mô hình đồng bộ dữ liệu đất đai tỉnh Khánh Hòa
Chương 4 – KẾT QUẢ VÀ BÀN LUẬN

91
95

KẾT LUẬN VÀ KIẾN NGHỊ


95

TÀI LIỆU THAM KHẢO

97


DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

CPU

: Central Processing Unit.

WAN

: Wide-area network.

LAN

: Local Area NetWork.

DB

: Database.

DDB

: Distributed database.


DBMS

: Database Management System.

DDBMS

: Distributed database management system.

DBA

: Database Administrator.

GDBA

: Global Database Administrator.

LDBA

: Local Database Administrator.

SQL

: Structured Query Language.

ISO

: International Organization for Standardization

XML


: Extensible Markup Language.

CSDL

: Cơ sở dữ liệu.

CNTT

: Công nghệ thông tin.

VPĐK

: Văn phòng đăng ký.

UBND

: Ủy ban nhân dân.

GCN

: Giấy chứng nhận.

QSDĐ

: Quyền sử dụng đất.

TNMT

: Tài nguyên Môi trường.


HTTT

: Hệ thống thông tin.

HN-72

: Hệ tọa độ quốc gia Việt Nam trước năm 2000.

VN2000

: Hệ Tạo độ quốc gia Việt Nam quy định áp dụng từ năm 2000.


DANH MỤC CÁC BẢNG
Bảng 2.5.1. Các biểu diễn về ví dụ phương pháp phân mảnh ngang. ...................... 41
Bảng 2.5.2. Các biểu diễn ví dụ về phân mảnh dọc. ............................................... 44
Bảng 3.4.5a. Bảng thao tác ký hiệu ........................................................................ 76
Bảng 3.4.5b. Bảng phân tích tần suất và nhu cầu khai thác dữ liệu ........................ 77
Bảng 3.4.5c. Bảng phân mãnh dữ liệu tại các đơn vị hành chính............................ 77
Bảng 3.6.3b. Bảng tổng hợp thông tin đất đai cấp tỉnh cần quản lý ........................ 86

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1.3a. Xử lý dữ liệu truyền thống................................................................... 7
Hình 1.1.3b. Xử lý cơ sở dữ liệu .............................................................................. 7
Hình 1.1.3c. Mô hình Hệ CSDL phân tán ................................................................ 8
Hình 1.1.3d. Mô hình không phải Hệ CSDL phân tán .............................................. 8
Hình 1.3.1a. Hệ CSDL phân tán ............................................................................ 13
Hình 1.3.1b. Truy nhập CSDL từ xa ...................................................................... 14
Hình 1.3.1c. Truy nhập từ xa bằng chương trình phụ ............................................. 14

Hình 1.3.2. Kiến trúc mô hình hệ QTCSDLPT thuần nhất ..................................... 15
Hình 1.3.3. Kiến trúc mô hình hệ QTCSDLPT không thuần nhất. ......................... 16
Hình 1.4.1. Lựa chọn cài đặt hệ quản trị CSDL ..................................................... 17
Hình 2.4.5. Kiến trúc tham chiếu Client/Server. .................................................... 22
Hình 1.4.6a. Kiến trúc tham chiếu CSDL phân tán. ............................................... 23
Hình 1.4.6b. sơ đồ chức năng của hệ quản trị CSDL phân tán tích hợp. ................. 24
Hình 1.4.6c. Các thành phần của một hệ quản trị CSDL phân tán. ......................... 25
Hình 2.1.Mô hình tổng thể CSDL đất đai thống nhất từ Trung ương đến địa phương. ...... 30
Hình 2.3.1. Sơ đồ thiết kế tổng thể......................................................................... 32
Hình 2.3.2.1. Sơ đồ thiết kế CSDL phân tán theo mô hình từ trên xuống ............... 34


Hình 2.5.4a. Phân đoạn hỗn hợp. ........................................................................... 45
Hình 2.5.4b. Tái xây dựng phân đoạn hỗn hợp ...................................................... 45
Hình 3.1.2a. Hiện trang hệ thống mạng WAN của tỉnh Khánh Hòa năm 2013. ...... 53
Hình 3.1.2b. Hệ thống mạng tại Trung tâm dữ liệu tỉnh Khánh Hòa. ..................... 54
Hình 3.1.2c. Hệ thống mạng tại Tại UBND các huyện, thị xã, thành phố của tỉnh
Khánh Hòa. ........................................................................................................... 55
Hình 3.2.1a. Mô hình tổng thể CSDL đất đai tỉnh Khánh Hòa. .............................. 56
Hình3.2.1b. Mô hình tổng thể CSDL đất đai tỉnh Khánh Hòa đến cấp Trung ương.57
Hình 3.4.3. Mô hình thực thể quan hệ của hệ thống thông tin đất đai tỉnh Khánh
Hòa........................................................................................................................ 71
Hình 3.4.4. Lược đồ tổng thể cho hệ thống ............................................................ 73
Hình 3.5. Quy trình tổng thể để xây dựng CSDL đất đai từ các nguồn dữ liệu ....... 82
Hình 3.6.1. Kiến trúc mô hình hệ QTCSDLPT thuần nhất của tỉnh ........................ 83
Hình 3.6.3a. Mô hình tổng thể và liên thông thông tin của HTTT đất đai Khánh Hòa ...... 85
Hình 3.6.4.1. Mô hình CSDL đất đai tập trung ...................................................... 88
Hình 3.6.4.2. Mô hình CSDL đất đai phân tán tỉnh Khánh Hòa ............................. 89
Hình 3.6.5.1. Mô hình vận hành CSDL đất đai cấp tỉnh ......................................... 90
Hình 3.6.5.2. Mô hình vận hành CSDL đất đai cấp huyện ..................................... 91

Hình 3.7. Mô hình đồng bộ dữ liệu đất đai tỉnh Khánh Hòa ................................... 93


MỞ ĐẦU
1. Lý do chọn đề tài
Trong những năm gần đây, nền kinh tế xã hội của tỉnh Khánh Hòa đang phát
triển nhanh, tuy nhiên điều này đặt ra những vấn đề cấp bách đó là hiệu quả quản lý
nhà nước về đất đai trên địa bàn tỉnh, đồng thời đề xuất các chiến lược quản lý đất
đai, quy hoạch sử dụngđất bền vững là nhu cầu bức xúc của Sở Tài nguyên và Môi
trường tỉnh Khánh Hòa.
Nhằm nâng cao hiệu quả quản lý nhà nước về đất đai trên địa bàn tỉnh đồng thời
quản lý những dữ liệu hiện có của tỉnh. Nhận thấy cần phải xây dựng “Hệ thống
thông tin đất đai tỉnh Khánh Hòa” để quản lý dữ liệu đất đai bằng công nghệ hiện
đại theo chuẩn đã được Bộ Tài nguyên và Môi trường ban hành để từ đó hệ thống
hoá dữ liệu đất đaiđể khai thác sử dụng có hiệu quả các nguồn dữ liệu và nâng cao
hiệu quả quản lý; bước đầu xây dựng một mô hình quy trình thu thập, quản lý, cung
cấp và khai thác dữ liệu đất đai trên địa bàn tỉnh. Ngoài ra, Hệ thống thông tin đất
đaisẽ giúp lãnh đạo ngành, lãnh đạo tỉnh có cái nhìn chung về hiện trạng thông tin
đất đai của tỉnh từ đó đưa ra định hướng, tầm nhìn cho sự phát triển lâu dài của tỉnh
Khánh Hòa.
2. Lịch sử nghiên cứu
Hệ thống máy tính đang trải qua một cuộc cách mạng. Từ năm 1945 cho đến
năm 1985, các máy tính rất lớn và rất đắt. Hầu hết các tổ chức chỉ có rất ít máy tính
và không biết cách kết nối chúng. Đến giữa những năm 1980, các kỹ thuật công
nghệ mới đã tạo ra những đột phá mới rất quan trọng đó là sự phát triển vi xử lý, từ
CPU chỉ có 8 bit đã phát triển thành 16, 32, 64 bit. Nhiều CPU đã có một năng lực
tính toán của một siêu máy tính nhưng với giá thấp. Mặt khác, sự phát triển mạng
máy tính tốc độ cao, mạng cục bộ (LAN) cho phép hàng trăm máy tính có thể kết
nối được với nhau để trao đổi thông tin. Mạng diện rộng (WAN) cho phép hàng
triệu máy tính trên trái đất có thể được kết nối với tốc độ truyền dữ liệu đến gigabits

mỗi giây. Kết quả của những cải tiến về mặt kỹ thuật đem lại sự kết nối dễ dàng

1


nhiều hệ thống máy tính với nhau để tạo một mạng cao tốc. Chúng thường được gọi
là mạng máy tính hoặc hệ phân tán.
Từ đó cho thấy máy tính đã có đủ khả năng xây dựng hệ thống thông tin và hệ
cơ sở dữ liệu. Một mặt đã hình thành và phát triển các mô hình lý thuyết cho hệ cơ
sở dữ liệu và mặt khác những nguồn phát triển hệ thống ứng dụng ngày càng có
nhiều kinh nghiệm, hệ thống thông tin hình thành trên cơ sở kết nối các máy tính
khác nhau.
Những năm gần đây, hệ cơ sở dữ liệu phân tán được phát triển dựa trên cơ sở
dữ liệu và mạng máy tính. Cơ sở dữ liệu phân tán gồm nhiều cơ sở dữ liệu tích hợp
lại với nhau thông qua mạng máy tính để trao đổi dữ liệu, thông tin. Cơ sở dữ liệu
được tổ chức và lưu trữ ở những vị trí khác nhau trong mạng máy tính và chương
trình ứng dụng làm việc trên cơ sở truy cập dữ liệu ở những điểm khác nhau đó.
Dựa vào các nghiên cứu và công trình khoa học về hệ phân tán. Luận văn đi vào
nghiên cứu mô hình CSDL phân tán nhằm xây dựng mô hình Hệ thống thông tin đất
đai tỉnh Khánh Hòa.
3. Mục đích, đối tượng, phạm vi nghiên cứu
Từ năm 2008 đến nay, ngành Tài nguyên và Môi trường không ngừng nổ lực
trong việc xây dựng một hệ thống thông tin hiện đại, nhằm đáp ứng các mục tiêu
quản lý Nhà nước về đất đai theo hướng xây dựng Chính phủ điện tử và thực hiện
chủ trương kinh tế hóa của ngành. Kết quả có nhiều hệ thống thông tin đất đai được
nhiều đơn vị trong nước nghiên cứu xây dựng, các hệ thống cơ bản đều được xây
dựng và hoàn thiện trên cơ sở luật hiện hành. Tuy nhiên, các hệ thống thông tin đất
đai được đề xuất thực hiện tại tỉnh Khánh Hòa chỉ chú trọng vào việc thiết kế mô
hình CSDL theo mô hình tập trung, trong khi đó công tác quản lý đất đai lại phân
cấp quản lý, cập nhật thông tin. Hơn nữa, CSDL đất đai ngoài các dữ liệu thuộc tính

còn có cả dữ liệu không gian thường được cập nhật chỉnh lý thường xuyên nên với
mô hình CSDL tập trung sẽ gặp rất nhiều khó khăn về kích thước dữ liệu lớn, vấn
đề máy chủ, băng thông đường truyền, tính sẵn sàng của hệ thống. Do đó, các hệ
thống thông tin đất đai hiện nay thường được triển khai độc lập ở các đơn vị hành

2


chính, CSDL cấp huyện không gắn kết với CSDL cấp tỉnh dẫn đến tình trạng các
kho dữ liệu rời rạc, thiếu đồng bộ lẫn nhau. Để khắc phục những hạn chế này cần
phải xây dựng mô hình CSDL đất đai phù hợp với yêu cầu quản lý của ngành Tài
nguyên và Môi trường tỉnh Khánh Hòa. Trong phạm vi đề tài này, em trình bày việc
nghiên cứu mô hình CSDL phân tán ứng dụng cho hệ thống thông tin đất đai tỉnh
Khánh Hoà, đánh giá hiện trang cơ sở dữ liệu đất đai của tỉnh khi áp dụng mô hình
cơ sở dữ liệu tập trung so với giải pháp đề xuất áp dụng mô hình cơ sở dữ liệu phân
tán.
4. Tóm tắt cô đọng các luận điểm cơ bản và đóng góp mới của tác giả
Đề tài dựa trên các luận điểm cơ bản đó là kết hợp việc khảo sát hiện trạng về hệ
thống hạ tầng CNTT của cấp huyện và cấp tỉnh và phân tích dữ liệu đất đai hiện tại
của tỉnhđể có cơ sở đề xuất xây dựng hệ thống thông tin đất đai của Khánh Hòa.
Trên cơ sở kết quả khảo sát và phân tích, đề tài đi sâu nghiên cứu mô hình CSDL
phân tán để áp dụng cho việc xây dựng CSDL đất đai cho phù hợp với đặc điểm
tình hình của tỉnh. Hiện nay, Khánh Hòa chưa có hệ thống thông tin đất đai để phục
vụ công tác quản lý và công khai hóa thông tin đất đai cho người dân, mặt
khác,CSDL đất đai từ trước đến nay được đề xuất triển khai tại tỉnh Khánh Hòa đều
theo mô hình tập trung, có rất nhiều hạn chế trong công tác phân cấp quản lý đất
đai, cập nhật thông tin.Vì vậy, đề tài đề xuất xây dựng Hệ thống thông tin

đấtđai của tỉnh theo mô hình CSDL mới đó là mô hình CSDL phân tán vàchỉ
ra được việc xây dựng CSDL đất đai theo hướng tập trung là không phù hợp với đặc

điểm của CSDL đất đai nói chung và Khánh Hòa nói riêng.
Đề tài đã đạt được một số kết quả đó là: đã trình bày một cách hệ thống, chi tiết
theo hướng thực nghiệm là một tài liệu cần thiết cho những người muốn tìm hiểu,
thiết kế CSDL đất đai phân tán và triển khai ứng dụng phân tán. Qua kết quả phân
tích thiết kế, bước đầu đã thiết kế được CSDL đất đai phân tán phù hợp với đặc
điểm của Khánh Hòa phục vụ cho việc xây dựng hệ thống thông tin đất đai của tỉnh.
Trong tương lai dựa vào lý thuyết thiết kế CSDL phân tán này có thể ứng dụng vào
các hệ thống lớn và có đối tượng sử dụng rộng.

3


5. Phương pháp nghiên cứu
Để thực hiện được mục tiêu và nhiệm vụ đặt ra trong đề tài, emáp dụng hai
phương pháp nghiên cứu đó là: phương pháp nghiên cứu lý thuyết và phương pháp
nghiên cứu thực nghiệm. Đối với phương pháp nghiên cứu lý thuyết: tiến hành
nghiên cứu và thu thập các tài liệu liên quan đến CSDL phân tán, thiết kế CSDL
phân tán, các công cụ có thể triển khai quản trị CSDL phân tán, các công cụ thiết kế
giao diện chạy được trên hệ thống mạng của tỉnh Khánh Hòa. Sau đó, thu thập các
tài liệu liên quan đến các quy định về xây dựng CSDL đất đai của ngành Tài nguyên
và Môi trường, các loại dữ liệu thuộc tính của ngành. Đối với phương pháp thực
nghiệm: em đi sâu vào phân tích yêu cầu thực tế của hệ thống thông tin đất đaivà
khảo sát thực trạng CSDL đất đai của tỉnh để xác định được các chức năng, quy
trình hoạt động của hệ thống. Tiếp theo vận dụng cơ sở lý thuyết liên quan như
CSDL phân tán, thiết kế CSDL phân tán vào thiết kế hệ thống thông tin đất đai và
đánh giá kết quả đạt được.

4



CHƯƠNG I: TỔNG QUAN VỀ HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN
Một cách trực quan, một CSDL phân tán là một bộ sưu tập các loại dữ liệu
có liên kết logic với nhau và được phân bố vật lý trên nhiều máy chủ của mạng máy
tính.Khái niệm hệ CSDL phân tán bao gồm cả khái niệm CSDL và hệ quản trị
CSDLphân tán.
Một trong những động lực thúc đẩy sự phát triển nhanh việc sử dụng các hệ
CSDL là nhu cầu tích hợp các loại dữ liệu, cung cấp đa dạng các loại hình dịch vụ
và các dịch vụ đa phương tiện cho người sử dụng. Mặt khác, kết nối máy tính thành
mạng với mục tiêu chia sẻ tài nguyên, khai thác có hiệu quả các tài nguyên thông
tin, nâng cao khả năng tích hợp và trao đổi các loại dữ liệu giữa các thành phần trên
mạng. Nhu cầu thu thập, lưu trữ,xử lý và trao đổi thông tin ngày càng tăng, các hệ
thống xử lý tập trung đã bộc lộ những nhược điểm sau :
- Tăng khả năng lưu trữ thông tin là khó khăn, bởi bị giới hạn tối đa của thiết bị
nhớ.
- Độ sẵn sàng phục vụ của CSDL không cao khi số người sử dụng tăng.
- Khả năng tính toán của các máy tính đơn lẻ đang dần tới giới hạn vật lý.
- Mô hình tổ chức lưu trữ, xử lý dữ liệu tập trung không phù hợp cho những tổ chức
kinh tế, xã hội có hoạt động rộng lớn, đa quốc gia.
Những nhược điểm này đã được khắc phục khá nhiều trong hệ thống phân
tán.Những sản phẩm của các hệ thống phân tán đã xuất hiện nhiều trên thị trường và
từng bước chứng minh tính ưu việt của nó hơn hẳn các hệ thống tập trung truyền
thống. Các hệ thống phân tán trong tương lai sẽ thay thế dần các hệ thống tập trung.
1.1 Thế nào Hệ cơ sở dữ liệu phấn tán
1.1.1 Khái niệm xử lý phân tán
Thuật ngữ xử lý phân tán có thể là thuật ngữ được lạm dụng nhiều nhất trong
khoa học máy tính trong những năm vừa qua. Nó thường được dùng để chỉ những
hệ thống gồm nhiều loại thiết bị khác nhau chẳng hạn như: hệ đa bộ xử lý, xử lý dữ
liệu phân tán, mạng máy tính. Có hai khái niệm xử lý phân tán liên quan với nhau:

5



-

Khái niệm thứ nhất liên quan đến việc tính toán trên Client/Server. Trong đó

ứng dụng được chia ra thành hai phần, phần của Server và phần của Client và được
vận hành ở hai nơi. Trong tính toán phân tán này cho phép truy nhập trực tiếp dữ
liệu và xử lý dữ liệu trên Server và Client.
-

Khái niệm thứ hai là việc thực hiện các tác vụ xử lý phức tạp trên nhiều hệ

thống. Không gian nhớ và bộ xử lý của nhiều máy cùng hoạt động chia nhau tác vụ
xử lý. Máy trung tâm sẽ giám sát và quản lý các tiến trình này. Có trường hợp thông
qua Internet, hàng nghìn máy cùng xử lý một tác vụ.
Có thể định nghĩa hệ xử lý phân tán như sau: Hệ xử lý phân tán là một tập
hợp các phần tử xử lý tự trị (không nhất thiêt đồng nhất) được kết nối với nhau bởi
một mạng máy tính và cùng phối hợp thực hiện những công việc gán cho chúng.
Phần tử xử lý ở đây để chỉ một thiết bị tính toán có khả năng thực hiện chương trình
trên nó.
1.1.2 Hệ thống phân tán
Hệ thống phân tán là tập hợp các máy tính độc lập kết nối với nhau thành một
mạng máy tính được cài đặt các hệ cơ sở dữ liệu và các phần mềm hệ thống phân
tán tạo khả năng cho nhiều người sử dụng truy nhập chia sẻ nguồn thông tin chung.
Các máy tính trong hệ thống phân tán có kết nối phần cứng lỏng lẻo, có nghĩa là
không chia sẻ bộ nhớ, chỉ có một hệ điều hành trong toàn bộ hệ thống phân tán. Các
mạng máy tính được xây dựng dựa trên kỹ thuật Web, ví dụ như mạng Internet,
mạng Intranet… là các mạng phân tán.
1.1.3 Định nghĩa Hệ CSDL phân tán

Công nghệ các hệ cơ sở dữ liệu phát triển từ mô hình xử lý dữ liệu, trong đó
mỗi ứng dụng định nghĩa một hay nhiều tệp dữ liệu riêng của nó (hình 1.1.3a), sang
mô hình định nghĩa và quản lý dữ liệu tập trung. Dẫn đến khái niệm độc lập dữ liệu,
nghĩa là tính bất biến của các hệ ứng dụng đối với sự thay đổi cấu trúc lưu trữ và
các chiến lược truy nhập dữ liệu.

6


Hình 1.1.3a.Xử lý dữ liệu truyền thống.

Hình 1.1.3b.Xử lý cơ sở dữ liệu.
Trong ngữ cảnh hệ xử lý phân tán thì hệ CSDL phân tán có thể được xem
như những công cụ làm cho quá trình xử lý dữ liệu phân tán dễ dàng hơn và hiệu
quả hơn. Khái niệm hệ cơ sở dữ liệu phân tán ở đây bao gồm cả khái niệm cơ sở dữ
liệu phân tán và hệ quản trị CSDL phân tán.
Cơ sở dữ liệu phân tán là một tập các CSDL có quan hệ với nhau về mặt
logic và được phân bố trên một mạng máy tính. Hệ quản trị CSDL phân tán là hệ
thống phần mềm cho phép quản trị cơ sở dữ liệu phân tán và làm cho sự phân tán đó
là trong suốt đối với người sử dụng.
Trong mô hình CSDL phân tán bản thân CSDL có ở trên nhiều máy tính
khác nhau. Như vậy, đặc trưng của CSDL phân tán là các CSDL được phân bố trên
mạng máy tính và có quan hệ với nhau về mặt logic. Hệ CSDL phân tán không đơn
thuần bao gồm nhiều file dữ liệu được tổ chức lưu trữ riêng lẻ trên các thiết bị nhớ
của mạng máy tính. Để tạo một hệ CSDL phân tán, các file không chỉ có quan hệ
với nhau về mặt logic mà còn cần có một cấu trúc giao diện chung giữa chúng để

7



các file có thể truy nhập lẫn nhau. Như vậy, hệ cơ sở dữ liệu phân tán (DDBS) = Cơ
sở dữ liệu phân tán (DDB) + Hệ quản trị CSDL phân tán (DDBMS).

Hình 1.1.3c Mô hình Hệ CSDL phân tán

Hình 1.1.3d Mô hình không phải Hệ CSDL phân tán
1.2 Cơ sở dữ liệu phấn tán
1.2.1 Định nghĩa
Cơ sở dữ liệu là tập hợp các dữ liệu có liên quan với nhau, được lưu trữ trên
máy tính, có nhiều người sử dụng và được tổ chức theo một mô hình. Dữ liệu là
những sự kiện có thể ghi lại được và có ý nghĩa. Cơ sở dữ liệu phân tán là tập hợp
dữ liệu logic thuộc về cùng một hệ thống nhưng trải rộng ra nhiều điểm trên mạng
máy tính. Như vậy có hai vấn đề của CSDL phân tán với tầm quan trọng tương
đương nhau:

8


- Phân bố trên một mạng máy tính: Toàn bộ dữ liệu của CSDL phân tán
không được lưu trữ ở một nơi mà lưu trữ trên nhiều trạm thuộc mạng máy tính, điều
này giúp chúng ta phân biệt CSDL phân tán với CSDL tập trung đơn lẻ.
- Liên quan logic: Toàn bộ dữ liệu của CSDL phân tán có một số các thuộc
tính ràng buộc chúng với nhau, điều này giúp chúng ta có thể phân biệt một CSDL
phân tán với một tập hợp CSDL cục bộ hoặc các tập tin lưu trữ tại các vị trí khác
nhau trong một mạng máy tính.
1.2.2 Các đặc điểm của cơ sở dữ liệu phân tán
1.2.2.1 Điều khiển tập trung
Điều khiển tập trung (Centralized Control) là một đặc điểm của cơ sở dữ liệu
tập trung, toàn bộ dữ liệu được tập trung lại nhằm để tránh sự dư thừa dữ liệu, đảm
bảo được tính độc lập của dữ liệu. Dữ liệu được quản lý tập trung bởi người quản trị

cơ sở dữ liệu. Chức năng cơ bản của người quản trị cơ sở dữ liệu (DBA - Database
Administrator) là bảo đảm sự an toàn của dữ liệu. Trong các cơ sở dữ liệu phân tán
vấn đề điều khiển tập trung không được nhấn mạnh, sự điều khiển được thực hiện
theo một cấu trúc điều khiển phân cấp bao gồm hai loại người quản trị cơ sở dữ
liệu:
- Người quản trị cơ sở dữ liệu toàn cục (Global Database Administrator) là
người có trách nhiệm chính về toàn bộ cơ sở dữ liệu phân tán.
- Người quản trị cơ sở dữ liệu cục bộ (Local Database Administrator) là người
có trách nhiệm về cơ sở dữ liệu cục bộ của họ. Tuy nhiên, những người quản trị cơ
sở dữ liệu cục bộ cần phải có những quyền độc lập riêng về cơ sở dữ liệu cục bộ của
mình mà người quản trị cơ sở dữ liệu toàn cục hoàn toàn không có những quyền này
và sự phối hợp giữa các vị trí được thực hiện bởi chính những người quản trị cục
bộ, đặc điểm này được gọi là sự độc lập vị trí. Các cơ sở dữ liệu phân tán có thể
khác nhau rất nhiều về mức độ độc lập vị trí, từ sự độc lập vị trí hoàn toàn (không
có người quản trị cơ sở dữ liệu tập trung) đến sự điều khiển tập trung hoàn toàn.

9


1.2.2.2 Độc lập dữ liệu
Độc lập dữ liệu (Data Independence) là một đặc điểm của cơ sở dữ liệu. Độc
lập dữ liệu có nghĩa là tổ chức lưu trữ dữ liệu là trong suốt đối với người lập trình
ứng dụng. Ưu điểm của độc lập dữ liệu là các chương trình không bị ảnh hưởng bởi
những thay đổi về tổ chức lưu trữ vật lý của dữ liệu.
Trong các hệ cơ sở dữ liệu phân tán, độc lập dữ liệu cũng quan trọng như
trong các cơ sở dữ liệu tập trung. Tuy nhiên, một đặc điểm mới được đưa vào trong
khái niệm thông thường của độc lập dữ liệu là sự trong suốt phân tán (Distribution
Transparency). Nhờ sự trong suốt phân tán mà các chương trình ứng dụng có thể
được viết giống như trong cơ sở dữ liệu không được phân tán. Vì vậy, tính đúng đắn
của các chương trình ứng dụng không bị ảnh hưởng bởi sự di chuyển dữ liệu từ một

vị trí này đến một vị trí khác. Tuy nhiên, tốc độ thực hiện của các chương trình ứng
dụng thì bị ảnh hưởng.
Độc lập dữ liệu trong cơ sở dữ liệu tập trung được thể hiện thông qua một
kiến trúc nhiều mức, các mức này có những mô tả khác nhau về dữ liệu và những
ánh xạ biến đổi giữa các mức. Sự trong suốt phân tán trong cơ sở dữ liệu phân tán
được thê hiện bằng cách bổ sung thêm các mức trong suốt vào kiến trúc nhiều mức
của cơ sở dữ liệu tập trung.
1.2.2.3 Giảm dư thừa dữ liệu
Trong các cơ sở dữ liệu tập trung, sự dư thừa dữ liệu được giảm thiểu, vì
tránh sự không nhất quán giữa nhiều bản sao bằng cách chỉ có một bản sao và tiết
kiệm vùng nhớ lưu trữ. Các ứng dụng chia sẻ chung, truy xuất đến các tập tin dữ
liệu. Tuy nhiên, trong các cơ sở dữ liệu phân tán, sự dư thừa dữ liệu là một đặc
điểm cần thiết, vì các lý do sau:
-

Làm tăng tính cục bộ của các ứng dụng nếu dữ liệu được nhân bản tại tất cả

các vị trí mà ứng dụng cần dữ liệu này. Khi đó, các ứng dụng cục bộ được thực hiện
nhanh hơn vì không cần phải truy xuất dữ liệu từ xa.

10


-

Làm tăng tính sẵn sàng của hệ thống ứng dụng, vì một vị trí có sự cố sẽ

không làm ngưng sự thực hiện của các ứng dụng ở những vị trí khác nếu dữ liệu tại
vị trí bị hỏng được nhân bản tại các vị trí khác.
Tuy nhiên, sự nhân bản dữ liệu cần phải xem xét kỹ lưỡng dựa vào hai loại

ứng dụng cơ bản, đó là ứng dụng chỉ đọc và ứng dụng cập nhật. Sự nhân bản dữ liệu
giúp cho các ứng dụng chỉ đọc được thực hiện nhanh hơn, nhưng nó làm cho các
ứng dụng cập bị thực hiện lâu hơn vì phải cập nhật dữ liệu tại các vị trí được nhân
bản. Như vậy, sự nhân bản dữ liệu sẽ là một ưu điểm nếu hệ thống có rất nhiều ứng
dụng chỉ đọc và có rất ít ứng dụng cập nhật, trong trường hợp ngược lại thì sự nhân
bản dữ liệu lại là một nhược điểm.
1.2.2.4 Độ tin cậy qua các giao dịch phân tán
Hệ quản trị CSDL phân tán cải thiện độ tin cậy qua các giao dịch phân tán, vì
các thành phần được nhân bản hạn chế được các vị trí lỗi riêng lẻ. Lỗi của trạm
riêng, hoặc lỗi của truyền thông làm cho một hoặc nhiều trạm mất liên lạc, không
đủ để phá vỡ toàn bộ hệ thống. Trong trường hợp CSDL phân tán, điều này nghĩa là
một số dữ liệu không thể truy nhập được, nhưng nếu biết cách hỗ trợ cho các giao
dịch phân tán và các giao thức ứng dụng thì người sử dụng vẫn có thể truy nhập
được tới phần khác trong CSDL phân tán. Giao dịch là một đơn vị tính toán cơ bản,
nhất quán và tin cậy, bao gồm một chuỗi các thao tác CSDL được thực hiện chuyển
từ trạng thái CSDL nhất quán này sang trạng thái CSDL nhất quán khác ngay cả khi
có một số giao dịch được thực hiện đồng thời và thậm chí cả khi xảy ra lỗi. Vì vậy,
hệ quản trị CSDL phải hỗ trợ đầy đủ cho giao dịch đảm bảo rằng việc thực thi đồng
thời các giao dịch của người sử dụng sẽ không vi phạm tính nhất quán của CSDL
trong khi hệ thống có lỗi, với điều kiện là giao dịch được thực hiện chính xác, nghĩa
là tuân theo các qui tắc toàn vẹn của CSDL.
1.2.2.5 Cải tiến hiệu năng
Hiệu năng của CSDL phân tán được cải tiến dựa vào hai điểm:
Một là Hệ quản trị CSDL phân tán có khả năng phân mảnh CSDL và cho
phép cục bộ hoá dữ liệu. Có hai ưu điểm nổi bật:

11


-


Vì mỗi trạm chỉ xử lý một phần CSDL, sự tranh chấp về CPU và các dịch vụ

vào/ra không nghiêm trọng như trong các hệ CSDL tập trung.
-

Tính cục bộ làm giảm trễ truy nhập từ xa thường gặp trên các mạng diện

rộng.
Hầu hết các hệ CSDL phân tán được cấu trúc nhằm tận dụng tối đa những ưu
điểm của tính cục bộ dữ liệu. Lợi ích đầy đủ của việc giảm tranh chấp và giảm chi
phí truyền chỉ có thể có được bằng cách phân mảnh và phân tán dữ liệu hợp lý.
Hai là tính song song của các hệ thống phân tán có thể được khai thác để
thực hiện song song liên truy vấn và truy vấn nội bộ. Liên truy vấn song song là khả
năng thực hiện nhiều truy vấn tại cùng thời điểm, còn nội truy vấn song song là
phương pháp tách một truy vấn đơn thành các truy vấn con và mỗi truy vấn con
được thực hiện tại các trạm khác nhau, truy nhập các phần khác nhau của CSDL
phân tán.
1.2.2.6 Dễ dàng mở rộng hệ thống
Trong môi trường phân tán, dễ dàng tăng kích thước dữ liệu và hiếm khi cần
sửa đổi trong các hệ thống lớn. Việc mở rộng thường có thể được thực hiện bằng
cách tăng khả năng lưu trữ và xử lý của mạng. Rõ ràng là không thể có được sự gia
tăng “khả năng” một cách tuyến tính, vì điều này phụ thuộc vào chi phí phân tán.
Tuy nhiên, vẫn có thể có những cải tiến có ý nghĩa, khả năng mở rộng hệ thống dễ
dàng mang tính kinh tế, chi phí giảm.
1.3 Hệ quản trị CSDL phân tán
1.3.1 Các định nghĩa
Hệ quản trị CSDL phân tán được định nghĩa là một hệ thống phần mềm cho
phép quản lý các hệ CSDL phân tán và làm cho sự phân tán trở nên “trong suốt” đối
với người sử dụng. Hệ CSDL phân tán được xây dựng dựa trên hai công nghệ cơ

bản là CSDL và mạng máy tính. Một hệ CSDL phân tán không phải là một “tập hợp
các tập tin” được lưu trữ riêng rẽ tại mỗi nút của một mạng máy tính. Để tạo ra một
hệ CSDL phân tán các tập tin không chỉ có liên đới logic mà chúng còn phải có cấu
trúc và được truy xuất qua một giao diện chung.

12


Nói cách khác CSDL phân tán là CSDL được phân tán một cách vật lý nhưng
được thống nhất tổ chức như là một CSDL duy nhất. Như vậy sự phân tán dữ liệu là
trong suốt đối với người sử dụng. Việc quản lý các dữ liệu phân tán đòi hỏi mỗi
trạm (site) cài đặt các thành phần hệ thống sau:
-

Thành phần quản trị CSDL (Database Management DM)

-

Thành phần truyền dữ liệu (Data Communication DC)

-

Từ điển dữ liệu (Data Dictionary DD): thông tin về sự phân tán dữ liệu trên

mạng
-

Thành phần CSDL phân tán (Distributed Database DDB)
Các dịch vụ của hệ thống trên bao gồm:


-

Các ứng dụng truy nhập CSDL từ xa .

-

Cung cấp các mức trong suốt phân tán.

-

Hỗ trợ quản trị và điều khiển CSDL, bao gồm các bộ công cụ, thu thập thông

tin từcác trình tiện ích, cung cấp cách nhìn tổng quan về các file dữ liệu trên mạng.
-

Khả năng mở rộng với các hệ thống khác nhau.

-

Cung cấp khả năng điều khiển đồng thời và phục hồi các giao tác phân tán.

Hình 1.3.1a Hệ CSDL phân tán
Các hệ QTCSDL phân tán thường hỗ trợ về điều khiển tương tranh và khôi
phục các tiến trình phân tán. Khả năng truy cập từ xa có thể thực hiện được bằng 2
cách. Cách thứ nhất (hình 1.3.1b) trình ứng dụng yêu cầu truy cập từ xa. Yêu cầu

13


này được định tuyến tự động bởi hệ QTCSDL phân tán(DDBMS) tới máy chủ chứa

dữ liệu và được thực hiện tại máy chủ chứa cơ sở dữ liệu và gửi lại kết quả về trạm
yêu cầu. Cách tiếp cận này được sử dụng cho truy cập từ xa, trong suốt phân tán có
thể thực hiện được bằng việc cung cấp các file chung (global) và các truy nhập
trước đó có thể địa chỉ hoá một cách tự động tới các trạm ở xa.

Hình 1.3.1b Truy nhập CSDL từ xa

Hình 1.3.1c chỉ ra một cách tiếp cận khác, chương trình phụ thực hiện tại các
trạm ở xa(người lập trình phải tự lập), các kết quả trả lại cho chương trình ứng
dụng.

Hình 1.3.1c Truy nhập từ xa bằng chương trình phụ
Hệ quản trị CSDL phân tán hỗ trợ cả hai cách tiếp cận trên. Mỗi một cách
tiếp cận đều có những thuận lợi và khó khăn riêng. Giải pháp thứ nhất cung cấp khả
năng trong suốt phân tán cao hơn, trong khi giải pháp thứ hai có thể hiệu quả hơn

14


×