Tải bản đầy đủ (.docx) (45 trang)

Ứng dụng mô hình cơ sở dữ liệu phân tán trong hệ thống quản lí bảo hiểm nhân thọ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (466.44 KB, 45 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

BỘ NÔNG NGHIỆP VÀ PTNT

ĐẠI HỌC THỦY LỢI

ỨNG DỤNG CƠ SỞ DỮ LIỆU PHÂN
TÁN TRONG HỆ THỐNG QUẢN LÍ
BẢO HIỂM NHÂN THỌ

ĐỒ ÁN TỐT NGHIỆP

HÀ NỘI, 2021
1


BỘ GIÁO DỤC VÀ ĐÀO TẠO

BỘ NÔNG NGHIỆP VÀ PTNT

ĐẠI HỌC THỦY LỢI

ỨNG DỤNG CƠ SỞ DỮ LIỆU PHÂN
TÁN TRONG HỆ THỐNG QUẢN LÍ
BẢO HIỂM NHÂN THỌ

Ngành Cơng nghệ thơng tin

NGƯỜI HƯỚNG DẪN

1. Th.S Nguyễn Văn Thẩm



HÀ NỘI, 2021

2


CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
Họ và tên sinh viên:
Lớp:

Hệ đào tạo: Đại học chính quy
Ngành: Công nghệ thông tin

Khoa: Công nghệ thông tin
1. TÊN ĐỀ TÀI:
ỨNG DỤNG CƠ SỞ DỮ LIỆU PHÂN TÁN TRONG QUẢN LÍ BẢO HIỂM
NHÂN THỌ
2. CÁC TÀI LIỆU CƠ BẢN:

3


3. NỘI DUNG CÁC PHẦN THUYẾT MINH VÀ TÍNH TỐN
Nội dung cần thuyết minh

Tỷ lệ %


Chương 1: Cơ sở lý thuyết
Thiết kế cơ sở dữ liệu phân tán quản lí bảo hiểm nhân thọ
Mơ hình đồng bộ hóa dữ liệu trong SQL Server

25%

Mơ hình Client-Server
Chương 2: Mơ hình phân tán dữ liệu
Mơ hình Client-Server cho hệ thống quản lí tài khoản
Mơ hình dữ liệu

60%

Đồng bộ hóa dữ liệu
Chương 3: Cài đặt ứng dụng

15%

4. GIÁO VIÊN HƯỚNG DẪN TỪNG PHẦN
Phần

Họ tên giáo viên
hướng dẫn

Chương 1: Cơ sở lý thuyết
Thiết kế cơ sở dữ liệu phân tán
Mơ hình đồng bộ hóa dữ liệu trong SQL Server

Th.S Nguyễn Văn Thẩm


Mơ hình Client-Server
Chương 2: Mơ hình phân tán dữ liệu
Mơ hình Client-Server cho hệ thống quản lí

Th.S Nguyễn Văn Thẩm

Mơ hình dữ liệu
Đồng bộ hóa dữ liệu
4


Chương 3: Cài đặt ứng dụng

Th.S Nguyễn Văn Thẩm

5


5. NGÀY GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
Ngày ....... tháng.........năm 2020
Trưởng Bộ mơn

Giáo viên hướng dẫn chính

(Ký và ghi rõ Họ tên)

(Ký và ghi rõ Họ tên)

Nhiệm vụ Đồ án tốt nghiệp đã được Hội đồng thi tốt nghiệp của Khoa thông qua
Ngày…. tháng… năm 2020

Chủ tịch Hội đồng
(Ký và ghi rõ Họ tên)

Sinh viên đã hoàn thành và nộp bản Đồ án tốt nghiệp cho Hội đồng thi ngày.... tháng ....
năm 2020.
Sinh viên làm Đồ án tốt nghiệp
(Ký và ghi rõ Họ tên)

6


TRƯỜNG ĐẠI HỌC THUỶ LỢI
KHOA CƠNG NGHỆ THƠNG TIN

BẢN TĨM TẮT ĐỀ CƯƠNG ĐỒ ÁN TỐT NGHIỆP
TÊN ĐỀ TÀI: Ứng dụng mơ hình cơ sở dữ liệu phân tán trong hệ thống quản lí bảo hiểm
nhân thọ
Sinh viên thực hiện:
Lớp:

58 TH3

Giáo viên hướng dẫn:

Nguyễn Văn Thẩm

TÓM TẮT ĐỀ TÀI
1. Bài tốn cần giải quyết
Ngày nay, ngày càng có nhiều các mơ hình hệ thống bảo hiểm nhân thọ nhiều cơ sở
do nhu cầu mua bảo hiểm của người tiêu dùng, nhu cầu mở rộng của các nhà kinh doanh

nên cần có một hệ thống phần mềm quản lý phù hợp cho mơ hình đó. Bây giờ người ta
cần một hệ thống để đồng bộ dữ liệu bảo hiểm nhân thọ của người dùng ở các cơ sở, các
chi nhánh trong hệ thống bảo hiểm nhân thọ.
Trang web của công ty bảo hiểm nhân thọ thiết kế sử dụng cơ sở dữ liệu phân tán cho
một hệ thống các chi nhánh. Các chi nhánh con sẽ có một cơ sở dữ liệu nhỏ và mọi hoạt
động của các cơ sở bảo hiểm sẽ được nhân viên và người quản lý của chi nhánh đó cập
nhật vào cơ sở dữ liệu địa phương. Dữ liệu đó sẽ được tải lên một cơ sở dữ liệu tổng để
lên các sao kê, báo cáo tài chính phục vụ cho các nhà quản lý nắm được tình hình kinh
doanh của hệ thống cũng như điều phối hợp lý các chiến lược kinh doanh cho từng chi
nhánh, vùng miền. Từ đó tăng hiệu quả quản lí bảo hiểm nhân thọ

7


2. Giải pháp công nghệ
- Ứng dụng khả năng quản trị CSDL phân tán của SQL Server vào hệ thống
- Hệ quản trị cơ sở dữ liệu: SQL Server
- Công nghệ web: Java serlvet, JSF
- Ngơn ngữ lập trình:
+ Java
+ HTML, CSS, JavaScript, …
- Framework: Java/Spring framework, Hibernate,…
- VMware Workstation
CÁC MỤC TIÊU CHÍNH
- Nghiên cứu tổng quan về CSDL phân tán, giải pháp đồng bộ hóa dữ liệu trên SQL Server
- Tìm hiểu về cơ sở dữ liệu quản lí bảo hiểm nhân thọ
- Tìm hiểu hệ điều hành Server
- Xây dựng mơ hình phân tán dữ liệu cho hệ thống quản lí bảo hiểm nhân thọ
- Thiết kế website thử nghiệm mơ hình Server- clients phân tán dữ liệu bảo hiểm nhân thọ.


KẾT QUẢ DỰ KIẾN
- Các báo cáo theo u cầu
- Mơ hình cơ sở dữ liệu phân tán quản lí bảo hiểm nhân thọ
- Website đảm bảo các chức năng cơ bản cho việc quản lí bảo hiểm nhân thọ
- Mơ hình thực nghiệm: Server-Clients
8


- Các tệp dữ liệu, các giao diện và báo cáo.

9


LỜI CAM ĐOAN

Tác giả xin cam đoan đây là Đồ án tốt nghiệp của bản thân tác giả. Các kết quả trong Đồ
án tốt nghiệp này là trung thực, và không sao chép từ bất kỳ một nguồn nào và dưới bất
kỳ hình thức nào.Việc tham khảo các nguồn tài liệu (nếu có) đã được thực hiện trích dẫn
và ghi nguồn tài liệu tham khảo đúng quy định.
Tác giả ĐATN/KLTN

Chữ ký

10


LỜI CẢM ƠN

“Quá trình thực hiện luận văn tốt nghiệp là giai đoạn quan trọng nhất trong quãng đời
mỗi sinh viên. Đồ án tốt nghiệp là tiền đề nhằm trang bị cho chúng em những kỹ năng

nghiên cứu, những kiến thức quý báu trước khi lập nghiệp.
Trước hết, em xin chân thành cảm ơn Thầy Nguyễn Văn Thẩm khoa Công Nghệ Thơng
Tin. Thầy đã tận tình chỉ dạy và trang bị cho em những kiến thức cần thiết trong suốt thời
gian ngồi trên ghế giảng đường, Làm nền tảng cho em có thể hồn thành được bài luận
văn này.
Em xin trân trọng cảm ơn thầy Nguyễn Văn Thẩm đã tận tình giúp đỡ, định hướng cách
tư duy và cách làm việc khoa học. Đó là những góp ý hết sức q báu khơng chỉ trong
q trình thực hiện luận văn này mà còn là hành trang tiếp bước cho em trong quá trình
học tập và lập nghiệp sau này.
Và cuối cùng, xin gửi lời cảm ơn đến gia đình, bạn bè, tập thể lớp 58 TH3 khoa công nghệ
thông tin, những người luôn sẵn sàng sẻ chia và giúp đỡ trong học tập và cuộc sống.
Mong rằng, chúng ta sẽ mãi mãi gắn bó với nhau.
Xin chúc những điều tốt đẹp nhất sẽ luôn đồng hành cùng mọi người. ”.
Em xin chân thành cảm ơn!

11


Chương 1. Cơ sở lí thuyết
1.1.

Bài tốn quản lí bảo hiểm nhân thọ
Ngày nay, ngày càng có nhiều các mơ hình hệ thống bảo hiểm nhân thọ nhiều cơ sở do

nhu cầu mua bảo hiểm của người tiêu dùng, nhu cầu mở rộng của các nhà kinh doanh nên
cần có một hệ thống phần mềm quản lý phù hợp cho mơ hình đó. Bây giờ người ta cần một
hệ thống để đồng bộ dữ liệu bảo hiểm nhân thọ của người dùng ở các cơ sở, các chi nhánh
trong hệ thống bảo hiểm nhân thọ.
Công ty Cổ phần Bảo hiểm nhân thọ Thu Thủy (TTSS) được thành lập theo Giấy phép
của Bộ Tài chính và hoạt động theo Luật doanh nghiệp, Luật Kinh doanh bảo hiểm và các

văn bản pháp luật có liên quan của Nhà nước. Đây là doanh nghiệp tư nhân tại Việt Nam
hoạt động trong lĩnh vực bảo hiểm nhân thọ với sự hội tụ của các cổ đơng là các tổ chức
thương mại, tài chính Ngân hàng có tiềm năng và uy tín tại Việt Nam.
TTSS ln chú trọng việc nâng cao khả năng trình độ nghiệp vụ bảo hiểm toàn hệ thống,
xây dựng, cải tiến và phát triển hệ thống sản phẩm bảo hiểm đa dạng, tạo sự khác biệt. Để
tăng tốc độ xử lý thông tin trong hệ thống chúng ta phải nghĩ tới việc phân tán dữ liệu như
thế nào trong hệ thống bởi nó quyết định rất lớn đến kết quả xử lí thơng tin. Do vậy với
cùng một hạ tầng mạng có tốc độ đường truyền như nhau nếu hệ thống đặt CSDL phân tán
thành nhiều nơi thì quá trình thành nhiều nơi thì q trình xử lí thơng tin cho kết quả nhanh
hơn q trình xử lí thơng tin mà hệ thống CSDL đặt ở 1 nơi.
Trang web của công ty bảo hiểm nhân thọ thiết kế sử dụng cơ sở dữ liệu phân tán cho
một hệ thống các chi nhánh. Các chi nhánh con sẽ có một cơ sở dữ liệu nhỏ và mọi hoạt
động của các cơ sở bảo hiểm sẽ được nhân viên và người quản lý của chi nhánh đó cập nhật
vào cơ sở dữ liệu địa phương. Dữ liệu đó sẽ được tải lên một cơ sở dữ liệu tổng để lên các
sao kê, báo cáo tài chính phục vụ cho các nhà quản lý nắm được tình hình kinh doanh của
hệ thống cũng như điều phối hợp lý các chiến lược kinh doanh cho từng chi nhánh, vùng
miền. Từ đó tăng hiệu quả quản lí bảo hiểm nhân thọ

12


1.2.

Thiết kế cơ sở dữ liệu phân tán quản lí bảo hiểm nhân thọ

1.2.1. Lí thuyết thiết kế cơ sở dữ liệu phân tán
1.2.1.1

Công việc thiết kế CSDL phân tán


Hiện nay chưa có một kỹ thuật cụ thể nào nói một cách chi tiết việc thiết kế CSDLPT, tuy
nhiên một cách tổng quát chúng ta có thể thiết kế CSDLPT theo các bước sau:
Thiết kế lược đồ toàn cục
Thiết kế phân mảnh
Thiết kế định vị các mảnh
Thiết kế CSDL vật lý

Hình 3: Sơ đồ thiết kế CSDLPT
Bước 1: Thiết kế lược đồ toàn cục
- Thiết kế các quan hệ toàn cục
- Mơ tả tồn bộ dữ liệu sẽ được dùng trong hệ thống

Bước 2: Thiết kế phân mảnh
Phân chia quan hệ toàn cục thành các mảnh ngang, dọc hoặc hỗn hợp
Bước 3: Thiết kế định vị mảnh
- Xác định các mảnh được ánh xạ vào các hình ảnh vật lý như thế nào
- Tạo các hình ảnh vật lý tại các trạm
- Xác định việc nhân bản các mảnh
13


- Các đoạn dữ liệu được đưa vào các vị trí lưu trữ thích hợp với yêu cầu hoạt động thực tế

của hệ thống
Bước 4: Thiết kế các CSDL vật lý cục bộ tại mỗi nơi
Thiết kế cơ sở dữ liệu vật lý cho các quan hệ tại các trạm
Các yêu cầu của ứng dụng khi thiết kế CSDLPT
- Các yêu cầu của ứng dụng ảnh hưởng đến thiết kế các lược đồ vì các lược đồ phải có khả

năng hỗ trợ ứng dụng một cách hiệu quả.

- Khi thiết kế CSDL phân tán cần phải hiểu biết thật chính xác về các yêu cầu của ứng
dụng, nhất là đối với:
+ các ứng dụng được thực hiện một cách thường xuyên
+ các ứng dụng cần phải được chạy một cách có hiệu quả
- Cần quan tâm đến:
+ Nơi chạy ứng dụng (còn được gọi là nơi gốc của ứng dụng).
+ Tần suất chạy ứng dụng: số lần chạy trong một đơn vị thời gian. Nếu các ứng dụng
được chạy tại nhiều nơi thì cần biết tần suất chạy của mỗi ứng dụng tại mỗi nơi.
+ Số lượng, loại và sự phân tán của các truy xuất trong mỗi ứng dụng đến mỗi đối

tượng dữ liệu cần thiết.
1. Các mục tiêu thiết kế phân tán dữ liệu
Tính cục bộ xử lý (processing locality)
-

Khái niệm: Tính cục bộ xử lý là đặt dữ liệu càng gần các ứng dụng sử dụng các dữ liệu này

-

càng tốt
Thiết kế dữ liệu phân tán để làm cực đại hố tính cục bộ xử lý
Việc xác định đơn vị phân tán (unit of distribution) thích hợp trong q trình phân mảnh là

-

quan trọng
Một quan hệ khơng là một đơn vị phân tán thích hợp vì:
+ Các khung hình ứng dụng thơng thường là các tập con của các quan hệ. Do đó:



tính cục bộ xử lý của các ứng dụng không được xác định trên các quan hệ mà trên
các tập con của các quan hệ này



chỉ có thể xem các tập con của các quan hệ này là các đơn vị phân tán

+ Nếu các ứng dụng có các khung nhìn được định nghĩa trên một quan hệ cho trước đặt

tại các nơi khác nhau, thì có thể có hai cách khác nhau để xem lại toàn bộ quan hệ là
một đơn vị phân tán:

14




Quan hệ không được nhân bản và được lưu trữ chỉ tại một nơi: dẫn đến một số
lượng lớn không cần thiết các truy xuất dữ liệu từ xa



Quan hệ được nhân bản tại tất cả hoặc một số nơi có chạy các ứng dụng:
 có sự nhân bản khơng cần thiết
 gây ra các vấn đề không mong muốn trong việc thực hiện cập nhật khi vùng lưu

trữ bị giới hạn
-

Cách xác định tính cục bộ xử lý: dựa vào

+ các tham chiếu cục bộ (local reference)
+ các tham chiếu từ xa (remote reference)

-

Khi biết nơi chạy ứng dụng thì tính cục bộ và tính từ xa của các tham chiếu chỉ phụ thuộc

-

vào sự phân tán dữ liệu.
Cách làm cực đại hóa tính cục bộ xử lý (làm cực tiểu hoá các tham chiếu từ xa)
+ xét các tham chiếu cục bộ và các tham chiếu từ xa tương ứng với mỗi cách phân

mảnh dự kiến (candidate fragmentation)
+ chọn giải pháp tốt nhất giữa các phân mảnh này
-

Tính cục bộ hồn tồn (complete locality):
+ Một ứng dụng có tính cục bộ hồn tồn là ứng dụng mà chúng có thể được thực hiện

hồn tồn tại nơi gốc của chúng
+ Ưu điểm:


giảm bớt các truy xuất từ xa



làm tăng tính đơn giản trong việc kiểm sốt việc thực hiện các ứng dụng


Tính sẵn sàng và độ tin cậy của dữ liệu phân tán
-

Tính sẵn sàng và độ tin cậy là ưu điểm của các hệ thống phân tán đối với các hệ thống

-

không phân tán
Mức độ sẵn sàng cao đối với các ứng dụng chỉ đọc sẽ đạt được bằng cách lưu trữ nhiều bản

-

nhân của cùng một thông tin
Độ tin cậy cũng đạt được bằng cách lưu trữ nhiều bản nhân của cùng một thơng tin vì có
thể được phục hồi khi máy tính bị ngừng hoặc có hư hỏng vật lý (như lửa, động đất, phá
hoại…) của một trong các bản nhân bằng cách sử dụng các bản nhân khác vẫn còn hiệu
lực.
15


Điều phối tải làm việc
-

Điều phối tải làm việc tại các nơi là một đặc điểm quan trọng của các hệ thống máy tính

-

phân tán.
Thực hiện điều phối tải làm việc để:
+ tận dụng ưu điểm của các nguồn lực khác nhau

+ tận dụng tính năng của các máy tính tại mỗi nơi
+ cực đại hoá mức độ thực hiện song song các ứng dụng.

-

Điều phối tải làm việc có thể ảnh hưởng ngược lại với tính cục bộ xử lý
Ưu điểm của phân mảnh đối với điều phối tải làm việc: vì mỗi mảnh được xử lý như là một

-

đơn vị nên cho phép nhiều giao dịch được thực hiện đồng thời.
Tính đồng thời nội truy vấn (intraquery concurrency): là việc phân mảnh các quan hệ dẫn
đến việc thực hiện đồng thời một truy vấn đơn bằng cách chia truy vấn này thành các truy
vấn con để thực hiện trên các mảnh.
⇒ sự phân mảnh
 làm tăng mức độ đồng thời
 làm tăng thông lượng của hệ thống

Các chi phí lưu trữ và khả năng lưu trữ có sẵn
-

Sự phân tán CSDL nên phản ánh chi phí và khả năng lưu trữ tại các nơi khác nhau.
Trên mạng
+ có nơi trên mạng cho phép lưu trữ dữ liệu lớn
+ có nơi khơng hỗ trợ vùng lưu trữ lớn

-

Chi phí lưu trữ dữ liệu là khơng thích đáng so với các chi phí của ứng dụng như:
+ các chi phí CPU

+ chi phí nhập/xuất
+ chi phí truyền thơng

-

Phải xét giới hạn lưu trữ có sẵn tại mỗi nơi.
2. Các phương pháp tiếp cận để thiết kế phân tán dữ liệu
a) Phương pháp tiếp cận từ trên xuống (top – down approach)

Quá trình thiết kế từ trên xuống được chỉ ra trong hình 4.1.
Giai đoạn phân tích các u cầu:
Đầu ra:
16


- Các yêu cầu hệ thống như:
+ môi trường của hệ thống
+ các nhu cầu về dữ liệu
+ các nhu cầu xử lý của người sử dụng CSDL
- Các mục tiêu của một DBMS mà thống cuối cùng sẽ thoả mãn như
+ hiệu suất
+ độ tin cậy
+ tính sẵn sàng
+ tính kinh tế
+ tính mở rộng (tính linh hoạt)

Các bước thực hiện:
- Xác định các yêu cầu của hệ thống
- Xác định các mục tiêu


Giai đoạn thiết kế khung nhìn (view design):
Đầu vào:
- các yêu cầu của hệ thống
- các mục tiêu của một DBMS

Đầu ra:
- thông tin truy xuất
- các định nghĩa lược đồ ngoài (định nghĩa các giao diện cho những người sử dụng cuối cùng)

Các bước thực hiện:
- Xác định các thông tin truy xuất
- Định nghĩa các giao diện cho những người sử dụng cuối cùng

Giai đoạn thiết kế khái niệm (conceptual design):
Đầu vào:
- các yêu cầu của hệ thống
- các mục tiêu của một DBMS

Đầu ra: lược đồ khái niệm toàn cục (GCS: Global- Conceptual-Schema)
Các bước thực hiện:
17


- Xem xét tổng thể cơ quan, tổ chức đang xét
- Phân tích thực thể (entity analysis)
+ xác định các thực thể
+ xác định các thuộc tính của các tập thực thể
+ xác định các mối liên hệ giữa các tập thực thể
- Phân tích chức năng (functional analysis ): xác định các chức năng cơ bản trong hệ thống


cần mơ hình hóa
Mối quan hệ giữa thiết kế khái niệm và thiết kế khung nhìn.
- Thiết kế khái niệm là sự tích hợp các khung hình của người sử dụng
- Tích hợp khung nhìn nên được sử dụng để bảo đảm rằng các yêu cầu thực thể và mối liên hệ

cho tất cả các khung nhìn đã được đưa vào trong lược đồ khái niệm
- Người sử dụng cần phải
+ chỉ rõ các thực thể dữ liệu
+ phải xác định các ứng dụng sẽ chạy trên CSDL
+ phải xác định thông tin thống kê về các ứng dụng như


tần suất ứng dụng



khối lượng của các thông tin khác nhau



các số liệu khác

Giai đoạn thiết kế phân tán (distribution design):
Đầu vào:
- Lược đồ khái niệm tồn cục
- Thơng tin truy xuất
- Các lược đồ ngoài
- Các yêu cầu từ người dùng

Đầu ra: lược đồ khái niệm cục bộ (LCS: Local-Conceptual-Schema)

Các bước thực hiện:
- Thiết kế phân mảnh
- Thiết kế định vị

Thiết kế vật lý (physical design)
18


Đầu vào:
- Các lược đồ khái niệm cục bộ
- Thông tin kiểu truy xuất các mảnh trong các lược đồ

Đầu ra: lược đồ vật lý
Các bước thực hiện: ánh xạ các lược đồ khái niệm cục bộ vào các thiết bị lưu trữ vật lý
(physical storage device) có sẵn tại các nơi tương ứng
Theo dõi và kiểm tra
Đầu vào: lược đồ vật lý
Đầu ra:
- một số dạng phản hồi
- yêu cầu quay trở lại một trong các bước trước các giai đoạn thiết kế

Các bước thực hiện:
- Giám sát cách thực hiện CSDL
- Giám sát tính thích hợp của các khung nhìn của người sử dụng

Kết luận
Phương pháp thiết kế từ trên xuống:
- thích hợp với những CSDL được thiết kế từ đầu
- không hiệu quả khi CSDL phân tán được phát triển từ CSDL hiện tại


19


Phần nhập của người sử dụng

Phản hồi

Phản hồi

Hình 4: Quá trình thiết kế từ trên xuống
b) Phương pháp tiếp cận từ dưới lên (Bottom-up)

Nhận xét
-

Trong thực tế, một số CSDL đã tồn tại trước và được tổ chức trong môi trường tập trung.
Khi đó, CSDL phân tán được phát triển bằng cách liên kết các CSDL thành một CSDL
mới.

Cách thiết kế từ dưới lên một CSDL phân tán:
20


-

Chọn một mơ hình cơ sở dữ liệu chung để mơ tả lược đồ tồn cục của CSDL
Chuyển đổi mỗi lược đồ cục bộ thành mơ hình dữ liệu chung
Tích hợp các lược đồ cục bộ thành một lược đồ toàn cục chung

Kết luận

Phương pháp thiết kế từ dưới lên thích hợp với việc thiết kế CSDLPT dựa trên CSDL đã có
sẵn do đó địi hỏi phải giải quyết ba vấn đề mà không phải của riêng CSDL phân tán, mà
chúng cũng có trong các hệ thống tập trung.
3. Các yêu cầu về thông tin

Các yếu tố ảnh hưởng đến quá trình thiết kế CSDLPT:
+ tổ chức luận lý của CSDL
+ vị trí của các ứng dụng
+ các đặc điểm truy xuất CSDL của các ứng dụng
+ các đặc tính của các hệ thống máy tính ở mỗi nơi.
- Các loại thông tin dùng để thiết kế phân tán:
+ thông tin về CSDL
+ thông tin về ứng dụng
+ thông tin về mạng truyền thông
+ thông tin về hệ thống máy tính
1.2.1.2
Thiết kế phân mảnh dữ liệu
-

Nhận xét
Hai vấn đề cơ bản theo cách tiếp cận từ trên xuống:
+ Thiết kế phân mảnh
+ Thiết kế định vị
-

Mục đích của thiết kế phân mảnh: xác định các mảnh không giao nhau
Thiết kế các mảnh bao gồm việc gom nhóm các bộ (trong trường hợp phân mảnh ngang)
hoặc các thuộc tính (trong trường hợp phân mảnh dọc) mà chúng có cùng các đặc tính theo
quan điểm định vị của chúng.


Phân mảnh ngang
-

Mỗi mảnh là một tập hợp con gồm các bộ của quan hệ
Phân mảnh ngang chính là phân chia một quan hệ dựa vào các vị từ định tính vị từ được

-

định nghĩa trên quan hệ đó.
Phân mảnh ngang dẫn xuất là phân chia một quan hệ dựa vào các vị từ được định nghĩa

-

trên một quan hệ khác.
Để phục vụ cho hoạt động phân mảnh ngang cần có các loại thơng tin sau:
1. Các yêu cầu thông tin của phân mảnh ngang
21


a) Các thông tin về cơ sở dữ liệu
-

Thông tin về CSDL liên quan đến lược đồ khái niệm toàn cục, chỉ ra mối liên kết giữa các

-

quan hệ.
Mơ hình hóa các mối liên kết giữa các quan hệ bằng đồ thị.
Thơng tin định lượng cần có về CSDL là số bộ của mỗi quan hệ R, ký hiệu
card(R)


- Quy ước:
+ Mối liên hệ: biểu diễn bằng cung có hướng
+ Mỗi nút là một lược đồ quan hệ: biểu diễn bằng hình chữ nhật

Quan hệ S
Thuộc tính 1



Thuộc tính n

Quan hệ R

L

Thuộc tính 1



Thuộc tính n

+ Trong đó:


S gọi là quan hệ chủ (owner)



R gọi là quan hệ bộ phận (member)




L gọi là đường liên hệ

+ Định nghĩa các hàm:


Owner(tên đường liên hệ): trả về quan hệ chủ của đường kết nối



Member(tên đường liên hệ): trả về quan hệ bộ phận của đường kết nối

b) Thông tin về ứng dụng
- Thơng tin về ứng dụng có hai loại
+ Thơng tin định tính: dùng để phân mảnh
+ Thơng tin định lượng: dùng để cấp phát

Thơng tin định tính
- Thơng tin định tính cơ bản bao gồm các vị từ được sử dụng trong các truy vấn của người sử

dụng.
- Chỉ phân tích các ứng dụng quan trọng để xác định xác định các vị từ.

Định nghĩa
Cho quan hệ R(A1, A2, A3,…, An) với Ai là một thuộc tính có miền trị Di.
Giả sử cần phân mảnh ngang quan hệ R.
22



- Vị từ đơn giản
+ Một vị từ đơn giản (simple predicate) pJ được định nghĩa trên R có dạng:

pJ: Ai θ value
+ Trong đó


θ là một trong các phép so sánh =, ≠, <, ≤, >, ≥



value được chọn từ miền của Ai (value ∈ Di)

- Tập các vị từ đơn giản: Ký hiệu Pr là tập hợp các vị từ đơn giản được định nghĩa trên quan

hệ R. Các phần tử của Pr được ký hiệu là pJ.
- Một vị từ giao tối thiểu (minterm predicate) m j đối với một tập hợp các vị từ đơn giản

Pr={p1, p2,…,pm } là một tổ hợp giao của tất cả các vị từ xuất hiện trong P r, các vị từ này ở
dạng thông thường hoặc ở dạng phủ định, để sao cho mj không bị mâu thuẫn. Tức là
mj = ∧ p*i , 1≤ i ≤ m
với p*i = pi hoặc p*i = ¬ pi và mj ≠ false
- Tập hợp các vị từ giao tối thiểu: gọi tập M= {m 1, m2, …, mz} là tập hợp các vị từ giao tối

thiểu.
- Chú ý:
+ Đối với vị từ đẳng thức (equality predicate), phủ định của đẳng thức Attribute = Value là

Attribute ≠ Value

+ Đối với các vị từ bất đẳng thức (inequality predicate), phủ định là phần bù. Phần bù của

Attribute ≤ Value là Attribute >Value.
Thông tin định lượng
Theo những thông tin định lượng về các ứng dụng của người sử dụng, cần có hai tập hợp dữ
liệu:
- Độ chọn giao tối thiểu (minterm selectivity)
+ là số bộ của quan hệ sẽ được truy xuất bởi một truy vấn tương ứng với một vị từ giao tối

thiểu cho trước.
+ ký hiệu độ chọn của vị từ giao tối thiểu mj là sel(mj)
- Tần số truy xuất (access frequency)
23


+ là tần số của các ứng dụng truy xuất dữ liệu.
+ cho Q={q1, q2,…, qq} là tập hợp các truy vấn
+ kí hiệu tần số truy xuất của truy vấn qi trong một khoảng thời gian cho trước là acc(qi)
+ ký hiệu tần số truy xuất của vị từ giao tối thiểu mj là acc(mj)

2.Phân mảnh ngang chính
- Cách xác định mảnh ngang chính:
+ cho một quan hệ tồn cục R thì các mảnh ngang Ri của R là:

Ri =

σ Fi

(R); 1 ≤ i ≤ n


+ trong đó


Fi là điều kiện chọn hoặc công thức chọn (selection formula ) của mảnh R i.



nếu Fi ở dạng chuẩn giao thì nó là một vị từ giao tối thiểu mi.

- Tính đúng đắn của phân mảnh ngang chính: mỗi bộ của quan hệ toàn cục được đưa vào

trong một và chỉ một mảnh.
- Xác định phân mảnh ngang chính của một quan hệ toàn cục là xác định một tập hợp các vị

từ chọn (selection predicate) đầy đủ và tách biệt.
- Các bộ của một mảnh phải được tham chiếu giống nhau trong tất cả các ứng dụng.

Định nghĩa phân mảnh ngang:
- Một mảnh ngang Ri của quan hệ R bao gồm tất cả các bộ của quan hệ R thỏa mãn vị từ giao

tối thiểu mi.
- Cho một tập hợp các vị từ giao tối thiểu M thì số mảnh ngang bằng số vị từ giao tối thiểu.
- Tập hợp các mảnh ngang này được gọi là tập hợp các mảnh giao tối thiểu (minterm

fragment).
Đặc tính của vị từ đơn giản
- Một vị từ đơn giản pi được gọi là thích hợp (relevant) đối với một tập Pr các vị từ đơn giản,

nếu tồn tại ít nhất hai vị từ giao tối thiểu mi và mj của Pr mà các biểu thức của chúng chỉ khác
nhau ở pi (tức là mi chứa pi và mj chứa ¬ pi) và tồn tại ít nhất một ứng dụng tham chiếu khác

nhau đến hai mảnh fi và fj (tương ứng mi và mj). Do đó, pi là vị từ thích hợp nếu và chỉ nếu:

24


acc(m )

j
acc(mi )
card ( f i ) # card ( f j )

- Một tập hợp các vị từ đơn giản P r được gọi là đầy đủ (complete) nếu và chỉ nếu bất kỳ hai

bộ nào thuộc bất kỳ mảnh giao tối thiểu nào được định nghĩa theo P r thì bất kỳ ứng dụng nào
đều tham chiếu đến hai bộ này cùng với một xác suất.
- Một tập hợp các vị từ đơn giản P r được gọi là tối thiểu (minimal) nếu tất cả các vị từ của nó

là các vị từ thích hợp.
Các bước thiết kế phân mảnh ngang chính:
Bước 1: Tìm tập các vị từ đầy đủ và tối thiểu
Dùng thuật tốn COM_MIN
Bước 2: Tìm tập hợp các vị từ giao tối thiểu có thể được định nghĩa trên các vị từ đầy đủ và tối
thiểu
Bước 3: Tìm tập các phép suy diễn
Bước 4: Tìm tập các vị từ giao tối thiểu có nghĩa
Dùng thuật toán PHORIZONTAL
(1) Thuật toán COM_MIN: xây dựng một tập hợp các vị từ Pr’ là đầy đủ và tối thiểu.
Bắt đầu:
- Xét một vị từ pi phân chia các bộ của R thành hai phần và tồn tại ít nhất một ứng dụng tham


chiếu khác nhau đến hai phần này.
- Cho Pr’ = pi.

Phương pháp:
Xét một vị từ đơn giản mới pj mà phân chia ít nhất một mảnh fk của Pr’ thành hai phần và tồn
tại ít nhất một ứng dụng tham chiếu khác nhau đến hai phần này.
- Bước 1: Cho Pr’ ← Pr’ ∪ pj
- Bước 2: Loại bỏ các vị từ khơng thích hợp ra khỏi Pr’.
- Bước 3: Lặp lại bước 2 cho đến khi tập hợp các mảnh giao tối thiểu của P r’ là đầy đủ.

Quy tắc 1:

25


×