Tải bản đầy đủ (.pdf) (42 trang)

ỨNG DỤNG CƠ SỞ DỮ LIỆU PHÂN TÁN TRONG HỆ THỐNG QUẢN LÍ BẢO HIỂM NHÂN THỌ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (541.43 KB, 42 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

BỘ NÔNG NGHIỆP VÀ PTNT

ĐẠI HỌC THỦY LỢI

ĐỖ MINH HUY

ỨNG DỤNG CƠ SỞ DỮ LIỆU PHÂN
TÁN TRONG HỆ THỐNG QUẢN LÍ
BẢO HIỂM NHÂN THỌ

ĐỒ ÁN TỐT NGHIỆP

HÀ NỘI, 2021


BỘ GIÁO DỤC VÀ ĐÀO TẠO

BỘ NÔNG NGHIỆP VÀ PTNT

ĐẠI HỌC THỦY LỢI

ĐỖ MINH HUY

ỨNG DỤNG CƠ SỞ DỮ LIỆU PHÂN
TÁN TRONG HỆ THỐNG QUẢN LÍ
BẢO HIỂM NHÂN THỌ

Ngành Cơng nghệ thông tin
Mã SV: 1651060851



NGƯỜI HƯỚNG DẪN

1. Th.S Nguyễn Văn Thẩm

HÀ NỘI, 2021


CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
Họ và tên sinh viên: ĐỖ MINH HUY
Lớp: 58TH3

Hệ đào tạo: Đại học chính quy

Ngành: Cơng nghệ thơng tin

Khoa: Cơng nghệ thông tin
1. TÊN ĐỀ TÀI:
ỨNG DỤNG CƠ SỞ DỮ LIỆU PHÂN TÁN TRONG QUẢN LÍ BẢO HIỂM
NHÂN THỌ
2. CÁC TÀI LIỆU CƠ BẢN:


3. NỘI DUNG CÁC PHẦN THUYẾT MINH VÀ TÍNH TỐN
Nội dung cần thuyết minh

Tỷ lệ %


Chương 1: Cơ sở lý thuyết
● Thiết kế cơ sở dữ liệu phân tán quản lí bảo hiểm nhân thọ
● Mơ hình đồng bộ hóa dữ liệu trong SQL Server

25%

● Mơ hình Client-Server
Chương 2: Mơ hình phân tán dữ liệu
● Mơ hình Client-Server cho hệ thống quản lí tài khoản
● Mơ hình dữ liệu

60%

● Đồng bộ hóa dữ liệu
Chương 3: Cài đặt ứng dụng

15%

4. GIÁO VIÊN HƯỚNG DẪN TỪNG PHẦN
Phần

Họ tên giáo viên
hướng dẫn

Chương 1: Cơ sở lý thuyết
● Thiết kế cơ sở dữ liệu phân tán
● Mơ hình đồng bộ hóa dữ liệu trong SQL Server

Th.S Nguyễn Văn Thẩm


● Mơ hình Client-Server
Chương 2: Mơ hình phân tán dữ liệu
● Mơ hình Client-Server cho hệ thống quản lí
● Mơ hình dữ liệu

Th.S Nguyễn Văn Thẩm

● Đồng bộ hóa dữ liệu
Chương 3: Cài đặt ứng dụng

Th.S Nguyễn Văn Thẩm


5. NGÀY GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
Ngày ....... tháng.........năm 2020
Trưởng Bộ mơn

Giáo viên hướng dẫn chính

(Ký và ghi rõ Họ tên)

(Ký và ghi rõ Họ tên)

Nhiệm vụ Đồ án tốt nghiệp đã được Hội đồng thi tốt nghiệp của Khoa thông qua
Ngày…. tháng… năm 2020
Chủ tịch Hội đồng
(Ký và ghi rõ Họ tên)

Sinh viên đã hoàn thành và nộp bản Đồ án tốt nghiệp cho Hội đồng thi ngày.... tháng ....

năm 2020.
Sinh viên làm Đồ án tốt nghiệp
(Ký và ghi rõ Họ tên)


TRƯỜNG ĐẠI HỌC THUỶ LỢI
KHOA CƠNG NGHỆ THƠNG TIN

BẢN TĨM TẮT ĐỀ CƯƠNG ĐỒ ÁN TỐT NGHIỆP
TÊN ĐỀ TÀI: Ứng dụng mơ hình cơ sở dữ liệu phân tán trong hệ thống quản lí bảo hiểm
nhân thọ
Sinh viên thực hiện:

Đỗ Minh Huy

Lớp:

58 TH3

Giáo viên hướng dẫn:

Nguyễn Văn Thẩm

TÓM TẮT ĐỀ TÀI
1. Bài tốn cần giải quyết
Ngày nay, ngày càng có nhiều các mơ hình hệ thống bảo hiểm nhân thọ nhiều cơ sở
do nhu cầu mua bảo hiểm của người tiêu dùng, nhu cầu mở rộng của các nhà kinh doanh
nên cần có một hệ thống phần mềm quản lý phù hợp cho mơ hình đó. Bây giờ người ta
cần một hệ thống để đồng bộ dữ liệu bảo hiểm nhân thọ của người dùng ở các cơ sở, các
chi nhánh trong hệ thống bảo hiểm nhân thọ.

Trang web của công ty bảo hiểm nhân thọ thiết kế sử dụng cơ sở dữ liệu phân tán cho
một hệ thống các chi nhánh. Các chi nhánh con sẽ có một cơ sở dữ liệu nhỏ và mọi hoạt
động của các cơ sở bảo hiểm sẽ được nhân viên và người quản lý của chi nhánh đó cập
nhật vào cơ sở dữ liệu địa phương. Dữ liệu đó sẽ được tải lên một cơ sở dữ liệu tổng để
lên các sao kê, báo cáo tài chính phục vụ cho các nhà quản lý nắm được tình hình kinh
doanh của hệ thống cũng như điều phối hợp lý các chiến lược kinh doanh cho từng chi
nhánh, vùng miền. Từ đó tăng hiệu quả quản lí bảo hiểm nhân thọ


2. Giải pháp công nghệ
- Ứng dụng khả năng quản trị CSDL phân tán của SQL Server vào hệ thống
- Hệ quản trị cơ sở dữ liệu: SQL Server
- Công nghệ web: Java serlvet, JSF
- Ngơn ngữ lập trình:
+ Java
+ HTML, CSS, JavaScript, …
- Framework: Java/Spring framework, Hibernate,…
- VMware Workstation
CÁC MỤC TIÊU CHÍNH
- Nghiên cứu tổng quan về CSDL phân tán, giải pháp đồng bộ hóa dữ liệu trên SQL Server
- Tìm hiểu về cơ sở dữ liệu quản lí bảo hiểm nhân thọ
- Tìm hiểu hệ điều hành Server
- Xây dựng mơ hình phân tán dữ liệu cho hệ thống quản lí bảo hiểm nhân thọ
- Thiết kế website thử nghiệm mơ hình Server- clients phân tán dữ liệu bảo hiểm nhân thọ.

KẾT QUẢ DỰ KIẾN
- Các báo cáo theo u cầu
- Mơ hình cơ sở dữ liệu phân tán quản lí bảo hiểm nhân thọ
- Website đảm bảo các chức năng cơ bản cho việc quản lí bảo hiểm nhân thọ
- Mơ hình thực nghiệm: Server-Clients

- Các tệp dữ liệu, các giao diện và báo cáo.


LỜI CAM ĐOAN

Tác giả xin cam đoan đây là Đồ án tốt nghiệp của bản thân tác giả. Các kết quả trong Đồ
án tốt nghiệp này là trung thực, và không sao chép từ bất kỳ một nguồn nào và dưới bất
kỳ hình thức nào.Việc tham khảo các nguồn tài liệu (nếu có) đã được thực hiện trích dẫn
và ghi nguồn tài liệu tham khảo đúng quy định.
Tác giả ĐATN/KLTN

Chữ ký


LỜI CẢM ƠN

“Quá trình thực hiện luận văn tốt nghiệp là giai đoạn quan trọng nhất trong quãng đời
mỗi sinh viên. Đồ án tốt nghiệp là tiền đề nhằm trang bị cho chúng em những kỹ năng
nghiên cứu, những kiến thức quý báu trước khi lập nghiệp.
Trước hết, em xin chân thành cảm ơn Thầy Nguyễn Văn Thẩm khoa Công Nghệ Thơng
Tin. Thầy đã tận tình chỉ dạy và trang bị cho em những kiến thức cần thiết trong suốt thời
gian ngồi trên ghế giảng đường, Làm nền tảng cho em có thể hồn thành được bài luận
văn này.
Em xin trân trọng cảm ơn thầy Nguyễn Văn Thẩm đã tận tình giúp đỡ, định hướng cách
tư duy và cách làm việc khoa học. Đó là những góp ý hết sức q báu khơng chỉ trong
q trình thực hiện luận văn này mà còn là hành trang tiếp bước cho em trong quá trình
học tập và lập nghiệp sau này.
Và cuối cùng, xin gửi lời cảm ơn đến gia đình, bạn bè, tập thể lớp 58 TH3 khoa công nghệ
thông tin, những người luôn sẵn sàng sẻ chia và giúp đỡ trong học tập và cuộc sống.
Mong rằng, chúng ta sẽ mãi mãi gắn bó với nhau.

Xin chúc những điều tốt đẹp nhất sẽ luôn đồng hành cùng mọi người. ”.
Em xin chân thành cảm ơn!


Chương 1. Cơ sở lí thuyết
1.1.

Bài tốn quản lí bảo hiểm nhân thọ

Ngày nay, ngày càng có nhiều các mơ hình hệ thống bảo hiểm nhân thọ nhiều cơ sở do
nhu cầu mua bảo hiểm của người tiêu dùng, nhu cầu mở rộng của các nhà kinh doanh nên
cần có một hệ thống phần mềm quản lý phù hợp cho mơ hình đó. Bây giờ người ta cần một
hệ thống để đồng bộ dữ liệu bảo hiểm nhân thọ của người dùng ở các cơ sở, các chi nhánh
trong hệ thống bảo hiểm nhân thọ.
Công ty Cổ phần Bảo hiểm nhân thọ Thu Thủy (TTSS) được thành lập theo Giấy phép
của Bộ Tài chính và hoạt động theo Luật doanh nghiệp, Luật Kinh doanh bảo hiểm và các
văn bản pháp luật có liên quan của Nhà nước. Đây là doanh nghiệp tư nhân tại Việt Nam
hoạt động trong lĩnh vực bảo hiểm nhân thọ với sự hội tụ của các cổ đơng là các tổ chức
thương mại, tài chính Ngân hàng có tiềm năng và uy tín tại Việt Nam.
TTSS ln chú trọng việc nâng cao khả năng trình độ nghiệp vụ bảo hiểm toàn hệ thống,
xây dựng, cải tiến và phát triển hệ thống sản phẩm bảo hiểm đa dạng, tạo sự khác biệt. Để
tăng tốc độ xử lý thông tin trong hệ thống chúng ta phải nghĩ tới việc phân tán dữ liệu như
thế nào trong hệ thống bởi nó quyết định rất lớn đến kết quả xử lí thơng tin. Do vậy với
cùng một hạ tầng mạng có tốc độ đường truyền như nhau nếu hệ thống đặt CSDL phân tán
thành nhiều nơi thì quá trình thành nhiều nơi thì q trình xử lí thơng tin cho kết quả nhanh
hơn q trình xử lí thơng tin mà hệ thống CSDL đặt ở 1 nơi.
Trang web của công ty bảo hiểm nhân thọ thiết kế sử dụng cơ sở dữ liệu phân tán cho
một hệ thống các chi nhánh. Các chi nhánh con sẽ có một cơ sở dữ liệu nhỏ và mọi hoạt
động của các cơ sở bảo hiểm sẽ được nhân viên và người quản lý của chi nhánh đó cập nhật
vào cơ sở dữ liệu địa phương. Dữ liệu đó sẽ được tải lên một cơ sở dữ liệu tổng để lên các

sao kê, báo cáo tài chính phục vụ cho các nhà quản lý nắm được tình hình kinh doanh của
hệ thống cũng như điều phối hợp lý các chiến lược kinh doanh cho từng chi nhánh, vùng
miền. Từ đó tăng hiệu quả quản lí bảo hiểm nhân thọ


1.2.

Thiết kế cơ sở dữ liệu phân tán quản lí bảo hiểm nhân thọ

1.2.1. Lí thuyết thiết kế cơ sở dữ liệu phân tán
1.2.1.1

Cô ng việc thiết kế CSDL phâ n tá n

Hiện nay chưa có một kỹ thuật cụ thể nào nói một cách chi tiết việc thiết kế CSDLPT, tuy
nhiên một cách tổng quát chúng ta có thể thiết kế CSDLPT theo các bước sau:
Thiết kế lược đồ toàn cục

Thiết kế phân mảnh

Thiết kế định vị các mảnh

Thiết kế CSDL vật lý

Hình 3: Sơ đồ thiết kế CSDLPT
Bước 1: Thiết kế lược đồ toàn cục
- Thiết kế các quan hệ tồn cục
- Mơ tả tồn bộ dữ liệu sẽ được dùng trong hệ thống
Bước 2: Thiết kế phân mảnh
Phân chia quan hệ toàn cục thành các mảnh ngang, dọc hoặc hỗn hợp

Bước 3: Thiết kế định vị mảnh
- Xác định các mảnh được ánh xạ vào các hình ảnh vật lý như thế nào
- Tạo các hình ảnh vật lý tại các trạm
- Xác định việc nhân bản các mảnh
- Các đoạn dữ liệu được đưa vào các vị trí lưu trữ thích hợp với yêu cầu hoạt động thực tế
của hệ thống
Bước 4: Thiết kế các CSDL vật lý cục bộ tại mỗi nơi


Thiết kế cơ sở dữ liệu vật lý cho các quan hệ tại các trạm
Các yêu cầu của ứng dụng khi thiết kế CSDLPT
- Các yêu cầu của ứng dụng ảnh hưởng đến thiết kế các lược đồ vì các lược đồ phải có khả
năng hỗ trợ ứng dụng một cách hiệu quả.
- Khi thiết kế CSDL phân tán cần phải hiểu biết thật chính xác về các yêu cầu của ứng
dụng, nhất là đối với:
+ các ứng dụng được thực hiện một cách thường xuyên
+ các ứng dụng cần phải được chạy một cách có hiệu quả
- Cần quan tâm đến:
+ Nơi chạy ứng dụng (còn được gọi là nơi gốc của ứng dụng).
+ Tần suất chạy ứng dụng: số lần chạy trong một đơn vị thời gian. Nếu các ứng dụng
được chạy tại nhiều nơi thì cần biết tần suất chạy của mỗi ứng dụng tại mỗi nơi.
+ Số lượng, loại và sự phân tán của các truy xuất trong mỗi ứng dụng đến mỗi đối
tượng dữ liệu cần thiết.
1. Các mục tiêu thiết kế phân tán dữ liệu
Tính cục bộ xử lý (processing locality)
-

Khái niệm: Tính cục bộ xử lý là đặt dữ liệu càng gần các ứng dụng sử dụng các dữ liệu này
càng tốt


-

Thiết kế dữ liệu phân tán để làm cực đại hố tính cục bộ xử lý

-

Việc xác định đơn vị phân tán (unit of distribution) thích hợp trong q trình phân mảnh là
quan trọng

-

Một quan hệ không là một đơn vị phân tán thích hợp vì:
+ Các khung hình ứng dụng thơng thường là các tập con của các quan hệ. Do đó:
 tính cục bộ xử lý của các ứng dụng không được xác định trên các quan hệ mà trên
các tập con của các quan hệ này
 chỉ có thể xem các tập con của các quan hệ này là các đơn vị phân tán
+ Nếu các ứng dụng có các khung nhìn được định nghĩa trên một quan hệ cho trước đặt
tại các nơi khác nhau, thì có thể có hai cách khác nhau để xem lại tồn bộ quan hệ là
một đơn vị phân tán:
 Quan hệ không được nhân bản và được lưu trữ chỉ tại một nơi: dẫn đến một số
lượng lớn không cần thiết các truy xuất dữ liệu từ xa


 Quan hệ được nhân bản tại tất cả hoặc một số nơi có chạy các ứng dụng:
 có sự nhân bản không cần thiết
 gây ra các vấn đề không mong muốn trong việc thực hiện cập nhật khi vùng lưu
trữ bị giới hạn
-

Cách xác định tính cục bộ xử lý: dựa vào

+ các tham chiếu cục bộ (local reference)
+ các tham chiếu từ xa (remote reference)

-

Khi biết nơi chạy ứng dụng thì tính cục bộ và tính từ xa của các tham chiếu chỉ phụ thuộc
vào sự phân tán dữ liệu.

-

Cách làm cực đại hóa tính cục bộ xử lý (làm cực tiểu hoá các tham chiếu từ xa)
+ xét các tham chiếu cục bộ và các tham chiếu từ xa tương ứng với mỗi cách phân
mảnh dự kiến (candidate fragmentation)
+ chọn giải pháp tốt nhất giữa các phân mảnh này

-

Tính cục bộ hồn tồn (complete locality):
+ Một ứng dụng có tính cục bộ hồn tồn là ứng dụng mà chúng có thể được thực hiện
hồn tồn tại nơi gốc của chúng
+ Ưu điểm:
 giảm bớt các truy xuất từ xa
 làm tăng tính đơn giản trong việc kiểm sốt việc thực hiện các ứng dụng

Tính sẵn sàng và độ tin cậy của dữ liệu phân tán
-

Tính sẵn sàng và độ tin cậy là ưu điểm của các hệ thống phân tán đối với các hệ thống
không phân tán


-

Mức độ sẵn sàng cao đối với các ứng dụng chỉ đọc sẽ đạt được bằng cách lưu trữ nhiều bản
nhân của cùng một thông tin

-

Độ tin cậy cũng đạt được bằng cách lưu trữ nhiều bản nhân của cùng một thơng tin vì có
thể được phục hồi khi máy tính bị ngừng hoặc có hư hỏng vật lý (như lửa, động đất, phá
hoại…) của một trong các bản nhân bằng cách sử dụng các bản nhân khác vẫn còn hiệu
lực.

Điều phối tải làm việc
-

Điều phối tải làm việc tại các nơi là một đặc điểm quan trọng của các hệ thống máy tính
phân tán.


-

Thực hiện điều phối tải làm việc để:
+ tận dụng ưu điểm của các nguồn lực khác nhau
+ tận dụng tính năng của các máy tính tại mỗi nơi
+ cực đại hoá mức độ thực hiện song song các ứng dụng.

-

Điều phối tải làm việc có thể ảnh hưởng ngược lại với tính cục bộ xử lý


-

Ưu điểm của phân mảnh đối với điều phối tải làm việc: vì mỗi mảnh được xử lý như là một
đơn vị nên cho phép nhiều giao dịch được thực hiện đồng thời.

-

Tính đồng thời nội truy vấn (intraquery concurrency): là việc phân mảnh các quan hệ dẫn
đến việc thực hiện đồng thời một truy vấn đơn bằng cách chia truy vấn này thành các truy
vấn con để thực hiện trên các mảnh.
 sự phân mảnh
 làm tăng mức độ đồng thời
 làm tăng thơng lượng của hệ thống

Các chi phí lưu trữ và khả năng lưu trữ có sẵn
-

Sự phân tán CSDL nên phản ánh chi phí và khả năng lưu trữ tại các nơi khác nhau.

-

Trên mạng
+ có nơi trên mạng cho phép lưu trữ dữ liệu lớn
+ có nơi khơng hỗ trợ vùng lưu trữ lớn

-

Chi phí lưu trữ dữ liệu là khơng thích đáng so với các chi phí của ứng dụng như:
+ các chi phí CPU
+ chi phí nhập/xuất

+ chi phí truyền thơng

-

Phải xét giới hạn lưu trữ có sẵn tại mỗi nơi.
2. Các phương pháp tiếp cận để thiết kế phân tán dữ liệu
a) Phương pháp tiếp cận từ trên xuống (top – down approach)

Quá trình thiết kế từ trên xuống được chỉ ra trong hình 4.1.
Giai đoạn phân tích các yêu cầu:
Đầu ra:
- Các yêu cầu hệ thống như:
+ môi trường của hệ thống
+ các nhu cầu về dữ liệu


+ các nhu cầu xử lý của người sử dụng CSDL
- Các mục tiêu của một DBMS mà thống cuối cùng sẽ thoả mãn như
+ hiệu suất
+ độ tin cậy
+ tính sẵn sàng
+ tính kinh tế
+ tính mở rộng (tính linh hoạt)
Các bước thực hiện:
- Xác định các yêu cầu của hệ thống
- Xác định các mục tiêu
Giai đoạn thiết kế khung nhìn (view design):
Đầu vào:
- các yêu cầu của hệ thống
- các mục tiêu của một DBMS

Đầu ra:
- thông tin truy xuất
- các định nghĩa lược đồ ngoài (định nghĩa các giao diện cho những người sử dụng cuối cùng)
Các bước thực hiện:
- Xác định các thông tin truy xuất
- Định nghĩa các giao diện cho những người sử dụng cuối cùng
Giai đoạn thiết kế khái niệm (conceptual design):
Đầu vào:
- các yêu cầu của hệ thống
- các mục tiêu của một DBMS
Đầu ra: lược đồ khái niệm toàn cục (GCS: Global- Conceptual-Schema)
Các bước thực hiện:
- Xem xét tổng thể cơ quan, tổ chức đang xét
- Phân tích thực thể (entity analysis)
+ xác định các thực thể
+ xác định các thuộc tính của các tập thực thể
+ xác định các mối liên hệ giữa các tập thực thể


- Phân tích chức năng (functional analysis ): xác định các chức năng cơ bản trong hệ thống
cần mơ hình hóa
Mối quan hệ giữa thiết kế khái niệm và thiết kế khung nhìn.
- Thiết kế khái niệm là sự tích hợp các khung hình của người sử dụng
- Tích hợp khung nhìn nên được sử dụng để bảo đảm rằng các yêu cầu thực thể và mối liên hệ
cho tất cả các khung nhìn đã được đưa vào trong lược đồ khái niệm
- Người sử dụng cần phải
+ chỉ rõ các thực thể dữ liệu
+ phải xác định các ứng dụng sẽ chạy trên CSDL
+ phải xác định thông tin thống kê về các ứng dụng như
 tần suất ứng dụng

 khối lượng của các thông tin khác nhau
 các số liệu khác
Giai đoạn thiết kế phân tán (distribution design):
Đầu vào:
- Lược đồ khái niệm tồn cục
- Thơng tin truy xuất
- Các lược đồ ngoài
- Các yêu cầu từ người dùng
Đầu ra: lược đồ khái niệm cục bộ (LCS: Local-Conceptual-Schema)
Các bước thực hiện:
- Thiết kế phân mảnh
- Thiết kế định vị
Thiết kế vật lý (physical design)
Đầu vào:
- Các lược đồ khái niệm cục bộ
- Thông tin kiểu truy xuất các mảnh trong các lược đồ
Đầu ra: lược đồ vật lý
Các bước thực hiện: ánh xạ các lược đồ khái niệm cục bộ vào các thiết bị lưu trữ vật lý
(physical storage device) có sẵn tại các nơi tương ứng
Theo dõi và kiểm tra


Đầu vào: lược đồ vật lý
Đầu ra:
- một số dạng phản hồi
- yêu cầu quay trở lại một trong các bước trước các giai đoạn thiết kế
Các bước thực hiện:
- Giám sát cách thực hiện CSDL
- Giám sát tính thích hợp của các khung nhìn của người sử dụng
Kết luận

Phương pháp thiết kế từ trên xuống:
- thích hợp với những CSDL được thiết kế từ đầu
- không hiệu quả khi CSDL phân tán được phát triển từ CSDL hiện tại


Phân tích các
yêu cầu

Các yêu cầu hệ thống (các mức tiêu)

Thiết kế khái niệm

Lược đồ khái niệm
toàn cục

Thiết kế khung nhìn

Truy xuất thơng tin

Thiết kế phân tán

Lược đồ khái niệm
tồn cục

Phần nhập của người sử dụng

Các lược đồ khái niệm
cục bộ

Thiết kế vật lý


Lược đồ
vật lý
Phản hồi

Theo dõi
và kiểm tra

Phản hồi

Hình 4: Quá trình thiết kế từ trên xuống
b) Phương pháp tiếp cận từ dưới lên (Bottom-up)
Nhận xét
-

Trong thực tế, một số CSDL đã tồn tại trước và được tổ chức trong mơi trường tập trung.

-

Khi đó, CSDL phân tán được phát triển bằng cách liên kết các CSDL thành một CSDL
mới.

Cách thiết kế từ dưới lên một CSDL phân tán:
-

Chọn một mơ hình cơ sở dữ liệu chung để mơ tả lược đồ tồn cục của CSDL

-

Chuyển đổi mỗi lược đồ cục bộ thành mơ hình dữ liệu chung



-

Tích hợp các lược đồ cục bộ thành một lược đồ toàn cục chung

Kết luận
Phương pháp thiết kế từ dưới lên thích hợp với việc thiết kế CSDLPT dựa trên CSDL đã có
sẵn do đó địi hỏi phải giải quyết ba vấn đề mà không phải của riêng CSDL phân tán, mà
chúng cũng có trong các hệ thống tập trung.
3. Các yêu cầu về thông tin
-

Các yếu tố ảnh hưởng đến quá trình thiết kế CSDLPT:
+ tổ chức luận lý của CSDL
+ vị trí của các ứng dụng
+ các đặc điểm truy xuất CSDL của các ứng dụng
+ các đặc tính của các hệ thống máy tính ở mỗi nơi.

-

Các loại thông tin dùng để thiết kế phân tán:
+ thông tin về CSDL
+ thông tin về ứng dụng
+ thông tin về mạng truyền thông
+ thông tin về hệ thống máy tính

1.2.1.2

Thiết kế phân mảnh dữ liệu


Nhận xét
Hai vấn đề cơ bản theo cách tiếp cận từ trên xuống:
+ Thiết kế phân mảnh
+ Thiết kế định vị
-

Mục đích của thiết kế phân mảnh: xác định các mảnh không giao nhau

-

Thiết kế các mảnh bao gồm việc gom nhóm các bộ (trong trường hợp phân mảnh ngang)
hoặc các thuộc tính (trong trường hợp phân mảnh dọc) mà chúng có cùng các đặc tính theo
quan điểm định vị của chúng.

Phân mảnh ngang
-

Mỗi mảnh là một tập hợp con gồm các bộ của quan hệ

-

Phân mảnh ngang chính là phân chia một quan hệ dựa vào các vị từ định tính vị từ được
định nghĩa trên quan hệ đó.


-

Phân mảnh ngang dẫn xuất là phân chia một quan hệ dựa vào các vị từ được định nghĩa
trên một quan hệ khác.


-

Để phục vụ cho hoạt động phân mảnh ngang cần có các loại thơng tin sau:
1. Các u cầu thông tin của phân mảnh ngang
a) Các thông tin về cơ sở dữ liệu

-

Thông tin về CSDL liên quan đến lược đồ khái niệm toàn cục, chỉ ra mối liên kết giữa các
quan hệ.

-

Mơ hình hóa các mối liên kết giữa các quan hệ bằng đồ thị.

-

Thông tin định lượng cần có về CSDL là số bộ của mỗi quan hệ R, ký hiệu
card(R)

- Quy ước:
+ Mối liên hệ: biểu diễn bằng cung có hướng
+ Mỗi nút là một lược đồ quan hệ: biểu diễn bằng hình chữ nhật
Quan hệ S
Thuộc tính 1



Thuộc tính n


L

Quan hệ R
Thuộc tính 1



Thuộc tính n

+ Trong đó:
 S gọi là quan hệ chủ (owner)
 R gọi là quan hệ bộ phận (member)
 L gọi là đường liên hệ
+ Định nghĩa các hàm:
 Owner(tên đường liên hệ): trả về quan hệ chủ của đường kết nối
 Member(tên đường liên hệ): trả về quan hệ bộ phận của đường kết nối
b) Thông tin về ứng dụng
- Thơng tin về ứng dụng có hai loại
+ Thơng tin định tính: dùng để phân mảnh
+ Thơng tin định lượng: dùng để cấp phát
Thơng tin định tính
- Thơng tin định tính cơ bản bao gồm các vị từ được sử dụng trong các truy vấn của người sử
dụng.
- Chỉ phân tích các ứng dụng quan trọng để xác định xác định các vị từ.


Định nghĩa
Cho quan hệ R(A1, A2, A3,…, An) với Ai là một thuộc tính có miền trị Di.
Giả sử cần phân mảnh ngang quan hệ R.

- Vị từ đơn giản
+ Một vị từ đơn giản (simple predicate) pJ được định nghĩa trên R có dạng:
pJ: Ai  value
+ Trong đó


 là một trong các phép so sánh =, , <, ≤, >, ≥

 value được chọn từ miền của Ai (value  Di)
- Tập các vị từ đơn giản: Ký hiệu Pr là tập hợp các vị từ đơn giản được định nghĩa trên quan
hệ R. Các phần tử của Pr được ký hiệu là pJ.
- Một vị từ giao tối thiểu (minterm predicate) mj đối với một tập hợp các vị từ đơn giản
Pr={p1, p2,…,pm } là một tổ hợp giao của tất cả các vị từ xuất hiện trong P r, các vị từ này ở
dạng thông thường hoặc ở dạng phủ định, để sao cho mj không bị mâu thuẫn. Tức là
mj =

¿

p*i , 1≤ i ≤ m

với p*i = pi hoặc p*i =

¬¿ ¿

pi và mj  false

- Tập hợp các vị từ giao tối thiểu: gọi tập M= {m 1, m2, …, mz} là tập hợp các vị từ giao tối
thiểu.
- Chú ý:
+ Đối với vị từ đẳng thức (equality predicate), phủ định của đẳng thức Attribute = Value là

Attribute  Value
+ Đối với các vị từ bất đẳng thức (inequality predicate), phủ định là phần bù. Phần bù của
Attribute ≤ Value là Attribute >Value.
Thông tin định lượng
Theo những thông tin định lượng về các ứng dụng của người sử dụng, cần có hai tập hợp dữ
liệu:
- Độ chọn giao tối thiểu (minterm selectivity)
+ là số bộ của quan hệ sẽ được truy xuất bởi một truy vấn tương ứng với một vị từ giao tối
thiểu cho trước.
+ ký hiệu độ chọn của vị từ giao tối thiểu mj là sel(mj)
- Tần số truy xuất (access frequency)


+ là tần số của các ứng dụng truy xuất dữ liệu.
+ cho Q={q1, q2,…, qq} là tập hợp các truy vấn
+ kí hiệu tần số truy xuất của truy vấn qi trong một khoảng thời gian cho trước là acc(qi)
+ ký hiệu tần số truy xuất của vị từ giao tối thiểu mj là acc(mj)
2.Phân mảnh ngang chính
- Cách xác định mảnh ngang chính:
+ cho một quan hệ tồn cục R thì các mảnh ngang Ri của R là:
Ri =

σF

i

(R); 1 ¿ i≤n

+ trong đó


 Fi là điều kiện chọn hoặc công thức chọn (selection formula ) của mảnh Ri.
 nếu Fi ở dạng chuẩn giao thì nó là một vị từ giao tối thiểu mi.
- Tính đúng đắn của phân mảnh ngang chính: mỗi bộ của quan hệ toàn cục được đưa vào
trong một và chỉ một mảnh.
- Xác định phân mảnh ngang chính của một quan hệ toàn cục là xác định một tập hợp các vị
từ chọn (selection predicate) đầy đủ và tách biệt.
- Các bộ của một mảnh phải được tham chiếu giống nhau trong tất cả các ứng dụng.
Định nghĩa phân mảnh ngang:
- Một mảnh ngang Ri của quan hệ R bao gồm tất cả các bộ của quan hệ R thỏa mãn vị từ giao
tối thiểu mi.
- Cho một tập hợp các vị từ giao tối thiểu M thì số mảnh ngang bằng số vị từ giao tối thiểu.
- Tập hợp các mảnh ngang này được gọi là tập hợp các mảnh giao tối thiểu (minterm
fragment).
Đặc tính của vị từ đơn giản
- Một vị từ đơn giản pi được gọi là thích hợp (relevant) đối với một tập Pr các vị từ đơn giản,
nếu tồn tại ít nhất hai vị từ giao tối thiểu mi và mj của Pr mà các biểu thức của chúng chỉ khác
nhau ở pi (tức là mi chứa pi và mj chứa

¬¿ ¿

pi) và tồn tại ít nhất một ứng dụng tham chiếu

khác nhau đến hai mảnh fi và fj (tương ứng mi và mj). Do đó, pi là vị từ thích hợp nếu và chỉ
nếu:

acc (m j )
card( f i ) # card( f j )
acc (mi )



- Một tập hợp các vị từ đơn giản P r được gọi là đầy đủ (complete) nếu và chỉ nếu bất kỳ hai
bộ nào thuộc bất kỳ mảnh giao tối thiểu nào được định nghĩa theo P r thì bất kỳ ứng dụng nào
đều tham chiếu đến hai bộ này cùng với một xác suất.
- Một tập hợp các vị từ đơn giản P r được gọi là tối thiểu (minimal) nếu tất cả các vị từ của nó
là các vị từ thích hợp.
Các bước thiết kế phân mảnh ngang chính:
Bước 1: Tìm tập các vị từ đầy đủ và tối thiểu
Dùng thuật tốn COM_MIN
Bước 2: Tìm tập hợp các vị từ giao tối thiểu có thể được định nghĩa trên các vị từ đầy đủ và tối
thiểu
Bước 3: Tìm tập các phép suy diễn
Bước 4: Tìm tập các vị từ giao tối thiểu có nghĩa
Dùng thuật tốn PHORIZONTAL
(1) Thuật toán COM_MIN: xây dựng một tập hợp các vị từ Pr’ là đầy đủ và tối thiểu.
Bắt đầu:
- Xét một vị từ pi phân chia các bộ của R thành hai phần và tồn tại ít nhất một ứng dụng tham
chiếu khác nhau đến hai phần này.
- Cho Pr’ = pi.
Phương pháp:
Xét một vị từ đơn giản mới pj mà phân chia ít nhất một mảnh f k của Pr’ thành hai phần và tồn
tại ít nhất một ứng dụng tham chiếu khác nhau đến hai phần này.
- Bước 1: Cho Pr’ ← Pr’

¿

pj

- Bước 2: Loại bỏ các vị từ khơng thích hợp ra khỏi Pr’.
- Bước 3: Lặp lại bước 2 cho đến khi tập hợp các mảnh giao tối thiểu của Pr’ là đầy đủ.
Quy tắc 1:

- là quy tắc cơ bản về tính đầy đủ và tính tối thiểu mà một quan hệ hoặc một mảnh được phân
chia thành ít nhất hai phần và tồn tại ít nhất một ứng dụng tham chiếu khác nhau đến hai
phần này.
- fi của Pr’: mảnh fi được xác định theo vị từ giao tối thiểu được định nghĩa trên các vị từ của
Pr’.
Giải thuật 3.1 COM_MIN


Đầu vào: R: quan hệ; Pr: tập hợp các vị từ đơn giản
Đầu ra: Pr’: tập hợp các vị từ đơn giản là đầy đủ và tối thiểu
declare
F: tập hợp các mảnh giao tối thiểu;
begin
Pr’=;
F=;
For each vị từ pi  Pr do
If pi chia R theo quy tắc 1 then
Begin
Pr’ = Pr’  pi;
Pr = Pr - pi;
F =F fi; ( fi là mảnh giao tối thiểu theo pi }
End {Chuyển các vị từ có phân mảnh R vào Pr’}
EndFor
Repeat
For each vị từ pj  Pr do
If pj phân chia mảnh fk nào đó của Pr’ theo quy tắc 1 then
Begin
Pr’ = Pr’  pj ;
Pr = Pr – pj ;
F =F  fj ; ( fj là mảnh giao tối thiểu theo pj }

End
EndFor
Until Pr’ đầy đủ {khơng cịn pj nào phân mảnh fk của Pr’}
For each vị từ pk  Pr’ do
If

∃ ph



Pr’ mà pk  ph then

Begin
Pr’ = Pr’ – pk ;


F =F- fk ;
End
EndFor
end. {COM_MIN}
Ví dụ
(2) Tìm tập hợp các vị từ giao tối thiểu có thể được định nghĩa trên các vị từ trong tập hợp
Pr’
- Các vị từ giao tối thiểu xác định các mảnh được sử dụng trong bước định vị.
- Tập các vị từ giao tối thiểu có thể rất lớn là luỹ thừa của số vị từ đơn giản
(3) Tìm tập các phép suy diễn
Ví dụ
- Cho tập Pr’ = { p1, p2 } với:
+


p1: att = value_1

+

p2: att = value_2

+ miền của att là {value_1, value_2}
- Tập hợp I bao gồm hai phép suy diễn là:
i1: (att = value_1) ⇒
i2:

¬¿ ¿

¬¿ ¿

( att = value_2)

(att = value_1) ⇒ ( att = value_2)

I={i1, i2}
(4) Thuật toán PHORIZONTAL
Giải thuật 3.2 PHORIZONTAL
Đầu vào: R: quan hệ; Pr: tập hợp các vị từ đơn giản.
Đầu ra: M: tập hợp các mảnh giao tối thiểu .
begin
Pr’ = COM_MIN(R , Pr)
Xác định M là tập hợp các vị từ giao tối thiểu;
Xác định I là tập các phép suy diễn giữa pi
For each mi




M do

If mi là mâu thuẫn với I then
M = M - mi
end.{PHORIZONTAL}



Pr’


×