Tải bản đầy đủ (.doc) (143 trang)

Thiết kế cơ sở dữ liệu phân tán theo tiếp cận khai phá dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.63 MB, 143 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

LƯƠNG VĂN NGHĨA

THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN
THEO TIẾP CẬN KHAI PHÁ DỮ LIỆU

LUẬN ÁN TIẾN SĨ KỸ THUẬT

ĐÀ NẴNG – 2019


BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

LƯƠNG VĂN NGHĨA

THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN
THEO TIẾP CẬN KHAI PHÁ DỮ LIỆU
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số :

LUẬN ÁN TIẾN SĨ KỸ THUẬT
Người hướng dẫn khoa học:
. PGS.TS. Lê Văn Sơn
. PGS.TS. Đoàn Văn Ban

ĐÀ NẴNG – 2019




i

LỜI CAM ĐOAN

Tôi xin cam đoan Luận án "Thiết kế cơ sở dữ liệu phân tán theo tiếp cận
khai phá dữ liệu” là công trình nghiên cứu do tôi thực hiện, dưới sự hướng dẫn
của PGS.TS. Lê Văn Sơn và PGS.TS. Đoàn Văn Ban.
Tôi cam đoan các kết quả nghiên cứu được trình bày trong luận án là
trung thực và không sao chép từ bất kỳ luận án nào khác. Một số kết quả nghiên
cứu là thành quả tập thể và đã được các đồng tác giả đồng ý cho sử dụng. Mọi
trích dẫn đều có ghi nguồn gốc xuất xứ rõ ràng và đầy đủ.

Tác giả

Lương Văn Nghĩa
.


22

MỤC LỤC
LỜI

CAM

ĐOAN

.....................................................................................................................i


MỤC

LỤC.................................................................................................................................ii
DANH

MỤC

CÁC

CỤM

TỪ

VIẾT

TẮT

..........................................................................v DANH MỤC THUẬT NGỮ ANH VIỆT........................................................................vi

DANH

MỤC

CÁC

BẢNG

................................................................................................. viii DANH MỤC CÁC HÌNH
.....................................................................................................ix


MỞ

ĐẦU....................................................................................................................................1
Chương
1.
THIẾT
KẾ
TÁN..................................................6



SỞ

DỮ

LIỆU

PHÂN

1.1. TỔNG QUAN VỀ HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN ......................................
6
1.1.1. Các đặc điểm cơ bản của hệ cơ sở dữ liệu phân tán ................................ 7
1.1.2. Các mục tiêu của hệ cơ sở dữ liệu phân tán ............................................. 8
1.1.3. Kiến trúc của hệ cơ sở dữ liệu phân tán ................................................. 10
1.1.4. Các mô hình hệ cơ sở dữ liệu phân tán .................................................. 11
1.2. THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN....................................................... 12
1.2.1. Các chiến lược thiết kế ........................................................................... 12
1.2.2. Các vấn đề thiết kế cơ sở dữ liệu phân tán............................................. 14
1.2.3. Kỹ thuật thiết kế cơ sở dữ liệu phân tán ................................................ 16

1.2.4. Các quy tắc phân mảnh đúng đắn .......................................................... 18
1.2.5. Thảo luận về thiết kế cơ sở dữ liệu phân tán ......................................... 18
1.3. THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN BẰNG CÁC KỸ THUẬT
PHÂN MẢNH .......................................................................................................... 19
1.3.1. Kỹ thuật phân mảnh ngang .................................................................... 20
1.3.2. Kỹ thuật phân mảnh dọc ........................................................................ 25
1.3.3. Thuật toán phân mảnh FC ...................................................................... 29
1.3.4. Kỹ thuật phân mảnh hỗn hợp ................................................................ 33
1.3.5. Thảo luận các kỹ thuật phân mảnh......................................................... 34
1.4. KẾT CHƯƠNG ................................................................................................. 36


33

Chương 2. PHÂN CỤM DỮ LIỆU TRONG THIẾT KẾ CƠ SỞ DỮ
LIỆU
PHÂN
.............................................................................................................................38

TÁN


44

2.1. TIẾP CẬN KHAI PHÁ DỮ LIỆU .................................................................... 38
2.1.1. Khai phá tri thức và khai phá dữ liệu ..................................................... 38
2.1.2. Những thách thức trong khai phá dữ liệu............................................... 40
2.1.3. Các bài toán khai phá dữ liệu ................................................................. 41
2.2. KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU ............................. 42
2.2.1. Kỹ thuật phân cụm ................................................................................. 42

2.2.2. Các kiểu dữ liệu và độ đo trong phân cụm ............................................ 44
2.2.3. Một số phương pháp phân cụm dữ liệu ................................................. 48
2.2.4. Thảo luận về các kỹ thuật phân cụm ...................................................... 58
2.3. PHÂN MẢNH DỮ LIỆU DỰA VÀO KỸ THUẬT PHÂN CỤM ................... 59
2.3.1. Đề xuất cải tiến thuật toán phân mảnh dọc VFC ................................... 60
2.3.2. Đề xuất cải tiến thuật toán phân mảnh ngang HFC ............................... 61
2.3.3. Đánh giá kết quả thực nghiệm ............................................................... 64
2.4. KẾT CHƯƠNG ................................................................................................. 70
Chương 3. THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN THEO PHÂN CỤM
THÔ VÀ TỐI ƯU ĐÀN KIẾN
......................................................................................................72
3.1. THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN THEO TIẾP CẬN TẬP THÔ ...... 72
3.1.1 Rời rạc hoá dữ liệu và trích chọn thuộc tính theo tiếp cận tập thô ......... 73
3.1.2. Hệ thông tin............................................................................................ 74
3.1.3. Quan hệ không phân biệt, bất khả phân biệt trong hệ thông tin ............ 74
3.1.4. Thuộc tính và vector đặc trưng tham chiếu............................................ 75
3.2. PHÂN CỤM DỮ LIỆU PHÂN TÁN THEO TIẾP CẬN TẬP THÔ............... 76
3.2.1. Thuật toán phân cụm thô KR (K-Means Rough) ................................... 76
3.2.2. Kết quả thực nghiệm thuật toán phân cụm thô KR ............................... 80
3.3. THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN THEO PHƯƠNG PHÁP TỐI
ƯU ĐÀN KIẾN ........................................................................................................ 83
3.3.1. Phương pháp tối ưu hóa đàn kiến .......................................................... 83
3.3.2. Từ đàn kiến tự nhiên đến đàn kiến nhân tạo .......................................... 83
3.3.3. Thuật toán ACO tổng quát ..................................................................... 84
3.3.4. Thuật toán hệ kiến AS............................................................................ 85


55

3.3.5. Tổ chức dữ liệu và các khái niệm độ đo ................................................ 87

3.4. PHÂN CỤM DỮ LIỆU PHÂN TÁN THEO TIẾP CẬN TỐI ƯU ĐÀN KIẾN
......................................................................................................................... 89
3.4.1. Phân cụm dữ liệu phân tán theo tiếp cận ACO ...................................... 89
3.4.2. Đề xuất các thuật toán phân mảnh dọc theo phân cụm đàn kiến ........... 90
3.4.3. Kết quả thực nghiệm thuật toán đề xuất VFAC ..................................... 95
3.5. KẾT CHƯƠNG ................................................................................................. 99
KẾT LUẬN .......................................................................................................................... 101
DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ
TÀI LIỆU THAM KHẢO


66

DANH MỤC CÁC CỤM TỪ VIẾT TẮT
TT

Từ viết tắt

Tiếng Anh

Tiếng Việt

1

ACO

Ant Colony Optimization

Tối ưu hóa đàn kiến


2

AS

Ant System

Hệ kiến

3

BA

Bottom Attributes

Thuộc tính đáy

4

BEA

Bond energy algorithm

Thuật toán năng lượng nối

5

CA

Clustered Affintity


Ái lực tụ thuộc tính

6

CFN

Current Fragmentation

Số mảnh hiện tại

Number
7

FAC

Fragmentation Ants Cluster

Phân mảnh cho phân cụm
kiến

8

FC

Fragmentation Cluster

Phân mảnh cho phân cụm

9


HFC

Horizontal Fragmentation

Phân cụm cho phân mảnh

Cluster

ngang

Knowledge Discovery in

Khám phá tri thức trong

Database

CSDL

10

KDD

11

KO

Knowledge-Oriented

Hướng tri thức


12

KPDL

Data Mining

Khai phá dữ liệu

13

OCM

Object-Condition Matrix

Ma trận đối tượng-điều kiện

14

OFN

Optimization Fragmentation

Số mảnh tối ưu

Number
15

RST

Rough Set Theory


Lý thuyết tập thô

16

TA

Top Attributes

Thuộc tính đỉnh

17

TSP

Travelling Salesman

Bài toán người chào hàng

Problem
18
19

VFAC
VFC

Vertical Fragmentation Ants

Phân cụm kiến cho phân


Cluster

mảnh dọc

Vertical Fragmentation

Phân cụm cho phân mảnh

Cluster

dọc


77

DANH MỤC THUẬT NGỮ ANH - VIỆT
TT

Thuật ngữ tiếng Anh

Thuật ngữ tiếng Việt

1

Access frequency

Tần số truy xuất

2


Affinity

Ái lực quan hệ

3

Allocation

Cấp phát

4

Analysis & decision support

Phân tích và hỗ trợ ra quyết định

5

Association rules

Luật kết hợp

6

Attribute affinity

Ái lực thuộc tính

7


Attribute affinity matrix

Ma trận ái lực thuộc tính

8

Big data

Dữ liệu lớn

9

Border object

Đối tượng biên

10

Bottom-up approach

Tiếp cận từ dưới lên

11

Cardinality

Lực lượng

12


Classification & prediction

Phân lớp và dự đoán

13

Cluster Affintity Matrix

Ma trận ái lực cụm thuộc tính (CA)

14

Clustering

Phân cụm

15

Concept description

Mô tả khái niệm

16

Conceptual design

Thiết kế khái niệm

17


Contribution

Đóng góp

18

Core object

Đối tượng lõi

19

Database machine

Máy CSDL

20

Dense region

Vùng dày đặc

21

Density based cluster

Cụm dựa trên mật độ

22


Distributed processing

Xử lý phân tán

23

Distribution transparency

Trong suốt phân tán

24

Equi-join

Nối bằng

25

Fragmentation

Phân mảnh

26

Fragmentation Transparency

Trong suốt phân mảnh


88


27

Global affinity measure

Số đo ái lực chung AM

28

Hetorogeneous DDBS

Hệ CSDL phân tán không thuần nhất

29

Homogeneous DDBS

Hệ CSDL phân tán thuần nhất

30

Horizontal Fragmentation

Phân mảnh ngang

31

Hybrid Fragmentation

Phân mảnh hỗn hợp


32

Minterm fragment

Mảnh hội sơ cấp

33

Minterm predicate

Vị từ hội sơ cấp

34

Minterm selectivity

Độ tuyển hội sơ cấp

35

Net contribution

Đóng góp thực

36

Noise object

Đối tượng nhiễu


37

Outlier

Phần tử ngoại lệ

38

Relevant

Liên đới

39

Replication transparency

Trong suốt nhân bản

40

Semi-join

Nửa kết nối

41

Simple predicate

Vị từ đơn


42

Top-down approach

Tiếp cận từ trên xuống

43

Vertical fragmentation

Phân mảnh dọc

44

View design

Thiết kế khung nhìn


88

DANH MỤC CÁC BẢNG
Bảng 1.1 Ma trận giá trị sử dụng thuộc tính ............................................. 27
Bảng 1.2 Ma trận ái lực thuộc tính AA ...................................................... 27
Bảng 2.1 Bảng sự kiện cho biến nhị phân [I] ............................................ 46
Bảng 2.2 Ma trận khoảng cách đối tượng ................................................. 50
Bảng 2.3 Ma trận khoảng cách các cụm sau gom cụm bước 3 ................. 51
Bảng 2.4 Khoảng cách giữa các cụm sau khi gom cụm bước 3 ................ 51
Bảng 2.5 Khoảng cách giữa các cụm sau 4 lần gom cụm ......................... 51

Bảng 2.6 Vector hóa các bản ghi ............................................................... 62
Bảng 2.7 Ma trận OCM ............................................................................. 62
Bảng 2.8 Bảng biểu diễn 6 đối tượng (p1, p2,...p6) ..................................... 64
Bảng 2.9 Khoảng cách Euclide giữa 6 đối tượng ...................................... 65
Bảng 2.10 Tập D gồm 20 đối tượng cần phân cụm ................................... 67
Bảng 2.11 So sánh kết quả với phân cụm k-Means và VFC ...................... 68
Bảng 2.12 Kết quả phân mảnh ngang cải tiến HFC .................................. 69
Bảng 2.13 Kết quả phân mảnh ngang theo k-Medoids .............................. 70
Bảng 3.1 Tập D gồm 20 đối tượng cần phân cụm ..................................... 81
Bảng 3.2 So sánh kết quả phân cụm thô KR và k-Means .......................... 82
Bảng 3.3 Bảng tham số .............................................................................. 87
Bảng 3.4 Tập dữ liệu D gồm 20 giao tác ................................................... 96
Bảng 3.5 So sánh kết quả với phân cụm k-Means với VFAC .................... 98


99

DANH MỤC CÁC HÌNH
Hình 1.1 Minh họa mô hình hệ CSDL phân tán .......................................... 7
Hình 1.2 Mô hình kiến trúc hệ cơ sở dữ liệu phân tán .............................. 11
Hình 1.3 Ma trận định vị điểm tách Top_A và Bot_A ............................... 30
Hình 1.4 Sơ đồ cây phân mảnh hỗn hợp .................................................... 34
Hình 2.1 Quá trình khám phá tri thức ....................................................... 39
Hình 2.2 Khoảng cách ngắn nhất giữa hai cụm ........................................ 48
Hình 2.3 Khoảng cách lớn nhất giữa hai cụm ........................................... 48
Hình 2.4 Khoảng cách trung bình giữa hai cụm........................................ 48
Hình 2.5 Kết quả cây phân cụm phân cấp tích tụ ...................................... 52
Hình 2.6 Tập các đối tượng p cần phân cụm ............................................. 64
Hình 2.7 Kết quả phân cụm theo khoảng cách ngắn nhất ......................... 65
Hình 2.8 Kết quả phân cụm theo khoảng cách lớn nhất ............................ 66

Hình 2.9 Kết quả phân cụm theo thuật toán k-Means (k = 3) ................... 67
Hình 2.10 Kết quả phân cụm theo thuật toán k-Means (k = 15) ............... 68
Hình 2.11 Kết quả phân cụm theo thuật toán VFC (số cụm k = 3) ........... 68
Hình 3.1 Minh họa gom cụm vào bộ các xấp xỉ dưới và xấp xỉ trên ......... 77
Hình 3.2 Kết quả phân cụm theo thuật toán k-Means (k = 6) ................... 80
Hình 3.3 Kết quả phân cụm theo thuật toán k-Means (k = 15) ................. 81
Hình 3.4 Kết quả phân cụm thô KR (k = 6) ............................................... 81
Hình 3.5 Kết quả phân cụm theo thuật toán k-Means (k = 10) ................. 96
Hình 3.6 Kết quả phân cụm thuật toán VFAC (k = 10) ............................. 97


1
0

Hình 3.7 Kết quả phân cụm với thuật toán VFAC (k = 3) ......................... 97
Hình 3.8 So sánh chi phí trung bình lỗi trên k-Means và VFAC ................ 98
Hình 3.9 Đánh giá độ ổn định theo số cụm trên k-Means và VFAC ......... 99


1
1

MỞ ĐẦU
1. TÍNH CẤP THIẾT CỦA VIỆC NGHIÊN CỨU
Ngày nay, với việc dữ liệu đa dạng, được phân tán ở nhiều nơi trên
toàn cầu làm cho các ứng dụng cơ sở dữ liệu (CSDL), các phương pháp quản
trị và khai thác CSDL phân tán truyền thống tỏ ra ít hiệu quả, không đáp ứng
được nhiều mục tiêu chia sẻ và còn khó khăn trong việc tích hợp và trao đổi
thông tin. Để khắc phục được những hạn chế trên, các CSDL phân tán phải
được thiết kế sao cho phù hợp hơn với yêu cầu sử dụng, truy xuất và xử lý dữ

liệu phân tán. Điều này có thể thực hiện được nhờ vào các kỹ thuật khai phá
dữ liệu (KPDL), cụ thể là dựa vào các kỹ thuật phân cụm phục vụ cho việc
phân mảnh và phân tán, định vị dữ liệu khi thiết kế một CSDL phân tán [80].
Hiện có nhiều nghiên cứu liên quan đến bài toán thiết kế CSDL phân tán
dựa vào các kỹ thuật phân cụm trong lĩnh vực khai phá dữ liệu, cụ thể như:
-

Bài toán phân mảnh dữ liệu dựa vào phân cụm được quan tâm

trong [18], sau đó được phát triển tiếp theo bởi Özsu M. Tamer, Patrick
Valduriez [58]. Tuy nhiên, các kỹ thuật phân mảnh các đối tượng được phân cụm
dựa vào độ tương đồng nhóm thuộc tính chỉ dừng lại cho bài toán phân
mảnh dọc trên các lược đồ quan hệ.
- Hui Ma và các cộng sự đề xuất thuật toán phân cụm CA (Clustered
Affinity) dựa trên sự liên kết giữa các thuộc tính [48], sau đó Navathe và các
cộng sự phát triển thành thuật toán BEA (Bond Enegy Algorithm) phục vụ cho
bài toán phân mảnh dọc dữ liệu phân tán [58]. Các thuật toán trên dựa theo ý
tưởng các thuộc tính có tần suất xuất hiện đồng thời càng lớn thì thường thuộc
về một cụm (phân mảnh). Phương án giải quyết bài toán này đưa về tối ưu hóa
một biểu thức bậc 2 có độ phức tạp khá lớn. Navathe và các cộng sự đề xuất tìm
điểm
2

phân tách t sao cho biểu thức q = CTQ * CBQ - COQ [58] là cực đại. Tuy


1
2

nhiên, với các quan hệ có số thuộc tính hay số đối tượng lớn, bài toán không thể



21
3

giải quyết bằng phân hoạch thành hai mảnh, cần phải thực hiện theo một
phân mảnh hỗn hợp, gổm ít nhất một phân mảnh ngang và một phân mảnh dọc.
- Các nghiên cứu gần đây, một số tác giả kết hợp giải bài toán phân
mảnh và bài toán định vị bằng các kỹ thuật tối ưu, kết hợp với các kỹ thuật
heuristic [41]. Thời gian thực hiện các thuật toán này giảm đáng kể so với các
thuật toán ban đầu. Tuy nhiên, các độ đo sự liên kết các thuộc tính là chưa được
sự nhất trí chung của các nhà khoa học [47].
- Thuật toán tối ưu đàn kiến heuristic - ACO (Ant Colony Optimazation)
lần đầu tiên Dorigo và các cộng sự đề xuất năm 2011 [23] được ứng dụng nhiều
trong tìm kiếm và khai phá dữ liệu. Hầu hết các nghiên cứu gần đây về ACO chỉ
tập trung vào việc phát triển các biến thể của thuật toán để làm tăng hiệu năng
tính toán của thuật toán hệ kiến AS (Ant System) ban đầu.
- Các nghiên cứu trong nước về ACO tập trung giải quyết các bài toán
tối ưu rời rạc như bài toán người bán hàng, bài toán lập lịch, bài toán an ninh
mạng...[1]. Một số hướng tiếp cận khác theo kỹ thuật phân cụm mờ [7, 13] cũng
đang tập trung giải quyết cho một số bài toán thuộc lĩnh vực kỹ thuật, công
nghệ cao [25]. Tuy nhiên, các cách tiếp cận và thử nghiệm cho loại bài toán
phân cụm này thường hay sử dụng các kỹ thuật tìm kiếm heuristic để tìm lời giải
tối ưu cục bộ cho các bài toán phân mảnh dữ liệu phân tán, tuy cho các kết quả
tương đối nhanh nhưng không thể cải thiện thêm lời giải tìm được [37, 51].
- Về kỹ thuật phân cụm tích hợp, các nghiên cứu trong nước gần đây
được nhiều nhóm tác giả quan tâm và đã đề xuất các thuật toán hiệu năng
cao. Trong luận án này, tác giả đã vận dụng tích hợp giữa thuật toán tối ưu hóa
đàn kiến ACO và phân cụm thô với các kỹ thuật phân cụm nguyên thủy để đề
xuất các thuật toán phân cụm dọc dữ liệu phân tán nhằm tối ưu các chi phí

tính toán và chất lượng sau phân cụm cho các bộ dữ liệu lớn.
Để giải quyết những vấn đề nêu trên, luận án "Thiết kế cơ sở dữ
liệu phân tán theo tiếp cận khai phá dữ liệu" được thực hiện theo định hướng:


21
4

-

Kết hợp kỹ thuật phân cụm phân cấp tích tụ với phân cụm phân
hoạch, cải tiến các thuật toán phân mảnh ngang, phân mảnh dọc dữ
liệu trên cơ sở phát triển các độ đo tương đồng và phương thức xử lý
các cụm sau phân mảnh.

-

Vận dụng lý thuyết tập thô và lý thuyết tối ưu hóa đàn kiến ACO đề
xuất thuật toán phân cụm dọc dữ liệu phân tán bằng kỹ thuật phân
cụm thô KR và phân cụm đàn kiến VFAC.

-

Tiến hành so sánh, đánh giá và thử nghiệm các thuật toán cải tiến và
thuật toán đề xuất mới với các thuật toán nguyên thủy trên các bộ dữ
liệu lớn để làm rõ tính hiệu quả về chi phí, cũng như những ưu điểm
nổi trội qua thực nghiệm về chất lượng phân cụm sau phân mảnh.

2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
2.1. Mục tiêu nghiên cứu

Mục tiêu chính của luận án nhằm giải quyết bài toán phân mảnh dữ liệu
phân tán bằng cách kết hợp một số kỹ thuật phân cụm trong KPDL, lý thuyết tập
thô và phương pháp tối ưu hóa ACO, cụ thể là:
- Nghiên cứu cải tiến thuật toán phân mảnh dọc và phân mảnh ngang
dựa vào các kỹ thuật phân cụm tích hợp trong khai phá dữ liệu.
-

Nghiên cứu đề xuất mới thuật toán phân mảnh dọc dữ liệu phân
tán dựa trên kỹ thuật phân cụm thô KR và phân cụm đàn kiến VFAC.

2.2. Đối tượng và phạm vi nghiên cứu
Các đối tượng và phạm vi nghiên cứu luận án:
 Các độ đo tương đồng, việc xử lý khoảng cách cụm trong các thuật
toán phân mảnh ngang, phân mảnh dọc dựa trên kỹ thuật phân cụm
phân hoạch và phân cụm phân cấp tích tụ.
 Kỹ thuật phân mảnh dọc dữ liệu phân tán dựa trên kỹ thuật phân
cụm
thô KR và phân cụm đàn kiến VFAC.
 Vận dụng lý thuyết tập thô, các tiếp cận Meta-heuristic trong phương


4

pháp tối ưu hóa đàn kiến ACO để giải quyết bài toán phân cụm dữ liệu
phục vụ cho các kỹ thuật phân mảnh trong thiết kế CSDL phân tán.
3. PHƯƠNG PHÁP NGHIÊN CỨU
Các phương pháp nghiên cứu của luận án:
Phương pháp nghiên cứu lý thuyết: Nghiên cứu tổng quan tài liệu liên
quan đến lý thuyết thiết kế CSDL phân tán và các kỹ thuật phân cụm trong khai
phá dữ liệu để cải tiến, đề xuất các thuật toán phân mảnh dữ liệu phân tán

theo kỹ thuật phân cụm thô và kỹ thuật phân cụm kiến FAC.
Phương pháp thực nghiệm: Trên cơ sở các thuật toán phân mảnh đã cải
tiến, đề xuất (VFC, HFC, KR và VAFC), luận án tiến hành cài đặt thử nghiệm
với bộ công cụ mô phỏng SPMS, ngôn ngữ lập trình Java để phân tích, so sánh
kết quả phân cụm các thuật toán đề xuất với những kỹ thuật phân mảnh
nguyên thủy tiêu biểu như k-Means, k-Medoids, HAC.
4. ĐÓNG GÓP CỦA LUẬN ÁN
4.1. Về mặt khoa học
 Vận dụng thành công cách tiếp cận tập thô và tối ưu hóa đàn kiến
ACO cho bài toán phân mảnh dọc trong thiết kế CSDL phân tán theo
tiếp cận KPDL.
 Nghiên cứu cải tiến thuật toán phân mảnh ngang HFC và phân mảnh
dọc VFC bằng việc phát triển các độ đo tương đồng và các kỹ thuật xử
lý cụm trong phân cụm.
 Nghiên cứu đề xuất thuật toán phân mảnh dọc theo kỹ thuật phân
cụm
thô KR và kỹ thuật phân cụm đàn kiến VFAC.
4.2. Về mặt thực tiễn
Kết quả cài đặt thử nghiệm trong luận án cho thấy kết quả phân
cụm bằng các thuật toán cải tiến HFC, VFC và các thuật toán đề xuất mới KR,
VFAC tốt hơn về thời gian tính toán, chi phí bộ nhớ, số cụm sau phân mảnh và
đặc biệt khi thực hiện trên các bộ dữ liệu với số đối tượng cần phân cụm lớn [30,
62].


5

5. BỐ CỤC CỦA LUẬN ÁN
Ngoài phần mở đầu và kết luận, luận án được bố cục trong ba chương:
Chương 1 trình bày các nghiên cứu về thiết kế cơ sở dữ liệu phân tán bao

gồm các kỹ thuật phân mảnh dọc, phân mảnh ngang và thuật toán phân
mảnh
theo phân cụm FC (Fragmentation Cluster).
Chương 2 trình bày các nghiên cứu liên quan đến các kỹ thuật phân cụm
trong khai phá dữ liệu được áp dụng cho các bài toán phân mảnh ngang,
phân mảnh dọc dữ liệu phân tán và đề xuất cải tiến hai thuật toán VFC và HFC.
Chương 3 trình bày kỹ thuật phân mảnh dọc dữ liệu phân tán theo tiếp
cận khai phá dữ liệu bằng các kỹ thuật phân cụm thô KR (k-Means Rough),
phân cụm đàn kiến FAC (Fragmentation Ants Cluster). Cài đặt thực nghiệm
và so sánh đối chiếu kết quả các thuật toán cải tiến, đề xuất mới so với thuật
toán nguyên thủy k-Means, HAC.


6

Chương . THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN
Nội dung Chương 1 gồm hai phần chính: phần đầu giới thiệu tổng quan
về hệ cơ sở dữ liệu phân tán, phần thứ hai giới thiệu về bài toán phân mảnh
trong thiết kế cơ sở dữ liệu phân tán với các yêu cầu, mục tiêu, chiến lược
thỏa mãn tính đúng, tính đầy đủ và tính tái thiết được.
Các thuật toán cơ bản được xem xét trong chương là bài toán phân mảnh
dọc và phân mảnh ngang dữ liệu phân tán từ các thuật toán nguyên thủy như
thuật toán BEA, thuật toán PHORIZONTAL hay thuật toán phân mảnh FC dùng
kỹ thuật phân cụm CA.
1.1. TỔNG QUAN VỀ HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN
Cơ sở dữ liệu phân tán (Distributed DataBase - DDB) [2] là một tập hợp
nhiều CSDL có liên quan với nhau về mặt logic, nhưng phân tán ở nhiều vị trí
khác nhau. Các hệ thống CSDL kết nối, trao đổi với nhau bằng cách gửi, nhận
các thông điệp thông qua mạng các máy tính. CSDL phân tán thỏa hai tính chất
cơ bản sau:

 Tính liên quan logic: Toàn bộ dữ liệu của CSDL phân tán thõa mản
một số ràng buộc gắn kết chúng với nhau. Điều này cho phép có thể
phân biệt CSDL phân tán với các CSDL cục bộ hoặc các tập tin lưu
trữ tại các vị trí khác nhau trong một mạng truyền thông.
 Tính chất phân tán: Toàn bộ dữ liệu của CSDL phân tán không được
lưu trữ tại một trạm duy nhất mà được lưu trữ trên nhiều trạm.
Điều
này cho phép phân biệt CSDL phân tán với CSDL tập trung truyền
thống.
Hệ CSDL phân tán (Distributed DataBase System - DDBS) là sự hợp nhất
của hai hướng tiếp cận đối với một quá trình xử lý dữ liệu: công nghệ CSDL và
công nghệ mạng máy tính. Để tạo ra một hệ CSDL phân tán, các tập tin không
chỉ có liên quan logic, chúng còn phải có cấu trúc và được truy xuất qua một


7

giao diện chung. Minh họa mô hình hệ CSDL phân tán, gồm nhiều trạm liên lạc
với nhau qua mạng truyền thông (Hình 1.1) :
Trạm 1

Mạng
truyền thông

Trạm i+1

Trạm 2

...
Trạm i


Hình 1.1 Minh họa mô hình hệ CSDL phân tán
Hệ quản trị CSDL phân tán (Distributed Database Management System D-DBMS) là một hệ thống phần mềm cho phép quản lý các hệ CSDL phân tán
và làm cho sự phân tán về dữ liệu hay việc xử lý phân tán trở nên “trong suốt”
đối với người sử dụng (NSD) [58].
1.1.1. Các đặc điểm cơ bản của hệ cơ sở dữ liệu phân tán
Hệ CSDL phân tán thường có các đặc tính quan trọng sau [36, 47]:
 Chia sẻ tài nguyên: Mỗi tài nguyên được quản lý bởi một chương trình
có giao diện truyền thông. Các tài nguyên được truy cập, cập nhật đảm bảo sự
tin cậy và nhất quán. Tài nguyên phân tán được quản lý: lập kế hoạch dự
phòng, thiết lập quyền giữa các trạm và ánh xạ tài nguyên vào địa chỉ truyền
thông.
 Tính mở: Cho phép tạo ra từ nhiều phần cứng không đồng nhất và từ
nhiều bộ phần mềm khác nhau, đảm bảo các thành phần này phải tuân theo
tiêu
chuẩn chung. Tính mở hệ thống được hoàn thiện bằng cách phân định rõ
các giao diện chính của hệ thống, làm cho nó tương thích với nhiều nhà phát
triển phần mềm. Ngoài ra, tính mở của hệ CSDL phân tán còn gắn với việc cung
cấp cơ chế truyền thông giữa các tiến trình, công khai các giao diện trong truy
cập và các tài nguyên dùng chung [41].


 Khả năng mở rộng: Hệ CSDL phân tán có khả năng hoạt động và khai
thác hiệu quả ở nhiều mức khác nhau. Khả năng mở rộng gắn với đặc tính không
phải thay đổi phần mềm hệ thống và phần mềm ứng dụng. Yêu cầu mở rộng có
thể về phần cứng, các hệ thống mạng và hệ phân tán trong thiết kế hệ CSDL
phân tán [3].
 Khả năng song song: Khả năng song song trong hệ CSDL phân tán
được thực hiện dưới hai tình huống: nhiều người sử dụng đồng thời ra các lệnh,
tương tác với nhiều chương trình ứng dụng hoặc nhiều tiến trình server chạy

đồng thời.
 Khả năng thứ lỗi: Khả năng thứ lỗi của hệ CSDL phân tán dựa trên hai
nguyên lý cơ bản, đó là khả năng thay thế để đảm bảo sự hoạt động liên tục,
hiệu
quả và khả năng hồi phục khi có xảy ra sự cố [71].
 Tính trong suốt: Tính trong suốt của hệ CSDL phân tán chứa đựng một
số đặc tính cơ bản: Tính trong suốt về vị trí, trong suốt trong việc sử dụng, trong
suốt của việc phân chia và trong suốt của sự trùng lặp [3].
 Tin cậy và nhất quán: Hệ CSDL phân tán yêu cầu độ tin cậy cao, đảm
bảo sự bí mật dữ liệu và các chức năng khôi phục dữ liệu sau sự cố. Yêu cầu về
tính nhất quán là rất quan trọng, thể hiện dưới dạng các yêu cầu có mâu
thuẫn trong nội dung dữ liệu, khi các thuộc tính dữ liệu khác nhau, các thao
tác vẫn phải nhất quán [40].
1.1.2. Các mục tiêu của hệ cơ sở dữ liệu phân tán
Mục tiêu chính của các hệ CSDL phân tán là đảm bảo tính trong suốt và
tính hiệu năng cao khi xử lý dữ liệu phân tán. Nghĩa là hệ CSDL phân tán phải
cung cấp các mức độc lập khác nhau đối với dữ liệu và người dùng.
1.1.2.1. Tính độc lập đối với sự phân tán dữ liệu
Người dùng không cần quan tâm tới sự phân tán của dữ liệu và có thể
không biết có sự phân tán. Thông tin về phân tán dữ liệu được lưu trữ trong
từ


99

điển dữ liệu tổng thể và được DBMS tham khảo để xác định vị trí của các quan
hệ có liên quan đến một thông tin nào đó [72]. Lưu trữ từ điển dữ liệu tổng
thể có nhiều cách. Thông thường, ba cách sau được quan tâm khai thác:
 Từ điển dữ liệu tổng thể được lưu trữ tập trung tại một trạm,
chẳng

hạn máy chủ.
 Mỗi trạm được cung cấp một từ điển dữ liệu tổng thể.
 Từ điển dữ liệu tổng thể cũng được lưu trữ phân tán.
Tính độc lập của phân tán dữ liệu sẽ đảm bảo định vị dữ liệu là độc lập
với phân tán dữ liệu vật lý. Khi có sự thay đổi dữ liệu về mặt vật lý, chỉ có từ
điển dữ liệu là thay đổi, không làm thay đổi các chương trình ứng dụng.
1.1.2.2. Tính độc lập đối với sự phân mảnh dữ liệu
Tính độc lập hay tính trong suốt của phân mảnh đối với các truy cập dữ
liệu liên quan tới các quan hệ con (các mảnh), theo nghĩa các mảnh có thể
lưu trữ ở các trạm khác nhau (nhằm tăng tính hiệu quả của CSDL phân tán, cho
phép đơn giản hóa các truy cập cục bộ), nhưng bị che dấu đối với người dùng
[38].
1.1.2.3. Tính độc lập đối với sự nhân bản dữ liệu
Đây là một giải pháp cho sự an toàn dữ liệu, tuy dẫn tới sự dư thừa
của các bản sao. Một mảnh gọi là được nhân bản khi tồn tại hai hay nhiều hơn
bản sao của nó. Các bản sao được lưu trữ trên một hay nhiều trạm khác
nhau. Sự nhân bản làm tăng tính sẵn sàng truy cập và tăng tính xử lý cục bộ [27,
32].
Việc duy trì và đồng bộ các bản sao là khá phức tạp và tốn kém. Tuy
nhiên, vì vấn đề an toàn dữ liệu trong hệ CSDL phân tán, đòi hỏi phải thực hiện
nhân bản, giúp tăng hiệu năng xử lý khi các yêu cầu sử dụng có xung đột.
1.1.2.4. Tính độc lập đối với các hệ quản trị cơ sở dữ liệu cục bộ
Mục tiêu này rất khó thực hiện một cách đầy đủ trong hệ CSDL phân tán


10
1
0

không thuần nhất. Hiện nay, giải pháp được dùng là đưa ra mô hình quan hệ

tổng


11
1
1

thể, xác lập một bộ chương trình dịch giữa các mô hình cục bộ và mô hình tổng
thể. Việc biên dịch các lệnh, các câu truy vấn từ các mô hình cục bộ về mô hình
tổng thể do hệ quản trị CSDL phân tán đảm nhận.
1.1.2.5. Tính tự trị và tính mở rộng
Mục tiêu tính tự trị là cho phép các trạm điều khiển và thao tác dữ
liệu cục bộ hoàn toàn độc lập với các trạm khác. Ưu điểm của đặc tính này giúp
cho quản trị CSDL phân tán hoàn toàn phi tập trung.
Tính mở rộng thường gắn với khả năng tăng trưởng bằng việc phát triển
thêm các trạm mới, nhằm tác động tối thiểu lên các CSDL cục bộ hay các
chương trình ứng dụng hiện có trên hệ thống [42, 49].
1.1.3. Kiến trúc của hệ cơ sở dữ liệu phân tán
Kiến trúc các mức của hệ CSDL phân tán chỉ rõ cách tổ chức các CSDL
phân tán [12, 29] với các thành phần tương ứng theo các lược đồ
sau:
 Lược đồ tổng thể: Định nghĩa tất cả các dữ liệu sẽ được lưu trữ
trong hệ CSDL phân tán. Trong mô hình quan hệ, lược đồ tổng thể bao gồm cả
định
nghĩa của tập các quan hệ
chung.
 Lược đồ phân mảnh: Mỗi quan hệ tổng thể có thể chia thành các phần
không chồng chéo lên nhau, gọi là mảnh (fragments). Có nhiều cách khác nhau
để thực hiện việc phân chia này bằng các phép ánh xạ (một - nhiều) giữa lược đồ
tổng thể và các mảnh.

 Lược đồ định vị: Các mảnh là các phần logic của quan hệ chung, được
định vị vật lý trên một hoặc nhiều vị trí trên mạng. Lược đồ định vị định nghĩa
mảnh và định vị tại vị trí vật lý tương ứng. Kiểu ánh xạ được định nghĩa trong
lược đồ định vị sẽ quyết định hệ CSDL phân tán có dư thừa hay không.
 Lược đồ ánh xạ cục bộ: Là ánh xạ các ảnh vật lý và các đối tượng được
lưu trữ tại mỗi trạm trên hệ (D-DBMS1,…, D-DBMSn). Tất cả các mảnh của một
quan hệ chung hay một hệ (D-DBMS1,…, D-DBMSn) trên cùng vị trí, tạo ra một


×