Luận án tiến sĩ khai phá luật quyết định trên mô hình dữ liệu dạng khối

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.6 MB, 129 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------

Đỗ Thị Lan Anh

KHAI PHÁ LUẬT QUYẾT ĐỊNH
TRÊN MƠ HÌNH DỮ LIỆU DẠNG KHỐI

LUẬN ÁN TIẾN SĨ MÁY TÍNH

Hà Nội – Năm 2020

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------

Đỗ Thị Lan Anh

KHAI PHÁ LUẬT QUYẾT ĐỊNH
TRÊN MƠ HÌNH DỮ LIỆU DẠNG KHỐI

Chuyên ngành: Khoa học máy tính
Mã số: 9 48 01 01

LUẬN ÁN TIẾN SĨ MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS. TS Trịnh Đình Thắng

Hà Nội – Năm 2020

i

LỜI CẢM ƠN
Lời đầu tiên, cho phép tác giả xin bày tỏ lòng biết ơn sâu sắc và chân thành tới
PGS. TS Trịnh Đình Thắng, người thầy đã tận tình hướng dẫn, chỉ bảo cho tác giả
trong suốt quá trình học tập, nghiên cứu và hoàn thành luận án này.
Tác giả xin chân thành cảm ơn tới tập thể các thầy cô giáo, các nhà khoa học
thuộc: Viện Công nghệ Thông tin – viện Hàn lâm Khoa học và Công nghệ Việt Nam,
Khoa Công nghệ Thông tin – Học viện Khoa học và Công nghệ, viện Công nghệ
Thông tin – trường Đại học Sư phạm Hà Nội 2 đã giúp đỡ về chuyên môn và tạo điều
kiện thuận lợi cho tác giả trong suốt thời gian học tập và nghiên cứu.
Cuối cùng, tác giả xin gửi tới gia đình, người thân, bạn bè lời cảm ơn chân
thành nhất vì đã ủng hộ, đồng hành, là chỗ dựa vững chắc và là động lực giúp tác giả
hoàn thành luận án này.
Tác giả luận án

Đỗ Thị Lan Anh

ii

LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của tôi dưới sự hướng dẫn khoa
học của PGS. TS Trịnh Đình Thắng. Các kết quả được viết chung với các đồng tác
giả đã được sự chấp thuận của các tác giả trước khi đưa vào luận án.
Các kết quả nêu trong luận án là trung thực và chưa từng được cơng bố trong
bất kỳ cơng trình nào khác.
Tác giả luận án

Đỗ Thị Lan Anh

iii

MỤC LỤC
Trang
Danh mục các ký hiệu, các chữ viết tắt

v

Danh mục các bảng, hình vẽ

vi

MỞ ĐẦU

1

CHƯƠNG 1: MỘT SỐ KIẾN THỨC CƠ SỞ

9

1.1 Khai phá dữ liệu

9

1.1.1 Định nghĩa khai phá dữ liệu

9

1.1.2 Một số kỹ thuật khai phá dữ liệu

9

1.2 Khai phá luật quyết định

10

1.2.1 Hệ thông tin

10

1.2.2 Quan hệ không phân biệt được

11

1.2.3 Bảng quyết định

13

1.2.5 Luật quyết định

14

1.3 Mơ hình dữ liệu dạng khối

16

1.3.1 Khối, lược đồ khối

16

1.3.2 Lát cắt

18

1.3.3 Đại số quan hệ trên khối

18

1.4 Kết luận chương 1

21

CHƯƠNG 2: KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN KHỐI DỮ LIỆU
CĨ GIÁ TRỊ THUỘC TÍNH THAY ĐỔI

22

2.1 Một số khái niệm xây dựng trên khối

22

2.1.1 Khối thông tin

22

2.1.2 Quan hệ không biệt được

25

2.1.3 Khối quyết định

26

2.1.4 Luật quyết định trên khối và lát cắt

28

2.2 Thuật toán khai phá luật quyết định trên khối và trên lát cắt (MDLB)

31

2.3 Khai phá luật quyết định trên khối có giá trị thuộc tính thay đổi

34

2.3.1 Làm mịn, thơ các lớp tương đương điều kiện trên khối và trên lát cắt 40
2.3.2 Làm mịn, thô các lớp tương đương quyết định trên khối và trên lát cắt 44

2.3.3 Làm mịn cảm sinh hồn tồn thuộc tính chỉ số trên lát cắt
2.3.4 Thuật tốn khai phá luật quyết định trên khối có giá trị thuộc tính

48

iv

thay đổi (MDLB_VAC)

50

2.4 Độ phức tạp của các thuật toán tính ma trận Sup trên khối và lát cắt

60

2.5 Ví dụ minh họa

62

2.5.1 Minh họa bài toán sinh luật quyết định trên khối

62

2.5.2 Minh họa bài toán sinh luật quyết định trên khối khi làm mịn, thơ giá trị
thuộc tính chỉ số

63

2.6 Kết luận

66

CHƯƠNG 3: KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN KHỐI CĨ
TẬP ĐỐI TƯỢNG THAY ĐỔI

67

3.1 Mơ hình bổ sung, loại bỏ các đối tượng trên khối và lát cắt

67

3.2 Tính tốn gia tăng Acc và Cov khi bổ sung, loại bỏ đối tượng trên khối

74

3.2.1 Bổ sung đối tượng x vào khối quyết định

74

3.2.2 Loại bỏ phần tử x ra khỏi khối quyết định

77

3.3 Thuật toán sinh luật quyết định bằng phương pháp tính gia tăng ma trận
Acc và Cov sau khi bổ sung, loại bỏ các phần tử (MDLB_OSC1)

78

3.4 Độ phức tạp của các thuật toán MDLB_OSC1

83

3.5 Tính tốn gia tăng Sup khi bổ sung, loại bỏ đối tượng trên khối và lát cắt

86

3.6 Thuật toán sinh luật quyết định bằng phương pháp tính gia tăng ma trận
Sup sau khi bổ sung và loại bỏ các đối tượng (MDLB_OSC2)

88

3.7 Độ phức tạp của các thuật toán MDLB_OSC2

96

3.8 So sánh hai phương pháp tính gia tăng

97

3.9 Ví dụ minh họa

97

3.10 Thực nghiệm

103

3.11 Kết luận

112

KẾT LUẬN

113

DANH MỤC CÁC CÔNG TRÌNH CỦA TÁC GIẢ

114

TÀI LIỆU THAM KHẢO

115

v

DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT

Kí hiệu, chữ viết tắt

Diễn giải

Acc

Accuracy (Độ chính xác)

Cov

Coverage (Độ phủ)

Sup

Support (Độ hỗ trợ)

IND(P)

Quan hệ khơng phân biệt được

id  id’

Tích rời rạc của hai tập chỉ số id và id’

P(r)

Phép chiếu của khối r trên lược đồ con P

F(r)

Phép chọn của khối r theo biểu thức Boole F

r  s

Phép kết nối hai khối r và s

IB = (U, A, V, f)

Khối thông tin

DB = (U, CD)

Khối quyết định

U/C

Tập các lớp tương đương điều kiện trên khối

U/D

Tập các lớp tương đương quyết định trên khối

U/Cx

Tập các lớp tương đương điều kiện trên lát cắt tại điểm x

U/Dx

Tập các lớp tương đương quyết định trên lát cắt tại điểm
x



Ngưỡng độ chính xác tối thiểu



Ngưỡng độ phủ tối thiểu

vi

DANH MỤC CÁC BẢNG

Trang
Bảng 1.1 Bảng Bệnh nhân

2

Bảng 1.1 Một ví dụ về hệ thơng tin

11

Bảng 1.2 Bảng quyết định về bệnh cúm

14

Bảng 2.1 Bảng biểu diễn khối thông tin Bệnh nhân bị sốt virut tại khoa Nhi A
Bệnh viện Bạch Mai cơ sở 2

25

Bảng 3.1 Bảng so sánh hai phương pháp tính gia tăng

98

Bảng 3.2 Các thơng tin cơ bản về CSDL thực nghiệm

104

vii

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Ví dụ Khối Bệnh nhân

3

Hình 1.2 Ví dụ về khối Khách hàng

19

Hình 1.3 Minh họa lát cắt khối Khách hàng tại điểm x = 3/2019

20

Hình 2.1 Minh họa một khối thơng tin bệnh nhân bị sốt virut tại Khoa Nhi A –
Bệnh viện Bạch Mai cơ sở 2
24
Hình 2.2 Minh họa khối quyết định Bệnh nhân sốt vi rút

28

Hình 3.1 Menu của chương trình

105

Hình 3.2 Tìm các lớp tương đương điều kiện, quyết định

105

Hình 3.3 Ma trận Sup, Acc, Cov tìm được

106

Hình 3.4 Luật quyết định tìm được trên khối

106

Hình 3.5 Mối quan hệ giữa số lượng luật kết quả và ngưỡng
min_acc, min_cov

107

Hình 3.6 Chọn giá trị làm mịn

107

Hình 3.7 Tính các ma trận Sup, Acc, Cov trước và sau khi làm mịn

108

Hình 3.8 Chọn giá trị thuộc tính làm thơ

108

Hình 3.9 Tính các ma trận Sup, Acc, Cov trước và sau khi làm thơ

109

Hình 3.10 Luật quyết định tìm được sau khi làm thơ, mịn giá trị thuộc tính

109

Hình 3.11 Chọn đối tượng bị loại bỏ

110

Hình 3.12 Nhập đối tượng bổ sung vào khối

110

Hình 3.13 Kết quả chương trình tính gia tăng ma trận Acc, Cov và luật quyết định
thu được
111
Hình 3.14 Kết quả chương trình tính gia tăng ma trận Sup và luật quyết định thu
được
111
Hình 3.15 Thời gian chạy (mili giây) trung bình của hai thuật tốn

112

1

MỞ ĐẦU
1. Lý do chọn đề tài
Khai phá dữ liệu vẫn đang là lĩnh vực nhận được rất nhiều sự quan tâm nghiên
cứu của các nhà khoa học trên thế giới. Hội nghị quốc tế về khai phá dữ liệu KDD
lần thứ 26 được tổ chức tại California, Mỹ vào tháng 8 năm 2020 là một trong những

hội nghị lớn và nổi tiếng hàng đầu trong lĩnh vực khai phá dữ liệu và quy tụ hàng
trăm nhà khoa học tham gia [1], [2]. Một số các hội nghị về khai phá dữ liệu nổi tiếng
được tổ chức thường niên hàng năm trên thế giới được kể đến như: hội nghị KDD,
ICDE, IEEE ICDM, CIKM, SIAM SDM, PKDD, PAKDD…
Nhóm bài tốn thường được nghiên cứu trong khai phá dữ liệu gồm có: Phân
lớp, dự đốn, luật kết hợp và phân cụm [3], [4], [5]. Khai phá luật quyết định là một
kĩ thuật nằm trong nhóm bài tốn phân lớp đối tượng. Đây là một trong những kĩ
thuật khai phá dữ liệu khá phổ biến và đã được nhiều chuyên gia trong và ngồi nước
nghiên cứu trên mơ hình cơ sở dữ liệu quan hệ và một số mơ hình mở rộng của mơ
hình dữ liệu quan hệ như mơ hình datacube, mơ hình nhà kho dữ liệu, mơ hình dữ
liệu đa chiều ….[6], [7], [8], [9], [10], [11].
Năm 1998, các tác giả Nguyễn Xuân Huy, Trịnh Đình Thắng đã đề xuất mơ
hình dữ liệu dạng khối, một mở rộng của mơ hình quan hệ [9]. Mơ hình này đã được
xây dựng cả về lý thuyết và cài đặt thực nghiệm. Với việc đưa thêm một trục id cho
phép theo dõi được sự thay đổi dữ liệu theo quá trình, cụ thể có thể là theo thời gian,
giai đoạn, khoảng cách... [12], [13], [14], [15], [16], [17], [18], [19].
Kết quả của bài tốn khai phá luật trên mơ hình quan hệ sẽ cho ta các luật hữu
ích nhưng chỉ tại một thời điểm nào đó. Tuy nhiên, trong thực tế với một số vấn đề
đặc thù như chuẩn đoán bệnh, theo dõi quá trình mua bán hàng trong siêu thị hay quá
trình quản lí cán bộ của một cơ quan,... Việc tìm ra các mối quan hệ (các luật) của
các đối tượng trong cơ sở dữ liệu theo một quá trình sẽ giúp ích cho các chuyên gia
đưa ra các quyết định chính xác hơn.
Ví dụ: trong bảng quyết định Bệnh nhân dưới đây

2

Sốt

Ho

Sổ mũi

Mức Sốt VR

(A1)

(A2)

(A3)

(A4)

1

1

0

1

3

2

1

3

3

2

1

3

3

3

2

3

Bảng 1.1: Bảng Bệnh nhân
Bảng này gồm các thuộc tính điều kiện là: Sốt (A1), Ho (A2), Sổ mũi (A3) và
thuộc tính quyết định là Mức Sốt VR (A4). Theo định nghĩa luật quyết định trên bảng
quyết định sẽ có dạng: Ci → Dj với Ci là các lớp tương đương điều kiện, Dj là các lớp
tương đương quyết định.[20]
Giả sử sau khi khai phá ta có luật C3 → D3 trên bảng quyết định thì luật này có
ý nghĩa như sau: tất cả nhóm bệnh nhân có các triệu chứng là sốt độ 3, ho độ 2, sổ
mũi độ 1 thì kết luận nhóm bệnh nhân này sốt virut ở mức 3. Có nghĩa là luật tìm
được ở đây chỉ cho ta thấy được triệu chứng và kết luận bệnh tại một thời điểm.
Trên thực tế, việc điều trị bệnh là một quá trình cần thời gian theo dõi dài ngày
từ ngày đầu nhập viện, đến ngày ra viện. Mặt khác, mỗi khi mức độ sốt thay đổi thì
người quản lí cập nhật mức sốt mới cho bệnh nhân đó, như vậy mức sốt cũ mất đi mà
thay bằng mức sốt mới. Tình trạng tương tự với các thuộc tính: ho và sổ mũi của bệnh
nhân. Do đó, với bảng trên người quản lí muốn theo dõi được quá trình diễn biến của
các triệu chứng bệnh hoặc việc tìm ra trong số ngày bệnh nhân nằm viện thì ngày nào

sốt cao nhất, ngày nào mức độ ho giảm mạnh nhất, … là một cơng việc khó khăn.
Tuy nhiên, trong mơ hình dữ liệu dạng khối thì việc này lại trở nên đơn giản hơn.
Giả sử xây dựng Khối bệnh nhân gồm các thuộc tính chỉ số điều kiện là: Sốt
(A1), Ho (A2), Sổ mũi (A3) và thuộc tính chỉ số quyết định là phác đồ điều trị: PĐĐT
(A4) và Sốt VR (A5), trục id = {x, y, z, t} tương ứng với số ngày theo dõi nằm viện.

3

Hình 1.1: Minh họa Khối Bệnh nhân
Với dữ liệu được theo dõi trên Khối Bệnh nhân: khi một bệnh nhân có sự thay
đổi về các triệu chứng bệnh, ta bổ sung ngày đó vào trục thời gian và khối sinh một
lát cắt mới, ứng với ngày vừa bổ sung để người quản lí cập nhật thơng tin (trục thời
gian có thể tính theo ngày, giờ, … tùy theo yêu cầu chẩn đoán). Đồng thời, giả sử sau
khi khai phá trên Khối tìm được luật có dạng: Ci → Dj với Ci là các lớp tương đương
điều kiện trên khối, Dj là các lớp tương đương quyết định trên khối. Ví dụ cụ thể tìm
được luật là C3 → D4 trên khối, luật này sẽ có ý nghĩa như sau: tất cả các nhóm bệnh
nhân có tập các triệu trứng qua 4 ngày (sốt ngày 1 độ 3, ho ngày 1 độ 2, sổ mũi ngày
1 độ 3, sốt ngày 2 độ 3, ho ngày 2 độ 1, …., sốt ngày 4 độ 0, ho ngày 4 độ 1, sổ mũi
ngày 4 độ 0) sử dụng phác đồ điều trị 1 thì cho kết quả bệnh thuyên giảm dần từ ngày
thứ nhất đến ngày thứ 4 (sốt vi rút ngày 1 độ 3, ngày 2 độ 2, ngày 1 độ 1, ngày 4 độ
0). Như vậy luật tìm được trên khối cho ta thấy được quá trình đáp ứng của bệnh với
phác đồ điều trị nào là phù hợp (thông qua tiến trình thay đổi của triệu chứng bệnh)
Với những dạng bài tốn như trên, khơng chỉ xảy ra trong lĩnh vực y tế, mà cả
trong giáo dục, quản trị kinh doanh, …. Do đó, việc nghiên cứu bài tốn tìm luật
quyết định trên khối để hỗ trợ cho các nhà quản lí là điều cần thiết.

4

2. Tổng quan tình hình nghiên cứu liên quan đến luận án
a) Các nghiên cứu trên thế giới
Các nghiên cứu về bài tốn khai phá luật trên các mơ hình quan hệ, mơ hình
mở rộng của mơ hình quan hệ cũng đã được nhiều nhóm tác giả nghiên cứu và đưa
ra trong các năm vừa qua. Ngoài ra, việc nghiên cứu về bài toán khai phá luật trong
các trường hợp giá trị dữ liệu thay đổi hoặc tập đối tượng thay đổi cũng được quan
tâm.
Năm 1995, nhóm tác giả Shan và Ziarko đã đưa ra một phương pháp để tìm
tất cả các luật quyết định chắc chắn dựa trên học gia tăng. Tuy nhiên, thuật tốn có
một hạn chế là chưa xem xét đến việc tìm các luật trong bảng quyết định không nhất
quán [21].
Mục tiêu để giải quyết vấn đề trên, năm 1998, tác giả Bian [22] đã đề xuất
thuật toán cải tiến trên cơ sở thuật toán của Shan và Ziarko, thuật toán sử dụng ma
trận quyết định mở rộng để giải quyết vấn đề dữ liệu không nhất quán. Tuy vậy, cả
hai thuật toán trên vẫn tồn tại một hạn chế đó là các thuật tốn khơng đưa ra được các
luật quyết định không chắc chắn và các độ đo của luật như độ chính xác, độ phủ
khơng được cập nhật đồng thời.
Năm 2002, nhóm tác giả Tong và An [23] đã sử dụng thuật toán mới dựa vào
ma trận quyết định để học gia tăng các luật quyết định trên cơ sở đưa ra bảy trường
hợp có thể xảy ra khi một đối tượng mới được bổ sung. Tuy nhiên, trường hợp loại
bỏ đối tượng ra khỏi bảng dữ liệu vẫn chưa được nhóm tác giả đề cập đến.
Năm 2009, tác giả Liu [24] đã đề xuất mơ hình và thuật tốn để phát hiện ra
các luật quyết định khi bổ sung và loại bỏ đối tượng ra khỏi bảng dữ liệu dựa trên
việc tính tốn gia tăng ma trận độ chính xác và ma trận độ phủ làm cơ sở để sinh các
luật quyết định. Thuật tốn của Liu phải sử dụng nhiều khơng gian bộ nhớ và thời
gian tính tốn do phải lưu và cập nhật lại nhiều lần đối với cả ma trận độ chính xác
và ma trận độ phủ.
Năm 2010, tác giả Chen [25] đã đề nghị một thuật toán gia tăng để cập nhật
các xấp xỉ của một khái niệm (một lớp tương đương quyết định) khi làm mịn các giá
trị của một thuộc tính điều kiện. Tuy nhiên, vấn đề làm thế nào để sinh các luật quyết

định có ý nghĩa khi các giá trị hiện có của một thuộc tính thay đổi cũng chưa được đề
cập.

5

Các nghiên cứu trên chủ yếu tập trung khai phá dữ liệu trên mơ hình quan hệ.
Trên thế giới cũng đã có một số nghiên cứu về khai phá dữ liệu trên các mơ hình dữ
liệu đa chiều. [26], [27], [28], [29], [30], [31], [32], [33], [34], [35], [36], [37],
Năm 1997, Kamber cùng các đồng nghiệp [38] là nhóm đầu tiên đưa ra các
vấn đề khai thác luật kết hợp từ dữ liệu đa chiều. Các luật kết hợp đa chiều được khai
thác từ các mức đơn chiều. Quá trình khai thác này sẽ xem xét trên khối dữ liệu (data
cube), độ hỗ trợ và độ tin cậy được tính dựa theo tham số Count.
Năm 1998, Zhu đưa ra vấn đề khai phá luật kết hợp từ khối dữ liệu theo ba
nhóm: liên chiều (inter-dimensional), nội chiều (intra- dimensional), và luật kết hợp
lai. Luật kết hợp intra - dimensional bao gồm các vị từ lặp lại từ một chiều đơn, trong
khi các luật kết hợp inter-dimensional được khai thác từ nhiều chiều và không lặp lại
các vị từ trong mỗi chiều [39].
Năm 2000, Chen cùng các cộng sự đưa ra nghiên cứu về khai thác luật kết hợp
nội chiều (intra - dimensional) bằng cách thêm các đặc trưng từ các chiều khác ở
nhiều mức [40]. Tuy nhiên, việc sử dụng các luật kết hợp trong phương pháp này chỉ
cho phép áp dụng trên các truy vấn dữ liệu của Web mà chưa được ứng dụng trên các
lĩnh vực khác.
Năm 2003, luật kết hợp mở rộng đã được đề xuất trong [41] bởi Nestorov và
Juki'c. Các tác giả đã khai thác các luật kết hợp từ kho dữ liệu bằng cách sử dụng sức
mạnh xử lý SQL của chính kho dữ liệu mà không cần sử dụng một công cụ khai thác
dữ liệu nào khác. Họ tập trung vào khai thác các luật kết hợp từ cơ sở dữ liệu giao
dịch và khơng đưa ra số bậc của chiều và tính toán các tham số của khối lập phương
như độ hỗ trợ và độ tin cậy.
Năm 2005, Tjioe và Taniar [42] cũng đề xuất một phương pháp khai phá luật

kết hợp trong kho dữ liệu dựa vào việc tổ chức dữ liệu đa chiều. Phương pháp của họ
có thể trích xuất các luật kết hợp từ nhiều chiều ở nhiều mức bằng cách tập trung vào
việc tổng hợp dữ liệu theo tham số COUNT theo bốn thuật toán: VAvg, HAvg,
WMAvg, và ModusFilter.
Năm 2006, trong [43], các tác giả Riadh Ben và Sabine Loudcher đã nghiên
cứu việc khai thác luật kết hợp liên chiều (inter-dimensional) từ khối lập phương. Các
tác giả đã đưa ra một tập các quy tắc cho phép tính toán độ hỗ trợ và độ tin cậy của
luật kết hợp dựa trên bất kì tham số nào của khối lập phương chứ không chỉ dựa trên

6

tham số Count truyền thống. Các tác giả còn đưa ra hai tiêu chí đánh giá luật là Lift
và Loevinger. Các tiêu chí này được đánh giá là thể hiện được mối liên quan của các
luật một cách chính xác hơn so với các tham số độ tin cậy và độ hỗ trợ.
Năm 2015, các tác giả Volker, Wolfram và Mathias đã nghiên cứu việc tích
hợp khai phá dữ liệu trên mơ hình dữ liệu đa chiều bằng cách “khoan” sâu từng chiều
dữ liệu để tìm ra các tri thức có ích. Phương pháp này có một số hạn chế như việc
chưa xây dựng được mơ hình lí thuyết cho việc khai phá trên dữ liệu đa chiều, và việc
tìm tri thức theo từng chiều thì tính tổng qt của luật tìm được chưa được xác định
[44].
Năm 2017, nhóm tác giả Omar và Mohamed đã đề xuất một mẫu thử đa tiêu
chí MCA tích hợp trên OLAP để giải quyết vấn đa tiêu chí của dữ liệu đa chiều. Tuy
nhiên, phương pháp này chỉ dừng lại ở giải quyết tính đa chiều của dữ liệu mà chưa
đưa ra được phương pháp tìm luật [45].
Năm 2018, các tác giả Viktor, Nataliia và Sergiy đã đưa ra nghiên cứu về việc
khai phá dữ liệu sự kiện mạng trên khối không gian – thời gian (data cube). Việc sử
dụng phương pháp này cho phép thực hiện việc phân tích thống kê và phát hiện các
cụm thời gian có ý nghĩa thống kê trong dữ liệu [46].
Năm 2019, tác giả Hanen Brahmi đã đưa ra một hướng tiếp cận phương pháp

khai phá dữ liệu trong khối datacube bẳng cách phân cấp thứ nguyên đặc trưng của
khối này theo các hướng rồi tổng hợp các luật thu được. Cũng giống như phương
pháp của các tác giả Volker, Wolfram và Mathias đã đề cập ở trên, phương pháp này
cũng chưa xác định được mơ hình lí thuyết cho việc khai phá trên dữ liệu đa chiều và
tính tổng quan của luật tìm được [47].
b) Các nghiên cứu ở Việt Nam
Tại Việt Nam, đã có nhiều tác giả, nhóm tác giả quan tâm, nghiên cứu, đề xuất
các giải pháp khác nhau nhằm giải quyết bài toán khai phá tri thức trên bảng dữ liệu
của mơ hình quan hệ và mơ hình mở rộng của mơ hình quan hệ.
Năm 2008, tác giả Nguyễn Hữu Trọng [48] đã đề xuất một thuật toán để khai
phá các luật kết hợp khi bảng dữ liệu được gia tăng theo chiều dọc và sử dụng kỹ
thuật cây quyết định để sinh các luật khi bảng được gia tăng theo chiều ngang.

7

Năm 2012, tác giả Nguyễn Long Giang [49] đã đề xuất một thuật tốn rút gọn
thuộc tính trong hệ thơng tin không đầy đủ và bảng quyết định không đầy đủ sử dụng
metric.
Cũng trong năm này, tác giả Nguyễn Quang Khanh [50] đề cập đến vấn đề
khai phá luật quyết định trong bảng dữ liệu có tập các giá trị thuộc tính thay đổi.
Năm 2017, tác giả Cao Chính Nghĩa [51] đã đề xuất các phương pháp rút gọn
thuộc tính trực tiếp trên bảng quyết đ�huộc tính chỉ số như bảng trên là đối tượng
mới, kí hiệu o13. Khi đó, O13 hình thành thêm lớp tương đương điều kiện mới, kí hiệu
là C6. Cịn o13 được bổ sung vào lớp tương đương quyết định D4 và |D’4| = |o12| + 75
= 165
Vì vậy, hai ma trận (3.3) và (3.4) sẽ được bổ sung thêm một dòng mới là dòng
thứ 6, đồng thời cột số 4 sẽ bị thay đổi. Khi đó, ta có:
+ Acc(C’6,D’4) = 1; Cov (C’6,D’4) = 75 / (|D4|+75)
+ Với j ≠ 4 có: Acc(C’6,D’j) = Cov (C’6,D’j) = 0

+ Với i ≠ 6 có: Acc(C’i,D’4) = Acc (Ci,D4)
và Cov(C’i,D’4) = (|CiD4|)/(|D4| +75)

100

Cuối cùng, ta thu được ma trận độ chính xác trong trường hợp 2 này là:
1

Acc(C’’,D’’) =

0

0

0

0

0 0.373 0.403 0.224

0

0

0

0

0

0.315

0

0

0.685 0

0

(3.5)

0

0

0

0

1

0

0

0

1

0 |

Và ma trận độ phủ sau trường hợp 2 là:

Cov(C’’,D’’) =

0.462

0

0

0

0

0

1

0

0

0

0

0

0.538

0

0.299

0

0

0

0

0

0

1

0

0

0

0.455

0

0.701 0.545

0
(3.6)

Ta thấy, trong các ma trận (3.5), (3.6), các giá trị cảu các phần tử tại dòng thứ
3 có tồn giá trị 0. Vậy, thực hiện việc xóa bỏ dòng này trước khi tiến hành sinh luật,
và ta thu được hai ma trận mới như sau:
1

0

0
Acc(C’’,D’’) =

Cov(C’’,D’’) =

0

0

0

0.373 0.403 0.224

0

0.685

0

0.315

0

0

0

0

0

0

1

0

0

0

1

0

0.462

0

0

0

0

1

0.701 0.545

0

0.538

0

0.299

0

0

0

0

0

0

1

0

0

0

0.455

0

(3.7)

0

(3.8)

101

Từ hai ma trận (3.7), (3.8) nếu chọn ngưỡng độ chính xác và độ phủ =0.6 và
= 0.5 ta có các luật quyết định tìm được là: C3 → D1, C4 → D5
Phương pháp 2: Tìm luật quyết định trên khối khi tập đối tượng thay đổi theo
phương pháp tính gia tăng ma trận độ hỗ trợ
Ta có ma trận độ hỗ trợ ban đầu là:
43

0

0

0

0

0

50

54

30

0

0

0

0

0

15

50

0

23

0

0

0

0

0

0

48

Sup(C,D) =

(3.9)

- Trường hợp 1: Loại bỏ ra khỏi khối dữ liệu 45 đối tượng (O3) có các giá trị
thuộc tính là:
3

2

1

1

3

O3

3

1

0

1

3

(45)

2

0

0

1

2

2

0

0

1

2

Khi loại bỏ 45 đối tượng (O3), ta có O3  C3 và O3  D5 . Lúc này ta có:
Sup (C’3, D’5) = Sup(C3, D5) – 45
Khi đó ma trận (3.9) được cập nhật thành:

Sup(C’,D’) =

43

0

0

0

0

0

50

54

30

0

0

0

0

0

0

50

0

23

0

0

0

0

0

0

48

(3.10)

- Trường hợp 2: Bổ sung 75 đối tượng có các giá trị thuộc tính chỉ số dưới đây
vào bảng dữ liệu

102

3

1

1

1

3

O13

1

3

2

1

3

(75)

1

2

1

1

2

0

0

0

1

3

Khi bổ sung 75 đối tượng có giá trị thuộc tính chỉ số như bảng trên là đối tượng
mới, kí hiệu O13. Khi đó, O13 hình thành thêm lớp tương đương điều kiện mới, kí hiệu
là C6. Do vậy, ma trận (3.10) được bổ sung thêm dòng mới với giá trị ban đầu của tất
cả các phần tử trên dòng này được gán bằng 0. Đồng thời, O13 được bổ sung vào lớp

tương đương quyết định D4 suy ra ảnh hưởng đến cột số 4 của ma trận (3.10).
Do đó: Sup(C6, D4) = Sup(C6, D4) + 75
Ma trận độ chính xác sau trường hợp 2 là:

Sup(C’’,D’’) =

129

0

0

0

0

0

150

162

90

0

0

0

0

0

0

150

0

69

0

0

0

0

0

0

144

0

0

0

75

0

(3.11)

Ta thấy, các giá trị của các phần tử tại dòng thứ 3 của ma trận (3.11) có tồn
giá trị 0. Vậy, thực hiện việc xóa bỏ dịng này trước khi tiến hành sinh luật, và ta thu
được ma trận độ hỗ trợ mới như sau:
129

0

0

0

0

0

150

162

90

0

Sup(C’’,D’’) = 150

0

69

0

0

0

0

0

0

144

0

0

0

75

0

(3.12)

103

Áp dụng mệnh đề 2.2, ta tính được ma trận độ chính xác và ma trận độ phủ là:

Acc(C,D) =

Cov(C,D) =

1

0

0

0

0

0

0.373

0.403

0.224

0

0.315

0

0

0.685 0
0

0

0

0

1

0

0

0

1

0

0.462

0

0

0

1

0.701

0

0

0.545

0

0 0.299

0

0

0

0

0

0

1

0

0

0

0.455

0

0.538

(3.13)

(3.14)

Từ hai ma trận (3.13), (3.14) nếu chọn ngưỡng độ chính xác và độ phủ =0.6
và = 0.5 ta có các luật quyết định tìm được là: C3 → D1, C4 → D5
3.10 Thực nghiệm
3.10.1 Mục tiêu thực nghiệm
(1) Đánh giá tính thực thi của các thuật tốn tìm luật kết hợp trên khối và thuật
tốn gia tăng tìm luật trên khối trong trường hợp khối có giá trị thuộc tính thay đổi.
(2) Đánh giá tính thực thi và hiệu quả thời gian thực hiện của thuật toán tính
gia tăng ma trận độ chính xác, ma trận độ phủ so với thuật tốn tính gia tăng ma trận
độ hỗ trợ để tìm ra luật quyết định trên khối khi tập đối tượng thay đổi.

3.10.2 Dữ liệu thử nghiệm
Việc thử nghiệm được thực hiện trên 3 tập dữ liệu lấy từ khoa Nhi A, B của
Bệnh viện Bạch Mai cơ sở 2 từ ngày 10/03/2020 đến ngày 14/03/2020. Dữ liệu được
thu thập và đã qua quá trình tiền xử lí với mỗi bộ dữ liệu đều gồm 3 thuộc tính chỉ số
điều kiện là các triệu chứng bệnh gồm sốt, ho, sổ mũi và 2 thuộc tính chỉ số quyết
định là phác đồ điều trị và mức độ sốt vi rút theo dõi qua 4 ngày.
Số phần tử của các bộ dữ liệu là:

104

Tên CSDL

BVBM2KNA

BVBM2KNB

KID PATIENT
FEVER VIRUS

160

1360

939

Số đối tượng

Bảng 3.2: Các thông tin cơ bản về cơ sở dữ liệu thực nghiệm
3.10.3 Công cụ và môi trường thử nghiệm

Công cụ thực hiện lập trình các thuật tốn là ngơn ngữ Java. Mơi trường thử
nghiệm là máy tính PC với cấu hình Intel(R) Core™ i5 2.5Ghz, RAM 4G, Windows
7 OS.
3.10.4. Kết quả thực nghiệm
Sau khi chạy 3 thuật toán trên các bộ dữ liệu ta thu được các kết quả như sau:
- Với bài tốn 1: tìm luật quyết định trên khối và lát cắt của khối (thuật tốn
MDLB)
Ta có, kết quả của chương trình:

Hình 3.1: Menu của chương trình

105

Hình 3.2: Tìm các lớp tương đương điều kiện, quyết định

Hình 3.3 Ma trận Sup, Acc, Cov tìm được

106

Hình 3.4: Luật quyết định tìm được trên khối
Khi thay đổi acc và cov thì số lượng luật thu được cũng thay đổi:

Number of rules

60
50

Acc =0.1

40

Acc =0.2

30

Acc =0.3

20

Acc =0.4

10

Acc =0.5

0
0.1

0.2

0.3

0.4

0.5

0.6

0.7

Acc =0.6

Number of rule

Coverage

16
14
12
10
8
6
4
2
0

Cov = 0.65
Cov = 0.7
Cov = 0.75
Cov = 0.8
Cov = 0.85
0.15

0.2

0.25

0.3

0.35

0.4

Accuracy
Hình 3.5: Mơi quan hệ giữa số lượng luật kết quả với ngưỡng min_acc, min_cov
- Với bài toán 2: tìm luật quyết định trên khối và lát cắt của khối khi làm mịn, làm
thơ giá trị thuộc tính (thuật tốn MDLB_VAC)
Ta có, kết quả của chương trình:

107

Hình 3.6: Chọn giá trị làm mịn

Hình 3.7: Tính các ma trận Sup, Acc, Cov trước và sau khi làm mịn

108

Hình 3.8: Chọn giá trị thuộc tính làm thơ

Hình 3.9: Tính các ma trận Sup, Acc, Cov trước và sau khi làm thô

Luận án tiến sĩ khai phá luật quyết định trên mô hình dữ liệu dạng khối

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về