Tải bản đầy đủ (.pdf) (76 trang)

Khai phá phụ thuộc hàm xấp xỉ sử dụng luật kết hợp và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (8.32 MB, 76 trang )

TRƯỜNG Đ

H

ĐẠI HỌC THÁI NGUYÊN
Ệ THÔNG TIN & TRUYỀN THÔNG

Thái Nguyên 9 - 2015
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

TRƯỜ

ĐẠI HỌC THÁI NGUYÊN
Ệ THÔNG TIN & TRUYỀN THÔNG

Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01

Người hướng dẫn khoa học
TS. Nguyễn Huy Đức
Thái Nguyên 9 - 2015
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

i
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này của tự bản thân tôi tìm hiểu, nghiên cứu
dưới sự hướng dẫn của TS. Nguyễn Huy Đức. Các chương trình thực nghiệm


do chính bản thân tôi lập trình, các kết quả là hoàn toàn trung thực. Các tài
liệu tham khảo được trích dẫn và chú thích đầy đủ.

TÁC GIẢ LUẬN VĂN

Phạm Thị Thanh Nga

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

ii

em

em tr

.
ập thể các nhà khoa học,


trong


Nguyên. Với vốn kiến thức được tiếp thu trong quãng thời gian học tập trên
giảng đường không chỉ là nền tảng cho quá trình nghiên cứu luận văn mà còn là
hành trang quý báu để em bướ

ột cách vững chắc và tự tin.


Trong quá trình viết luận văn, bản thân em đã hết sức cố gắng
nhưng do khả năng, vốn kinh nghiệm nghiên cứu và thời gian có hạn nên
luận văn không tránh khỏi những thiếu sót. Vì vậy, em rất mong nhận
được sự chỉ bảo, góp ý của các nhà khoa học, các thầy, cô để
.
!

,

Số hóa bởi Trung tâm Học liệu - ĐHTN

08 năm 2015

/>

iii
MỤC LỤC
LỜI CAM ĐOAN .............................................................................................. i
................................................................................................... ii
MỤC LỤC ........................................................................................................ iii
N VĂN .... v

DANH MỤC VIẾT TẮ
DANH MỤ

ẢNG BIỂU .................................................................... vi

DANH MỤ

Ẽ ........................................................................ vii


MỞ ĐẦU ........................................................................................................... 1
Chương 1. TỔNG QUAN VỀ PHỤ THUỘC HÀM, PHỤ THUỘC HÀM
XẤP XỈ VÀ LUẬT KẾT HỢP ......................................................................... 4
1.1. Quan hệ và phụ thuộc hàm ......................................................................... 4
1.2. Phụ thuộc hàm xấp xỉ ................................................................................. 6
1.2.1. Định nghĩa ............................................................................................... 6
1.2.2. Một số độ đo cơ bản ................................................................................ 7
1.3. Luật kết hợp................................................................................................ 9
............................................................................................... 9
......................................................... 13
1.3.3. Khai phá luật kết hợ
Kế

.......................................... 13

1 ........................................................................................... 24

Chương 2. BIỂU DIỄN PHỤ THUỘC HÀM XẤP XỈ QUA LUẬT KẾT HỢP.. 25
2.1. Định nghĩa PTH xấp xỉ qua LKH ............................................................ 25
........................... 28
2.1.2. Về một độ đo độ chính xác ................................................................... 29
............ 31
............................................................................................... 33
.............................................................................................. 34
..................................................................................... 35
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>


iv
....................... 36
....................................... 40
2 ........................................................................................... 42
Chương 3. T

. 43
........................................................................................... 43
................................................................................. 44
............................................................................ 46
.............................................................................. 48

Kết luận chương 3 ........................................................................................... 54
...................................................... 55
............................................................................... 57
PHỤ LỤC ........................................................................................................ 59

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

v
DANH MỤC VIẾT TẮT
Ký hiệu

Diễn giải

RU
U


U

A1, ..., Am

.
U

S = (U, F)

s X

Y

c X

Y

s X

Y

c X

Y

cf I X

,F

U

X
X

Y
Y
X

Y

X

IY

IX

Y

IY

LĐQH
CSDL

Cơ sở dữ liệu

PTH
LKH

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>


vi
DANH MỤC

BẢNG BIỂU

............................................................................... 5
Bảng 1.2. Bảng quan hệ ví dụ về PTH xấp xỉ ................................................... 7
.................................................................. 10
........................ 11
Bảng 1.5. Cơ sở dữ liệ

D ................................................................. 14

Bảng 1.6. Độ hỗ trợ của các mục .................................................................... 15
Bảng 1.7. Độ hỗ trợ của các tập mục .............................................................. 15
Bảng 1.8. Độ tin cậy của các luật .................................................................... 16
Bả

D cho thuật toán Apriori ........................................ 20
ực hiệ

......................................... 21
................... 24

R ................................................................................. 27
TD

R .............................................................. 27


2.3. Một số LKH trong TD tương ứng với PTH xấp xỉ trong R ............ 28
............................................................ 45

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

vii
DANH MỤ

HÌNH VẼ

Hình 1.1. Phân loại các thuật toán khai phá tập mục phổ biến ....................... 17
................................................... 44
....................................... 46
................................................................... 47
................................. 48
...................................................... 49
.......................................... 49
Hình 3.7. Giao diện kết quả khai phá PHT xấp xỉ .......................................... 51
Hình 3.8. Giao diện kết quả khai phá PTH xấp xỉ .......................................... 52

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

1
MỞ ĐẦU
1. Tính cấp thiết của đề tài
Sự phát triển nhanh chóng của công nghệ thông tin (CNTT) đã tác động

đến mọi mặt của xã hộ

ững thành tựu của công nghệ lưu trữ đã cho

phép tạo ra những nguồn dữ liệu khổng lồ. Việc khai thác các nguồn dữ liệu
này, đang ngày càng cấp thiết đặt ra những thử thách lớn cho ngành CNTT
đặc biệt là lĩnh vực khai phá dữ liệu.
Như chúng ta đã biết, phụ thuộc hàm đóng một vai trò rất quan trọng
trong lý thuyết thiết kế cơ sở dữ liệu. Nó đảm bảo tính chính xác cũng như
tính nhất quán của cơ sở dữ liệu. Nhờ có các phụ thuộc hàm, các hệ quản trị
cơ sở dữ liệu mới quản lý tốt chất lượng của dữ liệu. Tuy vậy, trong thực tế có
một số giá trị dữ liệu không chính xác, hoặc một số ngoại lệ nào đó làm cho
các phụ thuộc hàm không thỏa mãn. Sự phụ thuộc hàm “tuyệt đối” này có vẻ
quá nghiêm ngặt khi chúng ta hình dung một quan hệ có hàng nghìn bộ, trong
khi đó chỉ có khoảng vài bộ vi phạm phụ thuộc hàm. Điều này làm mất tính
chất “phụ thuộc” vốn có giữa các thuộc tính. Vì vậy, các nhà nghiên cứu cơ
sở dữ liệu đã mở rộng phụ thuộc hàm thành khái niệm phụ thuộc hàm xấp xỉ.
Các phụ thuộc hàm này cho phép có một số lượng lỗi nhất định của các bộ dữ
liệu đối với phụ thuộc hàm.
Suy diễn các phụ thuộc hàm xấp xỉ

ấn đề thời sự, được các nhà


khoa học tập trung nghiên cứ

ệ thông tin. Khai phá phụ thuộc hàm xấp
xỉ sử dụng luật kết hợp là một hướng nghiên cứu mới được đề xuất trong thời
gian gầ


, tôi chọn đề tài: “Khai phá phụ thuộc hàm xấp xỉ

sử dụng luật kết hợp và ứng dụng” làm đề tài luận văn tốt nghiệp của mình.
2. Đối tượng và phạm vi nghiên cứu
Tìm hiểu về phụ thuộc hàm, phụ thuộc hàm xấp xỉ và các tính chất, độ
đo lỗi của nó, khái niệm luật kết hợp, các tính chất và thuật toán điển hình
khai phá luật kết hợp.


2
Luận văn đi sâu vào khai phá phụ thuộc hàm xấp xỉ sử dụng luật kết
hợp và các vấn đề liên quan thuộc lĩnh vực phát hiện tri thức từ dữ liệu. Xây
dựng một ứng dụng thực nghiệm phát hiện phụ thuộc hàm xấp xỉ trong cơ sở
dữ liệu bán hàng của siêu thị.
3. Hướng nghiên cứu của đề tài
- Nghiên cứu về phụ thuộc hàm, phụ thuộc hàm xấp xỉ và các độ đo lỗi
của nó.
- Nghiên cứu về khai phá luật kết hợp: Bài toán xuất phát, các khái
niệm tập mục phổ biến, luật kết hợp cùng các khái niệm độ hỗ trợ, độ tin
cậy… Thuật toán điển hình tìm tập phổ biến và luật kết hợp.
- Biểu diễn phụ thuộc hàm xấp xỉ trên quan hệ thông qua luật kết hợp
và các độ đo của chúng. Thuật toán xác định phụ thuộc hàm xấp xỉ dựa trên
luật kết hợp.
4. Phương pháp nghiên cứu
Phương pháp nghiên cứ

ứu lý thuyết kết

hợp với đánh giá thực nghiệm cụ thể: Phân tích, tổng hợp các kết quả nghiên
cứu về phụ thuộc hàm, phụ thuộc hàm xấp xỉ, luật kết hợp… T




trên các bài báo khoa học, hội thảo chuyên ngành trong và ngoài nước. Từ đó,
trình bày làm rõ vấn đề khai phá phụ thuộc hàm xấp xỉ sử dụng luật kết hợp.
5. Ý nghĩa khoa học và thực tiễn
Phụ thuộc hàm đóng vai trò rất quan trọng trong lý thuyết CSDL quan
hệ. Nó rất hữu ích trong thiết kế CSDL quan hệ như: Xác định khóa, xác định
các dạng chuẩn, xác định vấn đề nhất quán dữ liệu…Tuy nhiên, trong thực tế
do có một số giá trị dữ liệu không chính xác hoặc một số ngoại lệ nào đó, làm
cho các phụ thuộc hàm không thỏa mãn. Sự phụ thuộc tuyệt đối này dường
như quá nghiêm ngặt khi ta hình dung một quan hệ có hàng nghìn bộ, trong
khi đó chỉ có vài bộ vi phạm phụ thuộc hàm. Điều này, làm mất tính chất phụ
thuộc vốn có giữa các thuộc tính. Vì vậy, mở rộng khái niệm phụ thuộc hàm


3
thành phụ thuộc hàm xấp xỉ, cho phép có một số lỗi nhất định của các bộ dữ
liệu là rất cần thiết

có ý nghĩa cả về mặt lý thuyết cũng như thực tiễn.

Các phụ thuộc hàm xấp xỉ không những giúp chúng ta thấy được mối
quan hệ tiềm ẩn giữa các thuộc tính mà còn giúp ta thuận tiện hơn trong việc
phân tích dữ liệu đánh giá thông tin.
Phát hiện phụ thuộc hàm xấp xỉ trong CSDL là một vấn đề nghiên cứu
hấp dẫn và cũng là một trong những mục tiêu của phát hiện tri thức. Tiếp cận
phụ thuộc hàm xấp xỉ thông qua luật kết hợp của khai phá dữ liệu là một
hướng đi thú vị, hứa hẹn nhiều kết quả lý thuyết cũng như ứng dụng hiệu quả
trong thực tiễn. Do vậy, đề tài luận văn tìm hiểu về phụ thuộc hàm xấp xỉ, luật

kết hợp, đi sâu tìm hiểu khai phá phụ thuộc hàm xấp xỉ sử dụng luật kết hợp
có ý nghĩa khoa học và thực tiễn.
6. Cấu trúc luận văn
Cấu trúc
luận

tài liệu tham khảo.

bao gồm phần mở đầu,

, kết

3 chương

Chương 1: Giới thiệu về phụ thuộc hàm, phụ thuộc hàm xấp xỉ và luật
kết hợp.
Chương 2:

.

Chương 3:

.


4
Chương 1
TỔNG QUAN VỀ PHỤ THUỘC HÀM, PHỤ THUỘC HÀM XẤP XỈ VÀ
LUẬT KẾT HỢP
Chương này trình bày tổng quan về phụ thuộc hàm, phụ thuộc hàm xấp

xỉ và luật kết hợp. Các khái niệm và kết quả trong chương này có thể tìm thấy
trong [1], [2], [3], [4], [6], [8], [11], [12].
1.1. Quan hệ và phụ thuộc hàm
U

A1, ..., Am

Dom Ai , 1

Ai

trên U

R (U

i

m

R

Descartes Dom A1

Dom A2

...

Dom Am .

:

RU

Dom A1

Dom A2

...

Dom Am

R
.
(PTH
X → Y (trong

X, Y ⊆ U)

R (U
X→Y

t, s R | t X

Khi PTH X → Y
X→Y

s X

R. N

R

t Y

:

sY

R

R (X → Y).
1.1.

bảng 1.1 như sau:

R

U = {T, A, B, C} cho trên


5
1.1. V

R=

:C

T

A

B


C

1

a1

b1

c1

2

a2

b2

c2

3

a2

b2

c3

{T} → {A, B, C}, {C} → {T, A, B},

R


{A} → {B

{B} → {C}, …

.
S = (U, F)

U

U

F
(LĐQH).

R
PTH X → Y ∈ F

F
R (X → Y).
F trên U

F

PTH X → Y

sao cho R (F

R (X → Y).


X→Y

U

F = X → Y. N
F+. L

F trên U
trên U

R (F). N

(A1) – (A3) như sau:

F
Với ∀ X, Y, Z ⊆ U:
(A1)
Y⊆X

X → Y ∈ F+

ia tăng

(A2)

X → Y ∈ F+

X ⋃ Z → Y ⋃ Z ∈ F+

X → Y ∈ F+


Y → Z ∈ F+

(A3)
F+

U

.

X → Z ∈ F+

R (U)


6


hệ

Armstrong hay

.

1.2. Phụ thuộc hàm xấp xỉ
1.2.1. Định nghĩa
Định nghĩa 1.1. [11] Cho quan hệ R (U) và X → Y là một PTH trên U.
Gọi S ⊆ R là quan hệ sao cho có số bộ ít nhất cần loại bỏ khỏi R để R\S thỏa
mãn PTH (X → Y). Khi đó tỷ số của |S| và |R| được gọi là độ đo lỗi của PTH X
→ Y trên R, ký hiệu g3 (X → Y, R).

Như vậy
g3 X

Y, R

min{| S || S

R, ( R \ S ) ( X
| R|

Y )}

Một cách tương đương
g3 X

Y, R

1

max{|S || S

R, S ( X
|R|

Y )}

Độ đo lỗi trên còn được gọi là độ đo lỗi g3 .
Có thể thấy nếu X → Y là một PTH đúng trên R thì độ đo lỗi

g3 X


Y, R

0.

Cho ngưỡng lỗi

với 0

1 . Người ta nói PTH X → Y là một

PTH xấp xỉ trên R ứng với ngưỡng lỗi . Nếu g3 X

Y, R

. Khi đó

người ta còn nói PTH xấp xỉ X → Y đúng trên R ứng với ngưỡng lỗi .
Ví dụ 1.2. Xét quan hệ R trên tập thuộc tính U = {A, B, C, D} cho trên
bảng 1.2 như sau:


7
Bảng 1.2. Bảng quan hệ ví dụ về PTH xấp xỉ

R=

Bộ

A


B

C

D

t1

0

0

1

1

t2

0

1

1

1

t3

0


2

1

2

t4

1

2

0

0

t5

2

0

0

0

t6

2


0

2

0

t7

1

1

2

1

Xét PTH AB → C trên R (U).
Rõ ràng bỏ bộ 6 (hoặc bộ 5) thì PTH AB → C sẽ đúng trên quan hệ R.
Tức số bộ ít nhất cần loại khỏi quan hệ R để PTH AB → C đúng trên các bộ
còn lại là 1.
Suy ra: g3 AB

1
7

C, R

Ví dụ 1.3. Xét quan hệ R ở ví dụ 1.2 trên và ngưỡng lỗi = 0,5.
Theo ví dụ trên, ta có: g3 AB


C, R

1
7

0, 5 .

Do đó PTH AB → C là một PTH xấp xỉ trên R ứng với = 0,5.
:K

R (U)
U

R hay không.
1.2.2. Một số độ đo cơ bản
Khi nghiên cứu phát hiện các PTH xấp xỉ thì vấn đề xác định độ đo cho
các PTH xấp xỉ đóng vai trò cực kì quan trọng. Đã có nhiều tác giả đưa ra


8
nhiều độ đo dựa vào nhiều cách khác nhau. Ở đây luận văn tìm hiểu một số độ
đo cơ bản.
Trong định nghĩa về PTH xấp xỉ khi có một bộ làm cho PTH không đúng.
Người ta gọi bộ này là một trường hợp ngoại lệ. Như vậy, PTH xấp xỉ chính là
PTH với các trường hợp ngoại lệ. Các độ đo của PTH xấp xỉ dựa trên số lượng
các trường hợp ngoại lệ,

.
U


R (U

X, Y ⊆ U.

a.
Độ đo lỗi g2 của Kivinen và Mannila (1995)
Để đo lỗi của một PTH X → Y, ngoài độ đo g3 Kivinen và Mannila
[11] còn đưa ra độ đo lỗi g2 như sau: Tỷ số giữa các bộ ngoại lệ của X → Y
với các bộ trong quan hệ R được gọi là độ đo lỗi g2 của X → Y trên R, ký hiệu
g2 (X → Y, R).

Như vậy

g2 X

t

Y, R

R| s

R, t X

s X vµ t Y

sY

R


1.4. Xét quan hệ R ở ví dụ 1.2 trên. Ta có:

g2 A

4
7

C, R

:
Đ

[0,

g2

g2 X

Y, R

0

g2 X

Y, R

1

Y
Y


hàm

X

.C

X.

Độ đo lỗi g3 Kivinen và Mannila (1995)
Độ đo này đã được giới thiệu trong mục 1.2.1 ở trên. Ở đây chúng ta có
thể định nghĩa lạ

:


9
g3 X

min Re | Re

Y, R

R và R \ Re

X

Y

R


Hay tương đương
g3 X

Y, R

max S | S

1

R, S X

Y

R

:
g3

.
ờng hợp ngoại lệ các cặp bộ

b.

Độ đo lỗi g1 của Kivinen và Mannila (1995) [11]
Tỷ số giữa các cặp bộ ngoại lệ của X → Y với bình phương các bộ
trong quan hệ R được gọi là độ đo lỗi g1 của PTH X → Y trên R, ký hiệu
g1( X

Y, R) .


Một cách hình thức:
g1 X

t, s | t, s

Y, R

R, t X

s X vµ t Y
R

sY

2

Ví dụ 1.5. Xét quan hệ R ở ví dụ 1.2 trên. Ta có:

g1( A

4
49

C, R)

Nhận xét:
Độ đo lỗi g1 có giá trị trong khoảng [0, 1]. Khi g1( X
nghĩa sự phụ thuộc của Y vào X là PTH


Y, R)

0 có

, ngược lại Y

X.
1.3. Luật kết hợp
1.3.1
m
giao

dữ liệu
.

I

I1, I 2 , ..., I m

T⊆I


10
D

.

dữ liệu
k-


k

.

1.6. Cho

D trên tập các mục I = {A, H, L, E, F}.

CSDL giao tác D như sau :
D = {{A, F, L, E}; {F, H, E}; {A, F, L, E}; {A, F, H, E}; {A, F, H, L, E}; {F, H, L}}
1.3. V
giao
1

{A, F, L, E}

2

{F, H, E}

3

{A, F, L, E}

4

{A, F, H, E}

5


{A, F, H, L, E}

6

{F, H, L}
X⊆I

T
T ⊆ X.

X. N

supp(X). L
X với số

của D
supp X

:

T D| X

T

D

: 0 ≤ supp (X) ≤ 1
X
supp (X) ≥ minsupp. T


giữa số các

X.
(hay
minsupp ∈ [0,
.
:


11
1.1. [7]

⊆ Y.

,Y

) supp (X) ≥ supp (Y).

(1) (
(2)

.

(3) N

.

là tập

.

1.7.
minsupp = 50%.
1.4. V

{F}

100% (6/6)

{E}, {F, E}

83% (5/6)

{A}{H}{D}{A, F}{A, E}{F, H}{F, L}{A, F, E}

67% (4/6)

{A,L}{H,E}{L,E}{A,F,L}{A,L,E}{F,H,E}{F,L,E}

50% (3/6)

(LKH)
đó X, Y

Y , trong

X

I thỏa mãn điều kiện X

. Tập X gọi là tiền đề, tập Y gọi


Y

là kết luận của luật.
quan trọng là độ hỗ trợ và độ tin cậy:

Y , ký hiệu là s X

X

X

trong D
:s X

T

Y

D| X

Y.
Y

T

P X

Y


D

.

s X

Y

Y

supp X

Y


12
Độ tin cậy (Confidence) của luật X

Y , ký hiệu c X

X

trong D

Y . Là tỷ lệ

Y

trong D


X
c X

supp X Y
supp X

Y

c X
trong D

X

Y l
c X

Y
T

X

Y

T

Y:
c X

Y


P Y/X

P Y X
P X

X⟹Y



X

Y
y cao.
X⟹Y

c X

Y

s X

minconf

, minsup

Y

minsup

minconf

[0, 1].

:
Giả sử có

:

.
ung thư ph . T
.
:
1)

.


13
, “ung thư p

2)

.

:
1)

.

2)


.
:T

,

.
Tuy nhiên LKH

.
1.3.2
:
1.2. [7] Nếu X
Z

Y là LKH mạnh thì X

Z với

Y cũng là LKH mạnh.

1.3. [7] Nếu X
không nhất thiết X

Y

Z và Y

Z

thì


Z cũng là LKH mạnh.

1.4. [7] Nếu X

Y

Z là LKH mạnh thì X

Z và Y

Z

chưa chắc LKH mạnh.
1.5. [7] Nếu X

X

Y và Y

Z là LKH mạnh thì chưa chắc

Z là LKH mạnh.
1.3.3. Khai phá luật kết hợ

:


14
1.1. (K


)
D, ngưỡng

minsup

minconf
ngưỡng minsup

thỏa mãn

minconf

.
:

(b1)

D.

(b2)

(b1)
X

X
Y

X \ Y, Y


X

Y, Y

X

:

:

hay
X \Y

c Y

minconf

Y

. Trong hai bước ở trên thì

c
gian. B

X \Y

X \Y

(b1


(b

(b1).
,
.T

.
D gồm 5 giao tác biểu diễn trong bảng 1.5.

1.8.

Bảng 1.5. Cơ sở dữ liệu

D

TID

Các mục dữ liệu

T1

A, C, D

T2

B, E

T3

A, B, C, E


T4

B, E

T5

B, D, F


15
Độ hỗ trợ của các mục (hay tập mục chỉ gồm 1 mục) được minh hoạ
trong bảng 1.6.

đây, mục A xuất hiện trong hai giao tác T1 và T3 c

D ( được mô tả trong bảng 1.5) nên Supp (A) = 2/5 = 40%.
Bảng 1.6. Độ hỗ trợ của các mục
Mục

Số giao tác

Đô hỗ trợ sup (X)

A

2

40%


B

4

80%

C

2

40%

D

2

40%

E

3

60%

F

1

20%


Tương tự trong bảng 1.7 tính độ hỗ trợ của các tập mục tron
D. Ví dụ AB xuất hiện chỉ l lần trong giao tác T3. Do đó, độ hỗ trợ
của tập mục này là 20%.
Kết quả được thể hiện qua bảng 1.7 sau đây:

Bảng 1.7. Độ hỗ trợ của các tập mục
Tập mục

Số giao tác

Độ hỗ trợ sup(X)

AC

2

40%

AB

1

20%

BD

1

20%


CD

1

20%

ABC

1

20%

ABE

1

20%

ACD

1

20%

BDF

1

20%


ABCE

1

20%


16
Tính độ tin cậy của một số LKH sinh ra từ các tập mục trong bảng 1.7. Ví
dụ độ tin cậy 100% cho luật A

C (có nghĩa là trong mọi giao tác trong đó

có A xuất hiện thì C cũng xuất hiện). Độ tin cậy của luật này được tính bằng cách
chia số giao tác mà tập mục AC xuất hiện là 2 cho số giao tác mà mục A xuất
hiện trong bảng 1.5. Kết quả độ tin cậy của các luật thể hiện qua bảng 1.8.
Bảng 1.8. Độ tin cậy của các luật
Luật kết hợp

Độ tin cậy conf ( X

A

C

100%

A

B


50%

B

D

25%

AB

C

100%

AC

B

50%

BE

A

33%

Y)

b. Các cách khai phá tập mục phổ biến

Bài toán khai phá tập mục phổ biến có thể chia thành hai bài toán nhỏ:
Tìm các tập mục ứng viên và tìm các tập mục phổ biến. Tập mục ứng viên là
tập mục mà ta hy vọng nó là tập mục phổ biến, phải tính độ hỗ trợ của nó để
kiểm tra. Tập mục phổ biến là tập mục có độ hỗ trợ lớn hơn hoặc bằng
ngưỡng hỗ trợ tối thiểu cho trước. Ta có thể phân chúng theo hai tiêu chí sau:
- Phương pháp duyệt qua không gian tìm kiếm.
- Phương pháp xác định độ hỗ trợ của tập mục.

Phương pháp duyệt qua không gian tìm kiếm được phân làm hai cách:
Duyệt theo chiều rộng (Breadth First Search - BFS) và duyệt theo chiều sâu
(Depth First Search - DFS).
Duyệt theo chiều rộng là duyệt qua cơ sở dữ liệu gốc để tính độ hỗ trợ của
tất cả các tập mục ứng viên có (k - 1) mục trước khi tính độ hỗ trợ của các tập


×