Tải bản đầy đủ (.pdf) (54 trang)

Tìm hiểu khai phá luật kết hợp mining association rules

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (647.64 KB, 54 trang )

Tìm hi u phai phá lu t k t h p

Mining Association Rules

I. GI I THI U
Hi n nay d li u, thông tin và tri th c đang là tiêu đi m c a m t l nh
v c m i nghiên c u và

ng d ng v

phát hi n tri th c (Knoledge

Discovery) - KD và khai phá d li u (Data Mining) - KDD.
Phát hi n tri th c: phát hi n tri th c trong các c s d li u là m t
quy trình nh n bi t các m u ho c các mô hình d
h p th c, m i, kh ích và có th hi u đ
Khai phá d

li u v i các tính n ng:

c.

li u: khai phá d li u là m t b

hi n tri th c g m có các thu t toán khai thác d

c trong quy trình phát
li u chuyên dùng d

m t s quy đ nh v hi u qu tính toán ch p nh n đ


i

c đ tìm ra các m u

ho c các mô hình trong d li u đang t n t i trong các c s d li u nh ng
v n còn b che khu t b i hàng núi d li u.
Trong báo cáo này, chúng tôi xin trình bày m t s khái ni m Data
mining (ch

ng II), Lu t k t h p (ch

là khám phá các t p ph bi n (ch
cài đ t th
(ch

nghi m (ch

ng III), hai quá trình tìm lu t k t h p
ng IV) và khám phá lu t (ch

ng VI), nh n xét, đánh giá, h

ng VII).

-1-

ng V);

ng phát tri n



Tìm hi u phai phá lu t k t h p

Mining Association Rules

II. T NG QUAN V DATA MINING
1.

Khái ni m Data mining:

Ti n trình trong thu th p d li u s và công ngh l u tr d n đ n s
l n lên c a các CSDL đ s .

i u này đã xu t hi n trong t t c l nh v c t

d

li u trong các ho t đ ng c a con ng

tr

ng, b n ghi vi c s

i (nh

li u giao d ch th

d ng th tín d ng, thông tin v các cu c g i đi n
li u thu th p đ


tho i, các th ng kê c a chính ph ) t i các d
ngoài (nh

d

ct

bên

hình nh các thiên th , CSDL v phân t , ho c b n ghi y t ).

Cùng v i s l n lên c a d li u là s l n lên c a m i quan tâm v các v n
đ v kh n ng sao l u d li u này, kh n ng trích rút t chúng các thông
tin có giá tr . Môn khoa h c liên ngành liên quan đ n nhi m v này g i là
Data mining.
Vi c đ nh ngh a m t khoa h c liên ngành luôn gây tranh cãi; các
nhà nghiên c u th

ng không nh t trí v ph m vi chính xác và gi i h n v

l nh v c nghiên c u c a h . V i suy ngh nh
th nh ng ng

v y và ch p nh n r ng có

i khác không đ ng tình v chi ti t, chúng ta s thông qua

môt đ nh ngh a riêng c a chúng ta v data mining nh sau:
Data mining (khai phá d
li u quan sát (th

tóm t t d
ng

li u) là s

ng là l n) đ tìm ra các m i liên h rõ ràng và đ

li u theo các cách m i mà v a d hi u, v a h u ích cho

i s h u d li u.
Các m i liên h và các tóm t t thu đ

th

phân tích c a các t p d

c thông qua khai phá d li u

ng g i là các mô hình (models) ho c khuôn m u (patterns). Ví d nh

các ph

ng trình tuy n tính, các lu t, các nhóm, các đ th , các c u trúc

cây, các khuôn m u l p l i theo th i gian.
nh ngh a
đ i l p v i “d
th

trên nh c đ n “d


li u quan sát – observational data”,

li u th c nghi m – experimental data”. Khai phá d

ng làm vi c trên d

li u mà đã th c s

đ

c thu th p tr

c đó cho

m c đích khác v i phân tích c a dataming (ch ng h n, chúng đ
th p nh m c p nh t t t c các giao d ch trong m t ngân hàng).
-2-

li u

c thu
i u này


Tìm hi u phai phá lu t k t h p

Mining Association Rules

có ngh a r ng các m c tiêu c a khai phá d

trong chi n l

c thu th p d li u.

li u không đ

c xác đ nh

i u này là m t trong nh ng cái đ phân

bi t Data mining v i th ng kê h c (statistics); đ i v i th ng kê, d
th

ng đ

c hi u qu đ tr l i các

c thu th p b i s d ng các chi n l

câu h i xác đ nh tr

li u

c. V i lý do này, khai phá d li u th

ng đ

c coi là

phân tích d li u th c p (“secondary”)

nh ngh a c ng đ c p đ n các t p d
th

ng là l n. N u ch làm vi c trên t p d

li u trong khai phá d

li u

li u nh , chúng ta hoàn toàn

m i ch th o lu n phân tích d li u khám phá c đi n (classical exploratory
data analysis) nh công vi c c a các nhà th ng kê. Khi đ i m t v i d li u
l n, các bài toán m i s n y sinh. M t s bài toán thì liên quan đ n các
v n đ l u tr

và truy c p d

li u, m t s khác thì liên quan đ n các v n

đ c b n nh là làm th nào đ xác đ nh các đ i di n c a d li u, làm th
nào phân tích d

li u trong th i gian ch p nh n đ

quy t đ nh xem m t m i liên h ch đ n thu n là s
không ph n ánh m t th c t nào c . Thông th
g m m t m u t

m t t p đ y đ


c, làm th

nào đ

xu t hi n ng u nhiên

ng, d li u có s n ch bao

li u; m c đích là khái quát hóa

d

(generalize) t m u đó cho toàn b t p d li u. Ch ng h n chúng ta mong
mu n d đoán hành vi c a các khách hàng trong t

ng lai, ho c d đoán

các tính ch t c a c u trúc proteins mà chúng ta ch a bao gi
tr

c đó. Nh ng khái quát hóa nh

nhìn th y

v y có th không th có đ

các cách ti p c n th ng kê chu n vì d li u th

c b ng


ng không ph i là các m u

“ng u nhiên” mà là “m u ti n l i” (“convenience samples”) ho c “m u c
h i” (“opportunity samples”).
t pd

ôi khi chúng ta mu n tóm t t ho c nén m t

li u l n theo m t cách sao cho k t qu là d h u, không có b t c

m t ý ni m nào c a khái quát hóa c . V n đ nh
h n, n u chúng ta đã hoàn thành d

v y s n y sinh, ch ng

li u đi u tra dân s đ y đ c a m t

qu c gia, ho c m t CSDL g m hàng tri u giao d ch bán l .
Các m i liên h và c u trúc tìm th y trong các t p d

li u ph i là

m i, đi u đó là t t nhiên. S có r t ít giá tr khi tìm ra các m i liên h đã
thiêt l p tr

c (tr khi m c đính c a công vi c là xác nh n gi thuy t, xác
-3-



Tìm hi u phai phá lu t k t h p

Mining Association Rules

đ nh xem m t khuôn m u – pattern - t n t i trong m t t p d
không), ho c các m i liên h c n thi t (ví d nh
thai là n ). Rõ ràng, tính m i ph i đ
th c đã có tr

t t c b nh nhân mang

c đo m t cách t

c (tri th c tiên nghi m) c a ng

li u m i

is

ng đ i đ i v i tri

d ng. Không may là

ch có m t vài gi i thu t khai phá d li u là đ c p đ n tri th c tiên nghi m.
Nó v n là bài toán đang t n l i trong nghiên c u.
Trong khi tính m i là m t tính ch t quan tr ng c a các m i liên h
chúng ta tìm ki m, nó v n không đ đ đánh giá m t m i liên h là có giá
tr . C th , các m i liên h ph i có th hi u đ

c. Ví d các m i liên h


đ n gi n là d hi u h n các m i liên h ph c t p, và vì v y đ

c a thich

h n.
Data mining là l nh v c liên ngành: th ng kê h c (statistics), công
ngh c

s

d

li u (database technology), h c máy (machine learning),

nh n d ng khuôn m u (pattern recognition), trí tu

nhân t o (artificial

intelligence), và tr c quan hóa (visualization), t t c đ u có vai trò nh t
đ nh. R t khó đ xác đ nh m t biên rõ ràng gi a các ngành này và biên
gi a m i trong chúng v i data mining.

2.

Quá trình khai phá tri th c và khai phá d

Khai phá d li u th

ng đ


“khám phá tri th c trong các c
databases”, KDD). Thành ng

li u

c xác l p trong ng c nh r ng h n c a
s

d

li u” (“knowledge discovery in

này xu t phát t

l nh v c trí tu nhân t o

(artificial intelligence, AI). Quá trình KDD liên quan đ n nhi u công đo n:
l a ch n d li u, ti n x lý d li u, chuy n d ng (transforming) chúng n u
c n thi t, th c hi n khai phá d li u đ trích ra khuôn m u và các m i liên
h , di n d ch và đánh giá khuôn m u và m i liên h tìm ra. M t l n n a
các biên chính xác c a ph n khai phá d

li u c a các quá trình trên là

không d dàng xác đ nh; ch ng h n, v i r t nhi u ng
d li u là m t ph n th c s c a khai phá d li u.

-4-


i thì chuy n d ng


Tìm hi u phai phá lu t k t h p

Mining Association Rules

Quá trình khai phá tri th c d li u g m các b
a. Làm s ch d

c:

li u (Data Cleaning): Lo i b d

li u nhi u và d

li u không nh t quán.
b. Tích h p d
th đ

li u (Data Intergation): D li u c a nhi u ngu n có

c t h p l i.

c. L a ch n d

li u (Data Selection): L a ch n nh ng d li u phù

h p v i nhi m v phân tích trích rút t c s d li u.
li u (Data Transformation): D li u đ


d. Chuy n đ i d
đ i hay đ

c chuy n

c h p nh t v d ng thích h p cho vi c khai phá.

e. Khai phá d

li u (Data Mining):

trong đó các ph

ây là m t ti n trình c t y u

ng pháp thông minh đ

c áp d ng nh m trích

rút ra m u d li u.
f.

ánh giá m u (Pattern Evaluation): D a trên m t đ đo nào đó
xác đ nh l i ích th c s , đ quan tr ng c a các m u bi u di n tri
th c.

g. Bi u di n tri th c (Knowledge Presentation):
các k thu t bi u di n và hi n th đ
l y ra cho ng


i dùng.

-5-

cs

giai đo n này

d ng đ đ a tri th c


Tìm hi u phai phá lu t k t h p

Mining Association Rules

Hình 1: Bi u di n quy trình khai phá tri th c
Quá trình x

lý khai phá d

li u b t đ u b ng cách xác đ nh chính

xác v n đ c n gi i quy t. Sau đó s xác đ nh các d

li u liên quan

dùng đ xây d ng gi i pháp.
B


c ti p theo là thu th p các d

li u có liên quan và x

thành d ng sao cho các gi i thu t khai phá d

lý chúng

li u có th hi u đ

c.

V lý thuy t thì có v r t đ n gi n nh ng khi th c hi n thì đây th c s
là m t quá trình r t khó kh n, g p ph i r t nhi u v
B

ng m c.

c ti p theo là ch n thu t gi i khai phá d li u thích h p và th c

hi n vi c khai phá d
bi u di n t

li u đ tìm đ

c các m u có ý ngh a d

i d ng

ng ng v i các ý ngh a đó.


c đi m c a m u ph i là m i (ít nh t là đ i v i h th ng đó).
m i có th đ

c đo t

ng

ng v i đ thay đ i d

sánh các giá tr hi n t i v i các giá tr tr

c đó hay các giá tr mong

mu n), hay b ng tri th c (m i liên h gi a ph
ph

ng pháp c nh

th nào).Th

li u (b ng cách so

ng pháp tìm m i và

ng thì đ m i c a m u đ

giá b ng m t hàm logic hay m t hàm đo đ m i, đ b t ng
Ngoài ra, m u ph i có kh n ng s
đ


cx

c đánh
c a m u.

d ng ti m tàng. Các m u sau khi

lý và di n gi i ph i d n đ n nh ng hành đ ng có ích nào đó
-6-


Tìm hi u phai phá lu t k t h p

đ

Mining Association Rules

c đánh giá b ng m t hàm l i ích.M u khai thác ph i có giá tr đ i

v i các d li u m i v i đ chính xác nào đó.

Nghiên c u l nh v c
li u đ u vào

T ot pd

Ti n x lý,làm s ch, mã hoá
Ch n tác v khai thác d li u
Ch n các gi i thu t datamining

Tìm ki m tri th c
ánh giá m u tìm đ

c

Bi u di n tri th c
S d ng các tri th c v a khám phá

Hình 2: Bi u di n quy trình khai phá d li u

3. Các k thu t và ph

ng pháp khai phá d li u

S r t ti n l i khi phân lo i khai phá d li u thành các ki u nhi m v ,
t

ng

ng v i m c tiêu khác nhau. Phân lo i d

i đây không ph i là duy

nh t, và vi c phân chia nh h n, thành các nhi m v m n h n là có th .

3.1.

Phân tích d

li u khám phá (Exploratory Data Analysis –


EDA)
Nh

cái tên đ t, m c đích

mà không có ý t

đây đ n gi n là khám phá d

li u

ng rõ ràng nào v cái chúng ta tìm ki m.

i n

hình, các k thu t EDA là t
ph

ng pháp hi n th đ

ng tác và tr c quan, và có r t nhi u

h a hi u qu
-7-

đ i v i các t p d

li u ít



Tìm hi u phai phá lu t k t h p

Mining Association Rules

chi u và nh . Khi s chi u (s các bi n, p) t ng, s tr

nên r t khó

đ tr c quan đám mây các đi m trong không gian p chi u. V i p l n
h n 3 ho c 4, các k thu t chi u nh

là phân tích các thành ph n

chính đ sinh ra hình chi u ít m t mát thông tin c a d
không gian ít chi u h n là h u ích. M t l

li u xu ng

ng l n d li u có th khó

tr c quan hi u qu , dù v y, các ký hi u c a thang (scale) và chi ti t
đi v i nhau gi i quy t đ
th p h n có th đ

c v n đ : các m u d li u v i đ phân gi i

c hi n th và tóm t t v i m t chi phí h p lý có

th b qua m t s chi ti t quan tr ng. M t s ví d c a các ng d ng

EDA là:
-

Becker, Erick and Wilks, 1995, đã mô t m t t p công c tr c
quan hi n th các khuôn m u m ng đi n tho i đ

ng dài (trên

12.000 links)

3.2.

Xây d ng mô hình mô t (Descriptive modeling)

M c tiêu c a m t mô hình mô t là mô t t t c d li u (ho c quá
trình sinh ra d li u). Các ví d c a các mô t nh v y bao g m các
mô hình cho phân b xác su t chung,
d

li u, phân ho ch không gian d

cl

ng hàm m t đ c a

li u p chi u thành các nhóm,

phân tích phân nhóm và phân đo n, và các mô hình mô t m i liên
h gi a các bi n (mô hình ph thu c). Trong phân tích phân đo n
ch ng h n, m c đích là đ nhóm các b n ghi t

vi c phân đo n th tr

ng c a các CSDL th

ng t , nh

ng m i.

trong

đây m c

đích là đ chia các b n ghi thành các nhóm sao cho các khách hàng
gi ng nhau đ

c đ t trong cùng m t nhóm.

i u này cho phép các

nhà qu ng cáo, các nhân viên makerting qu ng bá m t cách hi u
qu nh m thu đ
đ

c t i u l i nhu n v i chi phí th p. S nhóm

c ch n b i các nhà nghiên c u, không có s “đúng”.

đ i l p v i phân tích phân nhóm,

đây


i u này

đó m c đích là đ khám phá các

nhóm “t nhiên” t d li u, ví d nh d li u v khoa h c. Xây d ng
mô hình mô t đã đ

c s d ng trong nhi u cách:

-8-


Tìm hi u phai phá lu t k t h p

-

Mining Association Rules

Phân đo n đã đ

c s

d ng trong makerting đ

chia các

khách hàng thành các nhóm d a trên khuôn m u mua hàng
và d


li u nhân kh u nh

tu i, thu nh p,..(Wedel and

Kamakura, 1998)
-

Phân tích phân nhóm đã đ

c s d ng r ng rãi trong nghiên

c u tâm th n h c đ xây d ng các phân c p c a các bênh lý
tâm th n. Ch ng h n, Everitt, Gourlay and Kendel (1971) áp
d ng phân tích phân nhóm đ i v i m u các b nh nhân tâm
th n n i trú; h đã tìm ra r ng t t c b n phân tích đã s n sinh
ra m t nhóm bao g m ch

y u các b nh phân “psychotic

depression”.
-

Các k thu t phân nhóm đã đ

cs

d ng đ phân tích các

thay đ i khí h u dài h n trong vùng khí quy n phía trên bán
c u b c c a trái đ t. Thay đ i này ch y u b i 3 khuôn m u

áp su t cùng xu t hi n đ

c nh n di n t d li u ghi l i hàng

ngày n m 1948 (xem Cheng and Wallace 1993, …)

3.3.

đoán: phân l p và h i qui

Xây d ng mô hình d

(predictive modeling : classification and regression)
M c đích là đ xây d ng m t mô hình mà cho phép giá tr c a
m t bi n đ

c d

đoán t

Trong phân l p, bi n đ

các giá tr đã bi t c a các bi n khác.

c d đoán có giá tr là ki u phân lo i, trong

khi đó trong h i qui, bi n c n d đoán là đ nh l
đoán” đ
ta mu n d
t


c s d ng

ng. Thành ng “d

đây là s d ng chung. Ch ng h n, khi chúng

đoán giá tr c a th tr

ng lai, ho c mu n d

ng c ph n

m t ngày trong

đoán con ng a nào s th ng trong m t

cu c đua, chúng c ng có th mu n xác đ nh chu n đoán c a m t
b nh nhân, ho c m c đ d v
ph

ng pháp đã đ

c a m t m i hàn. M t s l n các

c phát tri n trong th ng kê h c và h c máy đ

gi i quy t các bài toán xây d ng mô hình d đoán, và các công vi c
trong l nh v c này đã d n đ n m t b


c ti n lý thuy t đáng k và

nh ng hi u bi t v các v n đ sâu c a suy di n. S phân bi t chính
-9-


Tìm hi u phai phá lu t k t h p

Mining Association Rules

đoán và vi c mô t là vi c d

gi a vi c d

tiêu duy nh t (bi n c n d

đoán) (ví d nh

đoán có m t bi n m c
giá tr th tr

ng, lo i

b nh, đ d v ,..), trong khi các bài toán mô t không có m t bi n
nh

v y làm trung tâm c a mô hình. Các ví d c a các mô hình d

đoán là nh sau:
-


H th ng SKICAT do JPL/Caltech phát tri n s d ng bi u di n
có c u trúc cây đ h c cây phân l p t t nh

các chuyên gia

trong vi c phân l p các ngôi sao và các ngân hà t m t vector
40 chi u đ có th phân tích và phân lo i (Fayyad, Djorgovski,
& Weir).
-

Các nhà nghiên c u c a AT&T phát tri n m t h th ng đ l n
theo d u v t đ c đi m c a toàn b
khác nhau c a n
h i quy đ

đi n tho i

350 tri u s

c M (Corter, Pregibon 1998). Các k thu t

c s d ng đ xây d ng các mô hình có kh n ng

d đoán m t s đi n tho i là kinh doanh hay gia đình.
3.4.

Khám phá các khuôn m u và lu t (Discovering patterns

and rules)

Ba ki u nhi m v li t kê

trên là liên quan đ n xây d ng mô

hình. Các ng d ng khai phá d li u khác là dò tìm khuôn m u. M t
ví d là đ a ra các hành vi l a đ o b i dò tìm các vùng c a không
gian xác đ nh b i các ki u giao d ch khác nhau mà

đó các đi m d

li u khác m t cách có ý ngh a th ng kê đ i v i ph n còn l i. M t s
d ng khác là trong thiên v n h c, dò tìm các ngôi sao ho c các ngân
hà b t th

ng có th d n đ n các khám phá các hi n t

ng ch a

bi t đ n. M t ví d n a là nhi m v tìm ra các t h p các m t hàng
th

ng xuyên xu t hi n trong các CSDL giao d ch. Bài toán này đã

đ

c đ tâm r t nhi u trong khai phá d

s

d ng các công ngh


li u và đã đ

c gi i quy t

gi i thu t d a trên các lu t k t h p

(association rules)

- 10 -


Tìm hi u phai phá lu t k t h p

3.5.

Mining Association Rules

L y thông tin d a trên n i dung (Retrieval by content)

Ng

is

d ng có m t khuôn m u và mu n tìm các khuôn m u
li u. Công vi c này đ

gi ng v y trong t p d

cs


d ng nhi u đ i

v i các t p d li u v n b n và hình nh. V i v n b n, khuôn m u có
th là t p các t khóa (keywords) và ng

i s d ng mong mu n tìm

các tài li u thích h p (các trang web). V i hình nh, ng

i dùng có

th có nh m u, m t phác th o c a nh, ho c m t mô t đ c tr ng
c a nh, và mu n tìm các hình nh t
Trong c hai tr
c a chi n l

ng t t m t t p d li u nh.

ng h p, đ nh ngh a đ gi ng nhau và các chi ti t

c tìm ki m là quan tr ng.

Có r t nhi u ng d ng c l n:
-

Tìm ki m tài li u trên Web trong h

th ng Google


(www.google.com) c a Brin & Page (1998). S
toán PageRank đ

d ng thu t

c đoán s liên quan c a các trang Web

riêng l d a trên khuôn m u liên k t.
-

QBIC (Query by Image Content) là m t h th ng đ
tri n b i các nhà nghiên c u IBM, cho phép ng
ki m trong m t d
t

ng quan v

li u l n các hình

nh. (Có kh

i dùng tìm

nh các m i liên quan

n i dung nh n d ng nh

thông tin v trí đi m

c phát


màu s c, b

n ng xác đ nh

c c,

nh đ

c

ghép, x lý l i t các nh ch p)

M c dù n m nhi m v
thành ph n chung, ví d

mô t

nh

trên là khác nhau, chúng có nhi u

khái ni m gi ng nhau ho c kho ng cách

gi a hai vector d li u là c n chung cho c n m nhi m v . Ho c khái ni m
các hàm cho đi m (s d ng đ đ nh giá m c đ phù h p c a m t mô hình
ho c khuôn m u đ i v i d li u) c ng là chung m c dù các hàm c th là
khác nhau đ i v i các nhi m v khác nhau. Các c u trúc mô hình và khuôn
m u là c n ph i khác nhau v i các nhi m v khác nhau và c ng c n khác
nhau đ i v i các ki u d li u khác nhau.


4.

Các thành ph n c a gi i thu t data mining
- 11 -


Tìm hi u phai phá lu t k t h p

Mining Association Rules

Các gi i thu t khai phá d li u có b n thành ph n c b n:
• C u trúc mô hình hay khuôn m u: xác đ nh c u trúc n n t ng
ho c d ng hàm mà chúng ta tìm ki m t d li u.
• Hàm đánh giá: phán xét ch t l

ng c a mô hình c th đ i v i

d li u.
• Ph

ng pháp t i

u và tìm ki m: t i

u hàm đánh giá và tìm

ki m trên các c u trúc mô hình và khuôn m u.
• Chi n l


c qu n tr d

li u: đi u khi n vi c truy c p d li u m t

cách hi u qu trong quá trình t i u tìm ki m.

4.1 C u trúc mô hình hay khuôn m u (Model or patterns
structure)
Các ki u bi u di n đ
th đ

c tìm ki m trong khai phá d

li u có

c đ c tr ng hóa theo nhi u cách. M t trong đ c tr ng hóa là

s phân bi t gi a m t mô hình toàn c c và m t khuôn m u c c b .
đây, m t mô hình toàn c c là m t tóm t t toàn c c c a t p
d

li u. Nó t o nên các m nh đ v b t k d

li u nào trong không

gian đo đ y đ . V m t hình h c, n u chúng ta xem xét các dòng
c a ma tr n d

li u nh


các vector p chi u (các đi m trong không

gian p chi u), mô hình có th t o nên m t m nh đ v b t k đi m
nào trong không gian này (và do v y b t k đ i t

ng). Ch ng h n,

mô hình có th gán m t đi m cho m t nhóm ho c d

đoán giá tr

c a m t s bi n khác. Th m chí khi m t s s đo b thi u (ví d m t
s thành ph n c a vector p chi u ch a bi t), mô hình có th t o ra
m t s m nh đ v đ i t

ng bi u di n b i vector (không đ y đ )

này.
M t mô hình đ n gi n có th có d ng Y = aX + c, v i X và Y là
các bi n và a, c là các tham s c a mô hình (các h ng s đ
đ nh trong quá trình th c hi n khai phá d
- 12 -

li u).

c xác

đây ta có th nói



Tìm hi u phai phá lu t k t h p

Mining Association Rules

r ng d ng hàm c a mô hình là tuy n tính, do Y là m t hàm tuy n
tính c a X. Vi c dùng các thành ng

c a th ng kê thông th

ng là

h i khác. Trong th ng kê h c, m t mô hình là tuy n tính n u nó là
hàm tuy n tính đ i v i các tham s c a mô hình. Chúng ta s c
g ng vi t rõ ràng d ng nào c a tuy n tính nào chúng ta mu n ám
ch , nh ng khi chúng ta th o lu n c u trúc c a mô hình, chúng ta s
xem tính tuy n tính

đây nh các hàm c a các bi n ch không ph i

là hàm c a các tham s c a mô hình. Vì v y, ch ng h n, c u trúc
mô hình
Y = a X2 + bX + c đ

c coi là mô hình tuy n tính trong th ng kê h c

c đi n, nh ng d ng hàm c a mô hình liên h Y và X là không tuy n
tính (đa th c b c hai).
i l p v i b n ch t toàn c c c a mô hình, các c u trúc khuôn
m u t o ra các m nh đ ch v các vùng h n ch c a không gian.
M t ví d là m nh đ xác su t đ n gi n có d ng

if X>x1 then prob (Y>y1) = p1.
C u trúc này g m các ràng bu c trên các giá tr c a các bi n
X và Y, liên h theo d ng c a lu t xác su t. Chúng ta có th mô t
m i liên h đó theo cách khác, nh

xác su t đi u ki n sau v i cùng

ngh a
p(Y>y1 | X>x1) = p1
Ho c chúng ta có th chú ý r ng các l p b n ghi giao d ch c th
không trùng lên các đ nh và vùng lõm và xem xét chi ti t h n đ xem
lý do t i sao. (công vi c này cho ngân hàng bi t đ
vài tài kho n mà thu c v ng

c r ng có m t

i đã ch t). Do v y, đ i l p v i các mô

hình (toàn c c), m t khuôn m u (c c b ) mô t m t c u trúc liên
quan đ n m t ph n t

ng đ i nh c a d

li u ho c không gian mà

d li u xu t hi n. Có th m t s các b n ghi hành x theo m t cách
c th , và khuôn m u đ c tr ng hóa chúng. Ví d , m t tìm ki m trên
m t CSDL giao d ch đ t hàng qua email có th b c l r ng khách
- 13 -



Tìm hi u phai phá lu t k t h p

hàng mua t

Mining Association Rules

h p các m t hàng c

th

th

ng mua t

h p m t

khàng khác. Ho c có th chúng ta nh n ra m t nhúm các b n ghi
“l ” (“outlying” records) mà r t khác v i đa s các b n ghi (nh ng cái
đ

c xem là đám mây trung tâm trong không gian p chi u). Ví d

cu i cùng này minh h a r ng các mô hình toàn c c và các khuôn
m u c c b có th đôi khi đ
m t đ ng xu.

c xem nh

hai m t đ i l p nhau c a


dò tìm ra dáng v không thông th

c n m t mô t cho dáng v thông th

ng, chúng ta

ng. Có m t s

song song

đây đ i v i vai trò c a các chu n đoán trong phân tích th ng kê h c;
các ph

ng pháp dò tìm khuôn m u c c b có các

vi c tìm ra cái b t th

ng, nh

ng d ng trong

dò tìm l i trong các quá trình công

nghi p, dò tìm gian l n trong các tác nghi p c a ngân hàng và
th

ng m i.
Chú ý r ng các c u trúc mô hình và khuôn m u mô t


trên

có các tham s k t h p v i chúng; a, b, c cho mô hình và x1, y1 và
p1 v i khuôn m u trong các ví d trên. Nhìn chung, m t khi chúng ta
thi t l p đ

c d ng c u trúc c n tìm ki m, ti p theo chúng ta s tìm

ra các tham s c a c u trúc t
đ

d

li u có s n. M t khi các tham s

c gán giá tr , chúng ta g i các mô hình c th , ch ng h n y = 3.2

x + 2.8, là mô hình khít v a v i d li u-“fitted model”, ho c đ n gi n
h n g i là mô hình (t

ng t nh v y đ i v i khuôn m u). S phân

bi t gi a c u trúc mô hình (ho c c u trúc khuôn m u) v i mô hình
th c (ho c khuôn m u) là quan tr ng. Các c u trúc bi u di n các
d ng hàm chung c a các mô hình (ho c khuôn m u), v i các giá tr
c a các tham s ch a bi t. M t mô hình ho c khuôn m u c th có
các giá tr xác đ nh cho các tham s c a mô hình.
S phân bi t gi a mô hình và khuôn m u là h u ích trong r t
nhi u tình hu ng. Dù v y, c ng nh vi c phân chia các loài sinh v t
thành các l p là đ thu n ti n cho hi u bi t c a con ng


i, nó không

khó và nhanh, đôi khi là không rõ ràng khi xem m t c u trúc c th
nên xem là m t mô hình hay là m t khuôn m u. Trong nh ng tr
- 14 -

ng


Tìm hi u phai phá lu t k t h p

Mining Association Rules

h p nh v y, cách t t nh t không nên quá quan tâm xem cái nào là
phân bi t là ch quan đ h tr th o lu n c a chúng

thích h p. S

ta, không ph i là m t ràng bu c lo i tr .

4.2 Các hàm đánh giá (score functions)
Các hàm đánh giá đ nh l

ng đ phù h p c a m t mô hình

ho c khuôn m u c th đ i v i t p d
t

li u cho tr


c. M t cách lý

ng, s ch n l a hàm đánh giá có th ph n ánh chính xác l i ích

(t c là l i ích mong đ i đúng) c a m t mô hình d
v y, trong th c t th

đoán c th . Dù

ng r t khó xác đ nh chính xác l i ích d đoán

đúng c a mô hình. Vì v y, các hàm đánh giá chung và đ n gi n,
nh
đ

đ chính xác phân l p và các bình ph

ng nh nh t, là hay

c s d ng. N u không có m t s ki u c a hàm đánh giá, chúng

ta không th nói m t mô hình này là t t h n mô hình kia, hay là
không bi t làm th nào đ ch n m t t p các giá tr t t cho các tham
s c a mô hình. M t vài hàm đánh giá đã đ
đích này: s

cs

d ng cho m c


có kh n ng x y ra, t ng các l i (sai s ) bình ph

t l phân l p nh m (s

ng,

d ng nhi u trong các bài toán phân l p có

giám sát). Ch ng h n, hàm đánh giá sai s bình ph

ng đ

c đ nh

ngh a nh sau

đây chúng ta d

đoán cho n giá tr y(i), i=1,n, và các d

đoán c a chúng ta cho chúng là các giá tr y^(i) (th

ng là m t hàm

c a m t s giá tr c a các bi n khác và các tham s c a mô hình).
S
ph i đ

thích h p v m t lý thuy t c a các tiêu chu n khác nhau

c bi n t u b i tính th c t

khi áp d ng chúng. Mô hình

chúng ta xem xét t i u m t tiêu chu n có th là lý t
li u, nh ng n u

c l

ng đ i v i d

ng (tìm ra) các tham s c a nó m t hàng

tháng tr i thì nó r t ít giá tr . T

ng t v y, m t hàm đánh giá mà r t

- 15 -


Tìm hi u phai phá lu t k t h p

Mining Association Rules

nh y c m v i nh ng thay đ i nh trong d li u có th là không m y
h u ích (l i ích c a nó s ph thu c vào các m c tiêu c a nghiên
c u). Ch ng h n, vi c thay đ i các giá tr c a vài tr
l d n đ n thay đ i l n trong giá tr
ng đ


mô hình; m t t p d li u th
có th

có, và có th

cl

ng c a m t s tham s

c ch n ra t m t s t p d li u

x y ra r ng trong các t p d

ng h p ngo i l này có giá tr khác. V n đ t

tr

c n ph i tránh b i s
c m v i các tr

ng h p ngo i

d ng các ph

li u khác, các
ng t

nh

v y


ng pháp không tinh vi, ít nh y

ng h p ngo i l này.

4.3 Các ph ng pháp tìm ki m và t i
search methods)

u (Optimization and

Hàm đánh giá là m t đ đo m c đ phù h p các khía c nh
c a d
th

li u đ i v i các mô hình và khuôn m u đã đ xu t. Thông

ng các mô hình và khuôn m u này đ

c mô t trong d ng m t

c u trúc, đôi khi v i các giá tr tham s ch a bi t. M c đích c a t i
u hóa và tìm ki m là đ xác đ nh c u trúc ho c các giá tr c a tham
s mà làm t i thi u (ho c t i đa, d a trên ng c nh) giá tr hàm đánh
giá. Nhi m v tìm ra các giá tr “t t nh t” c a các tham s trong các
mô hình đ

c xem nh

là bài toán t i


u (ho c

cl

ng). Nhi m

v tìm ra các khuôn m u thú v (nh các lu t ch ng h n) t m t t p
l n các khuôn m u ti m n đ
th

c coi là bài toán tìm ki m t h p, và

ng s d ng các k thu t tìm ki m heuristic. Trong h i qui tuy n

tính, m t lu t d đoán th
đánh giá các bình ph
gi a giá tr d

ng đ

c tìm ra b i tìm t i thi u m t hàm

ng nh nh t (t ng các sai s bình ph

ng

đoán c a mô hình và giá tr quan sát c a bi n d

đoán). Hàm đánh giá nh v y là s d ng các phép tính toán h c, và
mô hình t i thi u hàm này có th tìm ra b ng ph

Ng

ng pháp đ i s .

c l i, m t hàm đánh giá nh là t l phân l p nh m trong phân

l p có giám sát là khó tìm ra t i thi u b ng ph

ng pháp gi i tích. Ví

d , do nó là không liên t c, các công c v phép tính đ o hàm không
đ

c áp d ng

đây.
- 16 -


Tìm hi u phai phá lu t k t h p

Mining Association Rules

T t nhiên, trong khi chúng ta tìm các hàm đánh giá đ sinh ra
m t đ i sánh t t gi a m t mô hình ho c khuôn m u và d li u, trong
nhi u tr

ng h p, đi u này không là m c tiêu. Nh đã chú ý

chúng ta th


ng h

ng đ n khái quát hóa đ i v i d

tìm ra m t đ i sánh quá t t v i d

li u đã bi t th

trên,

li u m i, vi c
ng d n đ n mô

hình cho k t qu không chính xác khi d đoán d li u m i.

4.4 Các chi n l

c qu n tr

d

li u (Data management

strategies)
Thành ph n cu i cùng trong b t k m t gi i thu t khai phá d
li u là chi n l
c p d

c qu n tr d


li u: các cách l u tr , ch s và truy

li u. Các gi i thu t phân tích d

li u đ

nh t trong th ng kê h c và h c máy đã đ
thuy t r ng t t c các đi m d

th

đ

c c i ti n v i t c đ nhanh nh

d

li u l n v n n m ch

i gi

c truy c p m t

truy c p ng u nhiên

chính đã đ

(RAM). Trong khi công ngh b nh


c c i ti n nhanh

c p (đ a) và tam c p (b ng) đã
nhau, v i m c đ mà nhi u t p

y u trong đ a ho c b ng và không v a

trong RAM có s n. Do v y, thông th
mu n truy c p các t p d

c phát tri n d

li u c th có th đ

cách nhanh chóng và hi u qu trong b nh

chóng, các công ngh l u tr

c bi t đ n nhi u

ng s có m t giá ph i tr khi

li u l n do t t c các đi m d

li u không

th cùng lúc đ t g n b x lý c a máy tính.
li u đã đ

c phát tri n mà


ng minh m t chi n l

c qu n tr d li u

Nhi u gi i thu t phân tích d
không đ c p đ n đ c t t

nào do nó làm vi c trên các t p d

li u nh (ví d gi i th t cây h i

qui và phân l p). Nh ng chúng th

ng th t b i khi áp d ng tr c ti p

v i d li u mà ch y u đ t trên b nh th c p (đ a).
L nh v c c a các c s d li u là liên quan đ n s
c a các ph

ng pháp đánh ch s , các c u trúc d

phát tri n

li u, các gi i

thu t truy v n đ l y d li u hi u qu và tin c y. Nhi u k thu t này
- 17 -



Tìm hi u phai phá lu t k t h p

đã đ

Mining Association Rules

c phát tri n đ h tr các phép tính, thao tác đ m t

ng đ i

đ n gi n trên các t p d li u l n v i các m c đích làm báo cáo. Dù
v y, trong nh ng n m g n đây, s

phát tri n đã b t đ u v i các

công ngh mà h tr các thao tác truy c p d li u “nguyên th y” đ
th c hi n các ki u hi u qu

c a các gi i thu t khai phá d

(ch ng h n các h th ng đánh ch s có c u trúc cây đ
đ tìm l i đ

5.

li u

c s d ng

c các láng gi ng c a m t đi m trong nhi u chi u).


Nh ng thách th c trong

ng d ng và nghiên c u k thu t

trong data mining
đây chúng tôi đ a ra m t s khó kh n trong vi c nghiên c u và
ng d ng k thu t khai phá d

li u.Tuy nhiên, th không có ngh a là vi c

gi i quy t là hoàn toàn b t c mà ch mu n nêu lên r ng đ khai phá d
li u không ph i là đ n gi n, mà ph i xem xét c ng nh tìm cách gi i quy t
nh ng v n đ này. Chúng tôi có th li t kê m t s khó kh n nh sau:
5.1 Các v n đ v c s d li u
u vài ch y u c a m t h th ng khai thác tri th c là các d

li u

thô trong c s d li u. Nh ng v n đ khó kh n phát sunh trong khai phá
d

li u chính là t

đây. Do các d

li u trong th c t th

đ y đ , l n, và b nhi u. Trong nh ng tr
bi t c


s

d

ng đ ng, không

ng h p khác, ng

i ta không

li u có ch a các thông tin c n thi t cho vi c khai thác hay

không và làm th nào đ gi i quy t v i s

d

th a nh ng thông tin thích

h p này
a. D

li u l n: Cho đ n nay, các c s d

và b ng, hàng tri u b n ghi và v i kích th
là chuy n bình th
li u có kích th

li u v i hàng tr m tr


ng

c đ n hàng gigabytes đã

ng. Hi n nay, đã b t đ u xu t hi n các c s d
c t i terabytes. Các ph

nay là đ a ra m t ng

ng cho c s d

pháp x p x , x lý song song..

- 18 -

ng pháp gi i quy t hi n
li u, l y m u, các ph

ng


Tìm hi u phai phá lu t k t h p

b. Kích th
trong c

Mining Association Rules

c l n: Không ch có s l
s


d

ng b n ghi l n mà s tr

li u c ng nhi u. Vì v y mà kích th

ng

c c a bài toán

c l n sinh ra v n đ là

tr nên l n h n. M t t p d li u có kích th

t ng không gian tìm ki m mô hình suy di n. H n n a, nó c ng làm
t ng kh n ng m t thu t gi i khai phá d

li u có th tìm th y các
c tác đ ng c a

m u gi . Bi n pháp kh c ph c là làm gi m kích th
bài toán và s

c đ

d ng các tri th c bi t tr

xác đ nh các bi n


không phù h p.
c. D

li u đ ng:

c đi m c

b n c a h u h t các c

n t dung c a chúng thay đ i liên t c. D
th o gian và vi c khai phá d

s

d

li u là

li u có th thay đ i theo

li u c ng b

nh h

ng b i th i đi m

quan sát d li u. Ví d trong c s d li u v tình tr ng b nh nhân,
m t s giá tr d

li u là h ng s , m t s khác l i thay đ i liên t c


theo th i gian (ví d cân n ng và chi u cao), m t s khác l i thay đ i
tu thu c vào tình hu ng và ch có giá tr đ
d nh p đ p c a m ch). Vi c thay đ i d

c quan sát m i nh t (ví
li u nhanh chóng có th

làm cho các m u khai thác đ

c tr

bi n trong c

ng d ng đã cho c ng có th b thay

s

d

li u c a

c đó m t giá tr . H n n a, các

đ i, b xoá hay là t ng lên theo th i gian. V n đ này đ
b ng các gi i pháp t ng tr
thay đ i nh

là c


c gi i quy t

ng đ nâng c p các m u và coi nh ng

h i đ khai thác b ng cách s

d ng nó đ tìm

ki m các m u b thay đ i.
d. Các tr

ng không phù h p: M t đ c đi m quan tr ng khác là tính

không thích h p c a d

li u, ngh a là m c d

li u tr

thành không

thích h p v i tr ng tâm hi n t i c a vi c khai thác. M t khía c nh
khác, đôi khi c ng liên quan đ n đ phù h p là tính
m t thu c tính đ i v i m t t p con c a c

s

d

ng d ng c a


li u. Ví d tr

ng

s tài kho n không áp d ng cho các tác nhân.
e. Các giá tr b thi u: S
tính d

có m t hay v ng m t c a giá tr các thu c

li u phù h p có th

Trong h th ng t

ng tác, s

nh h

ng đ n vi c khai phá d

thi u v ng d
- 19 -

li u.

li u quan tr ng có th


Tìm hi u phai phá lu t k t h p


Mining Association Rules

d n đ n yêu c u cho giá tr c a nó hay ki m tra đ xác đ nh giá tr
c a nó. Ho c c ng có th s

v ng m t c a d

li u đ

c coi nh

m t đi u ki n, thu c tính b m t có th coi nh m t giá tr trung gian
và là giá tr không bi t
f. Các tr

ng b thi u: M t quan sát không đ y đ c s d

li u có

th làm cho các d li u có giá tr b xem nh l i. Vi c quan sát c s
d

li u ph i phát hi n đ

gi i thu t khai phá d

c toàn b các thu c tính có th dùng đ

li u có th áp d ng nh m gi i quy t bài toán.


Gi s chúng ta có các thu c tính đ phân bi t các tình hu ng đang
quan tâm. N u chúng không làm đ
trong d
t

m t c

i v i m t h th ng h c đ chu n đoán b nh s t rét

li u.
s

c đi u đó thì có ngh a là đã l i

d

li u b nh nhân thì tr

ng h p các b n ghi c a

b nh nhân có các tri u ch ng gi ng nhau nh ng l i có các chu n
đoán khác nhau là do d

li u đã b l i.

ây c ng là v n đ th

ng


x y ra trong c s d li u kinh doanh. Các thu c tính quan tr ng có
th b thi u n u d

li u không đ

c chu n b cho vi c khai phá d

li u.
g.

i v i các thu c tính đã thích h p,

nhi u và không ch c ch n:

đ nghiêm tr ng c a l i ph thu c vào ki u d

li u c a giá tr cho

phép, Các giá tr c a các thu c tính khác nhau có th là các s th c,
s nguyên, chu i và có th thu c vào t p các giá tr đ nh danh. Các
giá tr đ nh danh này có th s p x p theo th t t ng ph n hay đ y
đ , th m chí có th có c u trúc ng

ngh a. M t y u t khác c a đ

không ch c ch n chính là tính k th a hay đ chính xác mà d
c n có, nói cách khác là đ nhi u c a d

li u


li u. D a trên vi c tính

toán trên các phép đo và phân tích có u tiên, mô hình th ng kê tính
ng u nhiên đ

c t o ra và đ

c s

mu n và đ dung sai c a d li u. Th
đ

d ng đ đ nh ngh a đ mong
ng thì các mô hình th ng kê

c áp d ng theo cách đ c bi t đ xác đ nh m t cách ch quan

các thu c tính đ đ t đ

c các th ng kê và đánh giá kh n ng ch p

nh n c a các (hay t h p các) giá tr thu c tính.
- 20 -

c bi t là v i d


Tìm hi u phai phá lu t k t h p

Mining Association Rules


li u ki u s , s đúng đ n c a d li u có th là m t y u t trong vi c
khai phá. Ví d nh trong nhi t đ c th , ta th
l ch 0,1 đ . Nh ng vi c phân tích theo xu h
c a c

th

l i có th

yêu c u đ

ng cho phép chênh
ng nh y c m nhi t đ

chính xác cao h n.

th ng khai thác có th liên h đ n xu h

m t h

ng này đ chu n đoán thì

l i c n có m t đ nhi u trong d li u đ u vào.
h. M i quan h ph c t p gi a các tr

ng : Các thu c tính hay các

giá tr có c u trúc phân c p, các m i quan h gi a các thu c tính vàv
các ph


ng ti n ph c t p đ di n t tri th c v n i dung c a c s

d li u yêu c u các gi i thu t ph i có kh n ng s d ng m t cách
hi u qu các thông tin này. Ban đ u, k thu t khai phá d li u ch
đ

c phát tri n cho các b n ghi có các giá tr thu c tính đ n gi n.

Tuy nhiên, ngày nay ng

i ta đang tìm cách phát tri n các k thu t

nh m rút ra các m i quan h gi a các bi n này.

5.2 Các v n đ v khác
a. Quá phù h p (Overfitting): Khi m t gi i thu t tìm ki m các tham s
t t nh t cho m t mô hình d li u nào đó s d ng m t t p d li u h u
h n, nó có th s b tình tr ng “quá đ ” d li u (ngh a là tìm ki m quá
m c c n thi t gây ra hi n t

ng ch phù h p v i các d li u đó mà

không có kh n ng đáp ng cho các d li u l ) làm cho mô hình ho t
đ ng r t kém đ i v i các d li u th . Các gi i pháp kh c ph c bao g m
đánh giá chéo (cross-validation), th c hi n theo nguyên t c nào đó hay
s d ng các bi n pháp th ng kê khác.
b.

ánh giá t m quan tr ng th ng kê: V n đ (liên quan đ n


overfitting) x y ra khi m t h th ng tìm ki m qua nhi u mô hình. Ví d
m t h th ng ki m tra N mô hình

m c đ quan tr ng 0,001 thì v i d

li u ng u nhiên trung bình s có N/1000 mô hình đ
quan tr ng.

c ch p nh n là

x lý v n đ này, ta có th s d ng ph

- 21 -

ng pháp đi u


Tìm hi u phai phá lu t k t h p

Mining Association Rules

ch nh th ng kê trong ki m tra nh m t hàm tìm ki m, ví d nh đi u
ch nh Bonferroni đ i v i các ki m tra đ c l p.
c. Kh n ng bi u đ t c a m u: Trong r t nhi u ng d ng, đi u quan
tr ng là nh ng gì khai thác đ
t t. Vì v y, các gi i pháp th

c ph i càng d hi u v i con ng
ng bao g m vi c di n t d


ho , xây d ng c u trúc lu t v i các đ th có h

i càng

i d ng đ

ng, bi u di n b ng

ngôn ng t nhiên và các k thu t khác nh m bi u di n tri th c và d
li u.
d. S

t

ng tác v i ng

nhi u công c và ph
tác v i ng
bi t tr

i s d ng và các tri th c s n có: R t

ng pháp khai phá d li u không th c s t

ng

i dùng và kh ng d dàng k t h p cùng v i các tri th c đã

c đó. Vi c s d ng tri th c mi n là r t quan trong trong khai


phá d li u.

ã có nhi u bi n pháp nh m kh c ph c v n đ này nh s

d ng c s d li u suy di n đ phát hi n tri th c, nh ng tri th c sau đó
đ

c s d ng đ h

ng d n cho vi c tìm ki m khai phá d li u ho c

s d ng s phân b và xác su t d li u tr
tri th c có s n.

- 22 -

c đó nh m t d ng mã hoá


Tìm hi u phai phá lu t k t h p

Mining Association Rules

III. LU T K T H P
T khi nó đ
nh n đ

c gi i thi u t n m 1992 bài toán khai thác lu t k t h p


c r t nhi u s

quan tâm c a nhi u nhà khoa h c. Ý t

ng c a

vi c khai thác các lu t k t h p có ngu n g c t vi c phân tích d li u mua
hàng c a khách và tìm ki m xu h
nh ng s n ph m gì cùng lúc. M

ng khách hàng th

ng mua chung

r ng ra là tìm ki m các m i liên h ph

bi n t trong d li u.
ng d ng tr c ti p c a các lu t này trong các bài toán kinh doanh
cùng v i tính d hi u v n có c a chúng
ngay c đ i v i nh ng ng

i không ph i là chuyên gia khai thác d li u

làm cho lu t k t h p tr thành m t m t ph

ng pháp khai thác ph bi n.

H n n a, lu t k t h p không ch b gi i h n trong phân tích s
thu c l n nhau trong ph m vi các ng d ng bán l mà chúng còn đ


ph
c áp

d ng thành công trong r t nhi u bài toán khác.
1.

nh ngh a :
G i I = {I1, I2,..., Im} là t p m thu c tính riêng bi t, m i thu c tính g i
là m t m c. G i D là m t c

s

d

li u, trong đó m i b n ghi T là

m t giao d ch và ch a các t p m c con T ⊆ I.

Lu t k t h p là m t quan h có d ng X ⇒ Y[s,c]
trong đó X, Y ⊂ I là các t p m c g i là itemsets, và X I Y = φ .
đây, X đ

c g i là ti n đ , Y là m nh đ k t qu .

Hai thông s quan tr ng c a lu t k t h p là đ h tr

(s) và đ tin

c y (c).
h tr (support) c a lu t k t h p X ⇒ Y [s,c]

Bi u th t n s lu t xu t hi n trong các giao tác.
là t l ph n tr m các b n ghi X U Y v i t ng s các giao tác có trong
c s d li u.
- 23 -


Tìm hi u phai phá lu t k t h p

Mining Association Rules

h tr cho bi t m c đ ph bi n c a lu t.
support(X ⇒ Y [s,c]) = P( X U Y ) = support({X,Y})

tin c y (confidence) c a lu t k t h p X ⇒ Y[s,c]
Bi u th s ph n tr m giao tác có ch a luôn Y trong s nh ng giao
tác có ch a X
confidence(X ⇒ Y [s,c]) = P(Y|X) =
=support({X,Y}) / support({X})
tin c y th hi n m c đ liên k t gi a các thành ph n c a lu t.

Vi c khai thác các lu t k t h p t c s d li u chính là vi c tìm t t
c các lu t có đ h tr và đ tin c y l n h n ng
và đ tin c y do ng

i s d ng xác đ nh tr

h tr và đ tin c y đ

ng c a đ


c. Các ng

c ký hi u là minsup và mincof.

Ví d : Khi phân tích gi hàng c a ng
th ta có đ

ng c a đ h tr

i mua hàng trong m t siêu

c lu t ki u nh : khách hàng mua s a thì kh n ng 80%

c ng mua bánh mì và có 30% mua c hai th .
Trong đó “mua s a ” là ti n đ còn “mua bánh mì ” là k t lu n c a
lu t . Con s 30% là đ h tr

c a lu t còn 80% là đ tin c y c a

lu t.
Chúng ta nh n th y r ng tri th c đem l i b i lu t k t h p d ng trên
có s

khác bi t r t nhi u so v i thông tin thu đ

truy v n d li u thông th
m i liên h ch a bi t tr
d

ng nh SQL.


ct

các câu l nh

ó là nh ng tri th c, nh ng

c và mang tính d báo đang ti m n trong

li u. Nh ng tri th c này không đ n gi n là k t qu

c a phép

nhóm, tính t ng hay s p x p mà là c a m t quá trình tính toán khá
ph c t p.
- 24 -


Tìm hi u phai phá lu t k t h p

Mining Association Rules

2. Quá trình tìm các lu t k t h p
Th

ng g m 2 giai đo n:
• G

1: Tìm t t c các t p ph bi n (t p các ph n t có đ support


t i thi u) b ng các s

d ng nguyên t c Apriori: “T p con c a

m t t p ph bi n c ng là m t t p ph bi n”.
• G

2: S d ng các t p ph bi n đ sinh ra các lu t k t h p tin

c y.
Trong th c t , h u h t th i gian c a quá trình khai thác lu t k t h p là
giai đo n tìm các t p ph bi n.

th c hi n

B

A

D

C

E

AB

AC

AD


AE

BC

BD

BE

CD

CE

DE

ABC

ABD

ABE

ACD

ACE

ADE

BCD

BCE


BDE

CDE

ABCD

ABCE

ABDE

ACDE

BCDE

ABCDE

Hình 3: Không gian tìm ki m t p ph bi n 5 thu c tính
Tuy nhiên, v n còn t n t i nhi u thách th c và khó kh n trong khai
phá lu t k t h p (nh đã trình bày

ph n tr

c)

• Các c s d li u l n.
• S chi u l n.
• Thay đ i d li u và tri th c có th làm cho các m u đã phát hi n
không còn phù h p.


- 25 -


×