Tìm hi u phai phá lu t k t h p
Mining Association Rules
I. GI I THI U
Hi n nay d li u, thông tin và tri th c đang là tiêu đi m c a m t l nh
v c m i nghiên c u và
ng d ng v
phát hi n tri th c (Knoledge
Discovery) - KD và khai phá d li u (Data Mining) - KDD.
Phát hi n tri th c: phát hi n tri th c trong các c s d li u là m t
quy trình nh n bi t các m u ho c các mô hình d
h p th c, m i, kh ích và có th hi u đ
Khai phá d
li u v i các tính n ng:
c.
li u: khai phá d li u là m t b
hi n tri th c g m có các thu t toán khai thác d
c trong quy trình phát
li u chuyên dùng d
m t s quy đ nh v hi u qu tính toán ch p nh n đ
i
c đ tìm ra các m u
ho c các mô hình trong d li u đang t n t i trong các c s d li u nh ng
v n còn b che khu t b i hàng núi d li u.
Trong báo cáo này, chúng tôi xin trình bày m t s khái ni m Data
mining (ch
ng II), Lu t k t h p (ch
là khám phá các t p ph bi n (ch
cài đ t th
(ch
nghi m (ch
ng III), hai quá trình tìm lu t k t h p
ng IV) và khám phá lu t (ch
ng VI), nh n xét, đánh giá, h
ng VII).
-1-
ng V);
ng phát tri n
Tìm hi u phai phá lu t k t h p
Mining Association Rules
II. T NG QUAN V DATA MINING
1.
Khái ni m Data mining:
Ti n trình trong thu th p d li u s và công ngh l u tr d n đ n s
l n lên c a các CSDL đ s .
i u này đã xu t hi n trong t t c l nh v c t
d
li u trong các ho t đ ng c a con ng
tr
ng, b n ghi vi c s
i (nh
li u giao d ch th
d ng th tín d ng, thông tin v các cu c g i đi n
li u thu th p đ
tho i, các th ng kê c a chính ph ) t i các d
ngoài (nh
d
ct
bên
hình nh các thiên th , CSDL v phân t , ho c b n ghi y t ).
Cùng v i s l n lên c a d li u là s l n lên c a m i quan tâm v các v n
đ v kh n ng sao l u d li u này, kh n ng trích rút t chúng các thông
tin có giá tr . Môn khoa h c liên ngành liên quan đ n nhi m v này g i là
Data mining.
Vi c đ nh ngh a m t khoa h c liên ngành luôn gây tranh cãi; các
nhà nghiên c u th
ng không nh t trí v ph m vi chính xác và gi i h n v
l nh v c nghiên c u c a h . V i suy ngh nh
th nh ng ng
v y và ch p nh n r ng có
i khác không đ ng tình v chi ti t, chúng ta s thông qua
môt đ nh ngh a riêng c a chúng ta v data mining nh sau:
Data mining (khai phá d
li u quan sát (th
tóm t t d
ng
li u) là s
ng là l n) đ tìm ra các m i liên h rõ ràng và đ
li u theo các cách m i mà v a d hi u, v a h u ích cho
i s h u d li u.
Các m i liên h và các tóm t t thu đ
th
phân tích c a các t p d
c thông qua khai phá d li u
ng g i là các mô hình (models) ho c khuôn m u (patterns). Ví d nh
các ph
ng trình tuy n tính, các lu t, các nhóm, các đ th , các c u trúc
cây, các khuôn m u l p l i theo th i gian.
nh ngh a
đ i l p v i “d
th
trên nh c đ n “d
li u quan sát – observational data”,
li u th c nghi m – experimental data”. Khai phá d
ng làm vi c trên d
li u mà đã th c s
đ
c thu th p tr
c đó cho
m c đích khác v i phân tích c a dataming (ch ng h n, chúng đ
th p nh m c p nh t t t c các giao d ch trong m t ngân hàng).
-2-
li u
c thu
i u này
Tìm hi u phai phá lu t k t h p
Mining Association Rules
có ngh a r ng các m c tiêu c a khai phá d
trong chi n l
c thu th p d li u.
li u không đ
c xác đ nh
i u này là m t trong nh ng cái đ phân
bi t Data mining v i th ng kê h c (statistics); đ i v i th ng kê, d
th
ng đ
c hi u qu đ tr l i các
c thu th p b i s d ng các chi n l
câu h i xác đ nh tr
li u
c. V i lý do này, khai phá d li u th
ng đ
c coi là
phân tích d li u th c p (“secondary”)
nh ngh a c ng đ c p đ n các t p d
th
ng là l n. N u ch làm vi c trên t p d
li u trong khai phá d
li u
li u nh , chúng ta hoàn toàn
m i ch th o lu n phân tích d li u khám phá c đi n (classical exploratory
data analysis) nh công vi c c a các nhà th ng kê. Khi đ i m t v i d li u
l n, các bài toán m i s n y sinh. M t s bài toán thì liên quan đ n các
v n đ l u tr
và truy c p d
li u, m t s khác thì liên quan đ n các v n
đ c b n nh là làm th nào đ xác đ nh các đ i di n c a d li u, làm th
nào phân tích d
li u trong th i gian ch p nh n đ
quy t đ nh xem m t m i liên h ch đ n thu n là s
không ph n ánh m t th c t nào c . Thông th
g m m t m u t
m t t p đ y đ
c, làm th
nào đ
xu t hi n ng u nhiên
ng, d li u có s n ch bao
li u; m c đích là khái quát hóa
d
(generalize) t m u đó cho toàn b t p d li u. Ch ng h n chúng ta mong
mu n d đoán hành vi c a các khách hàng trong t
ng lai, ho c d đoán
các tính ch t c a c u trúc proteins mà chúng ta ch a bao gi
tr
c đó. Nh ng khái quát hóa nh
nhìn th y
v y có th không th có đ
các cách ti p c n th ng kê chu n vì d li u th
c b ng
ng không ph i là các m u
“ng u nhiên” mà là “m u ti n l i” (“convenience samples”) ho c “m u c
h i” (“opportunity samples”).
t pd
ôi khi chúng ta mu n tóm t t ho c nén m t
li u l n theo m t cách sao cho k t qu là d h u, không có b t c
m t ý ni m nào c a khái quát hóa c . V n đ nh
h n, n u chúng ta đã hoàn thành d
v y s n y sinh, ch ng
li u đi u tra dân s đ y đ c a m t
qu c gia, ho c m t CSDL g m hàng tri u giao d ch bán l .
Các m i liên h và c u trúc tìm th y trong các t p d
li u ph i là
m i, đi u đó là t t nhiên. S có r t ít giá tr khi tìm ra các m i liên h đã
thiêt l p tr
c (tr khi m c đính c a công vi c là xác nh n gi thuy t, xác
-3-
Tìm hi u phai phá lu t k t h p
Mining Association Rules
đ nh xem m t khuôn m u – pattern - t n t i trong m t t p d
không), ho c các m i liên h c n thi t (ví d nh
thai là n ). Rõ ràng, tính m i ph i đ
th c đã có tr
t t c b nh nhân mang
c đo m t cách t
c (tri th c tiên nghi m) c a ng
li u m i
is
ng đ i đ i v i tri
d ng. Không may là
ch có m t vài gi i thu t khai phá d li u là đ c p đ n tri th c tiên nghi m.
Nó v n là bài toán đang t n l i trong nghiên c u.
Trong khi tính m i là m t tính ch t quan tr ng c a các m i liên h
chúng ta tìm ki m, nó v n không đ đ đánh giá m t m i liên h là có giá
tr . C th , các m i liên h ph i có th hi u đ
c. Ví d các m i liên h
đ n gi n là d hi u h n các m i liên h ph c t p, và vì v y đ
c a thich
h n.
Data mining là l nh v c liên ngành: th ng kê h c (statistics), công
ngh c
s
d
li u (database technology), h c máy (machine learning),
nh n d ng khuôn m u (pattern recognition), trí tu
nhân t o (artificial
intelligence), và tr c quan hóa (visualization), t t c đ u có vai trò nh t
đ nh. R t khó đ xác đ nh m t biên rõ ràng gi a các ngành này và biên
gi a m i trong chúng v i data mining.
2.
Quá trình khai phá tri th c và khai phá d
Khai phá d li u th
ng đ
“khám phá tri th c trong các c
databases”, KDD). Thành ng
li u
c xác l p trong ng c nh r ng h n c a
s
d
li u” (“knowledge discovery in
này xu t phát t
l nh v c trí tu nhân t o
(artificial intelligence, AI). Quá trình KDD liên quan đ n nhi u công đo n:
l a ch n d li u, ti n x lý d li u, chuy n d ng (transforming) chúng n u
c n thi t, th c hi n khai phá d li u đ trích ra khuôn m u và các m i liên
h , di n d ch và đánh giá khuôn m u và m i liên h tìm ra. M t l n n a
các biên chính xác c a ph n khai phá d
li u c a các quá trình trên là
không d dàng xác đ nh; ch ng h n, v i r t nhi u ng
d li u là m t ph n th c s c a khai phá d li u.
-4-
i thì chuy n d ng
Tìm hi u phai phá lu t k t h p
Mining Association Rules
Quá trình khai phá tri th c d li u g m các b
a. Làm s ch d
c:
li u (Data Cleaning): Lo i b d
li u nhi u và d
li u không nh t quán.
b. Tích h p d
th đ
li u (Data Intergation): D li u c a nhi u ngu n có
c t h p l i.
c. L a ch n d
li u (Data Selection): L a ch n nh ng d li u phù
h p v i nhi m v phân tích trích rút t c s d li u.
li u (Data Transformation): D li u đ
d. Chuy n đ i d
đ i hay đ
c chuy n
c h p nh t v d ng thích h p cho vi c khai phá.
e. Khai phá d
li u (Data Mining):
trong đó các ph
ây là m t ti n trình c t y u
ng pháp thông minh đ
c áp d ng nh m trích
rút ra m u d li u.
f.
ánh giá m u (Pattern Evaluation): D a trên m t đ đo nào đó
xác đ nh l i ích th c s , đ quan tr ng c a các m u bi u di n tri
th c.
g. Bi u di n tri th c (Knowledge Presentation):
các k thu t bi u di n và hi n th đ
l y ra cho ng
i dùng.
-5-
cs
giai đo n này
d ng đ đ a tri th c
Tìm hi u phai phá lu t k t h p
Mining Association Rules
Hình 1: Bi u di n quy trình khai phá tri th c
Quá trình x
lý khai phá d
li u b t đ u b ng cách xác đ nh chính
xác v n đ c n gi i quy t. Sau đó s xác đ nh các d
li u liên quan
dùng đ xây d ng gi i pháp.
B
c ti p theo là thu th p các d
li u có liên quan và x
thành d ng sao cho các gi i thu t khai phá d
lý chúng
li u có th hi u đ
c.
V lý thuy t thì có v r t đ n gi n nh ng khi th c hi n thì đây th c s
là m t quá trình r t khó kh n, g p ph i r t nhi u v
B
ng m c.
c ti p theo là ch n thu t gi i khai phá d li u thích h p và th c
hi n vi c khai phá d
bi u di n t
li u đ tìm đ
c các m u có ý ngh a d
i d ng
ng ng v i các ý ngh a đó.
c đi m c a m u ph i là m i (ít nh t là đ i v i h th ng đó).
m i có th đ
c đo t
ng
ng v i đ thay đ i d
sánh các giá tr hi n t i v i các giá tr tr
c đó hay các giá tr mong
mu n), hay b ng tri th c (m i liên h gi a ph
ph
ng pháp c nh
th nào).Th
li u (b ng cách so
ng pháp tìm m i và
ng thì đ m i c a m u đ
giá b ng m t hàm logic hay m t hàm đo đ m i, đ b t ng
Ngoài ra, m u ph i có kh n ng s
đ
cx
c đánh
c a m u.
d ng ti m tàng. Các m u sau khi
lý và di n gi i ph i d n đ n nh ng hành đ ng có ích nào đó
-6-
Tìm hi u phai phá lu t k t h p
đ
Mining Association Rules
c đánh giá b ng m t hàm l i ích.M u khai thác ph i có giá tr đ i
v i các d li u m i v i đ chính xác nào đó.
Nghiên c u l nh v c
li u đ u vào
T ot pd
Ti n x lý,làm s ch, mã hoá
Ch n tác v khai thác d li u
Ch n các gi i thu t datamining
Tìm ki m tri th c
ánh giá m u tìm đ
c
Bi u di n tri th c
S d ng các tri th c v a khám phá
Hình 2: Bi u di n quy trình khai phá d li u
3. Các k thu t và ph
ng pháp khai phá d li u
S r t ti n l i khi phân lo i khai phá d li u thành các ki u nhi m v ,
t
ng
ng v i m c tiêu khác nhau. Phân lo i d
i đây không ph i là duy
nh t, và vi c phân chia nh h n, thành các nhi m v m n h n là có th .
3.1.
Phân tích d
li u khám phá (Exploratory Data Analysis –
EDA)
Nh
cái tên đ t, m c đích
mà không có ý t
đây đ n gi n là khám phá d
li u
ng rõ ràng nào v cái chúng ta tìm ki m.
i n
hình, các k thu t EDA là t
ph
ng pháp hi n th đ
ng tác và tr c quan, và có r t nhi u
h a hi u qu
-7-
đ i v i các t p d
li u ít
Tìm hi u phai phá lu t k t h p
Mining Association Rules
chi u và nh . Khi s chi u (s các bi n, p) t ng, s tr
nên r t khó
đ tr c quan đám mây các đi m trong không gian p chi u. V i p l n
h n 3 ho c 4, các k thu t chi u nh
là phân tích các thành ph n
chính đ sinh ra hình chi u ít m t mát thông tin c a d
không gian ít chi u h n là h u ích. M t l
li u xu ng
ng l n d li u có th khó
tr c quan hi u qu , dù v y, các ký hi u c a thang (scale) và chi ti t
đi v i nhau gi i quy t đ
th p h n có th đ
c v n đ : các m u d li u v i đ phân gi i
c hi n th và tóm t t v i m t chi phí h p lý có
th b qua m t s chi ti t quan tr ng. M t s ví d c a các ng d ng
EDA là:
-
Becker, Erick and Wilks, 1995, đã mô t m t t p công c tr c
quan hi n th các khuôn m u m ng đi n tho i đ
ng dài (trên
12.000 links)
3.2.
Xây d ng mô hình mô t (Descriptive modeling)
M c tiêu c a m t mô hình mô t là mô t t t c d li u (ho c quá
trình sinh ra d li u). Các ví d c a các mô t nh v y bao g m các
mô hình cho phân b xác su t chung,
d
li u, phân ho ch không gian d
cl
ng hàm m t đ c a
li u p chi u thành các nhóm,
phân tích phân nhóm và phân đo n, và các mô hình mô t m i liên
h gi a các bi n (mô hình ph thu c). Trong phân tích phân đo n
ch ng h n, m c đích là đ nhóm các b n ghi t
vi c phân đo n th tr
ng c a các CSDL th
ng t , nh
ng m i.
trong
đây m c
đích là đ chia các b n ghi thành các nhóm sao cho các khách hàng
gi ng nhau đ
c đ t trong cùng m t nhóm.
i u này cho phép các
nhà qu ng cáo, các nhân viên makerting qu ng bá m t cách hi u
qu nh m thu đ
đ
c t i u l i nhu n v i chi phí th p. S nhóm
c ch n b i các nhà nghiên c u, không có s “đúng”.
đ i l p v i phân tích phân nhóm,
đây
i u này
đó m c đích là đ khám phá các
nhóm “t nhiên” t d li u, ví d nh d li u v khoa h c. Xây d ng
mô hình mô t đã đ
c s d ng trong nhi u cách:
-8-
Tìm hi u phai phá lu t k t h p
-
Mining Association Rules
Phân đo n đã đ
c s
d ng trong makerting đ
chia các
khách hàng thành các nhóm d a trên khuôn m u mua hàng
và d
li u nhân kh u nh
tu i, thu nh p,..(Wedel and
Kamakura, 1998)
-
Phân tích phân nhóm đã đ
c s d ng r ng rãi trong nghiên
c u tâm th n h c đ xây d ng các phân c p c a các bênh lý
tâm th n. Ch ng h n, Everitt, Gourlay and Kendel (1971) áp
d ng phân tích phân nhóm đ i v i m u các b nh nhân tâm
th n n i trú; h đã tìm ra r ng t t c b n phân tích đã s n sinh
ra m t nhóm bao g m ch
y u các b nh phân “psychotic
depression”.
-
Các k thu t phân nhóm đã đ
cs
d ng đ phân tích các
thay đ i khí h u dài h n trong vùng khí quy n phía trên bán
c u b c c a trái đ t. Thay đ i này ch y u b i 3 khuôn m u
áp su t cùng xu t hi n đ
c nh n di n t d li u ghi l i hàng
ngày n m 1948 (xem Cheng and Wallace 1993, …)
3.3.
đoán: phân l p và h i qui
Xây d ng mô hình d
(predictive modeling : classification and regression)
M c đích là đ xây d ng m t mô hình mà cho phép giá tr c a
m t bi n đ
c d
đoán t
Trong phân l p, bi n đ
các giá tr đã bi t c a các bi n khác.
c d đoán có giá tr là ki u phân lo i, trong
khi đó trong h i qui, bi n c n d đoán là đ nh l
đoán” đ
ta mu n d
t
c s d ng
ng. Thành ng “d
đây là s d ng chung. Ch ng h n, khi chúng
đoán giá tr c a th tr
ng lai, ho c mu n d
ng c ph n
m t ngày trong
đoán con ng a nào s th ng trong m t
cu c đua, chúng c ng có th mu n xác đ nh chu n đoán c a m t
b nh nhân, ho c m c đ d v
ph
ng pháp đã đ
c a m t m i hàn. M t s l n các
c phát tri n trong th ng kê h c và h c máy đ
gi i quy t các bài toán xây d ng mô hình d đoán, và các công vi c
trong l nh v c này đã d n đ n m t b
c ti n lý thuy t đáng k và
nh ng hi u bi t v các v n đ sâu c a suy di n. S phân bi t chính
-9-
Tìm hi u phai phá lu t k t h p
Mining Association Rules
đoán và vi c mô t là vi c d
gi a vi c d
tiêu duy nh t (bi n c n d
đoán) (ví d nh
đoán có m t bi n m c
giá tr th tr
ng, lo i
b nh, đ d v ,..), trong khi các bài toán mô t không có m t bi n
nh
v y làm trung tâm c a mô hình. Các ví d c a các mô hình d
đoán là nh sau:
-
H th ng SKICAT do JPL/Caltech phát tri n s d ng bi u di n
có c u trúc cây đ h c cây phân l p t t nh
các chuyên gia
trong vi c phân l p các ngôi sao và các ngân hà t m t vector
40 chi u đ có th phân tích và phân lo i (Fayyad, Djorgovski,
& Weir).
-
Các nhà nghiên c u c a AT&T phát tri n m t h th ng đ l n
theo d u v t đ c đi m c a toàn b
khác nhau c a n
h i quy đ
đi n tho i
350 tri u s
c M (Corter, Pregibon 1998). Các k thu t
c s d ng đ xây d ng các mô hình có kh n ng
d đoán m t s đi n tho i là kinh doanh hay gia đình.
3.4.
Khám phá các khuôn m u và lu t (Discovering patterns
and rules)
Ba ki u nhi m v li t kê
trên là liên quan đ n xây d ng mô
hình. Các ng d ng khai phá d li u khác là dò tìm khuôn m u. M t
ví d là đ a ra các hành vi l a đ o b i dò tìm các vùng c a không
gian xác đ nh b i các ki u giao d ch khác nhau mà
đó các đi m d
li u khác m t cách có ý ngh a th ng kê đ i v i ph n còn l i. M t s
d ng khác là trong thiên v n h c, dò tìm các ngôi sao ho c các ngân
hà b t th
ng có th d n đ n các khám phá các hi n t
ng ch a
bi t đ n. M t ví d n a là nhi m v tìm ra các t h p các m t hàng
th
ng xuyên xu t hi n trong các CSDL giao d ch. Bài toán này đã
đ
c đ tâm r t nhi u trong khai phá d
s
d ng các công ngh
li u và đã đ
c gi i quy t
gi i thu t d a trên các lu t k t h p
(association rules)
- 10 -
Tìm hi u phai phá lu t k t h p
3.5.
Mining Association Rules
L y thông tin d a trên n i dung (Retrieval by content)
Ng
is
d ng có m t khuôn m u và mu n tìm các khuôn m u
li u. Công vi c này đ
gi ng v y trong t p d
cs
d ng nhi u đ i
v i các t p d li u v n b n và hình nh. V i v n b n, khuôn m u có
th là t p các t khóa (keywords) và ng
i s d ng mong mu n tìm
các tài li u thích h p (các trang web). V i hình nh, ng
i dùng có
th có nh m u, m t phác th o c a nh, ho c m t mô t đ c tr ng
c a nh, và mu n tìm các hình nh t
Trong c hai tr
c a chi n l
ng t t m t t p d li u nh.
ng h p, đ nh ngh a đ gi ng nhau và các chi ti t
c tìm ki m là quan tr ng.
Có r t nhi u ng d ng c l n:
-
Tìm ki m tài li u trên Web trong h
th ng Google
(www.google.com) c a Brin & Page (1998). S
toán PageRank đ
d ng thu t
c đoán s liên quan c a các trang Web
riêng l d a trên khuôn m u liên k t.
-
QBIC (Query by Image Content) là m t h th ng đ
tri n b i các nhà nghiên c u IBM, cho phép ng
ki m trong m t d
t
ng quan v
li u l n các hình
nh. (Có kh
i dùng tìm
nh các m i liên quan
n i dung nh n d ng nh
thông tin v trí đi m
c phát
màu s c, b
n ng xác đ nh
c c,
nh đ
c
ghép, x lý l i t các nh ch p)
M c dù n m nhi m v
thành ph n chung, ví d
mô t
nh
trên là khác nhau, chúng có nhi u
khái ni m gi ng nhau ho c kho ng cách
gi a hai vector d li u là c n chung cho c n m nhi m v . Ho c khái ni m
các hàm cho đi m (s d ng đ đ nh giá m c đ phù h p c a m t mô hình
ho c khuôn m u đ i v i d li u) c ng là chung m c dù các hàm c th là
khác nhau đ i v i các nhi m v khác nhau. Các c u trúc mô hình và khuôn
m u là c n ph i khác nhau v i các nhi m v khác nhau và c ng c n khác
nhau đ i v i các ki u d li u khác nhau.
4.
Các thành ph n c a gi i thu t data mining
- 11 -
Tìm hi u phai phá lu t k t h p
Mining Association Rules
Các gi i thu t khai phá d li u có b n thành ph n c b n:
• C u trúc mô hình hay khuôn m u: xác đ nh c u trúc n n t ng
ho c d ng hàm mà chúng ta tìm ki m t d li u.
• Hàm đánh giá: phán xét ch t l
ng c a mô hình c th đ i v i
d li u.
• Ph
ng pháp t i
u và tìm ki m: t i
u hàm đánh giá và tìm
ki m trên các c u trúc mô hình và khuôn m u.
• Chi n l
c qu n tr d
li u: đi u khi n vi c truy c p d li u m t
cách hi u qu trong quá trình t i u tìm ki m.
4.1 C u trúc mô hình hay khuôn m u (Model or patterns
structure)
Các ki u bi u di n đ
th đ
c tìm ki m trong khai phá d
li u có
c đ c tr ng hóa theo nhi u cách. M t trong đ c tr ng hóa là
s phân bi t gi a m t mô hình toàn c c và m t khuôn m u c c b .
đây, m t mô hình toàn c c là m t tóm t t toàn c c c a t p
d
li u. Nó t o nên các m nh đ v b t k d
li u nào trong không
gian đo đ y đ . V m t hình h c, n u chúng ta xem xét các dòng
c a ma tr n d
li u nh
các vector p chi u (các đi m trong không
gian p chi u), mô hình có th t o nên m t m nh đ v b t k đi m
nào trong không gian này (và do v y b t k đ i t
ng). Ch ng h n,
mô hình có th gán m t đi m cho m t nhóm ho c d
đoán giá tr
c a m t s bi n khác. Th m chí khi m t s s đo b thi u (ví d m t
s thành ph n c a vector p chi u ch a bi t), mô hình có th t o ra
m t s m nh đ v đ i t
ng bi u di n b i vector (không đ y đ )
này.
M t mô hình đ n gi n có th có d ng Y = aX + c, v i X và Y là
các bi n và a, c là các tham s c a mô hình (các h ng s đ
đ nh trong quá trình th c hi n khai phá d
- 12 -
li u).
c xác
đây ta có th nói
Tìm hi u phai phá lu t k t h p
Mining Association Rules
r ng d ng hàm c a mô hình là tuy n tính, do Y là m t hàm tuy n
tính c a X. Vi c dùng các thành ng
c a th ng kê thông th
ng là
h i khác. Trong th ng kê h c, m t mô hình là tuy n tính n u nó là
hàm tuy n tính đ i v i các tham s c a mô hình. Chúng ta s c
g ng vi t rõ ràng d ng nào c a tuy n tính nào chúng ta mu n ám
ch , nh ng khi chúng ta th o lu n c u trúc c a mô hình, chúng ta s
xem tính tuy n tính
đây nh các hàm c a các bi n ch không ph i
là hàm c a các tham s c a mô hình. Vì v y, ch ng h n, c u trúc
mô hình
Y = a X2 + bX + c đ
c coi là mô hình tuy n tính trong th ng kê h c
c đi n, nh ng d ng hàm c a mô hình liên h Y và X là không tuy n
tính (đa th c b c hai).
i l p v i b n ch t toàn c c c a mô hình, các c u trúc khuôn
m u t o ra các m nh đ ch v các vùng h n ch c a không gian.
M t ví d là m nh đ xác su t đ n gi n có d ng
if X>x1 then prob (Y>y1) = p1.
C u trúc này g m các ràng bu c trên các giá tr c a các bi n
X và Y, liên h theo d ng c a lu t xác su t. Chúng ta có th mô t
m i liên h đó theo cách khác, nh
xác su t đi u ki n sau v i cùng
ngh a
p(Y>y1 | X>x1) = p1
Ho c chúng ta có th chú ý r ng các l p b n ghi giao d ch c th
không trùng lên các đ nh và vùng lõm và xem xét chi ti t h n đ xem
lý do t i sao. (công vi c này cho ngân hàng bi t đ
vài tài kho n mà thu c v ng
c r ng có m t
i đã ch t). Do v y, đ i l p v i các mô
hình (toàn c c), m t khuôn m u (c c b ) mô t m t c u trúc liên
quan đ n m t ph n t
ng đ i nh c a d
li u ho c không gian mà
d li u xu t hi n. Có th m t s các b n ghi hành x theo m t cách
c th , và khuôn m u đ c tr ng hóa chúng. Ví d , m t tìm ki m trên
m t CSDL giao d ch đ t hàng qua email có th b c l r ng khách
- 13 -
Tìm hi u phai phá lu t k t h p
hàng mua t
Mining Association Rules
h p các m t hàng c
th
th
ng mua t
h p m t
khàng khác. Ho c có th chúng ta nh n ra m t nhúm các b n ghi
“l ” (“outlying” records) mà r t khác v i đa s các b n ghi (nh ng cái
đ
c xem là đám mây trung tâm trong không gian p chi u). Ví d
cu i cùng này minh h a r ng các mô hình toàn c c và các khuôn
m u c c b có th đôi khi đ
m t đ ng xu.
c xem nh
hai m t đ i l p nhau c a
dò tìm ra dáng v không thông th
c n m t mô t cho dáng v thông th
ng, chúng ta
ng. Có m t s
song song
đây đ i v i vai trò c a các chu n đoán trong phân tích th ng kê h c;
các ph
ng pháp dò tìm khuôn m u c c b có các
vi c tìm ra cái b t th
ng, nh
ng d ng trong
dò tìm l i trong các quá trình công
nghi p, dò tìm gian l n trong các tác nghi p c a ngân hàng và
th
ng m i.
Chú ý r ng các c u trúc mô hình và khuôn m u mô t
trên
có các tham s k t h p v i chúng; a, b, c cho mô hình và x1, y1 và
p1 v i khuôn m u trong các ví d trên. Nhìn chung, m t khi chúng ta
thi t l p đ
c d ng c u trúc c n tìm ki m, ti p theo chúng ta s tìm
ra các tham s c a c u trúc t
đ
d
li u có s n. M t khi các tham s
c gán giá tr , chúng ta g i các mô hình c th , ch ng h n y = 3.2
x + 2.8, là mô hình khít v a v i d li u-“fitted model”, ho c đ n gi n
h n g i là mô hình (t
ng t nh v y đ i v i khuôn m u). S phân
bi t gi a c u trúc mô hình (ho c c u trúc khuôn m u) v i mô hình
th c (ho c khuôn m u) là quan tr ng. Các c u trúc bi u di n các
d ng hàm chung c a các mô hình (ho c khuôn m u), v i các giá tr
c a các tham s ch a bi t. M t mô hình ho c khuôn m u c th có
các giá tr xác đ nh cho các tham s c a mô hình.
S phân bi t gi a mô hình và khuôn m u là h u ích trong r t
nhi u tình hu ng. Dù v y, c ng nh vi c phân chia các loài sinh v t
thành các l p là đ thu n ti n cho hi u bi t c a con ng
i, nó không
khó và nhanh, đôi khi là không rõ ràng khi xem m t c u trúc c th
nên xem là m t mô hình hay là m t khuôn m u. Trong nh ng tr
- 14 -
ng
Tìm hi u phai phá lu t k t h p
Mining Association Rules
h p nh v y, cách t t nh t không nên quá quan tâm xem cái nào là
phân bi t là ch quan đ h tr th o lu n c a chúng
thích h p. S
ta, không ph i là m t ràng bu c lo i tr .
4.2 Các hàm đánh giá (score functions)
Các hàm đánh giá đ nh l
ng đ phù h p c a m t mô hình
ho c khuôn m u c th đ i v i t p d
t
li u cho tr
c. M t cách lý
ng, s ch n l a hàm đánh giá có th ph n ánh chính xác l i ích
(t c là l i ích mong đ i đúng) c a m t mô hình d
v y, trong th c t th
đoán c th . Dù
ng r t khó xác đ nh chính xác l i ích d đoán
đúng c a mô hình. Vì v y, các hàm đánh giá chung và đ n gi n,
nh
đ
đ chính xác phân l p và các bình ph
ng nh nh t, là hay
c s d ng. N u không có m t s ki u c a hàm đánh giá, chúng
ta không th nói m t mô hình này là t t h n mô hình kia, hay là
không bi t làm th nào đ ch n m t t p các giá tr t t cho các tham
s c a mô hình. M t vài hàm đánh giá đã đ
đích này: s
cs
d ng cho m c
có kh n ng x y ra, t ng các l i (sai s ) bình ph
t l phân l p nh m (s
ng,
d ng nhi u trong các bài toán phân l p có
giám sát). Ch ng h n, hàm đánh giá sai s bình ph
ng đ
c đ nh
ngh a nh sau
đây chúng ta d
đoán cho n giá tr y(i), i=1,n, và các d
đoán c a chúng ta cho chúng là các giá tr y^(i) (th
ng là m t hàm
c a m t s giá tr c a các bi n khác và các tham s c a mô hình).
S
ph i đ
thích h p v m t lý thuy t c a các tiêu chu n khác nhau
c bi n t u b i tính th c t
khi áp d ng chúng. Mô hình
chúng ta xem xét t i u m t tiêu chu n có th là lý t
li u, nh ng n u
c l
ng đ i v i d
ng (tìm ra) các tham s c a nó m t hàng
tháng tr i thì nó r t ít giá tr . T
ng t v y, m t hàm đánh giá mà r t
- 15 -
Tìm hi u phai phá lu t k t h p
Mining Association Rules
nh y c m v i nh ng thay đ i nh trong d li u có th là không m y
h u ích (l i ích c a nó s ph thu c vào các m c tiêu c a nghiên
c u). Ch ng h n, vi c thay đ i các giá tr c a vài tr
l d n đ n thay đ i l n trong giá tr
ng đ
mô hình; m t t p d li u th
có th
có, và có th
cl
ng c a m t s tham s
c ch n ra t m t s t p d li u
x y ra r ng trong các t p d
ng h p ngo i l này có giá tr khác. V n đ t
tr
c n ph i tránh b i s
c m v i các tr
ng h p ngo i
d ng các ph
li u khác, các
ng t
nh
v y
ng pháp không tinh vi, ít nh y
ng h p ngo i l này.
4.3 Các ph ng pháp tìm ki m và t i
search methods)
u (Optimization and
Hàm đánh giá là m t đ đo m c đ phù h p các khía c nh
c a d
th
li u đ i v i các mô hình và khuôn m u đã đ xu t. Thông
ng các mô hình và khuôn m u này đ
c mô t trong d ng m t
c u trúc, đôi khi v i các giá tr tham s ch a bi t. M c đích c a t i
u hóa và tìm ki m là đ xác đ nh c u trúc ho c các giá tr c a tham
s mà làm t i thi u (ho c t i đa, d a trên ng c nh) giá tr hàm đánh
giá. Nhi m v tìm ra các giá tr “t t nh t” c a các tham s trong các
mô hình đ
c xem nh
là bài toán t i
u (ho c
cl
ng). Nhi m
v tìm ra các khuôn m u thú v (nh các lu t ch ng h n) t m t t p
l n các khuôn m u ti m n đ
th
c coi là bài toán tìm ki m t h p, và
ng s d ng các k thu t tìm ki m heuristic. Trong h i qui tuy n
tính, m t lu t d đoán th
đánh giá các bình ph
gi a giá tr d
ng đ
c tìm ra b i tìm t i thi u m t hàm
ng nh nh t (t ng các sai s bình ph
ng
đoán c a mô hình và giá tr quan sát c a bi n d
đoán). Hàm đánh giá nh v y là s d ng các phép tính toán h c, và
mô hình t i thi u hàm này có th tìm ra b ng ph
Ng
ng pháp đ i s .
c l i, m t hàm đánh giá nh là t l phân l p nh m trong phân
l p có giám sát là khó tìm ra t i thi u b ng ph
ng pháp gi i tích. Ví
d , do nó là không liên t c, các công c v phép tính đ o hàm không
đ
c áp d ng
đây.
- 16 -
Tìm hi u phai phá lu t k t h p
Mining Association Rules
T t nhiên, trong khi chúng ta tìm các hàm đánh giá đ sinh ra
m t đ i sánh t t gi a m t mô hình ho c khuôn m u và d li u, trong
nhi u tr
ng h p, đi u này không là m c tiêu. Nh đã chú ý
chúng ta th
ng h
ng đ n khái quát hóa đ i v i d
tìm ra m t đ i sánh quá t t v i d
li u đã bi t th
trên,
li u m i, vi c
ng d n đ n mô
hình cho k t qu không chính xác khi d đoán d li u m i.
4.4 Các chi n l
c qu n tr
d
li u (Data management
strategies)
Thành ph n cu i cùng trong b t k m t gi i thu t khai phá d
li u là chi n l
c p d
c qu n tr d
li u: các cách l u tr , ch s và truy
li u. Các gi i thu t phân tích d
li u đ
nh t trong th ng kê h c và h c máy đã đ
thuy t r ng t t c các đi m d
th
đ
c c i ti n v i t c đ nhanh nh
d
li u l n v n n m ch
i gi
c truy c p m t
truy c p ng u nhiên
chính đã đ
(RAM). Trong khi công ngh b nh
c c i ti n nhanh
c p (đ a) và tam c p (b ng) đã
nhau, v i m c đ mà nhi u t p
y u trong đ a ho c b ng và không v a
trong RAM có s n. Do v y, thông th
mu n truy c p các t p d
c phát tri n d
li u c th có th đ
cách nhanh chóng và hi u qu trong b nh
chóng, các công ngh l u tr
c bi t đ n nhi u
ng s có m t giá ph i tr khi
li u l n do t t c các đi m d
li u không
th cùng lúc đ t g n b x lý c a máy tính.
li u đã đ
c phát tri n mà
ng minh m t chi n l
c qu n tr d li u
Nhi u gi i thu t phân tích d
không đ c p đ n đ c t t
nào do nó làm vi c trên các t p d
li u nh (ví d gi i th t cây h i
qui và phân l p). Nh ng chúng th
ng th t b i khi áp d ng tr c ti p
v i d li u mà ch y u đ t trên b nh th c p (đ a).
L nh v c c a các c s d li u là liên quan đ n s
c a các ph
ng pháp đánh ch s , các c u trúc d
phát tri n
li u, các gi i
thu t truy v n đ l y d li u hi u qu và tin c y. Nhi u k thu t này
- 17 -
Tìm hi u phai phá lu t k t h p
đã đ
Mining Association Rules
c phát tri n đ h tr các phép tính, thao tác đ m t
ng đ i
đ n gi n trên các t p d li u l n v i các m c đích làm báo cáo. Dù
v y, trong nh ng n m g n đây, s
phát tri n đã b t đ u v i các
công ngh mà h tr các thao tác truy c p d li u “nguyên th y” đ
th c hi n các ki u hi u qu
c a các gi i thu t khai phá d
(ch ng h n các h th ng đánh ch s có c u trúc cây đ
đ tìm l i đ
5.
li u
c s d ng
c các láng gi ng c a m t đi m trong nhi u chi u).
Nh ng thách th c trong
ng d ng và nghiên c u k thu t
trong data mining
đây chúng tôi đ a ra m t s khó kh n trong vi c nghiên c u và
ng d ng k thu t khai phá d
li u.Tuy nhiên, th không có ngh a là vi c
gi i quy t là hoàn toàn b t c mà ch mu n nêu lên r ng đ khai phá d
li u không ph i là đ n gi n, mà ph i xem xét c ng nh tìm cách gi i quy t
nh ng v n đ này. Chúng tôi có th li t kê m t s khó kh n nh sau:
5.1 Các v n đ v c s d li u
u vài ch y u c a m t h th ng khai thác tri th c là các d
li u
thô trong c s d li u. Nh ng v n đ khó kh n phát sunh trong khai phá
d
li u chính là t
đây. Do các d
li u trong th c t th
đ y đ , l n, và b nhi u. Trong nh ng tr
bi t c
s
d
ng đ ng, không
ng h p khác, ng
i ta không
li u có ch a các thông tin c n thi t cho vi c khai thác hay
không và làm th nào đ gi i quy t v i s
d
th a nh ng thông tin thích
h p này
a. D
li u l n: Cho đ n nay, các c s d
và b ng, hàng tri u b n ghi và v i kích th
là chuy n bình th
li u có kích th
li u v i hàng tr m tr
ng
c đ n hàng gigabytes đã
ng. Hi n nay, đã b t đ u xu t hi n các c s d
c t i terabytes. Các ph
nay là đ a ra m t ng
ng cho c s d
pháp x p x , x lý song song..
- 18 -
ng pháp gi i quy t hi n
li u, l y m u, các ph
ng
Tìm hi u phai phá lu t k t h p
b. Kích th
trong c
Mining Association Rules
c l n: Không ch có s l
s
d
ng b n ghi l n mà s tr
li u c ng nhi u. Vì v y mà kích th
ng
c c a bài toán
c l n sinh ra v n đ là
tr nên l n h n. M t t p d li u có kích th
t ng không gian tìm ki m mô hình suy di n. H n n a, nó c ng làm
t ng kh n ng m t thu t gi i khai phá d
li u có th tìm th y các
c tác đ ng c a
m u gi . Bi n pháp kh c ph c là làm gi m kích th
bài toán và s
c đ
d ng các tri th c bi t tr
xác đ nh các bi n
không phù h p.
c. D
li u đ ng:
c đi m c
b n c a h u h t các c
n t dung c a chúng thay đ i liên t c. D
th o gian và vi c khai phá d
s
d
li u là
li u có th thay đ i theo
li u c ng b
nh h
ng b i th i đi m
quan sát d li u. Ví d trong c s d li u v tình tr ng b nh nhân,
m t s giá tr d
li u là h ng s , m t s khác l i thay đ i liên t c
theo th i gian (ví d cân n ng và chi u cao), m t s khác l i thay đ i
tu thu c vào tình hu ng và ch có giá tr đ
d nh p đ p c a m ch). Vi c thay đ i d
c quan sát m i nh t (ví
li u nhanh chóng có th
làm cho các m u khai thác đ
c tr
bi n trong c
ng d ng đã cho c ng có th b thay
s
d
li u c a
c đó m t giá tr . H n n a, các
đ i, b xoá hay là t ng lên theo th i gian. V n đ này đ
b ng các gi i pháp t ng tr
thay đ i nh
là c
c gi i quy t
ng đ nâng c p các m u và coi nh ng
h i đ khai thác b ng cách s
d ng nó đ tìm
ki m các m u b thay đ i.
d. Các tr
ng không phù h p: M t đ c đi m quan tr ng khác là tính
không thích h p c a d
li u, ngh a là m c d
li u tr
thành không
thích h p v i tr ng tâm hi n t i c a vi c khai thác. M t khía c nh
khác, đôi khi c ng liên quan đ n đ phù h p là tính
m t thu c tính đ i v i m t t p con c a c
s
d
ng d ng c a
li u. Ví d tr
ng
s tài kho n không áp d ng cho các tác nhân.
e. Các giá tr b thi u: S
tính d
có m t hay v ng m t c a giá tr các thu c
li u phù h p có th
Trong h th ng t
ng tác, s
nh h
ng đ n vi c khai phá d
thi u v ng d
- 19 -
li u.
li u quan tr ng có th
Tìm hi u phai phá lu t k t h p
Mining Association Rules
d n đ n yêu c u cho giá tr c a nó hay ki m tra đ xác đ nh giá tr
c a nó. Ho c c ng có th s
v ng m t c a d
li u đ
c coi nh
m t đi u ki n, thu c tính b m t có th coi nh m t giá tr trung gian
và là giá tr không bi t
f. Các tr
ng b thi u: M t quan sát không đ y đ c s d
li u có
th làm cho các d li u có giá tr b xem nh l i. Vi c quan sát c s
d
li u ph i phát hi n đ
gi i thu t khai phá d
c toàn b các thu c tính có th dùng đ
li u có th áp d ng nh m gi i quy t bài toán.
Gi s chúng ta có các thu c tính đ phân bi t các tình hu ng đang
quan tâm. N u chúng không làm đ
trong d
t
m t c
i v i m t h th ng h c đ chu n đoán b nh s t rét
li u.
s
c đi u đó thì có ngh a là đã l i
d
li u b nh nhân thì tr
ng h p các b n ghi c a
b nh nhân có các tri u ch ng gi ng nhau nh ng l i có các chu n
đoán khác nhau là do d
li u đã b l i.
ây c ng là v n đ th
ng
x y ra trong c s d li u kinh doanh. Các thu c tính quan tr ng có
th b thi u n u d
li u không đ
c chu n b cho vi c khai phá d
li u.
g.
i v i các thu c tính đã thích h p,
nhi u và không ch c ch n:
đ nghiêm tr ng c a l i ph thu c vào ki u d
li u c a giá tr cho
phép, Các giá tr c a các thu c tính khác nhau có th là các s th c,
s nguyên, chu i và có th thu c vào t p các giá tr đ nh danh. Các
giá tr đ nh danh này có th s p x p theo th t t ng ph n hay đ y
đ , th m chí có th có c u trúc ng
ngh a. M t y u t khác c a đ
không ch c ch n chính là tính k th a hay đ chính xác mà d
c n có, nói cách khác là đ nhi u c a d
li u
li u. D a trên vi c tính
toán trên các phép đo và phân tích có u tiên, mô hình th ng kê tính
ng u nhiên đ
c t o ra và đ
c s
mu n và đ dung sai c a d li u. Th
đ
d ng đ đ nh ngh a đ mong
ng thì các mô hình th ng kê
c áp d ng theo cách đ c bi t đ xác đ nh m t cách ch quan
các thu c tính đ đ t đ
c các th ng kê và đánh giá kh n ng ch p
nh n c a các (hay t h p các) giá tr thu c tính.
- 20 -
c bi t là v i d
Tìm hi u phai phá lu t k t h p
Mining Association Rules
li u ki u s , s đúng đ n c a d li u có th là m t y u t trong vi c
khai phá. Ví d nh trong nhi t đ c th , ta th
l ch 0,1 đ . Nh ng vi c phân tích theo xu h
c a c
th
l i có th
yêu c u đ
ng cho phép chênh
ng nh y c m nhi t đ
chính xác cao h n.
th ng khai thác có th liên h đ n xu h
m t h
ng này đ chu n đoán thì
l i c n có m t đ nhi u trong d li u đ u vào.
h. M i quan h ph c t p gi a các tr
ng : Các thu c tính hay các
giá tr có c u trúc phân c p, các m i quan h gi a các thu c tính vàv
các ph
ng ti n ph c t p đ di n t tri th c v n i dung c a c s
d li u yêu c u các gi i thu t ph i có kh n ng s d ng m t cách
hi u qu các thông tin này. Ban đ u, k thu t khai phá d li u ch
đ
c phát tri n cho các b n ghi có các giá tr thu c tính đ n gi n.
Tuy nhiên, ngày nay ng
i ta đang tìm cách phát tri n các k thu t
nh m rút ra các m i quan h gi a các bi n này.
5.2 Các v n đ v khác
a. Quá phù h p (Overfitting): Khi m t gi i thu t tìm ki m các tham s
t t nh t cho m t mô hình d li u nào đó s d ng m t t p d li u h u
h n, nó có th s b tình tr ng “quá đ ” d li u (ngh a là tìm ki m quá
m c c n thi t gây ra hi n t
ng ch phù h p v i các d li u đó mà
không có kh n ng đáp ng cho các d li u l ) làm cho mô hình ho t
đ ng r t kém đ i v i các d li u th . Các gi i pháp kh c ph c bao g m
đánh giá chéo (cross-validation), th c hi n theo nguyên t c nào đó hay
s d ng các bi n pháp th ng kê khác.
b.
ánh giá t m quan tr ng th ng kê: V n đ (liên quan đ n
overfitting) x y ra khi m t h th ng tìm ki m qua nhi u mô hình. Ví d
m t h th ng ki m tra N mô hình
m c đ quan tr ng 0,001 thì v i d
li u ng u nhiên trung bình s có N/1000 mô hình đ
quan tr ng.
c ch p nh n là
x lý v n đ này, ta có th s d ng ph
- 21 -
ng pháp đi u
Tìm hi u phai phá lu t k t h p
Mining Association Rules
ch nh th ng kê trong ki m tra nh m t hàm tìm ki m, ví d nh đi u
ch nh Bonferroni đ i v i các ki m tra đ c l p.
c. Kh n ng bi u đ t c a m u: Trong r t nhi u ng d ng, đi u quan
tr ng là nh ng gì khai thác đ
t t. Vì v y, các gi i pháp th
c ph i càng d hi u v i con ng
ng bao g m vi c di n t d
ho , xây d ng c u trúc lu t v i các đ th có h
i càng
i d ng đ
ng, bi u di n b ng
ngôn ng t nhiên và các k thu t khác nh m bi u di n tri th c và d
li u.
d. S
t
ng tác v i ng
nhi u công c và ph
tác v i ng
bi t tr
i s d ng và các tri th c s n có: R t
ng pháp khai phá d li u không th c s t
ng
i dùng và kh ng d dàng k t h p cùng v i các tri th c đã
c đó. Vi c s d ng tri th c mi n là r t quan trong trong khai
phá d li u.
ã có nhi u bi n pháp nh m kh c ph c v n đ này nh s
d ng c s d li u suy di n đ phát hi n tri th c, nh ng tri th c sau đó
đ
c s d ng đ h
ng d n cho vi c tìm ki m khai phá d li u ho c
s d ng s phân b và xác su t d li u tr
tri th c có s n.
- 22 -
c đó nh m t d ng mã hoá
Tìm hi u phai phá lu t k t h p
Mining Association Rules
III. LU T K T H P
T khi nó đ
nh n đ
c gi i thi u t n m 1992 bài toán khai thác lu t k t h p
c r t nhi u s
quan tâm c a nhi u nhà khoa h c. Ý t
ng c a
vi c khai thác các lu t k t h p có ngu n g c t vi c phân tích d li u mua
hàng c a khách và tìm ki m xu h
nh ng s n ph m gì cùng lúc. M
ng khách hàng th
ng mua chung
r ng ra là tìm ki m các m i liên h ph
bi n t trong d li u.
ng d ng tr c ti p c a các lu t này trong các bài toán kinh doanh
cùng v i tính d hi u v n có c a chúng
ngay c đ i v i nh ng ng
i không ph i là chuyên gia khai thác d li u
làm cho lu t k t h p tr thành m t m t ph
ng pháp khai thác ph bi n.
H n n a, lu t k t h p không ch b gi i h n trong phân tích s
thu c l n nhau trong ph m vi các ng d ng bán l mà chúng còn đ
ph
c áp
d ng thành công trong r t nhi u bài toán khác.
1.
nh ngh a :
G i I = {I1, I2,..., Im} là t p m thu c tính riêng bi t, m i thu c tính g i
là m t m c. G i D là m t c
s
d
li u, trong đó m i b n ghi T là
m t giao d ch và ch a các t p m c con T ⊆ I.
Lu t k t h p là m t quan h có d ng X ⇒ Y[s,c]
trong đó X, Y ⊂ I là các t p m c g i là itemsets, và X I Y = φ .
đây, X đ
c g i là ti n đ , Y là m nh đ k t qu .
Hai thông s quan tr ng c a lu t k t h p là đ h tr
(s) và đ tin
c y (c).
h tr (support) c a lu t k t h p X ⇒ Y [s,c]
Bi u th t n s lu t xu t hi n trong các giao tác.
là t l ph n tr m các b n ghi X U Y v i t ng s các giao tác có trong
c s d li u.
- 23 -
Tìm hi u phai phá lu t k t h p
Mining Association Rules
h tr cho bi t m c đ ph bi n c a lu t.
support(X ⇒ Y [s,c]) = P( X U Y ) = support({X,Y})
tin c y (confidence) c a lu t k t h p X ⇒ Y[s,c]
Bi u th s ph n tr m giao tác có ch a luôn Y trong s nh ng giao
tác có ch a X
confidence(X ⇒ Y [s,c]) = P(Y|X) =
=support({X,Y}) / support({X})
tin c y th hi n m c đ liên k t gi a các thành ph n c a lu t.
Vi c khai thác các lu t k t h p t c s d li u chính là vi c tìm t t
c các lu t có đ h tr và đ tin c y l n h n ng
và đ tin c y do ng
i s d ng xác đ nh tr
h tr và đ tin c y đ
ng c a đ
c. Các ng
c ký hi u là minsup và mincof.
Ví d : Khi phân tích gi hàng c a ng
th ta có đ
ng c a đ h tr
i mua hàng trong m t siêu
c lu t ki u nh : khách hàng mua s a thì kh n ng 80%
c ng mua bánh mì và có 30% mua c hai th .
Trong đó “mua s a ” là ti n đ còn “mua bánh mì ” là k t lu n c a
lu t . Con s 30% là đ h tr
c a lu t còn 80% là đ tin c y c a
lu t.
Chúng ta nh n th y r ng tri th c đem l i b i lu t k t h p d ng trên
có s
khác bi t r t nhi u so v i thông tin thu đ
truy v n d li u thông th
m i liên h ch a bi t tr
d
ng nh SQL.
ct
các câu l nh
ó là nh ng tri th c, nh ng
c và mang tính d báo đang ti m n trong
li u. Nh ng tri th c này không đ n gi n là k t qu
c a phép
nhóm, tính t ng hay s p x p mà là c a m t quá trình tính toán khá
ph c t p.
- 24 -
Tìm hi u phai phá lu t k t h p
Mining Association Rules
2. Quá trình tìm các lu t k t h p
Th
ng g m 2 giai đo n:
• G
1: Tìm t t c các t p ph bi n (t p các ph n t có đ support
t i thi u) b ng các s
d ng nguyên t c Apriori: “T p con c a
m t t p ph bi n c ng là m t t p ph bi n”.
• G
2: S d ng các t p ph bi n đ sinh ra các lu t k t h p tin
c y.
Trong th c t , h u h t th i gian c a quá trình khai thác lu t k t h p là
giai đo n tìm các t p ph bi n.
th c hi n
B
A
D
C
E
AB
AC
AD
AE
BC
BD
BE
CD
CE
DE
ABC
ABD
ABE
ACD
ACE
ADE
BCD
BCE
BDE
CDE
ABCD
ABCE
ABDE
ACDE
BCDE
ABCDE
Hình 3: Không gian tìm ki m t p ph bi n 5 thu c tính
Tuy nhiên, v n còn t n t i nhi u thách th c và khó kh n trong khai
phá lu t k t h p (nh đã trình bày
ph n tr
c)
• Các c s d li u l n.
• S chi u l n.
• Thay đ i d li u và tri th c có th làm cho các m u đã phát hi n
không còn phù h p.
- 25 -