Tải bản đầy đủ (.pdf) (68 trang)

Khai phá song song luật kết hợp mờ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (22.03 MB, 68 trang )

ĐẠI HỌC ỌƯÓC GIA HÀ NỘI
KHOA CÔNG NGHỆ
PHAN XUÂN HIÉƯ
KHAI PHÁ SONG SONG LUẬT KẾT HỌP MỜ
Chuyên ngành: C ô n g nghệ thông tin
Mà số: 1.01.10
LUẬN VẢN THẠC sĩ
NGƯỜI HƯỚNG DÀN KHOA HỌC
TS. HÀ QUANG THỤY
€>Ại MỌC CU;ỐC GIA HÀ NỘI
TRỦNGTẲMTH&líĩmTHƯVIẼN
HoV-tO ) M o
Hà Nội - 2003
1
M ụ c lục
I)an h m ụ c h ình v ẽ
I);m h m ụ c b ả n g b i ể u
K ý hiệu v à từ viê l t ã t
1 .(Vi c a m o n
M o' tià ti
C h irơ i m 1 . TÔIIO q u a n v è k hai p h á d ữ liệ u
I . I K h ai p há clữ liệ u
1. 1.1 M ụ c liêu cu a k h ai p há d ữ l i ệ u
1. 1.2 Đ ịn h n elìĩa kh a i p h á d ừ liệ u
1 .1.3. C á c b ư ớ c chín h tro n g k h á m p há tri Ih ửc ( K D D )
1.2 I lirớnụ liô p cận và k ỹ thuật á p d ụ n ạ tro n c K h a i p h á d ữ liệu
1.2.1 I Iư ớ n g tiế p cận v à k ỹ th u ậ t ch ính tro n g k h ai p h á d ừ liệu
1.2.2 C á c d ạ n g d ữ liệu c ó thể kh a i p h á

1.3 I ỉn g đ ụ n ” c ua K hai p há d ữ l iệ u
1.3 . 1 { J’n u d ụn íi của khai p h á d ữ l i ệ u


1.3.2 [’hân loại các h ệ llìô n ụ k h ai p h á d ừ l i ệ u
1.4 N h ừ n a v ấn d ề d ư ợ c ch ú Irọ n g trôna, K h ai p h á d ữ l i ệ u

C liư ơn íi 2. 1 .uậl k èt h ọ p
2.1 Y im hĩa cù a luật két h ọ p
2.2 P hái h iên hài toá n khíii p há luật kèt h ợ p
2.3 N lũ m u hư ứ iiR tiếp cận c h ín h tr o n g khai p h á luật kêl h ợ p

C h ư ơ n a 3. K h ai ph á luật kêl họp m ò '
ì. I I,uật kêt h ợ p c ó tluiộc lính s ô

3.1.1 I ,uậl kết hợ p có th u ộ c tính s ố
3
4
. . 5
6
7
9
9
.9
10
1
I
12
12
13
13
13
14
14

16
16
17
19
2 2
2 2
22
3.1.2 Các phươne, pháp rời rạc hóa 23
3.2 Luật kết hợp mờ 26
3.2.1 Rời rạc hóa thuộc tính dựa vào tập mờ

26
3.2.2 Luật kết hợp mờ 28
3.2.3 Thuật toán khai phá luật kết hợp m ờ 32
3.2.4 Chuyển luật kết hợp mờ về luật kết hợp với thuộc tính số

36
3.2.5 Thử nehiệm và kết luận
37
Chương 4. Khai phá song song luật kết hợp mờ 42
4.1 Một sô thuật toán song song khai phá luật kết hợp 43
4.2 Thuật toán song song cho luật kết hợp mờ 50
4.2. ỉ I lướng tiếp cận 50
4.2.2 Thuật toán soné sone, cho luật kết họp mờ 54
4.2.2 Tính đúng dãn và độ phức tạp thời gian của thuật toán 55
4.3 Thứ nụhĩệm và kết luận 58
Kết luận 60
Nliữne vân dê đã được giải quyết trong luận văn này 60
Cône việc nehiên cứu trong tương lai 61
T ài liệu th am k h ả o 62

2
Phụ lục 66
3
Danh mục hình vẽ

Hình I - Lượng dừ liệu được tích lũy tăng mạnh theo thời gian 9
Hình 2 - Các hước trong quớ trình khám phá tri thức (KDD)

/2
Hình 3 - Minh họa về luật kết hợp 16
Hình 4 - Ví dụ về vân đề "Điểm biên ĩỊÕy " khi tiến hành rời rạc hóa dữ liệu

25
Hình 5 - Đồ thị hàm thuộc cùa các tập mờ "T u o ijrè", "T u o ijrung niên", và
"Tìlôi g ià " 26
Hình 6 - Đồ thị hàm thuộc của hai tập mờ "Cholesterol thấp" và
"Cholesterol cao" 27
Hình 7 - Thời gian xử lý tăng mạnh khi giảm giá trị fminsup 37
Hình 8 - Sô l trợn g tập phô biến và luật tăng mạnh khi giám dan fminsup 38
Hình 9 - So ỉượng độ tin cậv tâng mạnh khi giảm dần fminconf.

39
Hình 10 - Thời gian xử lý tăng mạnh khi tăng nhẹ số lượng thuộc tính

39
Hình ì I - Thời gian xử lý tăng tuyến tính với số lượng bàn gh i

40
Hình 12- So lượng tập phổ hiến và luật tin cậy biến đổi theo toán tử T-norm


40
Hình 13 - Két quá khai phá phàn ảnh sự thay đổi của ngưỡng được gắn với các
tập m ờ 4 1
Hình 14- Thuật toán phân phổi độ hỗ trợ trên hệ 3 BXL
44
Hình 15 - Thuật toán phân phổi dữ liệu trên 3 B X L 45
Hình ỉ 6 - Thời ẹian sinh luật giảm mạnh khi tăng dần độ tin cậy tối thiểu

49
Hình 17 - Sô luật tin cậv giàm mạnh khi tăng dần độ tin cậy toi thiêu minconf. 49
Hình 18 - Hình minh họa thuật toán phân chia
56
Hình 19- Thỏi gian xử lý giảm đáng kế khi tăng dân sỏ tiến trình song song

58
Hình 20 - Thời gian xử lý phụ thuộc vào tỷ lệ sổ tiến trình loẹic và so CPU vật lý
59
Hình 21 - Cừo sô giao diện chính của Fuzzy A RM 66
Hình 22 - Cứa sd dùng để tạo và sửa đổi tập mờ 67
Hình 23 - Cứa sổ hiển thị kết quả khơi phá luật kết hợp mờ 67
4
Danh mục bảng biểu
ỉì(inc / - Vi dụ về một CSDL dọng <
2
,iao d ịch 17
Bỉnự 2 - Các tập phô biến trong CSDL ở bảng ì với độ hô trợ tôi thiêu là 50% 17
Bang 3 - Luật kết hợp sinh từ tập phổ biển ACW 18
Bám: -t - CSDL khám và chân đoán bệnh tim mạch cùa 17 bệnh nhân

22

Ba in: 5 - Rỏi rạc hóa thuộc tỉnh sổ rời rạc hữu hạn hoặc thuộc tinh họng mục 24
Bant 6 - Rời rọc hóa thuộc tính so "Lượng cholesterol trong m áu"
24
Bàn ĩ. 7 - Rời rạc hóa thuộc tỉnh só “ Tuỏi tác " 24
Bán<i 8 - CSDL về khảm vò chần đoán bệnh tim mạch của 13 bệnh nhân

28
BaIV' 9 - Bàng các kỷ hiệu sứ dụn<ị trong thuật toán khai phá luật kết hợp mờ 33
Bám; 10 - Thuật toán khai phá luật kêt hợp mờ 33
Daiìĩ I I - Tị: - giá trị cóc thuộc tỉnh tại các bàn %hi đã được mờ hỏa

34
Ban'í ì 2 - C/ - tập tất cà các tập thuộc tính có lực lượng bằn<ị 1 35
Ban£ /3 - Fị - íập thuộc tính phổ hiến cỏ lực lượng bằng 2

36
Báni 14 - Các luật mờ ãược sinh ra từ CSDL tronẹ bảng 8 ĩố
Banị: /5 - Thuật í oán sinh luật kết hợp tuần tự
49
Ban? lỗ - Tập các thuộc tỉnh mờ sau khi mờ hỏa từ CSDL ở bảng 8 51
Banỹ ỉ 7 - Thuật toán hô trợ việc chia tập thuộc tính mờ cho các BXL

54
Kÿ hiêu và tù5 viét tât
Ban» tir viêt tât:
Tir hoâc eum tir
Tir viêt tât Tir tiêug Aiih
Co so dû' lieu CSDL Database
BXL
BXL

Processor
Khai phâ dû lieu
KPDL
Data Mining
Tir kliôa:
Khai phâ dû lieu, Iliât kêt hop, luât kêt hop nhi phân, luât kêt hop vô'i
thuôc tinh sô (luât kêt hop djnh krong), luât kêt hop ino, giài thuât song
song.
6
Lò’i cảm ơn
Dâu liên, tòi xin uửi lòi cảm ơn sâu săc nhất đến cán bộ hướng dân khoa học,
thây ỉiiáo. TS. Mà Quane; Thụy, người đã truyền cho tôi nguồn cảm hứng nghiên
cửu khoa học. người đã dưa tôi đến với lĩnh vực nghiên cứu này, và là rnuròĩ dã
uianu. dạy, hướna dần tôi hết sức tận tình trong suốt bốn năm qua.
Tôi xin bày tỏ lời cảm ơn tới các thây cô giáo đã giảng dạy tôi trong suôt liai
năm học qua như GS. Huỳnh Hữu Tuệ, GS, TSKH. Nguyễn Xuân Huy, PGS, TS.
Ncô Quốc Tạo, TS. Vũ Đức Thi. TS. Nguyễn Kim Anh, .v.v. Tôi cũng xin trân
trọne cam on các nhà khoa học và đồng thời là các thầy giáo trong ban chủ nhiệm
lóp cao học K
8
T| như GS. vs. Nguyễn Văn Hiệu, GS, TSKH. Bạch Hưng Khang,
PGS. TS. I lồ Sỹ Đàm. GS, TSKH. Phạm Trần Nhu, và PGS, TS. Đồ Đức Giáo.
Tôi cùim muốn
2
Ủ'i lời cảm ơn tới những thành viên trong nhóm seminar về
“Khai phá dữ liệu & tính toán song song” như TS. Đỗ Văn Thành, ThS. Phạm Thọ
lloùn. ThS. Doàn Son, CN. Bùi Quang Minh, ThS. Nguyễn Trí Thành, CN.
Nmivỏn Tluình Trung. CN. Tào Thị Thu Phượng, CN. Vũ Bội Hằng, .v.v. Hụ là
nluìim imười thầy, naười bạn dã sát cánh bên tôi trong lĩnh vực ne,hiên cứu này và
có nluìnu uỏp ý chuyên môn cũng như sự động viên vê tinh thẩn ral dáng trân

trọn».
Tòi xin ahi nhận những tình cám, sự giúp dỡ về chuyên môn cũng nhu trong
cuộc sò nu cua các thây giáo, các bạn đông nghiệp trong Bộ môn Các I lệ thông
tlìòim tin. Khoa Cộne netiệ, ĐIIỌCÌ Mà Nội. Sự quan tâm của những người thầy
nhir TS. Ncuyễn Tuệ. PGS, TS. Trịnh Nhật Tiến, ThS. Nguyễn Quang Vinh. TlìS.
Vũ Bá Duy. ThS. Lè Quang I liếu .v.v. đã dộng viên và khích lệ tôi rất nhiều trong
thòi íiian qua.
Cuối CÙI
1
ÍỊ. tôi xin c,ửi lòi cảm ơn sâu săc tới tất cà người thân trong uia dinh
tỏi, hạn bò tôi. Họ thật sự là nguồn dộng viên vô tận đôi với tòi trong cuộc sông.
Học viên thực hiện luận văn
Phan Xuân I liéu
7
I lon một thập niên trở lại đây. khai phá dữ liệu (KPDL) đã trỏ' thành một trong
nhữnu lurớnu nghiên cửu chính trong lĩnh vực khoa học máy tính và cône rnihệ tri
thúc. Trong quá trình phát triển đó với hàng loạt nghiên cứu, đề xuất dược thử
nghiệm và ứníi đụng thành công vào đời sống đã chứng tỏ rang KPDL là một lĩnh
vục imhiên cứu ốn định, có nền tàng lý thuyết vững chắc chứ không phải được
xem là “sớm nở tối tàn” như một số ít nhà tin học tnrớc đây đã từng nghi ngờ.
K.PDI bao hàm rất nhiều hướng tiếp cận. Các kỹ thuật chính dược áp dụng
tron ụ lĩnh vực này phần lớn được thừa kế từ lĩnh vực CO' sỏ' dữ liệu (CSDLẠ học
may (machine leamiim). trí tuệ nhân tạo (artificial intelligence), lý thuyết thông tin
(information theory), xác suất thong kê (probability & statistics), và tinh toán hiệu
năng can (high performance computing). Các bài toán chủ yếu trong KPDI là
phàn l(Vp/dự đoán (classification/prediction), phân cụm (clustering), khai phá luật
kết họp (association rules milling), khai phá chuỗi (sequence mining), v.v. Lĩnh
vực này cũng là diếm hội lụ và giao thoa của rất nhiều lĩnh vực khác. KIM)! đã và
dan« được ửns, dụng thành cône, vào ihương mại, tài chính & thị tnrờng chứng
khoán, sinh học. y học, giáo dục. viễn thông, .v.v.

Khai phá luật kết hợp là một nội dung quan trọng trong KPDL dược khởi
xiróĩìg lừ năm 1993. Ỷ thức dược đây là một lĩnh vục nghicn cứu có nhiêu triển
VỌI
1
S
2
. chúna tôi đã chọn turón” nghiên cứu Khai phả song song luật kè! hợp mờ
cho (lê tài luân văn cua mình Luận văn được xây dựng dựa trên nên một sô nghiên
cứu chính yếu trona, lĩnh vực khai phá luật kết hợp trong những năm gân dây,
đồiiH thòi, chúng tôi cũng mạnh dạn trinh bày một vài đề xuất mà hai dề xuất điển
hình là “mối liên hệ eiữa luật kết hợp mờ và lý thuyết tập mờ” và “thuật toán song
song khai phá luật kết hợp mờ”.
L ikỊ ii văn dược tồ chức thành bổn chương nhu sau:
Clurong 1 trình bày tổng quan về KPDL bat đầu từ định nahĩa ve K.PDL và
khám phá tri thức tù' CSDL và các bước chính trong quá trinh khám phá tri thúc.
Chương này cũng dè cập đến các kỹ thuật và hướng tiếp cận chính trong KPDI, và
phàn loại các hệ thòng khai phá theo các tiêu chí khác nhau. Phần cuối cua chương
M Ò ’ đ ầ u
8
phác họa Illume ứne dụ ne chính của KPDL và những hướng nghiên cứu dang và
sẽ được chú trọng trong thời gian tới.
Clnronẹ 2 trình bày về bài toán “khai phá luật kết hợp”. Để làm nền tàng cho
nhữim nghiên cứu cụ thể ỏ' hai chương sau, chương này cung cấp những hiểu biết
cân tlìiếl về bài toán khai phá luật kết hợp. Phần cuối chương tổng hợp những đề
xuất chính Iron ti hơn mười năm phát triển vừa qua của bài toán này.
Chtrơng 3 trinh bày về “khai phá luật kết hợp mờ”. Phần dầu của chương phát
biêu bài toán khai phá luật kết hợp với thuộc tính số và thuộc tính hạng mục cùng
các plnrơim pháp rời rạc hóa dữ liệu cho bài toán này. Dạng luật kết hợp như vậy
cùne với các phương pháp rời rạc hóa đi kèm có một vài hạn chế như nmì nghĩa
cùa luật hay vân đề “điểm biên gãy”. Luật kết hợp mò' được dề xuất như một giải

pháp kliăc phục các nhược điểm cùa bài toán trên. Bên cạnh sự tống hợp các
nubien cửu trước dó vê dạne luật này, luận văn cũng nêu lên mối liên hệ giữa luật
kôt hợp và lý thuyết tập mờ cùng việc chọn tích dại số và hàm min cho toán tử T-
norni nhờ vảo kết quả thử nghiệm. Phần cuối của chương là đề xuất c ủ a chúng tôi
vê cách chuyển dổi luật kết hợp mò' về dạng luật kết hợp với thuộc tính so dựa vào
imưỡim Wf tirona ứng với các tập mờ í của lừng thuộc tính mờ.
Clurơnạ 4 tập trung vào bài toán "khai phá song song luật kết hợp". Phần dầu
cua chươim này. luận văn tóm lăt các thuật toán đã được một số tác già dề xuất và
thu nuhiệm thành cône. Các thuật toán này giong nhau ớ mộl điếm là phái dồng hộ
hóa chì nhiêu hay ít iroim suôt quá trình tính toán và đây chính là nhược diêm cần
khắc phục. Năm bat được tính chất của luật két hợp mờ, luận văn dã dề xuất một
thuật toán mới theo dó các bộ xử lý (BXL) trong hệ thống song song hạn chế được
lôi lia quá trình trao đổi dữ liệu và đồng hộ hóa. Thuật toán khai phá song song
luậi kèt hợp mờ này được xem là Rần lý tưởng bởi ngoài việc tránh được nhược
diêm truyên thông, nó còn dạt được sự cân bane tải giữa các BXL nhờ mộl chiến
thuật chia tập thuộc tính írne cử viên phù hợp.
Phàn kê! luận tona, kêt nội dung luận văn băng việc nêu lại những công việc
dã tlìực hiện và kôt quả đạt được của luận văn nảy. Ngoài ra, một so vail dề chưa
dược ui ái quyềt hoặc chưa đuợc íỊÌài quyết thấu đáo trong toàn luận vãn cũng như
eônu việc và hướne nahiên cứu trong tương lai cũng được bàn luận.
9
C hu’O’ng 1. Tổng quan về khai phá d ữ liệu
1.1 Khai phá dữ liệu
1.1.1 Mục tiêu của khai phá dũ’ liệu
I Ion hai thập niên trở lại đây, lượng thông tin được lưu trữ trên các thiết bị
điện lử (dĩa cửne. CD-ROM, băng từ, .v.v.) không ngừng tăng lên. Sụ' tích lũy dữ
liệu này xàv ra với một tốc độ bùng nổ. Người ta ước đoán rang, krợne, thônẹ tin
trên loàn cầu tăng cấp đôi sau khoảng hai năm và theo đó số lượng cũng như kích
cỡ cua các CSDL cũna lăn« lên một cách nhanh chóne [3].
/

/
Lượng '
dữ liêu
1970 1980 1990 2000
Hình I - Lirọĩig (lũ liệu (luọc tích lũy tíìng mạnh llico thòi ỊỊÌan
Tronc, lĩnh vực kinh doanh, những nhà quản lý quả thực đang “ngập" trong tlữ
liệu. Illume lại cám thấy “đór tri thức và thông tin hữu ích. Lượng dữ liệu khống
lồ này thực sự là một nguồn “tài nguyên’' rất giá trị bởi thông tin là yêu tố then
chốt tro nu mọi hoạt động; thương mại vì thông tin giúp những II
2
. ười điêu hành và
t;uản lý có một cái nhìn sâu sac, chính xác. khách quan vào tiến trình kinh doanh
Irưór khi ra quyết dịnh. KPDL - khai thác những thông tin tiềm ấn mang tính dự
cioán UÏ nhữna, CSDL lớn - là một hướng tiếp cận mới với khả năng giúp các don
v ị. tò chức chú trọng vào những thông tin có nhiêu V nghĩa từ những tập hợp dữ
liệu lớn (databases, data warehouses, data repositories) mang tính lịch sử. Những
côn ũ cụ KPDL có thể dự đoán nhữne XII hướng trong tưong lai và do dó cho phép
các lò chức, doanh nũlìiệp ra nhĩnm quyết định kịp thời được định hướng hởi tri
thức mà KPDL đem lại. Sự phân tích dữ liệu một cách tự dộnc và mang tính dự
háo cua KPDL có ưu thể hơn hẳn so với sự phân tích thông thường dựa trên những
sự kiện irons quá khứ của các hệ hồ trợ ra quyết định (decision support systems -
DSSs) truyền thốnẹ trước đây.
C ô n g
cụ KPDL
CÜI
12
,
có thể
trả lời
những câu hỏi

tron lì lình vực kinh doanh mà trước đây được xem là tốn nhiều thời gian dê xử lý.
10
Vói tắt cá những ưu thế trên, KPĐL đã chứng tỏ được tính hữu dụng của nó trong
môi tnrờnu kinh doanh đầy tinh cạnh tranh ngày nay. Giờ đây. KPDL đã và đang
irơ thành một trong những hướng nghiên cửu chính cùa lĩnh vực khoa học máy
tính và công nehệ tri thức. Phạm vi ứng dụng han dầu của KPDL chỉ là trong lĩnh
vực tluronạ mại (hán lẻ) và tài chính (thị trường chứng khoán). Nhưng ngày nay,
KIM)!. tlã được ứim dụne rộne rãi trong các lĩnh vực khác như tin-sinh (bio-
iníormatics). điều trị V học (medical treatment), viễn thông (telecommunication),
ui áo dục (education), .v.v.
1.1.2 Định nghĩa khai phá dữ liệu
Vói nhừne nội dung đã được trình bày ỏ' trên, chúng ta có thê hiểu một cách
SO' luọc rã nu KPDL là quá trình tìm kiếm những thông tin (tri thức) hữu ích, liềm
ân và mane tính dự báo (rong các tập dữ liệu lớn. Nhu vậy, nên chăng gọi quá
trình này là khám phá tri thức (KDD) thay vì là KPDL. Tuy nhiên một sô nhà khoa
hoc đònu V với nhau rãnẹ hai thuật ngữ trên là tương đương và có thế thay thê cho
nhau. I lọ lv eiài răng, muc đích chính cua quá trình khám phá tri thức là (hông tin
và tri thức có ich. nhưng đôi tượng mà chúng ta phải xứ lý rất nhiêu trone snôt quá
trình đó lại chính là dừ liệu Măt khác, khi chia các bước trong quá trình khám phá
tri thức, nhiều nhà khoa hoe khác lại cho rang. KPDỈ chỉ là một bước (rong quá
trình KI)I) 13] 143Ị Như vậy, khi xét ờ mức không thật chi tiết thì hai thuật ngữ
này đưọv xem là dồng nghĩa, nhung khi xét cụ thế thi KPDL lại là một hước trong
quá U'inli KP!)
Del sự phát triển nhanh, sự giao thoa của nhiêu lĩnh vực nên tôn tại một sô
(.lịnh nuhĩa VC KPDL, các định nghĩa này đêu là những định nghĩa mang tính mô
ta. l ôi xin trích một vài định nẹhĩa ờ nguyên bản tiếng Anh nhăm chuyên tái được
y nmivên V cùa các tác RÌả và tránh được những sai sót chủ quan:
Dịnh imhĩa l. William .I Frawley, Gregory Piatetsky-Shapiro, và Christopher .I
Matheus 1991 [43]:
"Knowledge discovery in databases, also known Delia mining, is the non

trivial process o f identifying valid, novel, potentially useful, and tillimalely
understandable patterns in data "
Dịnli nghĩa 2. Marcel Hoỉshemier và Arno Siebes ( 1994):
“ Dala Milling is the search for relationships and global patterns I hot exist in
large databases bill (ire 'hidden ' among the vast amount of dala, such CIS a
relationship between patient data and their medical diagnosis. These
relationships represent valuable knowledge about the database and the objects in
the database and, if the database is a faith ful mirror, o f the real world registered
by the database. "
1.1.3. Các bu’ó ’c chính trong khám phá tri thứ c (KDD)
Người ta thường chia quá trinh khám phá tri thức thành các bước sail Ị3| 1141
[23]:
Trích chọn (lữ liệu (dala selection)', là bước trích chọn những tập dữ liệu cần
dược khai phá từ các tập dữ liệu lớn (databases, data warehouses, data
repositories) ban dầu theo một so tiêu chí nhất định nhằm phục vụ mục đích khai
phá u i thức.
Tien xử lý dữ liệu (cìata preprocessing)’, là hước làm sạch dữ liệu (xứ lý với dữ
liệu không dày đủ. dữ liệu nhiều, dữ liệu không nhất quán, .V.V.). rút gọn dữ liệu
(su ilụnu hàm nhóm và tính tổng, các phương pháp thu gọn dữ liệu, SU' dụng
histograms, lây mầu, .V.V.), rời rạc hóa dữ liệu (rời rạc hóa dựa vào histograms,
dira vào entropy, dira vào phân khoảng, .V.V.). Sau hước này. dữ liệu sẽ nhất quán,
dây (lú. dược rút uọn. và được rời rạc hóa.
Ịĩiên đòi (lù liệu (data transformation): dây là bước cluiân hóa và làm mill dữ
liệu (lê dua dữ liệu vê dạna thuận lợi Illicit nhăm phục vụ cho các kỹ thuậi khai phá
ó' bước sau.
KPDL (data milling): dày là bước áp dụng những kỹ thuậl khai phá (phân
nhiêu là các kỹ thuật cùa machine learning) để khai phá. trích chọn clưực những
mẫu (patterns) thôna tin, những mối liên hệ (relationships) đặc biệt trong (lừ liệu.
Dây dược xem là bước quan trọng; và tốn nhiều thời gian nhất của toàn quá trình
KDD.

Biêu diên vò đánh ẹiá tri thức (knowledge representation & évaluai ion):
những mail thông tin và môi liên hệ trong dữ liệu đã được khai phá ỏ' hước trên
dược chuyển dạng và biêu diễn ỏ' một dạng gân gũi với người sử dụng như dỗ thị,
cày, bá ne biểu. luật. .v.v. Đồng thời bước này cũng đánh giá những tri thức khám
phá dược theo những tiêu chí nhất định.
11
12
selection
selected
data
& evaluation
data
11 ill h 2 - Các biróc (rong quá trinh khám phá tri thức (K D D )
1.2 Hu’ó’ng tiếp cận và kỹ thuật áp dụng trong Khai phá dữ liệu
1.2.1 Hu’ó’ng tiếp cận và kỹ thuật chính trong khai phá dữ liệu
Các hướng tiêp cận của KPDL có thể được phân chia theo chức năng hay lớp
các bài toán khác nhau. Sau dây là một sổ hướng tiếp cận chính ị 14].
Phân lớp và dư đoán (classification & prediction): xêp một đôi tượng vào một
tronu nhữne lớp dã hiết trirớc. Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết.
I Iirớng ticp cận nay thường sư dụng một số kỹ thuật của machine learning như cây
quyết (lịnh (decision tree), mạng nơ ron nhân tạo (neural network), .v.v. Phân lớp
còn dược gọi là học cỏ giám sát (học có thầy - supervised learning).
Luật kết hợp (association rules): là dạng luật biêu diễn tri thử ở dạng khá đơn
lỊÌỉin. Ví dụ: “60 % nam giới vào siêu tili nếu mua bia thì có tới 80% trong so họ sẽ
mua thèm thịt bò khô". Luật kêt hợp được ứng dụiiG, nhiều trong lĩnh vực kính
doanh, y học. tin-sinh. lài chính & thị trường chíme; khoán, .v.v.
Khai phá chuôi tlieo thời gian (sequential/temporal patterns): lirons, tự như
khai phá luật kêl hợp nhưng có thêm lính thứ tự và tính thời gian. Hướng liêp cận
này (lưọv íme. đụng, nhiêu troné lĩnh vực tài chính và thị trường chứng khoán vi nó
có lính dự báo cao.

Phân cụm (clusterinẹ/seẹmentation): săp xếp các đôi tượng theo từng cụm (sô
lượng eu lì Li như ten cita cụm chưa được biết trước. Phân cụm còn được uọi là học
<- c • • T c • •
khònu uiám sát (học khôna có thầy - unsuperviseđ learning).
Mỏ là khái niệm (concept description & summarization): thiên vê mô (ả. tông
hợp và tóm lát khái niệm. Ví dụ: tóm tắt văn bản.
1.2.2 Các dạng dữ liệu có thể khai phá
Do KPí)L dược írne, dụne, rộng rãi nên có rất nhiều kiêu dữ liệu khác nhau
clirọc chấp nhận trous khai phá dữ liệu 114Ị. Sau đây là một sổ kiểu dữ liệu điển
hình.
( 'SDL quan hệ (relational databases)', là các cơ sở dừ liệu tác nghiệp dược tổ
chức theo mô hình dữ liệu quan hệ. Mầu hết các hệ quản trị CSDL đều hồ trợ dạng
CSDI. này như Oracle, IBM DB2, MS SQL Server. MS Access, .v.v.
CSDL đa chiêu (multidimensional structures, data warehouses, data mart)-, là
các kho dừ liệu được tập hợp. chọn lọc từ nhiều nguồn dữ liệu khác nhau. Dạng dữ
liệu này có mane tính lịch sử (có thuộc tính thời gian) và chu yếu là phục vụ cho
qtiii trinh phân tích cĩine như là khai phá tri thức nhằm hỗ trợ quá trình ra quyết
ilịnh.
CSDL (iợnẹ giao dịch (transactional databases): đây cũng là một dạng CSDI.
tác nạhiệp. Illume, các han uhi timons là các giao dịch. Dạng dữ liệu này phô biến
Iron tỉ lĩnh vực thương mại và ngân hàng.
CSDL quan hệ - hưởng đối tưọnẹ (object-relational databases): là dạng cơ sở
dữ liệu lai giữa hai mô hình quan hệ và hướng đối tượng.
Dữ liệu không çian và thời gian (spatial, temporal, and time-series dala): là
dạng dữ liệu cỏ tích hợp thuộc tính về không gian (ví dụ, dữ liệu bản đồ) hoặc thòi
íiian (ví dụ. dữ liệu về thị trường chứng khoán).
CSDL đa phương tiện (multimedia databases)’, dừ liệu âm thanh (audio), hình
ánh (image), phim ảnh (video). Text & WWW. .v.v. Dạne dữ liệu này hiện dang
rât phô hiên trên Internet do sự ứng dụnii rộng rãi của nó.
1.3 ứng dụng của Khai phá dữ liệu

1.3.1 ửng dụng của khai phá dữ liệu
KPDI tuy là một lĩnh vực mới nhưng thu hút được sự quan tâm cúa rất nhiều
nhà nchiôn cửu nhờ vào những ứng dụng thực tiễn của nó. Chúng ta có the liệt kê
14
ra dây một sò írnụ clima diên hình: (
1
) phân tích dữ liệu và hỗ trợ ra quyêt dịnli
(clítiíi analysis & decision support); (
2
) điều trị y học (medical treatment): môi liên
hệ giữa iriệu chứna, chân đoán và phương pháp điêu trị (chế độ dinh dưữnụ, thuốc
men. phân thuật. ): (3) text mining & Web mining: phân lớp văn hán và các
tranti web. tóm tăt văn hàn. .V.Y.; (4) tin-sinh (bio-informatics): tìm kiếm, dôi sánh
các hệ uene và tliỏna tin di truyền, mối liên hệ giữa một số hệ sene và một số bệnh
di trnyèn. .V.V.: (5) lài chính và thị trường chíme khoán (finance & stock market):
phân tích tình hình tài chính và dự báo giá của các loại cổ phiếu trong thị trường
chíme khoán. .V.V.; (
6
) bảo hiểm (insurance); .v.v.
1.3.2 Phân loại các hệ thống khai phá dũ’ liệu
KPDl. là một lĩnh vực thuộc cône. nghệ tri thức liên quan den nhiêu lĩnh vực
Iiehicn cứu khác nhau như CSDL, kỳ thuật máy học, giải thuật, trực quan hóa.
.v.v. Chima. ta có thê phàn loại các hệ ihong KPDL dựa trên các liêu chí khác
nhau,
Phân loại dựa trẽn kiêu chĩ liệu cítrơc khai phá: CSDL quan hệ, kho dữ liệu,
CSDỈ eiao clịcli. CSDI, lụrớng đối tưọTie,, CSDL không gian. CSDL cla phuơng
tiện. CSDI. text và W W W . .v.v.
¡'hàn loại dựa trôn dạng tri thức được khám phá: tóm tăt và mô tá. luật kêl
họp. phân lóp. phân cụm. khai phá chuôi, .v.v.
/'hân loại dựa trẽn kỹ thuật được áp dụnẹ: phân tích trực tuyến (OnUne

Analytical Processing - OLAP), học máy (cây quyết định, mạng nơ ron nhân tạo,
k-inin. o jai thuật di truyền, máy vectơ hỗ trợ - SVM. tập thô, tập mờ. .V.V.). trực
quan liúa. .v.v.
Phân loại dựa trên lĩnh vực cỉirọc áp dụng: kinh doanh bán lè. viền thông, lin-
sinh. V hoc. lái chính & thị trườne chứne khoán, web mining, .v.v.
1.4 N hững vấn đề dü’O’c chú trọng trong Khai phá dữ liệu
K.PDL là một lĩnh vực mới, do dó có rất nhiêu vân đê còn claim troim liên trình
nslìicn cửu. Sau đây là một số huớna; nghiên cứu đã và đang thu hút đirọc sự chú ý
của các nhà tin học.
15
( 1 ) ( )I.AM (Onl ine Analytical Mining) - Sir tich hop gifra CSDL, kho dir liçu,
và KPDL. I lien nay mot sô lie quán trj CSDL nhir Oracle, MS SQL Server, DB2
ilà tich hop linh nâng xây dung kho dir lieu và phân tich truc luyen (OLAP).
NhCmg tính nâng này dirge hô tig dirai dang nhîïng công cu di kèm và ngircri dùng
pliai Irá tien thêm nêu cân sir dung nhfrng tinli nâng do. Nhirng nhà nghiên ciru
Irong lïnli vire CSDL không nmôn dùng lai à do mà ho muôn cô mot sir tich hgp
giùa CSDI klio du liçu và KPDL [14], (2) Khâm phâ dirge nhiêu dang tri t h ire
kliae nhait tir nhiêu kièu dir lieu [14] 17]. (3) Tinh liiêu qua, tính chính xâe, dô
phirc tap tinh toân, khâ nâng mà rông và tich hgp. xir lÿ nhiêu và dû' lieu không
dây dii, tinh luru dung (ÿ nghïa) cùa tri thirc [14). (4) Kêt hgp KPDL vôi tri t h ire
co' so' (background knowledge) [1] [7]. (5) Vân dê song song hóa và phân t an quâ
trinh KI’DI. |5] [
8
] [12] [18] [26] [31] [32] [34] [42], (
6
) Ngôn ngfr truy vân trong
KPDL (Data Mining Query Language - DMQL): cung câp clio nguôi sir dung mot
ngôn ngir hôi thnât tien tirong tu nliir SQL dôi vôi CSDL quan hç [ I4|. (7) Biêu
iliên và irire quan hóa tri thirc khai phâ dirge sao cho gân gui vôi nguôi sir dung
(human-readable expression). Tri thirc cô the biêu dien da chicu, da tâng dê nguôi

dùng sir dung tri thirc liiêu quâ lion [ 14|.
Nôi dung cùa luân vân này lien quan chii yêu dên bai luràng ehinli là khai phâ
luàt kêt hop mô' và thliât toân song song cho luât kêt hgp mà.
C hü’O’ng 2. Luật kết h ọ p
2.1 Ý nghĩa của luật kết họp
I.uật két hợp là nhừne luật có dạng “70% khách hàng mua bia thì mua (liêm
lliịi hò khô, 20% giao cỉịch có mua cả bia lẫn thịt bò khô” hoặc “75% bệnh nhân
L. • . . .
In'll thuoc lá và sônẹ ven vùng ỏ nhiêm thì bị unọ, thu phoi, trong đó 25% sô bệnh
nhân vừa In'll rhiiòc lá. .SÙIÌÍỊ ven vùng ỏ nhiêm vừa ung thu phôi" [36ị. "mua bid"
hay " h ú i thuốc lá và song ven vùng ỏ nhiễm" ở đây dirợc xem là vế trái (tiền đề -
antecedent) cua luật, còn "mua thịt hò khỏ" hay "nng thư p h ô i' là vế phái (kết luận
- consequent) của luật. Những con sổ 20% hay 25% là đ ộ hỗ trợ của luật (support -
sò phân trăm các ũiao dịch chứa cả vế trái lẫn vế phải), còn 70% hay 75% là độ tin
cậy C'lia luật (confidence - sò phân trăm các siao dịch thỏa màn vế trái ill! cũng
lliòa mãn vê phải).
Trong sổ
các giao
dịch mua
bit 1 thi có
tới 70%
giao dịch
mua thêm cà
thịt bò kJìô
Hình 3 - Minh họa về luật kết họp
Clnìim ta nhận thây răim tri thức đem lại bởi những luật kêt hợp ỏ' dạng trên cỏ
một sự khác biệt cơ bàn so với thông tin thu được từ các câu lệnh truy vấn dữ liệu
tlniòim thuờne (neôn ngữ SQL chang hạn). Đó thường là nhữne tri thức, những
mỏi liên hệ chua tluợc biết trirớc và mang tính dự báo đang tiềm ân trone dữ liệu.
Nhừne tri thức này khôna don aiản chỉ là kết quả của các phép nhóm, tính tổng

lia) săp xèp mà là kêt quả cùa một quá trinh tính toán khá phức tạp và tôn nhiêu
thòi aian.
'
1
'uy luật kết hợp là dạng luật khá dơn giản nhưne; lại mang rất nhiều ý nghĩa.
Miône till mà dạna luật này đem lại lả rât đáng kê và hô trợ không nhó iroim quá
trình ra quyel định. Tìm kiếm dược nhữne, luật kết hợp "quý hiếm" và mang nhiều
tliònu lin lù CvSDỈ. lác nghiệp là một trong nhừns, hướng tiếp cận chính của lĩnh
\ sô giao dịch
( (
I \
- Ị * m ua bia
tt 20% sồ giao
sô giao dịch
m ua tint bò khõ
dich m ua cả
hai m ặt hàng
vực KIMM, và dày chính là một động lực không nhỏ thúc đẩy việc tập trung nghiên
cửu cùa nhiều nhà tin học.
2.2 Phát biểu bài toán khai phá luật kết họp
(.'ho ỉ = ! i|. i?

i„J là lập mục bao gồm n mục (item - còn dược gọi là thuộc
tính ' Mlribute). T = {t[, t
2

tm} là tập gồm m giao dịch (transaction - còn dược
gọi là bàn chi - record), mỗi giao dịch được định danh bởi TID (Transaction
IOcntỉílcation). Cho 5 là một quan hệ nhị phân trên I và T (hay ô c IxT). Neu
mục i xuâl hiện trone. uiao dịch t thì ta viết (i. t) e s (hoặc iô(). Một CSDI. D, vê

mặt hình thức, chính là một quan hệ nhị phân 5 như trên, về ý nghĩa, một CSDL là
một lập các uiao dịch, mồi uiao dịch t là một tập mục: t e
2 1
(với
2 1
là tập các tập
con cua I) [24] [36],
Sau dày là một ví dụ về CSDL (dạng giao dich): 1 = (A. c, D, T. WỊ, T = í I.
2. 3. 4.
5
.
6
Ị với thông tin về các giao dịch cho ở bảng sau:
Dịnlì diình giao
dich (Tỉ 1))
Tập mục
(itemset)
1
AC T w
9
c D w
A c T w
4
A c D w
5
A c D T w
6 c D T
lỉiing I - Ví (lụ về một CSDL (lạng giao (lịch
X c I dược eọi là tập mục (itemset). Độ hỗ trợ (support) của một lập mục X
dược ký hiện ,v(X) - hì phần trăm số uiao dịch Irone CSDL chứa X. MỘI tập mục

X dược aọi là tập pho biến nếu độ hỗ trợ của nỏ lớn hơn hoặc bàng một ngưỡng
minsitp nào dó được xác định bời người sử dụng: ,v(X) > ininsup [36].
Bàns. sau đây sẽ liệt kc lat cá những tập mục phổ biến (íYcqiicnt-itcmsct) trong
CSDI. chi) ở bane 1 với aiá trị minsup băna 50%.
Ciíc tập mục phô hiền
Độ hỗ trọ tu ong iriij»
c
100% (6)
w , c w
83% (5)
A, D. T, AC, A w , CD, CT, ACW
67% (4)
A r, D W , TW . ACT, ATW . C DW , C TW , A C TW
50% (3)
lỉ;ÍMị> 2 - Các lập phô biến trong CSDL ỏ bảng I vói độ hỗ trọ tối thiêu là 50%
[ Ho \I-IQ !Ậ C )C ị
18
I nạt kèt hợp cỏ dạn ạ -V—1—-> ) . troné, dó X và Y là các tập mục thoa mãn
dieu kiện X n V = 0, còn c là độ tin cậy (confidence) của luật, c - ,v(XuY) / ,v(X).
Vè mặl xác suât, cl ộ tin cậy c của một luật là xác suất (có điều kiện) xày ra Y với
diêu kiện dã xây ra X. Một luật được xem là tin cậy nêu độ tin cậy c của nỏ lớn
hơn hoặc băn
2
, một imưỡim minconf nào dó do người dùng xác định: c > mincnnf
|36|.
Hài toán khai phá luật kết hợp (ở dạng đơn giản nhất) đặt ra như sau:
Clìo một CSDL D. độ hỗ trợ tối thiểu minsnp, độ tin cậy tối thiểu minconf.
Nãy tìm kiếm tất cà các luật kết hợp có dạnẹ X -» Y thỏa mãn độ hỗ trợ \(XuY)
> iniii.sn/) và độ tin cậy cua luật c( X —>}') = í(XuY) / s(X) > minconf.
I lâu liêt các thuật toán dược dê xuất để khai phá luật kết hợp thường chia hài

toán này ihành hai pha |4 |[5][20]|24Ị [34] [35]:
Pha
1
: Tim tắt cà các tập mục phổ biển từ CSDI, tức là tìm tất cả các tập mục
X thoa màn .v(X) > minsup. Dâv là pha tốn khá nhiều thời gian của CPU (CPIJ-
bouiKỈ) và thời gian vào ra ô đĩa (I/O-bound).
Pha 2: Sinh các luậl tin cậy từ các tập phổ bien đã tìm thấy ở pha thứ nhất. Pha
này moni! dối don giản và tốn kém ít thời gian so vói pha trên. Neu X là một tập
phò hicn thì luật kêt hop dược sinh lừ X có dạng X '——>.v\ X ', với X’ là tập con
khác rồng cua X. X \ X’ là hiệu cua hai tập hợp. và c là dộ tin cậy CIU
1
luật thỏa
mãn (' > minconf.
Ví dụ. với tập pho bien ACW có độ tin cậy 67% ở hảng 2 và m inconf- 70%
thì chúiiíi ta có thê sinh các luật kêl hợp sau đây:
Luật kết họp
Thỏa mãn tninconf> 70%?
Á "

> c w

c ul°" -> AIV
Không
117- —-" ->AC

A C - I V

, i i r - - w" ~ > c

( ' " > AIV


Báng 3 - Luật kết họp sinh tù tập phố biến ACVV
19
K.C lừ khi d ư ợ c R. A e ra w a l đề x uất v à o n ă m 1993 [3 6 J, lĩnh v ự c k hai p h á luật
kết h ợ p (lêu n ay d ã d ư ợ c n g h iên c ứ u và p h á t triển th e o n h iề u h ư ớ n g kh ác n h au , c ỏ
n h ữ n íi đỏ x uấ t n h ầ m v à o cải liến tốc đ ộ th uậ t to á n, c ó n h ữ n g đ ề x u ất n h ầ m lìm
k iếm luật có ý neliĩa h ơ n. v.v. S a u dày là m ộ t sổ h ư ớ n g ch ính .
I .uột k ết h ợ p nhị p h â n (b ina r y a s s oc ia tio n rule h o ặc b o o lea n as s oc ia tio n rule):
là luió'im n ch iên c ứ u dầ u tiên củ a luật kết h ợ p . M ầu h ết c á c n g h iê n cứ u ỏ’ th ờ i kỳ
d ầu vê luật kết h ợ p đ ề u liên q u a n đ ến luật k ế t h ợ p nhị p h â n [20] [35] [36]. T r o n g
đ ạn « luật kết h ợ p n ày, c ác m ụ c (th u ộ c tính) ch ỉ đ ư ợ c q u a n tâm là có hay k h ô n g
x u ất h iệ n tr o n g g ia o d ịc h c ù a C S D L c h ứ k h ô n g q u a n tâ m v ề “ m ứ c đ ộ ” x uấ t hiện.
C ó n g h ĩa lá v iệc m u a 2 0 chai b ia và ] c h ai b ia đ ư ợ c x e m là g iố n g nh au T h u ật to án
lieu b ien nhắt k h ai ph á d ạ n e luật n à y là th uật toá n A p rio ri v à c ác bien the c u a nó
Ị3 5 1. D â v là (.lana, luật d o n e iàn v à n h ư sau n ày ta h iêt các d ạ n g luật kh á c c ũ n g có
thê c h u y ê n v ề d ạ n u luật này b ă n ẹ m ộ t số p h ư ơ n g p h á p n h ư rời rạc hó a , m ờ h ó a,
.v.v. M ộ t ví d ụ về d ạ n g luật này: "Mua bánh mì - 'yes ■ A N D mua đtrờnẹ= [ves ’
Dì lia sữa = ‘ye: V ’ AND mua bơ = ‘yes v ới đ ộ h ỗ trợ 2 0 % v à đ ộ tin c ậ y 8 0 % "
I liât kết h ợ p có thu ộ c lính s ố v à th u ộ c tính h ạ n g m ụ c (q u a n t itativ e a nd
c ate g o rica l a sso ciatio n rule): c á c th u ộ c tín h c ủ a cá c C S D L thự c tế c ó k iêu rât d a
(lạng ( n h ị p h ân - b inary, số - q ua n titativ e, h ạ n g m ụ c - ca te go ric a l, .V .V . ) . D e p h át
h iệ n luật kct h ọ p vói c á c th u ộ c tính n à y , cá c n h à n g h iê n c ử u d ã d ề xuãl m ộ t so
plnroníĩ. p h á p rời rạc h óa n h ầ m c h u y ề n d ạ n g luật n à y về d ạ n g nhị p h â n đố có thế áp
ilụ n a c á c th u ậ t toán đ ã c ó [34] [39]. M ộ t ví d ụ v ề clạng luật này: "G iới linh z
‘Ntìin ’ AND Tuổi e '50 65 ’ AND Cân nặng e '60 80 ’ AND Lirợng đtrờnẹ IroníỊ
mán - I20i)iơ/d/ -> Huye! áp = 'Cao v ớ i đ ộ h ỗ trợ 3 0 % , tlộ tin c ậ y 6 5 % " .
l.uộl kết Imp mờ (fuzzy association rule): với những hạn chê còn gặp phải
tron« C]ịiia trình rời rạc hóa các thuộc tính so (quantitative attributes), các nhà
naliicn cửu dã đề xuất luật kết hợp mờ nhằm kliăc phục những hạn chê
trên


chuyên luật kết hợp về một dạne tự
nhiên
hơn, gần gũi hơn với người sứ (lụnlì Ị4Ị
Ị91. MỘI ví dụ vè dạng luật nàv:
"~Ho khan
=
‘yes'
AND
sốt cao
AND
đan cơ -

'ves
’ AND
khó thớ - ‘yes '
=>
BỊ nhiễm SARS
=
'yes
với độ hỗ trợ 4% và dộ tin
cậy 85%". Trong luật trên, dieu kiện soi cao ờ vế trái của luật là một thuộc tính đã
dược
111
ờ hỏa.
2.3 Những hu’ó'ng tiếp cận chính trong khai phá luật kết họp
20
I uậi kèi hợp nhiều mức (multi-level association rules): ngoài các dạng luật
tren. ci\c nhà nghiên cửu còn đề xuât một hướng nghiên cứu nữa về luật kết hợp là
luâl hẻ! hợp nhiều mức [15] 137J. Vói cách liếp cận này. người ta sẽ tìm kiếm thêm

nhùng luật có tlạnạ "Mua máy tính PC => Mua hệ điểu hành AND mua phân mềm
tiện í:h văn phòng. " thay vì chì những luật quá cụ thể như “ Mua máy tính IBM
PC => Mua hệ điều hành Microsoft Windows AND mua Microsoft Office, Rõ
rana, chino, luật dâu là dạng luật tổng quát hóa của dạng luật sau và tổng quát hóa
cìino có nhicu mức khác nhau.
i IUU kết hợp với thuộc tính dược đánh trọng so (association rule with
weighted items): troné tlụrc te. các thuộc tính trong CSDL không phải có vai trò
ngaim bans nhau. Có một số thuộc tính được chú trọng và lúc dó ta nói những
tluiộc lính đó có mức độ quan trọng cao hơn các thuộc tính khác. Ví dụ, khi khảo
sát vi kha nănu lây nhiễm hội chứnạ SAKS, thông tin về thân nhiệt, đườnẹ hô hap
rò rà ne, là quan trọnẹ hơn rât nhiêu so với thông tin vê ĩuôi tác. Trong quá trình
tìm kicm luậi. chíme, ta sẽ gán cho các thuộc tính thân nhiệt, đường hô hấp các
trọimsò lớn hơn so vói trọng số của thuộc tính íuôi tác. Đây là một hướng nghiên
cửu r.ìt thú vị và dã dược một sô nhà nghiên cửu đề xuất cách giái quyết bài toán
này I ó Ị I 101 1441. Với luật kết hợp có thuộc tính đưọc đánh trọng số, chímg ta sẽ
khai phá đirực những luật mang rât nhiều ý nghĩa, thậm chí là những luật “hiêni'
(lức có độ hồ trợ tliâp. nhưng mang một V nghĩa đặc biệt).
Bèn canil những nghiên cứu về những hiến thể cua luật kết hợp. các nhã
Iiũhiẽn cứu còn chú trong đê xuât những thuật toán nhăm tăng tốc quá trình tìm
kiêm tập pho hiến từ CSDL. Người ta chứng minh rằng, chí cần tỉm kiếm những
lập phô biên lối đại (maximal frequent itemsets) là đủ đại diện cho tập tất cả các
lập phò hiên 11 11 (Ihuậl toán MAFIA), hoặc chỉ cần tìm lập các tập pilo bien đỏng
(closcd itemsset) là chì như 113] (thuật toán CLOSET), [24] (thuật toán CIIARM),
130
1
. Những thuật toán này cải thiện đá ne kể về mặt tốc độ do áp dụng được
nhừiự chiến lược cat tỉa “tinh xảo" hơn các thuật toán tnrớc đó.
Khai phá luật kết hợp song song (parallel mining of association rules): bên
cạnh <hui phá luật kết họp với các giải thuật tuần lự, các nhà làm Ún học cũng tập
irunụ vào niìhiên cửu các giải thuật song song cho quá trình phát hiện luật kết hợp.

Nhu câu SOI
1
U sone hóa và xử lý phân tán là cần thiết bởi kích thước dữ liệu ngày
21
cà nu lỏn nên đòi hỏi tốc độ xử lý cũn
2
, như dung lượng hộ nhớ của hộ thông phái
dược cỉãm bào. Có rất nhiều thuật toán song song khác nhau đã được đê xuât [51
[12] 118Ị [261 [311 [32] 134]. chúng có thể phụ thuộc hoặc độc lập với nền tảng
phân CÚT
1
ạ.
I nậi kcl họp liếp cận theo hướníi tập thô (mininạ association rules based on
rouuli set): tìm kiếm luật kết hợp dựa trên lý thuyết lập thô [41].
Nuoài ra. còn một sô lurớng nehiên cứu khác vê khai phá luật kêt hợp như:
khai phá luật kết hợp trực luyến [33], khai phá luật kết hợp được kết nổi trực tuyến
đốn các kho dữ liệu da chiều (multidimensional data, data warehouse) thông qua
còn
<2
imhệ OLAP (Online Analysis Processing). MOLAP (Multidimensional
OI.AI’). KOI.AP (Relational OLAP), ADO (ActiveX Data Object) for OI.AI’ .v.v.
22
Chưcyng 3. Khai phá luật kết h ọ p m ờ
3.1 Luật kết h ọ p có thuộc tính số
3.1.1 Luật kết họp có thuộc tính số
Khai phá luật két họp v ói ihu ộc lính số v à th u ộ c tính h ạ n g m ụ c (q ua ntita tive
and c ate g o ric al a sso cia tio n rule) là m ộ t Ir o n s n h ữ n g h ư ớ n g tiếp c ậ n q u an trọ n g
Iron a lình v ụ c kha i p h á luật k ết h ợ p (đ ã đ ư ợ c đề cập ở m ụ c 2.3). D ạ n g luật nảy
tili ITC đè x uấ t n R h iên c ử u lẩn đ â u tiên tro n g [38],
H ;um d ữ liệu sau đày m in h h ọ a m ộ t C S D L b a o g ồ m cá c th uộ c tính nhị p h ân

(binary), th u ộ c tính so (q uan tita tiv e), v à thu ộ c tính h ạ n g m ụ c (categ o ric a l).
Tiiôi
Giói
tinh
Dạng da 11
ngực
(1 ,2, 3, 4)
Luọng
cholesterol
(mg/ml)
Luçmg đường
(ro 11 g 111 ả II
(>120mg/ml)
Điện tâm đô
trạng thái
nghi (0, 1, 2)
Nhịp
tim c ụ c
đại
Bị bệnh
tim (có,
k h ô n g )
60
v ị
>4
52
68
>4
54
67

i (nữ )
4
206
0 (< l2 0 m g /m ỉ)
2
132
2(cỏ)
1 4 239
0
0
126
2
1
I 4
286
0
1
1 16

1
4
255
0
0
161
2
1
7
274 l(> I20m g/m l)
1

150
1
7 3
273
0
9
152
1 (k h ông)
0(n a m )
9
288 1
2
159
1
0
277
0 0
172 ỉ
46 0
1
204
0 0 172
1
52
1
1
201
0 0
158
1

40 1
4 167
0
2
1 14
9
M

3
250
0
0
187
1
71
0
0
320 0 0
162 1
74
0
1
269
0
2
121 1
2 9
1
1
204 0

1
2 0 2 ỉ
70
1
4
322
0
9
109
1
67
0
544
0
9
160
1
Billig 4 - C S D L Ivhám và clũm đoán bệnh tim mạch ciiii 17 bệnh nhãn
I roim CSDL trên. Thôi. LirợníỊ cholesterol IroníỊ máu. Nhịp lim cực đại là các
ihn ộc lính sô (quantitative). Dạnẹ đau nẹirc, Dạng điện lâm đồ trạng thái nghi là
các thuộc tinh hạnạ mục (categorical), cỏn các thuộc tính còn lai như Giới línlì, Bị
bệnh tìm. là các thuộc tính nhị phàn (binary hay boolean). Thực ra thuộc tính
nhị phàn CŨ
11
Í
2
là một trườne hợp đặc biệt của ihuộc tính hạng nụic. Với CSDL
này, chtmu ta có the rút ra một sô luật kêt hợp sau:
23
<Tuổi: 54 74> AND <Gió'i lính: Nữ> AND <ClioIcsterol: 200 300>

=> <lỉệnh lim: Có>. với độ hồ trợ 23.53% và độ tin cậy là 80%.
<Giói till li : Nam> AND <Điện tâm (lồ trạng thái Iiglií: 0> AND
<Liiọng đuòng trong máu < 120> => <Bệnh tim: Không>, với dộ lìỗ trợ
1
7.65% và độ tin cậy là 100%.
. V .Y .
I lướnu tiêp cận dược đề xuất Irons 134] nhầm tìm kiếm luật kết hợp claim nêu
trên bã na cách phàn khoảng miền eiá trị của các thuộc tính số và thuộc tính hạng
mục dê chuyên lất cá về thuộc tính nhị phân rồi sau đó áp tiling các thuật toán điển
hình [20Ị 124
1
[35Ị khi phá luật kết hợp nhị phân trước đây.
3.1.2 Các phu’O'ng pháp rò’i rạc hóa
('ác thuật toán khai phá luật kết hợp nhị phân [
2 0
] [24
1

1
35Ị ị36] chí có thể áp
dụng trên nluìng CSDỈ . quan hệ chỉ cỏ thuộc tính nhị phân hoặc CSDL dạng giao
(lịch như trone bau« I. Chúng khônR thế áp dụne trực tiếp với các CSDI. có thuộc
linh sô và tluiộc lính hạn o mục như trong CSDL ở hăng 4. Muốn thục hiện tluợc
dieu này. nu ười ta Ị 341 [39] phải tiến hành rời rạc hóa chì liệu cho các Ihuộc lính
sỏ dô chuyên cliLÌne vè thuộc tính nhị phân. Mặc dù các thuậl toán dược dê xuất
iron ụ ị 3 81 ị 391 có Ihể giải quyết trọn vẹn bài toán này, tuy vậy kết quá tìm dược
vần chua làm thỏa mãn những nhà nghiên cứu. vấn đề kỉiône phải ở thuật toán mà
là cách thức rời rạc hóa dữ liệu được áp dụng. Mục này sẽ trình bày một vài
phưoĩiu pháp ròi rạc hóa. đông thời đánh giá xem chíme, có những nhược tliêin gì.
Trtrònạ hợp 1: nếu A là thuộc tính số rời rạc (quantitative & discrete) hoặc là

thuộc tính hạns, mục (categorical) với miền giá trị hữu hạn dạn ti, ( VI. v
2

vkỊ và
k till bé (<
1 0 0
) thì ta sẽ biên dôi thuộc tính này thành k thuộc tính nhị phân thum
A VI- A Vị. a V|„. Giá trị của một bản ghi tại trường A_Vj bănụ Truc (Ycs
hoặc I ) nêu uiá trị của bản ehi đó tại thuộc tính A ban dâu băng V j, tronii các
Irưòne hợp còn lại ui á trị cua A V, sẽ là False (No hoặc 0). Thuộc tính Dạng đau
ngực và Dạng điện lâm dỏ trạnq thái nghi trono, bang 4 thuộc dạim này. I .úc dó
Dạiìiỉ đau ngực sẽ dược chuyên thành bôn thuộc tính nhị phân là Dạng đau
ngực ỉ . Dạng đau ngực 2. Dọng đau ngực_3, và Dạng đau n<ịirc 4.
24
Dạim đau ngục
( K 2, 3, 4)

Dạng đau
ngực 1
Dạng đau
ngục 2
Dạng đau
ngực 3
Dạng đau
111» ực 4
4 0
0 0 1
1
sau khi
1

0 0 0
)
ròi rạc
0 0 1
0
9
hóa
0
Ị 0 0
Biing 5 - Ròi rạc hóa thuộc tỉnh số ròi rạc lìũu hạn hoặc thuộc tính hạng mục
Tniờim hop 2: nếu A là thuộc lính số liên tục (quantitative & continuous) hoặc
A là tluiộc lính so rời rạc hay thuộc tính hạng mục với miền giá trị dạng {VI. v2,
Yp! (p lém) thì ta sẽ ánh xạ thành q thuộc tính nhị phân <A: start| end|>, <A:
slarb X'ntl
2
>

<A: .slart(| endq>. Giá trị của một bàn ghi tại trường <A:
startj cndj> sẽ bang True (Yes hoặc 1) nếu giá trị của bản ghi đó tại thuộc tính A
ban (lâu năm trong khoảng fstartj endj], ngược lại nó sẽ nhận uiá trị False (No
hoặc 0). Thuộc tính Tnói, Lượng cholesterol, và Nhịp tim cực đại trong CSDI ỏ'
bản a 4 là Illume thuộc tính dạng này. Ví dụ ta chia thuộc tính Cholesterol và Tu ói
c >- ; c? J S
ihành các tlniộc lính nhị phân ở hai bảng sau:
Lưọìiu
Cholesterol
544
206
286
322

<Choỉesterol:
<Cholesterol:
<Cholesteroỉ:
<Cholesteiol:
150 249>
250 349>
350 449>
4 50.549 >
0
0 0
1
1
0
0
0
0 1 0
0
0 1
0
0
Bỉing 6 - Ròi rạc hỏa thuộc tính số "Luọng cholesterol trong máu"
<Tuôi: l 29>
<Tuôi: 30 59 <Tuôi: 60 120
0
0
1
1
0
0
0 1 0

0
1
0
0
0
1
B iín g 7 - Ròi rạc hỏa tỉiuộc tính số “Tuối tá c "
pillions pháp rời rạc hóa trên gặp phải vấn đề “điểm biên gãy”
1
4
1

1
9
1
(sharp
boundary problem). Hình 4 dưới đày cho biêt phân bô độ hồ trợ của một thuộc
lính A nào dó có miền giá trị tù 1 đến 10. Nốu chủng la tiền hành rời rạc hóa thuộc
tính A thành 2 khoáne là Ị1 5Ị và Ị6 10Ị và với độ hỗ trợ cực tiểu là 41% thì
khoãim [
6
10] sẽ không thỏa mãn độ hỗ trợ tối thiểu (40% < mirtsup = 41%) mặc
dìi làn cận biên trái cua khoảne này có độ hỗ thỏa mãn lớn hơn Iiiin.su/). Ví dụ
14 71 có độ hỗ trự là 55%. [5
8
] có độ hỗ trợ là 45%. Như vậy phép phân khoáng
này tạo nên một ‘‘điểm biên
2
ãv’‘ giữa giá trị 5 và
6

và do dó với cách rời rạc này,

×