ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
TRỊNH THỊ ANH LOAN
KHAI PHÁ LUẬT KẾT HỢP MỜ
VÀ ỨNG DỤNG TRONG
CƠ SỞ DỮ LIỆU CƯỚC ĐIỆN THOẠI
Ngành : Công nghệ thông tin
Chuyên ngành : Hệ thống thông tin
Mã số : 60 48 05
LUẬN VĂN THẠC SỸ
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. ĐOÀN VĂN BAN
Hà Nội - 2010
1
MỤC LỤC
MỤC LỤC 1
BẢNG KÝ HIỆU CÁC TỪ VIẾT TẮT 4
DANH SÁCH HÌNH VẼ 5
DANH SÁCH BẢNG BIỂU 6
MỞ ĐẦU 7
CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 10
1.1. Khai phá d liu 10
1.1.1. Mc tiêu ca khai phá d liu 10
1.1.2. Khái nim khai phá d liu 12
1.1.3. Các bưc chính ca quá trình phát hin tri thc trong CSDL 13
1.1.4. Kin trúc mt h thng khai phá d liu 15
1.2. Hưng tip cn và k thut chính trong khai phá d liu 17
1.2.1. Hưng tip cn và k thut chính trong khai phá d liu 17
1.2.2. Kiu d liu trong khai phá d liu 18
1.2.3. Mt s phương pháp khai phá d liu 19
1.3. ng dng ca khai phá d liu 21
1.3.1. Ưu th ca khai phá d liu 21
1.3.2. ng dng ca KPDL 23
1.3.3. Phân loi các h thng khai phá d liu 23
1.3.4. Xu hưng trong khai phá d liu 24
1.4. Kt lun chương 1 25
CHƯƠNG II: LUẬT KẾT HỢP 27
2.1. Gii thiu 27
2.2. Phát biu bài toán khai phá lut kt hp 29
2.2.1. Lut kt hp 29
2.2.2. Phát biu bài toán khai phá lut kt hp 32
2
2.3. Lut kt hp nh phân 34
2.4. Lut kt hp có thuc tính s 36
2.4.1. Lut kt hp có thuc tính s 36
2.4.2. Các phương pháp ri rc hóa 38
2.5. Nhng hưng tip cn chính trong khai phá lut kt hp 40
2.6. Kt lun chương 2. 43
CHƯƠNG 3: KHAI PHÁ LUẬT KẾT HỢP MỜ 44
3.1. Tp m 44
3.1.1. Tp m 44
3.1.2. Khái nim tp m trong lĩnh vc khai phá d liu 44
3.2. Ri rc hoá thuc tính da vào tp m 45
3.3. Lut kt hp m 48
3.4. Mt s thut toán khai phá lut kt hp m 50
3.5. Thut toán khai phá lut kt hp m MFAMI 51
3.5.1. Gii thiu v thut toán 51
3.5.2. Mt s khái nim 52
3.5.3. Phát hin lut 53
3.6. Kt lun chương III. 61
CHƯƠNG 4: CÀI ĐẶT THUẬT TOÁN MFAMI 62
4.1. Gii thiu 62
4.1.1. Các d liu chính trong vin thông 62
4.1.2. Mt s ng dng khai phá d liu trong vin thông 63
4.2. Cài t thut toán MFAMI trên CSDL cưc in thoi 65
4.2.1. Ngun d liu cưc in thoi 65
4.2.2. Mô t cu trúc d liu 66
4.2.3. Môi trưng cài t 67
4.2.4. Kt qu cài t thut toán 67
3
4.3. Kt lun chương 4 73
KẾT LUẬN 74
TÀI LIỆU THAM KHẢO 76
4
BẢNG KÝ HIỆU CÁC TỪ VIẾT TẮT
Viết tắt Từ hoặc cụm từ đầy đủ
KPDL Khai phá d liu
CSDL Cơ s d liu
KDD Knowledge Discovery in Databases
MFAMI Mining Fuzzy Association Rules Using Mutual Information
5
DANH SÁCH HÌNH VẼ
Hình 1.1. S tin hóa công ngh CSDL 10
Hình 1.2. Quá trình phát hin tri thc trong CSDL 14
Hình 1.3. Kin trúc in hình ca h thng khai phá d liu 16
Hình 2.1. Minh ha v lut kt hp 28
Hình 2.2. Ví d v vn “im biên gãy” khi ri rc hóa d liu 40
Hình 3.1. th hàm thuc ca thuc tính thi gian àm thoi 46
Hình 3.2. Các bưc ca thut toán MFAMI 54
Hình 3.3. th xác nh mc thuc ca thuc tính 57
Hình 4.1. Ngun d liu cưc in thoi 65
6
DANH SÁCH BẢNG BIỂU
Bng 2.1. Ví d v mt CSDL giao dch 29
Bng 2.2. Các tp mc ph bin trong CSDL bng 2.1 31
Bng 2.3. Lut kt hp sinh t tp ph bin ABE 33
Bng 2.4. CSDL chi tit ca 9 cuc gi in thoi 37
Bng 2.5. Ri rc hóa thuc tính s ri rc hu hn hoc hng mc 38
Bng 2.6. Ri rc hóa thuc tính s liên tc 39
Bng 3.1. CSDL chi tit ca 8 cuc gi in thoi 48
Bng 3.2. Min giá tr ca các tp m ca thuc tính thi gian àm thoi 56
7
MỞ ĐẦU
Chúng ta ang sng trong mt xã hi ngp tràn d liu: d liu khoa hc,
d liu y t, d liu nhân khu hc, d liu tài chính, và các d liu tip th
Con ngưi không có thi gian xem xét ht các d liu này. Vì vy, chúng ta
phi tìm cách phân tích d liu t ng, phân loi d liu t ng, tng
hp d liu t ng, phát hin và mô t các xu hưng trong nó t ng, và
cnh báo các d thưng t ng. ây là mt trong nhng lĩnh vc năng ng và
thú v nht ca cng ng nghiên cu cơ s d liu (CSDL). Các nhà nghiên
cu trong các lĩnh vc bao gm s liu thng kê, trc quan hóa, trí tu nhân to,
và hc máy ang óng góp cho lĩnh vc này. B rng ca lĩnh vc này làm cho
chúng ta khó có th nm bt ưc nhng tin b phi thưng ca nó trong vài
thp k qua [19].
Khai phá d liu (KPDL) là mt ch mi, nhưng s lưng các bài báo
dành cho chúng (c quan im lý thuyt và thc tin) là khá n tưng. KPDL ã
tr thành mt trong nhng hưng nghiên cu chính trong lĩnh vc khoa hc máy
tính và công ngh tri thc. Hàng lot nghiên cu, xut ra i ã ưc th
nghim và ng dng thành công vào i sng.
KPDL bao gm rt nhiu hưng tip cn. Các k thut chính ưc áp dng
trong lĩnh vc này phn ln ưc tha k t lĩnh vc CSDL, hc máy, trí tu
nhân to, lý thuyt thông tin, xác sut thng kê, và tính toán hiu năng cao. Các
bài toán ch yu trong KPDL là phân lp/d oán (classification/prediction),
phân cm (clustering), khai phá lut kt hp (association rules mining), khai phá
chui (sequence mining), .v.v. Lĩnh vc này cũng là im hi t và giao thoa
ca rt nhiu lĩnh vc khác. Vi s kt hp ca nhiu thành tu nghiên cu
trong các lĩnh vc khác, KPDL có ưc s toàn din và y trong cách tìm
kim và x lý thông tin mt cách tiên tin, hiu qu. KPDL ã và ang ưc
ng dng thành công vào thương mi, tài chính & th trưng chng khoán, sinh
hc, y hc, giáo dc, vin thông, .v.v.
Khai phá lut kt hp là mt k thut quan trng ca KPDL ưc xut
vào năm 1993 và phát trin mnh m trong nhng năm gn ây. Nhng nghiên
cu v lut kt hp gn ây tp trung xây dng các thut toán khai phá lut kt
hp mi, hiu qu hoc ci tin, phát trin các thut toán hiu qu hơn t các
8
thut toán ã có.
Ý tưng liên kt lut kt hp vi lý thuyt tp m ã xut hin t vài năm
trưc. Ý tưng ban u xut phát t n lc x lý các thuc tính s trong
CSDL, trong ó vic phân chia các giá tr s vào các tp rõ có th dn n vic
ánh giá cao hơn hoc thp các giá tr gn biên. Tp m có th khc phc vn
này bng cách cho phép mt phn t có th thuc vào các tp khác nhau. Lý
thuyt tp m cung cp nhng công c cn thit thc hin các tính toán trên
các cu trúc d liu khác nhau.
Vic s dng logic m trong mô hình quan h cung cp mt cách hiu qu
x lý d liu s vi các thông tin không chính xác, không chc chn hoc
không y . Lý thuyt tp m ngày càng ưc s dng nhiu và thưng xuyên
hơn trong các h thng thông minh bi vì mi quan h ca nó vi cách lp lun
ca con ngưi [36]. Mt s nghiên cu ã chng minh ưc hiu sut vưt tri
ca logic m trong KPDL và kho d liu [36].
Ý thc ưc ây là mt lĩnh vc nghiên cu có nhiu trin vng, tôi ã
chn hưng nghiên cu “Khai phá lut kt hp m và ng dng trong CSDL
cưc in thoi” cho tài lun văn ca mình. Phương pháp nghiên cu ch yu
ca lun văn là kho sát, phân tích ni dung các bài báo khoa hc v KPDL và
khai phá lut kt hp m ưc công b trong nhng năm gn ây. T các kt
qu nghiên cu lý thuyt kt hp vi nhng vn t ra trong bài toán thc t,
lun văn cũng xut phương pháp th nghim gii quyt vn khai phá lut
trong thc t.
Ngoài phn m u và kt lun, lun văn ưc t chc thành 4 chương sau:
• Chương I gii thiu mt s ni dung cơ bn v KPDL như mc tiêu,
nh nghĩa v KPDL và KDD, các bưc chính trong quá trình phát
hin tri thc. Chương này cũng cp n các hưng tip cn và k
thut chính trong KPDL cùng vi mt s phương pháp KPDL. S a
dng ca d liu, các nhim v KPDL, và các cách tip cn KPDL t
ra nhiu thách thc trong vn nghiên cu KPDL. Phn cui ca
chương này phác ha nhng ưu th, ng dng chính ca lĩnh vc này
và nhng hưng nghiên cu ang và s ưc chú trng trong thi gian
ti.
• Chương II tp trung gii thiu v bài toán “khai phá lut kt hp”.
9
Chương này cung cp nhng hiu bit cn thit v bài toán khai phá
lut kt hp, như: phát biu bài toán, gii thiu thut toán nguyên thy
Apriori cho khai phá lut kt hp nh phân, cách ri rc hóa d liu
cho các thuc tính s và nhưc im ca chúng. Phn cui chương s
trình bày v nhng hưng tip cn chính trong lch s tn ti và phát
trin ca bài toán này.
• Chương III trình bày v “khai phá lut kt hp m”. Phn u ca
chương cp n các khái nim v tp m và tp m trong KPDL.
Tip theo là phương pháp ri rc hóa d liu da vào tp m và ưu
im ca chúng. T ó lut kt hp m ưc xut như mt hưng
khc phc các nhưc im ca bài toán khai phá lut kt hp có thuc
tính s chương II. Bên cnh s tng hp v mt s thut toán khai
phá lut kt hp m trưc ây, lun văn trình bày thut toán MFAMI
(Mining Fuzzy Association Rules Using Mutual Information) cho vic
khai phá lut kt m hiu qu.
• Chương IV gii thiu v ngun d liu cưc in thoi và kt qu cài
t thut toán MFAMI trên CSDL này.
10
CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1. Khai phá dữ liệu
1.1.1. Mục tiêu của khai phá dữ liệu
Theo J. Han và M. Kamber [19], quá trình tin hóa ca lĩnh vc công ngh
CSDL ưc mô t như Hình 1.1, trong ó công ngh KPDL ưc coi là dng
tin hóa mi ca công ngh CSDL bt u t cui nhng năm 1980 và không
ngng ưc phát trin v b rng và chiu sâu.
Hệ CSDL mở rộng
(nhng năm gia 1980
n nay)
- Mô hình d
liu m
r
ng: quan h m rng,
quan h - i tư
ng, suy
lun
-
ng dng m rng:
không gian, thi gian,
a
phương tin, tích cc,
khoa hc, cơ s tri thc
Hình 1.1. S tin hoá công ngh CSDL
Hệ CSDL dựa trên
Web
(nhng năm 1990 n
nay)
- H
CSDL da trên
XML
- S
tích hp vi s
phc hi thông tin
- D
liu và s tích
hp thông tin
Th h mi ca d liu tích hp và
các h thng thông tin (2000 - )
Tp hp d liu và khi to CSDL
(ti cui nhng năm 1960)
- X lý file thô sơ
H qun tr CSDL
(nhng năm 1970 và nhng năm u 1980)
- H thng CSDL phân cp và mng
- Công c mô hình d liu: Mô hình quan h thc th
- Phương pháp ánh ch s và truy nhp: cây B
+
, hàm băm
- Ngôn ng hi SQL …
- Giao din ngưi dùng, nhp liu và kt xut
- X lý truy vn, ti ưu truy vn
- Qun lý giao dch: khôi phc, iu khin tương tranh
-
X
lý giao dch trc tuyn (OLTP)
Kho dữ liệu và khai phá dữ
liệu
(nhng năm cui 1980 n nay)
- Kho d liu và OLAP
- Khai phá d
liu và phát hin
tri th
c: phân lp, phân cm,
k
t hp, phân tích mu, phân
tích ngoi lai …
-
ng dng khai phá d liu
m
rng: khai phá d liu dòng,
khai phá text, khai phá web…
11
Nhng thp k gn ây ã chng kin mt s gia tăng áng k lưng thông
tin hoc d liu ưc lưu tr trong các thit b in t (như là ĩa cng, CD-
ROM, băng t, v v). S tích lũy d liu này xy ra vi mt tc bùng n.
Ngưi ta ưc oán rng, lưng thông tin trên toàn cu tăng gp ôi sau khong
hai năm và theo ó s lưng cũng như kích c ca các CSDL cũng tăng lên
mt cách nhanh chóng [3]. Theo Fayyad, Piatetsky-Shapiro, Smyth [15], vic
nghiên cu phát trin lĩnh vc KPDL và KDD (Knowledge Discovery in
Databases: KDD) là nhm gii quyt tình trng “ngp tràn thông tin mà thiu
thn tri thc”. Mt s s liu thng kê dưi ây ưc ưa ra vào năm 2006 [17]
ã minh chng cho tình trng "ngp tràn thông tin" là hin nay tn ti nhiu kho
d liu không nhng ã tr nên khng l mà hàng ngày khi lưng ca chúng
còn ưc tăng trưng vi tc cao. V d liu web, in hình là Alexa sau 7
năm ã có 500 TB, Google ã lưu tr hơn 4 t trang Web vi dung lưng nhiu
trăm TB, IBM Web Fountain vi hơn 160 TB, Internet Archive xp x 300 TB
v v. V CSDL, in hình là Max Planck Institute for Meteorology có ti hơn
220 TB, Yahoo! có hơn 100TB còn AT&T có gn 100 TB. Theo ưc lưng ca
UC Berkeley 2003 thì có ti 5 exabytes (5 triu terabytes) d liu mi ưc
khi to trong năm 2002. Mc ích ca vic thu thp và lưu tr các kho d liu
khng l ưc lit kê trên ây không ngoài mc ích KPDL nhm phát hin các
tri thc mi có ích cho hot ng ca con ngưi trong tp hp các d liu ã thu
thp ưc [1].
Nhng công c KPDL có th d oán các xu th tương lai trên cơ s phân
tích d liu hot ng ca doanh nghip, do ó cho phép các t chc doanh
nghip ưa ra ưc các quyt nh kp thi ưc nh hưng bi tri thc mà
KPDL em li. Tính t ng trong phân tích d liu khin nó chim ưu th hơn
hn so vi các phân tích thông thưng da trên kinh nghim hay các s kin
trong quá kh ca các h thng h tr ra quyt nh trưc ây. Trên cơ s ó
cũng ng thi tr li ưc nhiu vn trong kinh doanh mà trưc ây khó có
th thc hin vì cn rt nhiu thi gian và công sc x lý. Vi các ưu im
trên, KPDL ã chng t ưc tính hu dng ca nó trong môi trưng kinh
doanh y tính cnh tranh ngày nay và ưc ng dng rng rãi trong nhiu lĩnh
vc như: thương mi, tài chính, y hc, giáo dc, vin thông …
nh hưng và mc tiêu chính ca KPDL là kt xut tri thc t d liu. Do
ó, mc cao - tng quát, ta có th coi mc ích chính ca quá trình KPDL là
12
mô t (description) và d oán (prediction) [2]. D oán dùng mt s bin hoc
trưng trong CSDL d oán hoc v giá tr chưa bit hoc v giá tr s có
trong tương lai ca các bin. Mô t hưng ti vic tìm ra các mu mô t d liu.
D oán và mô t có tm quan trng khác nhau i vi các thut toán KPDL.
mc chi tit - c th, d báo và mô t ưc th hin thông qua các bài
toán c th như mô t khái nim, quan h kt hp, phân cm, phân lp, hi quy,
mô hình ph thuc, phát hin bin i và lch và mt s bài toán c th khác.
1.1.2. Khái niệm khai phá dữ liệu
Lĩnh vc KPDL và KDD ã cun hút các phương pháp, thut toán và k
thut t nhiu chuyên ngành nghiên cu khác nhau như hc máy, thu nhn mu,
CSDL, thng kê, trí tu nhân to, thu nhn tri thc trong h chuyên gia… nhm
hưng ti cùng mt mc tiêu thng nht là trích lc ra ưc các tri thc t d
liu trong các CSDL khng l. Tính phong phú và a dng ó ã dn n mt
thc trng là tn ti mt s quan nim khác nhau v lĩnh vc nghiên cu gn gũi
nht vi lĩnh vc này - KDD. Vi nhng gì ã trình bày trên, chúng ta có th
hiu mt cách sơ lưc rng KPDL là quá trình tìm kim nhng thông tin (tri
thc) hu ích, tim n và mang tính d báo trong các tp d liu ln. Như vy,
chúng ta nên gi quá trình này là phát hin tri thc. Tuy nhiên các nhà khoa hc
trong lĩnh vc này ng ý vi nhau rng hai thut ng trên là tương ương và có
th thay th cho nhau. H lý gii rng, mc ích chính ca quá trình phát hin tri
thc là thông tin và tri thc có ích, nhưng i tưng mà chúng ta phi x lý rt
nhiu trong sut quá trình ó li chính là d liu.
Mt khác, khi chia các bưc trong quá trình khám phá tri thc, mt s nhà
nghiên cu li cho rng, KPDL ch là mt bưc trong quá trình khám phá tri
thc.
Như vy, khi xét mc tng quan thì hai thut ng này là tương ương
nhau, nhưng khi xét c th thì KPDL ưc xem là mt bưc trong quá trình
khám phá tri thc [3].
Khái niệm 1.1.
Phát hiện tri thức trong CSDL (đôi khi còn được gọi là KPDL) là một quá
trình không tầm thường nhận ra những mẫu có giá trị, mới, hữu ích tiềm năng
và hiểu được trong dữ liệu [15].
13
Là lĩnh vc nghiên cu và trin khai ưc phát trin nhanh chóng và rng
ln, li ưc rt nhiu nhóm nghiên cu ti nhiu a im khác nhau trên th
gii ng thi quan tâm, cho nên tn ti rt nhiu cách tip cn khác nhau i
vi lĩnh vc KDD. Vì lý do ó mà trong nhiu tài liu, các nhà khoa hc trên th
gii ã s dng nhiu thut ng khác nhau mà chúng ưc coi là mang cùng
nghĩa vi KDD như chit lc tri thc (knowledge extraction), phát hin thông tin
(information discovery), thu hoch thông tin (information harvesting), khai qut
d liu (data archaeology) và x lý mu d liu (data pattern processing)
Khái niệm 1.2.
Khai phá dữ liệu là một bước trong quá trình phát hiện tri thức trong
CSDL, thi hành một thuật toán KPDL để tìm ra các mẫu từ dữ liệu theo khuôn
dạng thích hợp [15].
Ngoài ra, theo B.Kovalerchuk và E.Vityaev [7], Friedman ã tng hp mt
s quan nim sau ây liên quan v khái nim "Khai phá d liu":
• Quá trình không tầm thường để nhận biết từ dữ liệu ra các mẫu có giá
trị, mới, hữu dụng và hiểu được (Fayyad)
• Quá trình trích lọc các thông tin chưa biết trước, có thể nhận thức
được, có thể tác động được từ CSDL lớn và sử dụng chúng để tạo ra
quyết định công tác (Zekulin)
• Tập các phương pháp được dùng trong quá trình phát hiện tri thức
nhằm tường minh các quan hệ và các mẫu chưa biết trước chứa trong
dữ liệu (Ferruzza)
• Quá trình hỗ trợ quyết định khi tìm kiếm những mẫu thông tin chưa
biết và hữu ích từ CSDL lớn (Parsaye)
1.1.3. Các bước chính của quá trình phát hiện tri thức trong CSDL
Toàn b quá trình KDD thưng ưc chia thành các bưc sau ây [3].
1. Trích chn d liu (data selection): là bưc trích chn nhng tp d
liu cn ưc khai phá t các tp d liu ln (databases, data
warehouses, data repositories) ban u theo mt s tiêu chí nht nh.
2. Tin x lý d liu (data preprocessing): ây là giai on làm sch d
liu và cu hình li, ây mt s k thut ưc áp dng i phó vi
14
tính không y , nhiu, và không phù hp ca d liu . Bưc này
cũng c gng gim d liu bng cách s dng chc năng tng hp
và nhóm, các phương pháp nén d liu, histograms, ly mu, v v.
Ngoài ra, các k thut ri rc hoá d liu (Bining, ri rc hóa da vào
histograms, da vào entropy, da vào phân khong, .v.v) có th ưc
s dng làm gim s lưng các giá tr cho mt thuc tính liên tc.
Sau bưc này, d liu ưc làm sch , hoàn chnh, thng nht.
3. Bin i d liu (data transformation): trong bưc này, d liu ưc
chuyn dng hoc hp nht thành dng thích hp cho KPDL. Bin i
d liu có th liên quan n vic làm mn và chun hóa d liu . Sau
bưc này, d liu ã sn sàng cho bưc KPDL.
4. Khai phá d liu (data mining): ây ưc xem là bưc quan trng nht
trong quá trình KDD. Nó áp dng mt s k thut KPDL (ch yu là
t hc máy và các lĩnh vc khác) khai phá, trích chn ưc nhng
mu (patterns) thông tin, nhng mi liên h (relationships) c bit
trong d liu.
5. Biu din và ánh giá tri thc (knowledge representation & evaluation):
nhng mu thông tin và mi liên h trong d liu ã ưc khai phá
bưc trên ưc chuyn dng và biu din mt dng gn gũi vi ngưi
s dng như th, cây, bng biu, lut, .v.v. ng thi bưc này cũng
ánh giá nhng tri thc khám phá ưc theo nhng tiêu chí nht nh.
Hình 1.2. Quá trình phát hin tri thc trong CSDL
15
1.1.4. Kiến trúc một hệ thống khai phá dữ liệu
Kin trúc in hình ca mt h KPDL ưc trình bày trong hình 1.3 [19].
Trong kin trúc này, các ngun d liu cho các h thng KPDL bao gm hoc
CSDL, hoc Kho d liu, hoc World Wide Web, hoc kho cha d liu kiu
bt kỳ khác, hoc t hp các kiu ã lit kê nói trên. Cơ s tri thc, bao cha các
tri thc hin có v min ng dng, ưc s dng trong thành phn KPDL làm
tăng tính hiu qu ca thành phn này. Mt s tham s ca thut toán KPDL
tương ng s ưc tinh chnh theo tri thc min sn có t cơ s tri thc trong h
thng. Cơ s tri thc còn ưc s dng trong vic ánh giá các mu ã khai phá
ưc xem chúng có thc s hp dn hay không, trong ó có i chng vi các
tri thc ã có trong cơ s tri thc. Nu mu khai phá ưc thc s hp dn thì
ưc b sung vào cơ s tri thc phc v cho hot ng tip theo ca h
thng. Như vy, ngun tri thc b sung vào cơ s tri thc ây không ch t lp
lun lôgic theo các h toán lôgic có tri thc mi, không ch do con ngưi hiu
bit thêm v th gii khách quan b sung vào mà còn tri thc ưc phát hin
mt cách t ng t ngun d liu.
KPDL là mt bưc chính trong quá trình phát hin tri thc t s lưng ln
d liu ã lưu tr trong CSDL, kho d liu hoc các nơi lưu tr khác. Kt qu
ca bưc này là nhng mu áng quan tâm ưc ưa n cho ngưi dùng hoc
lưu gi như là tri thc mi trong cơ s tri thc.
16
Kin trúc ca h thng KPDL có th có các thành phn chính sau [19]:
• CSDL, kho d liu, WorldWideWeb, kho cha d liu khác: ây là
mt hoc mt tp CSDL, kho d liu, World Wide Web, hoc kho
cha d liu kiu bt kỳ khác, hoc t hp các kiu ã lit kê nói trên.
Các k thut làm sch d liu và tích hp d liu có th ưc thc
hin trên d liu.
• Phc v CSDL/kho d liu: có trách nhim ly d liu liên quan da
trên yêu cu ca ngưi KPDL.
• Cơ s tri thc: ây là tri thc min ưc s dng hưng dn vic
tìm kim hoc ánh giá s thú v ca các mu thú v. Tri thc này có
th bao gm các mc phân cp khái nim, ưc s dng t chc các
thuc tính hoc giá tr thuc tính thành các cp tru tưng. Tri thc
như tin cy ca ngưi s dng, có th ưc s dng ánh giá
thú v ca mu cũng có th ưc bao gm. Các ví d khác ca tri thc
min là các ràng buc thú v b sung hoc ngưng, và siêu d liu (ví
d, mô t d liu t nhiu ngun không ng nht).
Giao din ngưi dùng
ánh giá mu khai phá ưc
Thành phn khai phá d liu
Phc v CSDL/Kho d liu
Cơ s
tri thc
Làm sch, tích hp và chn la d liu
Hình 1.3. Kin trúc in hình ca h thng khai phá d liu
CSDL
Kho d liu
World Wide
W
eb
Các kiu kho
th
ô
ng tin kh
ác
17
• Thành phn khai phá d liu: ây là thành phn cn thit i vi h
thng KPDL, bao gm mt tp các chc năng như mô t, phân tích
tính kt hp và tính tương quan, phân lp, d báo, phân tích cm, phân
tích ngoi lai, và phân tích s tin hóa.
• ánh giá mu: Thành phn này thưng s dng các o và tương tác
vi thành phn KPDL tp trung tìm kim các mu thú v. Nó có th
s dng các ngưng lc ra các mu phát hin ưc. Ngoài ra, thành
phn ánh giá mu có th ưc tích hp vi thành phn KPDL, ph
thuc vào các phương pháp KPDL ưc s dng.
• Giao din ngưi dùng: Thành phn này là thành phn giao tip gia
ngưi s dng và h thng KPDL, cho phép ngưi dùng tương tác vi
h thng bng cách xác nh mt truy vn hoc mt nhim v KPDL,
cung cp thông tin giúp tp trung tìm kim, thăm dò và KPDL da
trên kt qu KPDL trung gian. Ngoài ra, thành phn này cho phép
ngưi dùng tìm các lưc CSDL và kho d liu hoc các cu trúc d
liu, ánh giá các mu khai phá ưc, và trc quan hoá các mu trong
các dng khác nhau.
1.2. Hướng tiếp cận và kỹ thuật chính trong khai phá dữ liệu
1.2.1. Hướng tiếp cận và kỹ thuật chính trong khai phá dữ liệu
Là lĩnh vc nghiên cu và trin khai ưc phát trin nhanh chóng và rng
ln, li ưc rt nhiu nhóm nghiên cu ti nhiu a im khác nhau trên th
gii ng thi quan tâm, cho nên tn ti rt nhiu cách tip cn khác nhau i
vi lĩnh vc KPDL. Chúng có th ưc phân loi theo chc năng, các loi tri
thc, loi d liu ưc khai phá, hoc bt c iu gì phù hp tiêu chun [19].
Dưi ây là mt s cách tip cn chính .
• Phân lp và d báo: phương pháp này c gng sp xp mt i tưng
nht nh vào mt lp thích hp trong s các lp ã bit. S lưng các
lp và tên ca nó chc chn ưc bit n. Ví d, chúng ta có th phân
lp hoc d oán các khu vc a lý theo d liu thi tit và khí hu.
Phương pháp này thưng s dng các k thut và khái nim in hình
trong hc máy như cây quyt nh, k-min, mng thn kinh nhân to,
máy h tr vector, .v.v. Phân lp còn ưc gi là hc có giám sát.
18
• Lut kt hp (association rules): là dng lut biu din tri thc dng
khá ơn gin. Ví d “80% sinh viên ăng ký hc CSDL thì có ti
70% trong s h ăng ký hc phân tích thit k các h thng thông
tin”. Hưng tip cn này ưc ng dng nhiu trong các lĩnh vc
kinh doanh, tài chính, th trưng chng khoán, y hc, tin sinh hc,
giáo dc .v.v.
• Phân cm & phân on: phương pháp này c gng sp xp các i
tưng theo tng cm nhưng s lưng và tên ca các cm chưa ưc
bit trưc. Phân cm và phân on ưc gi là hc không có giám sát.
• Khai phá mu theo th t / theo thi gian (sequential/temporal patterns
mining): Cũng tương t như KPDL bng lut kt hp nhưng có thêm
tính th t và tính thi gian. Hưng tip cn này ưc ng dng nhiu
trong lĩnh vc tài chính và th trưng chng khoán bi vì chúng có tính
d báo cao.
• Mô t khái nim (concept description & summarization): mc tiêu
chính ca phương pháp này là tìm các c trưng và tính cht ca các
khái nim. in hình nht cho bài toán này là các bài toán như tng
quát hóa, tóm tt các c trưng d liu ràng buc…Tóm tt văn bn là
mt ví d in hình.
1.2.2. Kiểu dữ liệu trong khai phá dữ liệu
V nguyên lý chung, ngun d liu ưc s dng tin hành KPDL nhm
phát hin tri thc là rt phong phú và a dng, trong ó in hình nht là CSDL
quan h, kho d liu, CSDL giao dch, các h thng d liu và thông tin m
rng khác [1].
• C s d liu quan h
Tính ph bin ca h thng CSDL quan h hin nay to ra mt h qu t
nhiên quy nh CSDL quan h là mt ngun u vào in hình nht, ưc quan
tâm trưc ht ca KPDL. Hơn na, mt trong nhng mu ưc quan tâm là mu
v các loi “quan h” mà vi bn cht ca mình, h thng CSDL tim n các mu
dng như th. Như ã bit trong lý thuyt CSDL, h thng CSDL thưng bao
gm mt tp các bng (hai chiu dc và ngang). H thng CSDL quan h còn bao
gm mt mô hình ng nghĩa mà thông thưng là mô hình thc th - quan h.
19
• Kho d liu
Kho d liu là mt kt qu xut hin trong quá trình tin hoá các h h tr
quyt nh. Quá trình phát hin tri thc trong CSDL tip nhn u vào là các h
thng CSDL, các nhà kho t chc d liu t các ngun và các d liu mô t.
Các nghiên cu và trin khai liên quan ti kho d liu ch dn khuynh
hưng hin ti ca các h thng thông tin qun lý ph bin là nhm vào vic thu
thp, làm sch d liu giao dch và to cho chúng linh hot khi tìm kim trc
tuyn. ng thi vi s phát trin ca công ngh kho d liu, các h thng tích
hp các ngun d liu c d liu trong quá kh ln d liu tác nghip ã ưc
xây dng. Nhiu h thng KPDL có u vào t siêu d liu cùng các d liu
ngun trong các kho d liu.
• Cơ s d liu giao dch
Mt lp bài toán KPDL ph bin là khai phá quan h kt hp, trong ó in
hình là bài toán khai phá lut kt hp, ưc xut phát t vic xem xét các CSDL
giao dch. D liu giao dch chính là d liu nguyên thu xut hin trong nh
nghĩa v lut kt hp cùng vi các do ca lut như h tr và tin cy.
Khi m rng d liu t d liu giao dch sang d liu vô hưng, hoc d liu
phc tp hơn có trong các CSDL quan h, các gii pháp khai phá lut kt hp
ưc ci tin thích ng vi s bin i này. Các gii pháp ng dng lý thuyt
tp m và lý thuyt tp thô tương ng vi vic m rng min d liu cn khai
phá ã ưc tin hành trong nhiu công trình nghiên cu.
• Các h thng d liu m rng
Trong quá trình phát trin, các phương pháp và thut toán KPDL thích hp
i vi các CSDL m rng và các kiu kho cha d liu ưc xut. Các
phương pháp và thut toán này phù hp vi các CSDL trong CSDL hưng i
tưng, CSDL không gian - thi gian, CSDL tm thi, d liu chui thi gian, d
liu dòng, CSDL Text, CSDL a phương tin, CSDL hn tp, CSDL k tha và
Word Wide Web.
1.2.3. Một số phương pháp khai phá dữ liệu
Có rt nhiu các phương pháp KPDL, mi phương pháp có nhng c im
riêng và phù hp vi mt lp các bài toán vi các dng d liu và min d liu
nht nh. Dưi ây là mt s phương pháp thưng ưc dùng [7].
20
- Phương pháp quy np
- Cây quyt nh và lut
- Khai phá lut kt hp
- Các phương pháp phân lp và hi quy phi tuyn
- Phân nhóm và phân on
- Các phương pháp da trên mu
- Khai phá d liu văn bn
- Mng nơ-ron
- Gii thut di truyn
- Mô hình ph thuc da trên th xác sut
- Mô hình hc quan h
Các thut toán KPDL t ng vn mi ch giai on phát trin ban u.
Ngưi ta vn chưa ưa ra ưc mt tiêu chun nào trong vic quyt nh s
dng phương pháp nào và trong trưng hp nào thì có hiu qu.
Hu ht các phương pháp KPDL u mi i vi lĩnh vc kinh doanh. Hơn
na li có rt nhiu k thut, mi k thut ưc s dng cho nhiu bài toán khác
nhau. Mi phương pháp u có im mnh và im yu ca nó, nhưng hu ht
các im yu u có th khc phc ưc. Vì vy, cn tìm cách áp dng mi k
thut tht ơn gin, d s dng không cm thy nhng phc tp vn có ca
k thut ó.
so sánh các k thut cn phi có mt tp ln các quy tc và các phương
pháp thc nghim tt. Thưng thì các quy tc này không ưc s dng khi ánh
giá các k thut mi nht. Vì vy mà nhng yêu cu ci thin chính xác
không phi lúc nào cũng thc hin ưc.
Nhiu công ty ã ưa ra nhng sn phm s dng kt hp nhiu k thut
KPDL khác nhau vi hy vng nhiu k thut thì s tt hơn. Nhưng thc t cho
thy không phi như vy, nhiu k thut ch thêm nhiu rc ri và gây nhiu khó
khăn cho vic so sánh gia các phương pháp và các sn phm. Theo nhiu ánh
giá cho thy khi ã hiu ưc các k thut và nghiên cu tính ging nhau gia
chúng, ngưi ta thy rng nhiu k thut lúc u có v khác nhau nhưng thc
21
cht thì chúng li ging nhau. Tuy nhiên ánh giá này cũng ch tham kho vì
cho n nay KPDL vn còn là k thut mi cha nhiu tim năng mà ngưi ta
chưa khai thác ht.
1.3. Ứng dụng của khai phá dữ liệu
1.3.1. Ưu thế của khai phá dữ liệu
KPDL thc cht không có gì mi mà hoàn toàn da trên các phương pháp
cơ bn ã bit. Vy KPDL có gì khác so vi các phương pháp ó và ti sao
KPDL li có ưu th hơn hn chúng? Các phân tích sau s gii áp nhng câu hi
này [2].
• Hc máy (machine learning)
Tuy phương pháp hc máy ã ưc ci tin có th phù hp vi mc ích
KPDL, nhưng s khác bit gia thit k, các c im ca CSDL ã làm nó tr
nên không phù hp vi mc ích này, mc dù n nay phn ln các phương
pháp KPDL vn da trên nn tng cơ s ca phương pháp hc máy.
Trong các h qun tr CSDL, mt CSDL là mt tp hp d liu ưc tích
hp mt cách logic, ưc lưu trong mt hay nhiu tp, và ưc t chc lưu
tr, sa i và ly thông tin mt cách hiu qu và d dàng. Trong hc máy, thut
ng CSDL ch yu cp ti mt tp các mu (instance hay example) ưc lưu
trong mt tp. Các mu thưng là các vector thuc tính có dài c nh, thông
tin v tên thuc tính và dãy giá tr ca chúng ôi khi cũng ưc lưu li như trong
t in d liu. Mt thut toán hc còn s dng tp d liu và các thông tin kèm
theo tp d liu ó làm u vào và u ra biu th kt qu ca vic hc.
Vi so sánh CSDL thông thưng và CSDL trong hc máy như trên, có th
thy là hc máy có kh năng áp dng cho CSDL, bi vì không phi hc trên tp
các mu mà hc trên tp các bn ghi ca CSDL. Tuy nhiên KDD làm tăng thêm
các khó khăn vn ã là in hình trong hc máy và ã vưt quá kh năng ca
hc máy. Trong thc t CSDL thưng ng, không y , b nhiu và ln hơn
nhiu so vi các tp d liu hc máy in hình. Các yu t này làm cho hu ht
các thut toán hc máy tr nên không hiu qu trong hu ht các trưng hp. Vì
vy trong KPDL cn tp trung rt nhiu công sc vào vic vưt qua nhng vn
này trong CSDL.
22
• Phương pháp h chuyên gia
Các h chuyên gia c gng nm bt các tri thc thích hp vi mt bài toán
nào ó. Các k thut thu thp giúp cho vic ly tri thc t chuyên gia con ngưi.
Mi phương pháp ó là mt cách suy din các lut t các ví d và gii pháp i
vi bài toán chuyên gia ưa ra. Phương pháp này khác vi KPDL ch các ví
d ca chuyên gia thưng mc cht lưng cao hơn rt nhiu so vi các d liu
trong CSDL và chúng thưng ch bao quát ưc các trưng hp quan trng.
Hơn na, các chuyên gia s xác nhn tính có giá tr và hu dng ca các mu
phát hin ưc. Cũng như vi các công c qun tr CSDL, phương pháp này
òi hi có s tham gia ca con ngưi trong vic phát hin tri thc.
• Phát kin khoa hc
KPDL rt khác vi phát kin khoa hc ch nhng khai phá trong CSDL ít
có ch tâm và có iu khin hơn. Các d liu khoa hc có t thc nghim nhm
loi b mt s tác ng ca các tham s nhn mnh bin thiên ca mt
hay mt s tham s ích. Tuy nhiên, các CSDL thương mi thưng ghi li mt
s lưng tha thông tin v các d án ca h t ưc mt s mc ích v mt
t chc. S dư tha này có th là hin hin hay n cha trong các mi quan h
d liu. Hơn na các nhà khoa hc có th to li các thí nghim và có th tìm ra
rng các thit k ban u không thích hp. Trong khi ó các nhà qun lý CSDL
hu như không th xa x i thit k li các trưng d liu và thu thp li d liu.
• Phương pháp thng kê
Mc dù các phương pháp thông kê cung cp mt nn tng lý thuyt vng
chc cho các bài toán phân tích d liu nhưng ch có tip cn thng kê thun tuý
thôi thì chưa . Th nht, các phương pháp thng kê chun không phù hp i
vi các kiu d liu có cu trúc trong rt nhiu CSDL. Th hai, các phương
pháp thông kê hoàn toàn b d liu iu khin, nó không s dng tri thc sn có
v lĩnh vc. Th ba, các kt qu ca phân tích thông kê có th s rt nhiu và
khó có th làm rõ ưc. Cui cùng các phương pháp thông kê cn có s hưng
dn ca ngưi dùng xác nh phân tích d liu như th nào và âu.
S khác nhau cơ bn gia KPDL và thng kê là ch KPDL là mt
phương tin ưc dùng bi ngưi dùng cui ch không phi là các nhà thng
kê. KPDL t ng hoá quá trình thng kê mt cách hiu qu, vì vy làm nh bt
công vic ca ngưi dùng cui, to ra mt công c d s dng hơn. Như vy,
23
nh có KPDL, vic d oán và kim tra rt vt v trưc ây có th ưc ưa lên
máy tính, ưc tính, d oán và kim tra mt cách t ng.
1.3.2. Ứng dụng của KPDL
Mc dù KPDL là mt xu hưng nghiên cu tương i mi, nhưng thu hút
nhiu nhà nghiên cu bi vì các ng dng thc t ca nó trong nhiu lĩnh vc.
Sau ây là mt s ng dng tiêu biu:
• Phân tích d liu và h tr ra quyt nh: ng dng này là ph bin
trong thương mi, tài chính và th trưng chng khoán, .v.v.
• Y t: tìm kim s liên quan tim năng gia các triu chng, chn
oán, và phương pháp iu tr (dinh dưng, toa thuc, bác sĩ phu
thut, .v.v.).
• Khai phá text và web: tóm tt tài liu, khôi phc văn bn và tìm kim
văn bn, phân lp văn bn và siêu văn bn.
• Tin sinh hc: tìm kim và so sánh thông tin di truyn in hình hoc
c bit như b gen và DNA, các mi quan h ngm gia mt s gen
và mt s bnh di truyn, .v.v.
• Tài chính & th trưng chng khoán: kim tra d liu trích xut
thông tin d oán cho giá ca các loi c phiu.
• Nhng ng dng khác (vin thông, bo him y t, thiên văn hc, chng
khng b, th thao, .v.v.).
1.3.3. Phân loại các hệ thống khai phá dữ liệu
KPDL là mt công ngh tri thc liên quan n nhiu lĩnh vc nghiên
cu khác như CSDL, hc máy, trí tu nhân to, trc quan hoá d liu và tri
thc, .v.v. Chúng ta có th phân loi các h thng KPDL theo các tiêu chí khác
nhau như sau:
• Phân loi da trên loi d liu ưc khai phá: các h thng KPDL làm
vic vi CSDL quan h, kho d liu , CSDL giao dch, CSDL hưng
i tưng, CSDL không gian và thi gian, CSDL a phương tin,
CSDL văn bn và web, .v.v.
• Phân loi da trên loi tri thc khai phá ưc: các h thng KPDL có
24
th phân loi da theo loi tri thc mà chúng khai phá ưc, nghĩa là
da vào các chc năng khai phá như mô t, tóm tt, lut kt hp, phân
lp, d báo, phân cm, .v.v.
• Phân loi da trên loi k thut ưc s dng: Các công c KPDL như
các h thng x lý phân tích trc tuyn (OLAP), s dng k thut hc
máy (cây quyt nh, mng nơron nhân to, k-min, thut toán gen, máy
h tr vector, tp thô, tp m, .v.v.), trc quan hoá d liu, .v.v.
• Phân loi da trên các lĩnh vc h thng KPDL ưc ng dng: các h
thng KPDL ưc s dng trong các lĩnh vc khác nhau như: thương
mi (ngành công nghip bán l), vin thông, tin sinh hc, iu tr y t,
tài chính và th trưng chng khoán, bo him y t, .v.v.
1.3.4. Xu hướng trong khai phá dữ liệu
S a dng ca d liu, các nhim v KPDL, và các cách tip cn
KPDL t ra nhiu thách thc trong vn nghiên cu KPDL. S phát trin
ca các h thng và phương pháp KPDL hiu qu, vic xây dng các môi
trưng KPDL tương tác và tích hp, vic thit k các ngôn ng KPDL, và
vic ng dng các k thut KPDL gii quyt các vn ng dng ln là
nhim v quan trng i vi các nhà nghiên cu KPDL, h thng KPDL và
các nhà phát trin ng dng. Phn này cp n mt s vn ang thu hút
s chú ý ca các nhà nghiên cu KPDL.
• OLAM (khai phá phân tích trc tuyn) - mt s kt hp ca CSDL,
kho d liu, và khai phá d liu. Ngày nay, các h qun tr CSDL như
Oracle, MS SQL Server, IBM DB2 có tích hp chc năng OLAP và
kho d liu to iu kin cho ngưi s dng trong vic khôi phc
và phân tích d liu. Các nhà nghiên cu trong lĩnh vc này hy vng
s vưt qua ưc nhng gii hn hin ti bng cách phát trin h
thng OLAM a mc ích h tr d liu giao dch cho hot ng
kinh doanh hàng ngày cũng như các phân tích d liu cho vic ra
quyt nh [19].
• Các h thng khai thác d liu có th khai phá các loi khác nhau ca
tri thc t loi d liu khác nhau [7] [19].
• Làm th nào tăng cưng hiu sut, chính xác, kh năng m rng,