Tải bản đầy đủ (.pdf) (88 trang)

Nghiên cứu một số phương pháp khai phá dữ liệu và thiết kế, xây dựng ứng dụng khai phá dữ liệu trên kho dữ liệu khách hàng của bưu điện thành phố hà nội

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (27.64 MB, 88 trang )

ĐAI HỌC QUỐC GIA HÀ NỘI
KHOA CÒNG NGHÊ
ĐOÀN NHẬT MINH
NGHIÊN CỨU MỘT số PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
VÀ THIẾT KỂ, XÂY DỰNG ỨNG DỤNG KHAI PHÁ DỮ LIÊU
TRÊN KHO Dữ LIỆU KHÁCH HANG CỦA Bưu ĐIỆN TP HÀ NỒI
CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN
MÃ SÔ: 1.01.10
L U Ậ N V Ă N T H Ạ C SI
NGƯỜI HƯỚMỈ DÂN KHOA HỌC:
P(ỈS, TS VŨ ĐỨC THI
Ị Iỉ-L O /o lo ir
ỈA NÔI - Năm 2003
M Ü C LÜC
Chương l: So lược về xu hướng nghiên cứu và phát trien kluii phá dù liệu 6
h iệ n n a y
Chương 2: Kho (lũ liệu và cõng nghệ khám phá tri thức 8
2.1. Kho dữ liệu (Datawarehouse) . 8
2.1 1. Tons quan về kho dữ liệu 8
2. ỉ 2. iMột số đặc điếm của kho dữ liệu 10
2.1 3. Vai trò và các mục tiêu chính của kho dữ liệu I 1
2.1 4. Kho dữ liệu với công nghệ Data mining (khai phá dữ liệu) ỉ 2
2.1 5. Môi trườn
2
hoạt động của kho dữ liệu I 2
2.1 6.Một số hướng tiếp cận DWH và KDD trong ngành Bưu chính Vién 13
thôn«
2.2. Còn
2

112


hệ khám phá tri thức (KDD) 14
2.2.1. Tons quan về KDD 14
2.2.2. Khám phá tri thức là
2 1
? 15
2.2.3. Vai trò và các mục tiêu chính của KDD I 7
2.2.4. Quá trình phất hiện tri thức IS
Chuông 3: Khai phá dữ liệu 23
3.1. Tóns quan về khai phá dữ liệu 23
3.1.1. Khai phá dữ liệu 23
3.1.2. Phán mềm khai phá dữ liệu 23
3.1.3. Các thành phán cua quá trình khai phá dữ liệu 23
3.1.4. Dư đoán dữ liệu 24
3.1.5. Dự báo dữ liệu 26
3.1.6. Lựa chọn dự báo (hổi qui) hay dự đoán (phan loại )? 26
3.2. Vai trò và các mục tiêu chính của khai phá dữ liệu 26
3. 2.1. Vai trò 27
3.2.2. Mực tiêu chính 27
3.3. Các phương pháp khai phá dữ liệu chính 27
3.3.1. Phan lớp (phân loại ) dữ liệu 27
3.3.2. Hồi qui (dự báo) tlữ liệu 28
3.3.3. Phan nhóm dữ liệu 29
3.3.4 Khái quất dữ liệu 29
3.3.5. Tạo mau phụ thuộc 29
3.3.6. Tóm lát (summarization) 30
3.3.7. Các phương pháp dựa tròn man 30
3.3.8. M õ hình phụ ihuòc dua (ren do thị xác snal 30
3.3.9. Khai phá dữ liệu villi ban (Tcxỉ M in ing) 30
3.3.10. I .ouie mờ 30
v i l I. Iluíl hiên lh;iv (loi \ ;i cl III ven hirñ'HL’ MI

Pilan mochín 6
4
3.4. Các kv thuật khai phá dữ liệu
3.4.1. Cây quyết định
3.4.1.1. Một số khái niệm chính
3.4.1. 2. Thuật toán Hunt
3.4.1. 3. Thuạt toán 1133 Lặp
1*0
dổi
3.4.1. 4. Thuật toán C4.5
3.4.1.5. Thuật toán rút
2
ọn các luật quyél định
3.4.1.6. Loại bỏ các luật khône cán thiết
3.4.2. Suy diễn và qui nạp
3.4.3. Phát hiện cấc luật kết hợp
3.4.4. Phân nhóm và phân loại
3.4.5. Mans neural
3.4.6. Gicii thuật di truyền
3.4.7. Lựa chọn các kỹ thuật khai phá
Chương 4:
Công nghệ khai phá dữ liệu của hãng Oracle với phiên ban 9i release 2
4.1. Các chức năng và đặc điểm mới:
4.2. Các thành phần của Oracle Dataminins (O D M )
4.3. Các chức năng chính của ODM
4.3.1. Phân loại
4.3.2. Phân nhóm
4.3.3. Luật kết hợp
4.3.4. Thuộc tính quan trọim
4.4. Các thuật toán khai phá dữ liệu của ODM

4.4.1. Thuật toán Adaptive Bayes Network
4.4.2. Giãi thuật Naive Baves
4.4.3. Bộ tìm kiếm mỏ hình (Model seeker)
4.5. Quá trình khai phá dữ liệu
4.5.1. Xây dựng mỏ hình
4.5.2. Kiếm tra mỏ hình
4.5.3. Tính toán tý lệ
4.5.4. Ap dụng mỏ hình
4.6. Các đối tượng ODM và lính nânsỉ
4.6.1. Đặc trưng clữ liệu vật lý
4.6.2. Cấc thiết lập chức năng khai phá
4.6.3. Các thiết lập giải th u ậ t khai phá
4.6.4. Đặc trứng dữ liệu logic
4.6.5. Các thuộc tính khai phá
4.6.6. Chí định kỹ ihuát sử thum dữ liệu
4.6.7. Đòi tưựim mỏ hình khai phá
4.6.S. Đối tượng kết qua khai phá
4.6.9. Ma (rận kiếm (ra
4 .'S.10. Apellina ko I t|ii;i l\h;ii phá
31
32
32
35
41
47
53
54
55
56
51

58
60
60
60
6!
61
63
64
64
65
66
67
6<s
68
69
70
70
71
72
72
74
74
74
74
75
75
75
76
76
4.7. C;.c LI i á trị thiếu và sự rời rạc 77

Chưoiiu 5: 7.S
Bỉii toán khai phá dữ liệu khách liàiiiỉ (licn thoại di dọiií» V inaphoiK'
5.1. Đ;it ván dồ cua hài toán 78
5.2. Qui trình thực hiện bài toán 78
5.3. Thiết kè bài toán 80
Kết luận 87
Tài liéII tliam kluio 88
(>
Phún mơ đau:
Yêu tố thành côn
12
ironu mọi hoại done san xuất kinh doanh - quan IÝ nũùy
nav uòn lỉắn lien \'ới việc nam hãi. ihốim kẽ \'à khai thác thônÍ
2
im hiệu qua.
Điểi đó có nũhĩa là từ các (lữ liêu sán có. phai tìm ra những thôn SI tin tiểm an có
giá rị mà trước đó chua được phát hiện, tìm ra nhũn« xu hướng phát triển và
nhữrtỊ yếu tố tác ctộns lên chúiiũ.
Đó k mục tiêu và nhiệm vụ cơ ban cua công nshệ khám phá tri thức tron« cư sở
dữ lien, mà tron« đó kỹ thuật cho phép ta lấy được các tri thức chính là kỹ thuật
khai }há dữ liệu (Data minina).
Phát liện tri thức tù' cơ sở dữ liệu là một quá trình có sứ dụns nhiều phương pháp
và ccng cụ Tin học nhưno vần là một quá trình mà trono đó con nu ười là Trunn
tàm. 4] Do đó nó khôns phái lù một hệ thố ne phàn tích tự động mà là một hệ
thỏm bao tióm nhiéu hoạt cìộna tươns tác thường xuyèn siữa con nuười và cơ so'
dữ liệu, với su' hổ trợ của các cône cụ tin học.
Nếu phát hiện tri thức là toàn bộ quá trình triết xuất tri thức từ các cơ sớ dữ liệu
thì khai phá (lũ' liệu là giai đoạn chú yêu cưa quá trình đó. Khai phá dữ liệu là đế
tìm ra các mau hình cổ ý nghĩa, phù hợp với nhiệm vụ khai phá đã xác định
trước, chứ không phái là thốn« kè cíữ liệu.

Khai pha dữ liệu khừng tluiộc mộl nỵành côim nũhiệp nào. nó sử dưng các kỹ
thuật và thuật toán thông minh đê khai phá tri thức tiềm ẩn trong dữ liệu, đặc hiệt
trons các lĩnh vực về tài chính. V học. viễn thông, báo hiếm, hànti khôn o

Trong tương lai gíìn. khai phá dữ liệu sẽ mana lại nhiều lợi ích to lớn cho con
naười nói chung và cho các lĩnh vực quan lý. kinh doanh nói riênũ.
Cnonụ 1: So lu'o'c VC XU huoim imhiỏn cứu v à phát trien khai jjhá
clL lien jijen n av
Trong nhữim thap ky ũãn ctãv. với sự phái trien mạnh mẽ cua côn li nsihệ diện lử.
sự Hr dò'i cua các bộ nhớ có đun« lượn« lớn. bộ xứ lý tốc độ cao cùn« với cúc
các hệ thống mạng viễn thỏim. người ta đã xav dime các hệ thonsz thôim tin
nhăm tự độns hoá mọi hoạt độns kinh doanh và quan lý của mình. Điều này đã
tạc IM một đòn" dừ liệu tãne lên không nsừna vì ngay từ các giao dịch đơn «ian
nhất nhu' một cuộc gọi điện thoại, kiểm tra sức khoẻ. sử dựng thé tín chins, v.v.
đểi được iỉhi vào trons máy lính. Cho đến nay. con số này đã trở nên khốn» lò
4— J J J v_
bao gồm các cơ sớ dữ liệu cực lớn cỡ gigabytes và thậm chí terabytes Ill'll trữ các
chì lieu kinh doanh ví dụ nhơ dữ liệu thôns tin khách hàng, dữ liệu lịch sử các
ma) dịch, dữ liệu hán harm, dữ liêu các tài khoán, các khoán vay, sử cỉunũ vốn.
v.v. Nhiều hệ quan Irị cơ sỏ'dữ liệu (CSDL) mạnh với các cỏns cụ phonsz phú và
thu;m tiện đã iiiúp cho con nmrời khai Ihác có hiệu qua các nuuổn tài nmiyên dữ
liệu.
Cùr.g với chức nail o khai thác có tính chất tác nghiệp, việc khai thác các CSDL
phu; vụ các yêu cầu trợ giúp quyết định neày càn« có ý nghĩa quan trọns và là
nhu cầu to lớn troiiii mọi lình vực hoạt động kinh doanh, quan lý. Dữ liệu được
thu Ihập \'à Ill'll trữ níZctv càn Í2 nhiồu nhung n ill rời ra quyêt định troim quan lý.
kinh doanh lai cân nhũn« ihôna tin bố ích. nhũn« “tri thức” rút ra từ những
c? o 7 <— C-
nguón dữ liệu đó hơn là chính những dữ liệu đó cho việc ra quyết định cua mình.
Các nhu cầu đó đã được biết đốn tù' láu nhưnsỉ mới thực sự hùng nổ lừ thập niên

90. Do đổ những năm
2
ần đây đã phát trien mạnh mẽ một loạt các lĩnh vực
nghiên cứu về tó chức các kho dữ liệu và kho thóng tin (dala warehouse,
information warehouse), các hệ trợ Íiiíip quyết định, các phươnu pháp phát ỉiiộn
tri thức và khai phá dữ lien (dala miniim). Tronũ dó. khai phá clũ' liệu và phái
hiện iri thức đã III’)' thành mội lĩnh vực imhiên cứu SOI độnii. tlui Ill'll sự quan lam
cua rãt nhiổu
11
”ười ircn kli;ip các lình vực khác nhau nhu' các hệ co' sờ dữ liệu,
[honi: kc. t'hỈL'1 \u;ì( 1 h( >n í_! III). nh;m (liiiiLi. hoc I n; t \ . Irí mộ n 1
1
;
111
l;io.
CTuưHii 2: K h o dư lieu và cỏ nụ nulle kham phá tri thức
2.1 k h o (lữ liệu ỉ D nlaw nreho iise)
1.1.1. Ton» C]Lutn VC kho dữ lien
vào íiiữa nhữne năm 80. IlWười ta bãt đáu dỏ cap don khái niệm kluinũ hoan”
[han tích số liệu tác nshiộp. Niiuyên nhân cua tình tran” này tươnũ đối kỳ la:
"ron
2
mỏi trườn a thừa thãi số liệu, nhà phàn tích khôn« thế tìm ra cho mình
nôntỉ tin can thiết nhằm có ctirợc sự hiếu biết thâu dáo ve nhữns quá trình xáy
II xung quanh. Tinh trạna số liệu quá chi tiết và khổng có được sự liên kết với
nhau cùa các số liệu phan ánh các quá trình tirons đôi độc lập cua một thực
thể là lý do trực tiếp dần đến sự khủns hoang này. Tình trạiiíỊ thừa tỉiômị till,
triât tri tlĩức dược John Nuisbdt canil báo:"Chúiií> Ici chilly clùni 11'ẠÌp troiiíi
dì liệu mà van đói tri thức." [4]
Vào cuối nhiìnỵ năm 90, íIImon đã để xướng một sự kết hợp của một số liiái

p.iáp kỹ thuật và được đặt tên là Data YVarehoushins - kỹ thuật xay ilựini các
kho (lữ liệu. Data Warehouse hav DVV1I (kho dữ lieu) (tược (lịnh Iiíihìa nhu'
một lập hợp các phương tiện cho phép hình tlunũ dữ liệu một cách tona the.
hướng đối tượng để giúp cho việc phan tích và ra quyết định.
Niĩrrm nsirời đầu tiên đưa ra V tướng về DVVH xác dinh run« liến hành phán
tích trực tiếp trên dữ liệu cùa các hệ xứ lý íiiao dịch và khỏnỉi hiệu C]uá và do
đr khônii dược khuyên khích. Thay vào đó dữ liệu từ một vài hệ XII' lý iiiao lác
trưc tuyến (Online Transaction Processing - OLTP) được biến đổi và sau đó
đua vào một nguồn dữ liệu duy nhất là DVVH. Quá trình này ctươc iiọi là đua
do liêu vào DVVH. ũổm các công đoan chính sau:
+ Làm sạch (Bo các dữ liệu khóim cán thiết hoặc quá chuvẽn duna)
+ Liên kết các số liệu (Tính trước số liệu lích. ton”. I run il bình )
+ Biến đổi dữ liệu: so liệu được hiên dõi llìành dạniỉ thích hợp. lõ cluíc lại phù
hợp với DWH
+ TÍCỈ
1
hop so liệu tù'các
11
Üuốn khác nhau.
+ Đonu hô ho;i so liệu ()' mộl thời (tiêm \;ii' dinh.
Khoo> dữ I LI là mól lie tlioni! dữ liệu nhám chuán hị đẽ XUY (lưi)íi hệ lio irợ
t|U\yết din (DSS-Decision Support Svstcms) và hộ phan lích lrục luyến
(O L LA P -O line Analỵsis Processing). Nó chứa mol tập hựp đừ liêu khổn« lổ.
ctiKực thiốtvé hLi'ónÜ theo chứ đề. man« các thuộc tính vổ Ihòi oịan vù hau nhu'
khcràg bị hay đổi. Dữ liệu tron« datawarehou.se được lưu trữ dưới dạn
2
imiiyên tínoặc clạns tốna hợp phục vu cho các ứns dụns phát hiện tri thức \'à
trự eĩúp qi/ết định.
Troing thàikV đầu định nshĩa DYVH tương đối đơn gián. Đến hiện nay DVVH
vần được hếu là tập hợp dữ liệu thoá mãn 4 điều kiện cơ ban:

Hướng lối tượng.
- Tích họ.
- Thay đ(i theo thời gian.
- Lưu trù lâu đài.
Nhiêm vu (hĩnh cứa DWH là phục vụ cho các hệ hỗ trợ quyét định. Các dữ
liệu co' sỏ' tong DVVH có thê được hiếu diễn dưới vài khuôn (lạnũ khác nhau
nhàm đáp mg khônu chi các càu hỏi cho trước mà cho ca các càu hói chua
xác định.
DWH có kí;h thước rất lớn vì nó chứa toàn bộ dữ liệu lịch sử. Chính vì lý đo
kích thước, dữ liệu trong DVV được phùn chia làm hai loại: tích cực và khõrm
tích cực. DVH chứa các dữ liệu tích hợp ờ nhiều mức.
Mức ngỉiyêi. tử ị mức th ấ p n h ấ t ) chứa cốt lõi căn han nhất và là một snapshot
(dữ liệu được ghi lại ớ một thời điếm) đún
2
lúc cua dữ liệu. Dữ liệu cìược LcSnti
két theo các °iai đoạn thời tiian nhu' theo từníi mo', theo nứa imày. theo nuày
hoặc theo tCrn
2
tuần. Mức theo tùìiiỉ giờ là xử lv phức tạp nhất.
Mức ló'iii» i/ié tlìấ p : Thõng tin đuục ton» kết lại là các ihônu tin được tóm tal
và kôt hợp lại cho một mục đích kinh doanh cụ thè. Điên hình là (.lữ liệu được
lổn
<2
kếl theo thời man nhu'tlico ìmày. luán. 2 luân hoặc một Ihánũ.
Mức tong ihc cun: T ho n ü lili được lổim két lại ()' mức cao là nlnìnũ ih o iiii im
được lóm lát và kêt hợp theo m ót IÝ cío nao do ral cu llic. Đ iê n hình la dữ liệu
10
du'o'c tổn« kết sau một thời ũian dài ví dụ như hà
112
thánsí. hàim quí hoặc1 hànÜ

năn.
Các ilữ liệu này được xử lv một cách ihốn« nhát tronsz DWH đế phục vụ cho
CỊIU. t inh khai thác sau này.
Cúc cặc tính này là chun« cho mọi DWH. Tron tỉ V nsihĩa đó. mọi DWH đéu có
cấu trúc như nhau. Tuy vậy các DYVH trong các lĩnh vực khác nhau đểu có các
Hình 2.1: Mó hình tổng th ế hệ t h ố n g kho dữ liệu
2.1.2. M ót so dàc cticm cúa kho dữ lien:
Mane các thuộc tính vé thời tiian: đãv là đặc diêm hết sức quan trọn í! cua kho
dữ liệu nhằm đáp ứnu các yêu cầu của siai đoạn khai phá dữ liệu. Mỗi loại dữ
liệu sẽ được tổ chức và lưu trữ và có gán nhãn thòi gian theo từng chư kỳ hoạt
động nghiệp vụ.
Tính ổn định: Dữ liệu trorui kho đữ liệu háu như khòntỉ bị thay đối. chú yêu đế
phục vụ các yêu cáu truy vấn thôn» Ún. dam báo tính bén vữntỉ vé mậl thì liệu
tron” quá trình thu thập thôim tin.
Hướim chu đổ: Đay la thuộc lính căn ban cua kho dữ liệu vì trước khi phan
tích ihict kê hẹ thoiiii. phủi xác định rõ ràne mục tiòii nííhiệp VỊI (chu etc) cán
(Jal được cua kho dử lícu. Ví (lu Iilur ban (lau khi \a\ ilựnii kho dữ liệu, ilnéi ké
viel chi đưa ra mục tiêu là xâv tỉựnĩi kho dữ liêu vé hán lé. sau đó do nhu cáu
ph;l trien có thê cập nhai ihêm vào kho dứ lieu các chu đõ khác như hán hàn Li
qu; mạn tỉ. chứne khoán
Tím lích hợp: T hó nũ tin Ironíi kho dữ liệu phai phan ánh được tho n ũ Illicit dưa
tròi các nsìuỏn thons tin khác nhau vù có the cùntỉ phan ánh tươnii lự m ột vàn
đề lào đó.
2.1. ỷ Vai trò và các m ue ùèu chinh cua kho dữ lieu:
Kho cữ liệu được tạo ra nhằm đạt dược 2 yêu cầu chính là :
- Phin tích báo cáo
- Hỗ rợ quyết định
Các rạic tiêu chính:
- Tĩct hợp dữ liệu và siêu dữ liệu (metadata) từ nhiều nguồn khác nhau
- Nârg cao chất lượng dữ liệu thông qua các phươim pháp chuán hóa, làm sạch

và lìm giàu ciữ liệu.
- Toni hop và kết nối dữ liệu
- Đổna bộ hóa các imuón dữ liệu
- Qiub lý metadata
- Cunỉ cáp dữ liệu và đáp ứng hiệu quá cho các hệ hỗ trợ ra quyết định. cun«
cap tược các thòng tin (one hợp và chính xác theo các chú để mà nmròĩ sứ
dụnt; quan tam.
Hình dưới đây mô ta vai trò cứa kho dữ liệu trong các hệ hỗ trợ quyết định:
r
DSS
A
Y V
V
ODS
DW OLAP
DM
A
J
Lim trư Phán tích
Hình 2.2: Mò liìnli lióíi truv VÍIU Ỉ
1
Ỏ trợ quvẻt định
T r o n dó:
O D5:C o' SO' dữ liệu thao tác. thườn” th u ộc vỏ các hệ xứ IÝ «JHO lác ( ( )LTP)
D \ \ : <ho dữ liệu
O LAF: Phan tích trực tuyên clựa lãm các hệ luật thườnu được 2ỌÌ ỉà phan lích da
chi é LỊ
D M : “Chai phá dữ liệu, tìm ra các inall dữ liệu m ới và quan hệ ai lìa chún« m à
trước ỉó chua từnsĩ biết.
DSS: Hệ hỗ trợ quyết định, thực hiện truy vấn th ôn g tin đưa trên các th ônũ tin

cune cấp từ các hệ C S D L trên.
2.1.4. Kho dữ liêu với công nghê Data mimiìu (khai phá dữ liêu)
K h o d ĩ liệu ( D W H ) với côn g nũhệ khai phá dữ liệu là các biến thế cùa các kho
dữ liệt truyền thống. Nhữ ng DVVH này sứ dụ ng đê’ thực hiệ n các hiệu chính các
dữ liệi. thống kê lớn. Nhữ ng đặc đièrn cua D W H loại này ià :
Rã: chi tiết
- Có quan hệ lịch SƯ sâu xa
- Được thiết kế tối ưu đê phân tích th ốn s kê
N goà i ra các D W H này còn đ ịn h hướn« tới m ộ t dự án nào đó. Đ ié u đó có nũhĩa
là khác với các DYVH khác nó được sứ (hum ntỉay lập tức đế thực hiện các phan
tích cần th iếl cho dự án.
M ộ t khác biệt quan trọng nữa cùa D W H với côn g nshệ Data m in in o là c lu inti ral
thường xuyê n lấy thêm các dữ liệu bên Iiíioài. N h ũn g dữ liệ u đó lát có ích XÓI
theo quan điếm đám báo tiểm năn» kinh doanh m à điêu nàv rất k hó neu thiêu
các dữ liệu mới nhất.
2.1.5. M ỏ i trườnu hoat do ne.cua kho dữ ỈICU bao iiổm các thành phàn sau:
- Các nmiổn (.lữ liệu: dữ liêu tác niihiộp lùiiìii I
1
ÜÜY (Operation dala), ti ũ liệu
phân tán (Dislribulcđ dala). các nuuon dữ liệu bén nuoài (ihoim liu vé IV uiií.
thị Irườnũ. thời tiết, chI NO chớnÜ khoán). Nhữnu nmiõn dữ liệu nàv được Iã\
VC lìr các hệ thôn Lí (lue I;11> \ à lio;III li';m IKIIII IÌLM ',|| kho clữ I iỌu.
Các côn il cil chuyến đói. chuàn hóa. làm sạch và làm iiiìui (lữ liệu ctiín li \';ii
irò tánII Irm m chuyến (.lữ lieu.
kho chứa m etadata (rep os itory): Ill'll trữ các thònũ till din h nizhîa vẽ ihìm h
phán \’à đối urợim cua kho dữ liệu
Các cỏ niỉ cụ quán trị kho (.lữ liệu
Các côn« cu kh ai phá dữ liêu, phân tích trực tu vốn. hỗ trợ qu y ết định.
MÔ HÌNH KHO DU LIỆU
Data Marts

Khai phá d ii lieu
\
Kho dư liêu
\
c ác cong cu
khai phá dư liêu
Ị|
I
c ác cong cu D s s
JEÏ1
Các cong cu OI AP
Dư liéu láy tù
thi trưònọ bẽn ngoài
d .
Quàn tn kho du lĩeu
o I A p Server
Hình 2.3: Mòi trường hoạt dỏng cua kho dữ liệu
2.1.6.ỉVĩôt số ỈỊướng tiỏp càn D W jJ và KJDj) Ironü jigà nh Ik m c h ính V ieil
th ôjig
X ả y dirne các kho dừ liệu cua các đon vị thành viên p hục vụ một sò clui đê
nhât định, sau dó dàn dân sẽ phát Iriên ca vô hô rộ n ” và bê sâu (theo m ô hình
bôn g tuyêt)
T riè n khai IÓ'P các hà 1 toán, thuật loan, thư viện clu m o phục vụ lãnu Irunti
chuvên dữ liệu
N íih iê n cứu l ri ôn khai các ứnu dụn ti C| Lián Irị kho dữ liệu có nhiêu cla ta ma
1‘t
14
- Xáv dự n <2 các hệ khám phá tri thức phục vụ trợ Líiup q uv êl định Iro im các
lĩnh vực: chiên lược kinh đo anh -tiốp thị. dầu tir và phái trien m ạníi IuìVl phát
trien dịch vụ aiá trị °ia tăne.

2.1. Cong nghệ khám phá tri thức (KDD)
2.2. L T ổng quan vé K D D
H.U11Z nghìn năm nay các vấn dê về tô chức và khai thác dừ liệu là vấn dê mà
con người phai siải quyết. Đen nay vân đề này vần chưa eiai q u yết được triệ t dê.
C á; chuyên gia tron g các lĩn h vực khác nhau tro ns quá trình hoạt đ ộng của m ình
th i thập được m ột k hô i lượn o k iến thức k h ôn s lô như ng tô chức cơ sơ dừ liệu đó
thành m ột hệ th ốns đê phân tích đưa ra n hữn s thô ng tin cần thiế t trên cơ sỏ' dữ
liệu đã được tập hợp là m ộ t vân đề rât phức tạp.
Các hệ thôn« tồn tại m ột cách chồn« chéo kh iế n các th ôntỉ tin thừa \a \ ra nhièu
và /ân đề xử lý số liệu lớn là rất phức tạp. C ó m ộ t n ehịch lý là chúng; ta thu thập
thcns tin nhanh hơn rât nhiêu việc xử lv th ô n ” tin.
Cuoi thê k \ 20. phu'0'n« pháp phàn lích sô liệu m ột cách tri tuệ (là phư ơnu pháp
khai thác thô ng tin trực tiế p từ dữ liệu thô) đan s các nhà kh oa học danạ tập
tru rg g ia i quyel. N hữ ng thứ ns hiệm dã dược áp d ụn a thứ khi phân tích thị
irư cnu tài chính, ngân hàng, danh giá kha năn ti cho vay. phân tích đánh ũiá
nhùrm m ạo hiêm trono cìâu tLI' dược tiên hành rât nhiêu. Đâv là vân đê dặc hiệt
khó k h i ta cỏ một lượnII thônu tin kh ôn g lò. Hài toán càn 2 Ìai quy êt ớ dây là
phân tích sô liệu ra sao? C on nsười và máy tính sẽ kêt hợp vớ i nhau đê aiài
quyèt vân dê như thế nào. con nm rời sẽ làm n hừ ns ai và nhĩrn a RÌ sẽ aiao cho
m á) m óc. D ự đoán các vân dê trên trona tuxrnu lai là rât khó n hư ns quan trọ nu
nhà', là hiêu dược tzió'i hạn con nm rờ i và giới hạn cua các th iết bị m áy m óc. Theo
John N cu m al thỉ số lượn ũ neun.ll cua m ộ t nsu'ó'i la 10: " bits m ặc dù c hún g ta
kliônu thê sư đụn» hôt sô lượ n2 nàv. M ộ t sò nhà bác học dã m ô p honũ các hành
vi m ậ n dạn« cua não bộ (v í dụ m ạnu 1 ỈD p licld ) cho ta kha năn« nhận d ạiiíi
ILIOTU tự' nlur não nmró'i. Cae m àu đà điạrc huân lu\ ện ele nhận clạnu sè kích
thích ()' m ột viin y dã dược xác định trước. NüU'ó'i ta dà tính cliro'c rănu nêu m ột hộ
th ũiụ clu'o’c lỉiict lập tù' 10 N cura ỉ ihi uhi nhận tlin.ic 5 . I( )IX mầu khác nhau.
bnL sụ lirnu Neural. Oớiy cnu chớnh la sụ ln <2 mn lún nhõt m con
n ti i co thũ nhú'd irc. I)ú l con sụ kh ụnu lụ m thiờt h din l khụn cú kha
nn ỡ: dt diro'c. I L1\ nhiờn, tục d cua cỏc N eural sinh hc quỏ chm so vi cỏc

cụne ỡmli tớnh toỏn hin n a \. Võn dờ nv cú lv do la ỏ N eura l sinh hc lc c
phai' nti nho hn N e ural nhõn to 8 lõn. T hai \ cu to so lu'ỗ'nu \' tc cua
Neural ta xỏc nh dc khỏ n ns s dn u h thụn t trớ tu nhõn to tronằ quỏ
trỡnh K D D l quỏ trỡnh khai thỏc t h ụ n t i n tự' c s' d liu. K h ụ n cú m t
chu'on trin h m ỏy tớnh no hin na\ c na nh trono kho ans th i ớiian sp túi cú
thờ mụ ta dc pho ns phỳ cua trớ tu con rm r i. T t nht ch n 2 ta nn hn
chờ cỏc bi toỏn ca con ngi tro ng lnh v c tụ chc c ns vic. M ỏv m úc tt
nhõt l tp trun g vo vic tim kin thc m i (cỏc quv lut n di kh i d liu
kh na l).
Cỏc h th ne K D D cú the xỏc nh m t cỏch hỡnh tiron a l cỏc b tnô tc cho
trớ tu ca con nsi. U ne d ns ca h th n ô K D D Yờu cu neh thu t biờu dien
v phni phỏp tụ chc cỏc hi toỏn. K ờt qua c ui cựng l l i a iai dira trờn
nhne thụna tin dó thu thp dc. C hỡa khoỏ cua vn d s n lớ K D D kh ũnu
phai la chn m t hoc \ i thut toỏn K D D dó b i l m dira \ o \ ic phõn lớch
d liu bns tụ hp cỏc p h ns phỏp. Ta cú thờ lõ\ vớ d trụna, lnh vc \ tũ.
õu thũ ky 21. loi ns i dó bit dc l o 5 tri u clu m o bnh. I (f mu thuc. I0 4
cỏc loi bnh khỏc nhau. Rừ rnu nờu khụ ns c s a iỳ p cua K D D th vic
khỏm phỏ ra tri thc tro 11 dú l diờu khụ na thờ dụi \'i bõt k chuyờn iia no.
Ch ỳ 11 ĩ ta cú thờ coi Iri ihc nhu' 1 hụn SI Im lớch hp. hao om ciớc s vic \' nhn
quan h cua chỳim , m cú thố lnh hi. k ham phỏ. hoc hc lp. N oi mt cỏch
khỏc, tri thc cú thờ la d liu mc Iru ln il húa v khỏi q uỏi cao.
2.2.2. Khỏm phỏ tri thc l gj?
K h ỏm phỏ tri thc tro n ô cỏc CO' s liu l m t qui trỡn h nhn hiờt cỏc m õu
hoc cỏc mũ hỡnh tron t d liu vi cỏc lớnh nnu: h p thc. m i. kha ớch. v c
thờ hiụu c. D õy l m t quỏ trỡnh m illion cu m t kh ụi lrm d liu ln hnu
cỏc phiro'im tin t dnu. M c ci ớch cua phỏt hin tri thc \ khai phỏ d liii
ch inh la tỡm ra cỏc mau v cỏc Iẽ1ễ hỡnh dan Li tụn li tron u cỏc CO' SO' d liu
nh im u \ n con b ehe kluil ho'i hnti nỳi d liu.
K hán phá tri thức nhanh ch óns ph;il tliê n cù nii \ <V| nhiểu lãnh MIC khác nlur: co'
sớ đữ liệu . ihm iü kõ ih õim tin. học m áy. trích rúI II I thức hữu ích lù' nhữiiụ tập

hợp 1(11 dữ liệu, lín h toán sonii sonti \'à hiệu nãnii cao. thu nhạn in ihúv cho
nhữnL>hẹ t hôn ti chuyên iiia. và trực quan hóa dữ liệu. Các lãnh vực nùv đêu có
m ộ t rrục đích chu n a là rút ra tri thức từ dữ liệ u cua nhữrm cơ sớ dữ liệu lớn.
Nhữní: ITnh vực học máy và nhận đạniỉ có cùnsi với K D D m ục đ ích n shiè n cứu
nhữna lý thuyết và 2 KII thuãt nhăm Iã\ ra các mầu và m ô hình từ dữ liòu (là
mỉ J <w . -/
n hữ n gk v thuật khai phá dữ liệu ), hu'ó'ns tới việc m ớ ròn« nh ữ ns lý th uyết \ a ìíiai
thu ật uìv để có thể tìm k iế m cĩuực những m ầ u đặc biệt (n hũn « thứ m à có thế
được rọi là tri thức hữu ích hoặc thú v ị) tron« n h ĩíns tập hợp lớn dữ liệu cua thê
giới th-1'c tế.
K D D cũnơ có nhiều điểm chuna so với phương pháp thốn g kê. phàn tích dữ liệu.
Nhữ ne hệ thốn« K D D thườn« được nhiíns vào bôn trong nhỡn« thú tục thông ké
đặc biet đê m ó hình hóa dữ liệu và quan lý nhiễu, nhữrm thu tục này đónu vai 1 rò
nhu' mót thành phán tron tỉ kết càu tổnsi the cua hệ khám phá tri thức.
M ộ t lĩnh vực liên quan khác đốn K D D là kho dứ liệu. đ ónu U()p \ ai Irò llu i í hập
và làm sạch tlữ liệu, lạo ra m ột kho dữ liệu có dây đu lính n áiiũ sán sàim và irực
tuyến. Cách liế p cận thõnsi thườn« đè phàn tích kh o dữ liệu dược uọi O L A P (XU'
lý phân lích trực tuyên). N hữ na cô nti cu O L A P cu niỉ cấp kha nãns phân tích dữ
liệu đa chicu/đa khía cạnh (m u lli-tlim e n sio n a l). dây là côn« cụ cấp cao hơn NO
với ngón ngữ truy vãn chuán S Q L tro nii việc lỏ m lược và lính loán theo nhiêu
ch ié u dữ liệu.
M ộ t câu hoi rất hav dược dặl ra là phân hiệt uiừ a c ôníi cụ K D I ) và O L A P . C ô im
cụ phân tích trực tu y ến (O L A P ) cũ n 2 là còntĩ ntihệ hỗ trự cho quá trình ra quyêt
định . M ột sự khác biệt cơ han íiiừa K O I) và O L A P là O L A P cho ta câu tra lòi
dối với các tình huonü mà im ư ời clặl càu hoi dã chuân bị irước. Con K D D thì
khác hãn. nó tụ' phát hiện ra các qu \ luậl đê lù' dó nm rời n eh icn cứu rút ra các
kết luận cần Ihici. N m iài ra K l) l ) dưa ra cae uia th ici mó'i cỏ thè dìnm cỏ n e cụ
O L A P dê xác nhận hoặc loại bo. Nlur \ ậ\ K l) l ) và O i.A P có quan hệ t i r o n a hô.
hỗ trơ nhau. C húníi ta co ihê coi ca cò nu nuhệ khám phá iri thức lãn ( )l A I ’ la
I(>

nhĩrnu khía cạnh quan irọn u dê tạo ra nhữnsi côrm cụ thôn <2 m inh có thê trích rút
và -Ilian IV tliôna tin.
Nh-I' la dã bicl. K D D là một lò nu hợp cua các lĩnh vực kiên thức 1'ài khác nhau.
Có hai phư onu án dê tiêp cận K D I) :
- T iếp cận theo hướno thô im kê
- T iếp cận theo hướ ns ma n s Neural
Trcne thời aian aần đâv. nsuó'i ta coi phư ơng pháp thôn« kê là m ộ t bộ phận của
K C D vì K D D sư clụne các phươno pháp thôn« kẻ phôi họp với các phưư ns pháp
trí mệ nhân tạo khác. D ù n 2 các phươns pháp K D D cỏ thè aiài quvèt dược các
bài toán sau:
X ây dựng từ tập hợp dữ liệu cho trước các m ô hỉnh khác nhau đê dự đoán
và đưa ra q uyết định . T ron g nhiêu tình hu ôns khai thác dừ liệu k hô n« đà\
đủ.
Xác định quan hệ 2 Ĩữa các dữ liệu, m ức độ anh hư onũ cua các veil tô khác
nhau đên các quá trình.
2.2.3. Vai trò và các m u c liòu chính cua K D D
ĩh u thập dược các tri thức thu dược từ dừ liệu có săn:
• N hiề u cơ quan đã thu thập tron« nhiêu nám m ột khối lượnu lon các dừ
liệu. I lọ sẽ phái làm gỉ và có thê làm ÜÍ với chuna?
• N aư ời ta lưu trừ các dừ liệu vì họ im hĩ rănii có thê cỏ nhĩrnu. cua cai
đán2 quí nào đó dan« tiềm ân trono chim o. Vè V nahĩa khoa học thi dữ
liệu chính la n lũ m u quan sát dà dược tập hợp lại m ội cách cân lliận va
công phu vỏ m ột hiện tượng tụ' nhiên hav xã hội nào dó cân phai (.lược
nghiên cứu.
• T ro ne kinh doanh, dũ' liệu hàm chứa các th ôns tin vê các thị trườn ti. vê
các dôi thú. và vê các khách hàn ti. íro n u kv nuhệ. dữ liệu chửa các
thông tin về sán xuàt. vê vận hành và các kha năn2 tôi ưu. cũnu như các
giai pháp chu vèu dê cai tiên các qui trinh va eiai qu vê l các SỤ' cô.
• Chí có inộl lư ọna kha nhó (th ôn u ihirừ im la \a o khounu 5"i>dẽn l()"<>) dữ
liệu dã dược tlui thập luôn dược phân lích.

LO
• Cae di' liệu có the chira hao siiờ tlu'çyc phân tích vần tiêp tục dưọc thu
thập nl tôn kém \ (Vi \ iiQhĩ lo xa răHLĩ sau này sẽ có m ột cái ÜI dó rát
quan t'ọnu có thê dã bị ho qua.
• L ư ợ n etlừ liệu quá lớn dôi \ ó'i cách thức phân tích cô dièn. D ôi khi. ta
khôn g thê xem được hoặc chứa được tât ca trono hộ nhó'.
- c Line cấ p côns cụ cho nhừna nsườ i SU' dụna khôna chuvên về tho ns kê.
- Cân phai rhanh ch ón s phát hiện và dira ra quvêt định tron g các tình huôrm
kiỗn câp trons m ôi trườno cạnh tranh.
ỉvhi các cơ sở dừ liệu càng ngày càim to lên thì kha nănn hồ trợ phân tích và
ra quyết định ban s cách hỏ i đáp truyền tho ns (kiê u S Q L) sẽ kh ôn g thê thực
h ện được. H oặc nhiêu yêu càu m à nsườ i sử d uns quan tâm rất khó có thô
rrô tả được bãns m ột ngôn naừ hỏi dáp. chăna hạn như "hãy tìm cho tòi tất
ca các ban shi chửnũ tỏ ră ns có sự sian lận trona dó ", hoặc hãy tỉm tat ca
cac bàn gh: tươns tụ' như các ban ehi tro na ban<¿ X ".
2.2.4. C)uá nì a ì nhát lucn tri ihức:
Q u á trinh phát hiện tri thức bao sòm m ột sô bưức như được vẽ tron ti hình sau.
o
I Sừ d ung
ị h*ong thu c te i
ĩlm hieu rinh
vưc ứng dung
ĩh u ứ tap v à b ẽn
xữ lý dí> liêu
• Các m au
v à m ò hình
«
Hìuli 2.4: Quá trình KDD
[9] Bước thứ nhàt là tìm hiêu lĩnh \ LIC irruí dụnu \ à hình thành bài toán. Bước
nà\ l ì I'll ne là m ộ i dieu tiên quvêi cho \ iộc rút ra được các tri thức hữu ích và

chc việc chọn các phu'OTiü pháp khai phá dữ liệu thích hợp tro nu bước ha sao
chc phù họp với m ục đích ứne dụim và ban chât cua dữ liệu.
Bước thứ hai la thu thập va xứ K thô. hay còn gọi là tiền xứ lv dữ liệu nhăm loại
bo nhiều hoặc các dị dạna. XU' 1Ý việc thiêu dừ liệu, tiên hành các phép biên đôi
(nế.i cần thiêt) và rút gọn dừ liệu. Bước nà\ thườn« chiêm hâu hêt thời S2 i a n cân
thiét cho toàn bộ qui trình K D D .
Bươc thứ ba là khai phá dữ liệu, tức lả trích ra các m ẫu hoặc/và các m ô hình ân
dirci các dữ liệu. M ộ t m ô hình có thê được xem như "m ột b iê u diễn tô ns thê của
m ột câu trúc nhăm tóm lược thành phân m ana tính hệ th ông n sụ trono dừ liệu
hoặc mô tả tập dừ liệu này có thê sinh sôi nay nở ra sao". T rái lại. m ột mẫu là
m ột càu trúc cục hộ chi liên quan tói m ột nhóm các biên và một sô tập các sự
kiệ r. Các 1Ó'P chính cua các phươns. pháp khai phá dữ liệu là mỏ hình dự đoán
chăim hạn như phàn loại vù hòi qui: phân đoạn (chia cụm ): m ò hình phụ ihuộc
chăns hạn như các mỏ hình dò thị hoặc ước lượne mật độ: m ỏ hình tóm lưựe
chăr.2 hạn như tim các m ối quan hệ aiừa các trườna. các liên kêt; và m ô hinh
thuv dỏi và phát hiện dộ lệch tro nc dữ liệu và tri thức.
Bước thứ tư là hiÔLi tri thức dà tìm được, đặc hiệt là làm sáne to các m ô ta và dự
đoár. hai mục tiêu chính cua các hộ thônu khám phá trono thực lê. K in h ruìhiộm
cho :hâ\ rănii các m au hoặc các mô hình phát hiện dược từ các dữ liệu khỏn ti
phai lúc nào cũnu đánũ quan tâm và có thê trực tiêp sư dụn s dirợc rmav. và qui
trinh K D D cân phai dược lặp di lặp lại có diêu chin h theo các tri thức dã phát
hiện dirọc. Đê có thô đánh ụiá các 1 Liât dược áp dụ im irona qui irình K D D . nmrời
ta thiròn g chia dữ liệu thành hai tập. huân luvộn trên tập thứ nhàt \ à kiê m chírna
trôn tập thử hai. C ó thê lặp lại qui trình này m ột sò lân với các phân chia khác
nhan, san đó là\ trunu hình các kct qua clô ir<Vc lirọ im các luật thi hanh.
Bước cuỏ i cunu la tlcm tri thức dà phát hiện dược \ ào sứ ci Lin LI ironü I h Lie le.
19
20
T ro nÜ một \ li trưò ĩm hợp. nuưòĩ ta có thô SU' tlụníi U'i thức phát hiện dược mà
khône càn phai dưa vao một hệ thô nii m av tính. M ặ t khác, nuưoi sir dụnu có thê

hv vọ n i rãnu tri thức dã tim được có thê clirọc dira vào các má\ tính vu dirọc
khai th.ic bo1: m ột sò clu ronũ trình. Dưa các kẽt qua dà tim dược \à o sư dụns
tro n e tlự c tè chính la mục dich cuôi cìm e cua một qui trình K D D .
Cần Ill'll ý rana k hôn s sian cua các m ầu thư ờ n2 là vô hạn. và dê liệt kê ra được
các mầu này ta Cline can phai tiên hành ntĩhiên cứu rât nhiêu nữa. Thành phân
khai thac dữ liệu tron g qui trinh K D D chù yê u liên quan den việc phát hiện và
liệt kê ra các mầu từ dừ liệu. Bộ phận phát h iện tri thức quan tâm đến việc đánh
giá va phân tích V nehĩa cua các mau đê đi tới các qu yêt đ ịn h m au nào có ý
nghĩa VÀ mầu nào không. Nó còn bao 2 Ôm việc lựa chọn các lược đô mà hóa,
tiên xử lý dữ liệu, rút m ẫu. và các phép dự đoán dữ liệu trước khi tiên hành íiiai
(loạn khai phá dừ liệu.
C húng t.ì sẽ xem xét cụ thê một sò côn e đoạn sau:
*
T ìm h êu rỏ phạm \ i ÚTIÜ dụim: nhữnu tri thức cỏ liên quan uưov dâ_\. cúc
111
Lie
dich CUE nm rời sư dụnti.
* Tạo lập tập dữ liệu dich: chọn ra m ột tập dữ liệu, hoặc lập tru ne vào một tập
con các bien hoặc các mẫu dừ liệu mà Iren dó cân phai phát hiện ra các tri thức.
* Q uá trinh làm sạch dữ liệu: các phép CO' han như loại ho nhiều hoặc các aiá trị
k> dị nôn họp Iv. XU' lý các uiá trị bị thiêu, sưa các lôi manu tính hộ thônũ.
: i
o n T R ÌN ÍI KDD
Mình 2.5: Qui trình KDD
R út jọn và dụ' doán dừ liệu: phát hiện ra các đặc d iê m hữu ích dê biêu diễn lại
dữ liệu sao cho phù hợp nhât v ói mục tiêu cân dạt tới. Có thê sứ d ụnu phư ơnti
pháp rút bớt sô chiêu hoặc biên dôi dữ liệu dê uiám hớt sỏ lưọ'nu các biên.
* Lụa chọn n hiệm VỊI cua khai phá dữ liệu: quyêt địn h xcm mục dic h cua qui
trìn h K D D này là íĩì: phân loại, hồi qui. hay aộp nh ó m . Y.Y.
* Lụa chọn phưcms pháp khai phá dừ liệu: chọn các plurorm pháp sẽ sư dụ nti dê

tim các màu Iront! dừ liệu. I roim ció kê ca việc q uvê t tlịnh xcm các m ô hình nào
và các tham sô nào là thích hợp.
* RÚ! ra các m ầu/các m ô hình: tim kiếm các mail đáruì chu V du'ó'i một dạnũ biêu
diên khác di hoặc một tập các bill'll dien như vậv: các qui tãc phân loại hoặc các
cãv, L'ộp nhóm , và \ ân \ ân.
N ộ l à 'ï 'i ç i tL ¿
<±£'Ị-J
A
#
• •
C' u
0 •
IJ
0
* * •
♦ A _
s ” t)i¿ üi
• ♦ 0
T h i T T ^ J n h j n g
Tim nhập

Hình 2.6: Phân tích V nghĩa và đánh giá các mẫu/các mô hình.
* C ủ na cố tri thức đã phát hiện được: tích hợp tri thức này vào hệ th ốna thực
hành, hoặc đơn eiản hơn là làm các báo cáo về nó và phân phát cho nhừrm nụiàvi
quan tàm. Kiém tra lại xe m tri thức này có ei trái v ói nhừ ns tri thức dã có trư óv
đâ\ không.
3.1. Tüíiü quan ve kliai pha dữ IĨC‘11
3.1.1. Khai phá dữ liêu là một bước tron» qui trình phát hiện tri thức eôm có các
:huật ¡oán khai phá dừ liệu chuvên dùno dư ói một sô qui d ịnh vé hiệu qua
:ính toán châp nhận được dê tim ra các mâu hoặc các mỏ hình trong dữ liệu.

- Khai phá dữ liệu bao £ổm mộ t tập hợp các kỹ thuật tiế p cận tự động nhàm
kháo sát. phân tích ti m í và đua ra các m ối liên hệ phức tạp. nhũng thôn« tin
có ích bên Iro im các tập hợp dữ liệu khốn s lổ.
- Khai phá dữ liệu sử dụ im các kv thuật và các khái niệm cua các lĩnh vực
nghiên cứu trước đây như: máy học. nhộn dạne. thốn e kê, hồi quy. phân
nhóm .V.V Khai phá dữ liệu dược sử đụna đê tạo ra các 2 Ía thuyết, đê làm
dược điêu này khai phá dừ liệu sư dụna các thôna tin trono, quá khứ dê học
và sư dụne chúrm đê tim ra các mau đán ti quan tâm sau dỏ dụ' đoán dược các
mầu mới.
Các nhà thònu kê thì xem khai phá dữ liệu như la một qui trình phàn tích
được thiêt kẻ dê thăm dò một lượna cực lớn các dừ liệu nhăm phát hiện ra
các mau thích hợp và/hoặc các m ôi quan hệ m ana tính hộ thônạ uiữa các
biên. \à sau dó sẽ h ọ p thức hoá các kct qua tìm đưực bãnu cách áp dụna các
mâu đã phát hiện được cho các tập con m ới cua dừ liệu. Q ui trình này bao
tiỏm ba uiai doạn cư ban: thăm dò, xây dự im m ô hình hoặc định nuhĩa mầu.
và hựp thứ c/kiêm chứnu.
3.1.2. Phân m èm khai phá dữ liêu là các cônti cụ phân tích dữ liệu cho phép
người sử dụn« phán tích theo nhicn chiểu và nhiéu íỉóc cạnh, đặc trưng hóa và
tontz hợp lại thành các m ố i quan hệ riõnu.
3 .1.3. Các thành phán cua MUÚ n inh khai nhá dữ lieu:
a. Dữ liệu: là bãl kỳ các Yêu lô. con số. \ ’ăn bán mà có thô được XII' IÝ bới
m á) lính. D ữ liêu có ihé co nhicu khuôn clan*:, ilu iộ c Iihicu c o 'so'(.lữ liệu khác
nhau. h;io ũổm :
• C;k (lữ liệu xu' lv IUOI1Ü liic nhu' (lữ liệu h;in ỈKÌiìíi. ui;í c;I. ké loiin
'Chươi u 3: Khai phá dữ jjcu
24
• Các dư liệu khôn « xứ IÝ 1 ư ơ n *: lá c như dữ liệu lo n LI hợp đa qua xử lý ,
clữ liệu dự háo. kin h lố vĩ m ò
• Siêu dữ liệu (inetaclata): là đữ liệu lự định nẹhĩa clữ liệu n hu'cá c thiết
ke vé cơ sớ dũ' liệ u hay các định nsihĩa từ điên dữ liệu.

b. TTònu tin dirợc lấy ra từ các m ô hìn h /m ẫu . các m ối liên kôt hoặc các quan hệ
21 ici các tập hợp dữ liệu.
V í ci II : T hô na tin phan tích được lấy ra về các ph iên «iao d ịc h mua /b án. chi ra
tìm trạns bán hàng các sán phám .
c. T r thức có thê coi như là thôn g tin tích họp. bao sò m các sự kiện và các m ố i
quan hệ aiữa chúng;. C ác môi quan hệ nà y có thẻ đư ợc hiê u ra. có thê được
ph.1t hiện, hoặc có thê được học. N ói cách khác, tri thức có thê được co i là
các dữ liệu có độ trừu tượng và tô chức cao.
3.1.4. Dư đoán dữ liêu
Dụ đoán dữ liệu là m ộ t thuật nsũr quan trọng cua kha i phá dữ liệu.
Nhằm sư đ ụ n" thông tin lấy ra từ m ột táp hợp các siá irị đế (lự đoán nhữnu
gùi trị khác. K hai phá dữ liệu dự đoán thườn« SU'đun« m ộ t tron« hai phương
ph;.p : phán loại và hồi qui. Việ c sử chum phươns pháp hổi qui đế dự đoán
thuờng được iiọi sự dự báo.
Kh; chú ns
ta phân lo ạ i c á i sì đó. chúnơ ta c h ia cát c h ú n g v à o t r o n SI v à i n h ó m
h o ặ c phạm t r ù r i ê n g h iệ l. đ ặ t d n ii i iZ v à o p h ạ m v i c u a p h ạ m tr ù đ ó .
Dưới đâ y là m ột hài toán phân loại nhỏ. đơn sinn để m in h họa :
Dữ liệu hao g ồm chiề u cao. Irons lượn2 . và tuổi. Cán phái xác địn h:
1. G iới tính C lin m ỗi irườnti hợp
2. Thể hiện độ tin cậy cua m ỗi trườn» hợp theo các m ức độ: Cao. trung
hình, thấp hoặc kh o nu xác định
ID Chiều cao Cán năng Tuổi (ỉiói tính Độ tin cậy
A I m 7 5m 75 kí!
B 1 m 55 50 ki:
c I m 25 30 k”
D 0 m 4 0 lO k.ü
27
38
•)

• )
10
' )
0.5
■ )
Tacan phili quvC't định (lựa (ren CO'so' nhữ n” hicu bíêt ve nhữntỉ chiêu cao và
In nu liroìm con 11*: ười. V í du. tỉa số nhỡ n” nu ười mà ta nhìn thã\ hoãc hict
c • c . V- V*. „
tới mà cao lm 7 8 vù cán nặn" <S5 k <2 cléu là đàn òníi. Bơi vậy. cỏ thẽ cho rãiiũ
mót nu ười kh ôn« biết chiều cao và trọn« lượn” mà thuộc cùne sự phàn loai
dó thì cũrm là đàn ôna.
Tuy nhiên cán phai lưu ý rãna tri thức khôn « chi là nhữna 21 mà ta có thê
phan loại được m à còn là ca nh ũn” tỉ ì mà ta khô n« thế phàn loại đuực dưa
trên dữ liệu có sán. Háu nhu' m ọi người đều cho răn« kh ôns có cách nào có
thê phàn loại trẻ em dựa trên cơ sớ chí đon gian về chiều cao và trọng lượng.
Bans phàn loại ở hình trên có thế được thê hiện bans kết qua dưới đày. mức
độ tin cậy tru ng bình đ ố i với n hũ n2 phụ nữ nặn« 1 10 pou n d và cao 5 ’3” . mức
độ không tin cậy đ ối với trẻ em từ 10 tuổi trở xu ốns
ID Chiều cao Cân nặng Tuổi Giói tính Đò tin cậv
Trong ví dụ trên, ta sử tkiiiü kỹ ih u ậl phàn loại dò thử khá m phá nluìim đặc
tính đặc hiệt về m ỗ i cá nhãn. Bằn» việc đưa ra I tập hợp nhữiiũ (lữ liệu nhất
đinh, la phái xác đ in h ui á tri cho m ột Irườiiii Lrốuii Iron a mui bail lili i. Đỏnt>
thời ta có thê xác đ ịn h mức độ tin cậy trong khi dự đoán.
Ta có thê sử dụng cùnũ cỉữ liệu và cìinti kv thuật đó. kh ỏníi phái chi đô điển
ih ôn s tin bị thiếu hụt. mà thú vị hơn là đẽ đưa ra các ứng xử phù hop Irons’
tươns lai đổi với tìm « cá nhân.
V í tlụ có hon người, có the ta m uốn biêt Iiüii'o'i nào sẽ can m ộ i hộ (tons’ phục
bóng đá chuyên nũhiệp?
H oặc, tiia ihiẽì m ỏi cá nhan đòn tù một Li¡a dinh khác nhau, lili nhữiiLi Líiii
cíình nào là Iihữnii khách hñnü ln'o'nü lai (loi \ (V| Iihữiii2 cataloũ (lõ che vi và

I|ii;ìn áo cun ỉIV COI)?
A lm 7 5 m 75 ks
B 1 ĩ r õ 5 50 kỉí
c lm 2 5 30 k°
D 0 m 40 10 k °
27 Nam Cao
38 Nữ T run tỉ hình
10 N ữ K hôn « tin cậy
0.5 Nữ K hô n « tin cậy
Báng 3.2.
’"Liệu có nên mõt íiu'i thư C|Lia ctu'ô'nü him điên I(Vi hai hav tới cá bón üia
dì il h /" là m ôi C| Il \ cl định kinh doanh cân xem XÓI. và phái dưa liê n dò tin
cậ CII.I m ỏi trườn SI hop.
3 .1.5. Dư bao dữ Ị_ịẽu
Di háo dữ liệu là m ột kiêu dự đoán mà làm việc với các con số đê nhũn« cáu
tra lời đặc biệt chứ k h ô n” phai câu trá lời m anti tính xác thực. T ro no thuật
n s ĩ k\ thuât. dll' báo là viêc d ll'đoán nhù'na aiá tri trono m o t chu ỗ i liê n tiếp
. . »— «— - *— I
các giá trị trons một cứa sổ thời aian.
Bớ vậy, nhũng dự báo có thê đưa ra nhữnơ giá trị m à vần chua xuất h iên
tro is dữ liệu, trong k hi phưưrm pháp phân loai thì ch i giới hạn tron g nhữníì
lớp đã có dữ liệu trước đó.
3.1.6. Lưa chon dư báo (h ỏ i q ui) hay dư đoán (phàn loai)?
Viec phát biếu câu hỏi liên quan đến việc liệ u ta sẽ sứ chum phươns pháp
philn loại hoặc phương pháp hồ i qui. Dưới đây là vài ví dụ :
• Dự báo : Nh iệ t độ ngciy m ai là hao nhiêu?
• Dư đ o á n : N hiô t đỏ II” ày mai sẽ irên 36 đô c?
• Dự háo : Ch ún g ta sẽ hán san phám A tron Sĩ m ỏ i kho cua clú m g ta vào
quí sau là bao nhiêu?
• Dự đoán : Nhữ na kho nào quí sau sẽ hán được nhiêu san phám A?

• Dư háo : N íiày mai co phán X sẽ hán được CHO nhát là hao nhiêu?
• Dự đoán: c ổ phần X sẽ lên. X uốn Ü hay ctứnỵ tro ng nü à y mai ?
PhuơriH pháp phân nh óm là khác hán với phươnũ pháp phân loại. Kh i phàn
loại cái gì đó. ta sẽ gán ch o nó cho m ộ l tien địn h nühîa ve lớp.
Sụ' phân nhóm thực hiện tìm nhỡn« nhóm han uhi L’io n " nhan một cách tự
nhiên khỏnũ theo m ột định hướnũ vé nhó m đó phai nhu' thè nào. V iệc phân
nhỏm hữu ích cho việc nhũn« việc kháo sát dữ liệu han đàu. đô chia m ột
khối lili liệu (hành nhữnií phán nhỏ hon.
3 .2 . V a ị trò và các m u e tien ch ín h cua k h ai |)lia dữ [[eu

×