Tải bản đầy đủ (.pdf) (88 trang)

(Luận văn thạc sĩ) nghiên cứu một số phương pháp khai phá dữ liệu và thiết kế, xây dựng ứng dụng khai phá dữ liệu trên kho dữ liệu khách hàng của bưu điện thành phố hà nội

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (27.64 MB, 88 trang )

ĐAI HỌC QUỐC GIA HÀ NỘI
KHOA CÒNG NGHÊ

Đ O À N NHẬT MINH

NGHIÊN CỨU MỘT s ố PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
VÀ THIẾT KỂ, XÂY DỰNG ỨNG DỤNG KHAI PHÁ DỮ LIÊU
TRÊN KHO D ữ LIỆU KHÁCH HANG CỦA B ư u ĐIỆN TP HÀ NỒI

CHUYÊN N G ÀNH: CÔNG NGHỆ THÔNG TIN

MÃ SÔ: 1.01.10

L U Ậ N V Ă N T H Ạ C SI

NGƯỜI HƯỚMỈ DÂN KHOA HỌC:
P(ỈS, TS VŨ ĐỨC THI


ỈA NÔI - Năm 2 0 0 3

Iỉ - L O / o l o i r


M Ü C LÜC

P ila n mochín

Chương l: So lược về xu hướng nghiên cứu và phát trien
h iệ n


6

k lu ii phá dù liệu

6

nay

Chương 2: Kho (lũ liệu và cõng nghệ khám phá tri thức

2.1. Kho dữ liệu (Datawarehouse)
.
2.1 1. Tons quan về kho dữ liệu
2. ỉ 2. iMột số đặc điếm của kho dữ liệu
2.1 3. Vai trò và các mục tiêu chính của kho dữ liệu
2.1 4. Kho dữ liệu với công nghệ Data mining (khai phádữliệu)
2.1 5. Môi trườn2 hoạt động của kho dữ liệu
2 .1 6.Một số hướng tiếp cận DWH và KDD trong ngành Bưuchính Vién
thơn«
2.2. Cịn2 112 hệ khám phá tri thức (KDD)
2.2.1. Tons quan về KDD
2.2.2. Khám phá tri thức là 2 1 ?
2.2.3. Vai trị và các m ục tiêu chính của KDD
2.2.4. Q trìn h phất hiện tri thức
Chng 3: Khai phá dữ liệu

3.1. Tóns quan về khai phá dữ liệu
3.1.1. Khai phá dữ liệu
3 .1.2. Phán mềm khai phá dữ liệu
3.1.3. Các thành phán cua quá trình khai phá dữ liệu

3.1.4. Dư đoán dữ liệu
3.1.5. Dự báo dữ liệu
3 .1.6. Lựa chọn dự báo (hổi qui) hay dự đoán (phan loại )?
3.2. Vai trị và các mục tiêu chính của khai phá dữ liệu
3. 2.1. Vai trò
3.2.2. Mực tiêu chính
3.3. Các phương pháp khai phá dữ liệu chính
3.3.1. Phan lớp (phân loại ) dữ liệu
3.3.2. Hồi qui (dự báo) tlữ liệu
3.3.3. Phan nhóm dữ liệu
3.3.4 Khái quất dữ liệu
3.3.5. Tạo mau phụ thuộc
3.3.6. Tóm lát (summarization)
3.3.7. Các phương pháp dựa trịn man
3.3.8. M õ hình phụ ihc du a (ren do thị xácsnal
3.3.9. Khai phá dữ liệu villi ban (Tcxỉ M i n i n g )
3.3.10. I .ouie mờ
v i l I. Iluíl hiên lh;iv (loi \ ;i cl III ven hirñ'HL’

8

8
8
10
I1
ỉ2
I2
13
14
14

15
I7
IS
23
23
23
23
23
24
26
26
26
27
27
27
27
28
29
29
29
30
30
30
30
30
MI


4


3.4. Các kv thuật khai phá dữ liệu
3.4.1. Cây quyết định
3.4.1.1. Một số khái niệm chính
3.4.1. 2. Thuật tốn Hunt
3.4.1. 3. Thuạt toán 1133 Lặp 1*0 dổi
3.4.1. 4. Thuật toán C4.5
3.4.1.5. Thuật toán rút 2 ọn các luật quyél định
3.4.1.6. Loại bỏ các luật khône cán thiết
3.4.2. Suy diễn và qui nạp
3.4.3. Phát hiện cấc luật kết hợp
3.4.4. Phân nhóm và phân loại
3.4.5. Mans neural
3.4.6. Gicii thuật di truyền
3.4.7. Lựa chọn các kỹ thuật khai phá
Chương 4:

31
32
32
35
41
47

53
54
55
56
51

58

60

Công nghệ khai phá dữ liệu của hãng Oracle với phiên ban 9i release 2
4 .1. Các chức năng và đặc điểm mới:
4.2. Các thành phần của Oracle Dataminins

60
(O D M )

60

4.3. Các chức năng chính của ODM

6!

4.3.1. Phân loại
4.3.2. Phân nhóm
4.3.3. Luật kết hợp
4.3.4. Thuộc tính quan trọim
4.4. Các thuật tốn khai phá dữ liệu của ODM

61
63

65

4.4.1. Thuật toán Adaptive Bayes Network
4.4.2. Giãi thuật Naive Baves
4.4.3. Bộ tìm kiếm mỏ hình (Model seeker)
4.5. Quá trình khai phá dữ liệu


66
67
668

4.5.1. Xây dựng mỏ hình
4.5.2. Kiếm tra mỏ hình
4.5.3. Tính tốn tý lệ
4.5.4. Ap dụng mỏ hình
4.6. Các đối tượng ODM và lính nânsỉ

69
70
70
71

64
64

72
72
74
74
74
74

4.6.1. Đặc trưng clữ liệu vật lý
4.6.2. Cấc thiết lập chức năng khai phá
4.6.3. Các thiết lập giải t h u ậ t khai phá

4.6.4. Đặc trứng dữ liệu logic
4.6.5. Các thuộc tính khai phá
4.6.6. Chí đ ịn h kỹ ihuát sử thum dữ liệu
4.6.7. Địi tưựim mỏ hình khai phá
4.6.S. Đối tượng kết qua khai phá
4.6.9. Ma (rận kiếm (ra

76

4 . 'S.10. A p e l li n a ko I t|ii;i l\h;ii phá

76

75
75
75


4.7. C;.c LIiá trị thiếu và sự rời rạc
C h ư o i i u 5:

77
7.S

B ỉii t o á n k h a i p h á d ữ li ệ u k h á c h l i à i i i ỉ ( l i c n t h o ạ i d i dọiií» V i n a p h o i K '

5.1. Đ;it ván dồ cua hài tốn

78


5.2. Qui trình thực hiện bài tốn

78

5.3. Thiết kè bài toán

80

Kết luận

87

Tài liéII tliam kluio

88


(>

Phún m ơ đ a u :

Yêu tố thành côn 12 ironu mọi hoại done san xuất

kinh doanh - quan IÝ nũùy

nav uòn lỉắn lien \'ới việc nam hãi. ihốim kẽ \'à khai thác thơnÍ2 im hiệu qua.
Điểi đó có nũhĩa là từ các (lữ liêu sán có. phai tìm ra những thơn SI tin tiểm an có
giá rị mà trước đó chua được phát hiện, tìm ra nhũn« xu hướng phát triển và
nhữrtỊ yếu tố tác ctộns lên chúiiũ.
Đó k mục tiêu và nhiệm vụ cơ ban cua công nshệ khám phá tri thức tron« cư sở

dữ lien, mà tron« đó kỹ thuật cho phép ta lấy được các tri thức chính là kỹ thuật
khai }há dữ liệu (Data minina).
Phát liện tri thức tù' cơ sở dữ liệu là một q trình có sứ dụns nhiều phương pháp
và ccng cụ Tin học nhưno vần là một quá trình mà trono đó con nu ười là Trunn
tàm. 4] Do đó nó khơns phái lù một hệ thố ne phàn tích tự động mà là một hệ
thỏm bao tióm nhiéu hoạt cìộna tươns tác thường xuyèn siữa con nuười và cơ so'
dữ liệu, với su' hổ trợ của các cône cụ tin học.
Nếu phát hiện tri thức là toàn bộ quá trình triết xuất tri thức từ các cơ sớ dữ liệu
thì khai phá (lũ' liệu là giai đoạn chú yêu cưa q trình đó. Khai phá dữ liệu là đế
tìm ra các mau hình cổ ý nghĩa, phù hợp với nhiệm vụ khai phá đã xác định
trước, chứ không phái là thốn« kè cíữ liệu.
Khai pha dữ liệu khừng tluiộc mộl nỵành cơim nũhiệp nào. nó sử dưng các kỹ
thuật và thuật tốn thơng minh đê khai phá tri thức tiềm ẩn trong dữ liệu, đặc hiệt
trons các lĩnh vực về tài chính. V học. viễn thơng, báo hiếm, hànti khơn o.....
Trong tương lai gíìn. khai phá dữ liệu sẽ m ana lại nhiều lợi ích to lớn cho con
naười nói chung và cho các lĩnh vực quan lý. kinh doanh nói riênũ.


C n o n ụ 1: So lu'o'c

XU

VC

huoim imhiỏn cứu



phát trien khai jjhá


clL lien jije n nav
Trong nhữim thap ky ũãn ctãv. với sự phái trien mạnh mẽ cua côn li nsihệ diện lử.
sự Hr dò'i cua các bộ nhớ có đun« lượn« lớn. bộ xứ lý tốc độ cao cùn« với cúc
các hệ thống mạng viễn thỏim. người ta đã xav dime các hệ thonsz thôim tin
nhăm tự độns hoá mọi hoạt độns kinh doanh và quan lý của mình. Điều này đã
tạc

IM

một địn" dừ liệu tãne lên khơng nsừna



ngay từ các giao dịch đơn

«ian

nhất nhu' một cuộc gọi điện thoại, kiểm tra sức khoẻ. sử dựng thé tín chins, v.v.
đểi được iỉhi vào trons máy lính. Cho đến nay. con số này đã trở nên khốn» lò
J

4—

J

J

v_

bao gồm các cơ sớ dữ liệu cực lớn cỡ gigabytes và thậm chí terabytes Ill'll trữ các

chì lieu kinh doanh ví dụ nhơ dữ liệu thôns tin khách hàng, dữ liệu lịch sử các
ma) dịch, dữ liệu hán harm, dữ liêu các tài khoán, các khoán vay, sử
v.v. Nhiều hệ quan Irị cơ sỏ'dữ liệu (CSDL) mạnh với các cỏns cụ

c ỉu n ũ

vốn.

phonsz p h ú



thu;m tiện đã iiiúp cho con nmrời khai Ihác có hiệu qua các nuuổn tài nmin dữ
liệu.
Cùr.g với chức nail o khai thác có tính chất tác nghiệp, việc khai thác các CSDL
phu; vụ các u cầu trợ giúp quyết định nềy càn« có ý nghĩa quan trọns và là
nhu cầu to lớn troiiii mọi lình vực hoạt động kinh doanh, quan lý. Dữ liệu được
thu Ihập \'à Ill'll trữ

níZctv

càn Í2 nhiồu nhung n ill rời ra quyêt định troim quan lý.

kinh doanh lai cân nhũn«
ihơnao tin bố ích.7 nhũn«<— “tri thức” rút
c?

ra từ nhữngC-

ngn dữ liệu đó hơn là chính những dữ liệu đó cho việc ra quyết định cua mình.

Các nhu cầu đó đã được biết đốn tù' láu nhưnsỉ mới thực sự hùng nổ lừ thập niên
90. Do đổ những năm 2 ần đây đã phát trien mạnh mẽ một loạt các lĩnh vực
nghiên cứu về tó chức các kho dữ liệu và kho thóng tin (dala warehouse,
information warehouse), các hệ trợ Íiiíip quyết định, các phươnu pháp phát ỉiiộn
tri thức và khai phá dữ lien (dala miniim). Tronũ dó. khai phá clũ'
hiện iri thức đã

III’)' thành mội lĩnh

vực imhiên cứu SOI độnii. tlui

liệu và phái
Ill'llsự quan lam

cua rãt nhiổu 11”ười ircn kli;ip các lình vực khác nhau nhu' các hệ co' sờ dữ liệu,
[honi: kc. t'hỈL'1 \u;ì( 1h( >ní_! III). nh;m (liiiiLi. hoc In;t \ . Irí mộ n 11;111 l;io.


CTuưHii 2: K h o d ư l i e u v à c ỏ n ụ n u l l e k h a m p h á t r i t h ứ c
2. 1

k h o (lữ liệ u ỉ D n l a w n r e h o i i s e )

1.1.1. Ton» C]Lutn VC kho dữ lien
vào íiiữa nhữne năm 80. IlWười ta bãt đáu dỏ cap don khái niệm kluinũ hoan”
[han tích số liệu tác nshiộp. Niiuyên nhân cua tình tran” này tươnũ đối kỳ la:
"ron 2 mỏi trườn a thừa thãi số liệu, nhà phàn tích khơn« thế tìm ra cho mình
nơntỉ tin can thiết nhằm có ctirợc sự hiếu biết thâu dáo ve nhữns quá trình xáy
II xung quanh. Tinh trạna số liệu quá chi tiết và khổng có được sự liên kết với
nhau cùa các số liệu phan ánh các q trình tirons đơi độc lập cua một thực

thể là lý do trực tiếp dần đến sự khủns hoang này. Tình trạiiíỊ thừa tỉiơmị till,
triâ t tri tlĩức dược John N uisbdt canil báo:"Chúiií> Ici chilly clùni 11'ẠÌp troiiíi

d ì liệu mà van đói tri thức." [4]
Vào cuối nhiìnỵ năm 90, íIImon đã để xướng một sự kết hợp của một số liiái
p.iáp kỹ thuật và được đặt tên là Data YVarehoushins - kỹ thuật xay ilựini các
kho (lữ liệu. Data Warehouse hav DVV1I (kho dữ lieu) (tược (lịnh Iiíihìa nhu'
một lập hợp các phương tiện cho phép hình tlunũ dữ liệu một cách tona the.
hướng đối tượng để giúp cho việc phan tích và ra quyết định.
Niĩrrm nsirời đầu tiên đưa ra

V

tướng về DVVH xác dinh run« liến hành phán

tích trực tiếp trên dữ liệu cùa các hệ xứ lý íiiao dịch và khỏnỉi hiệu C]uá và do
đr khơnii dược khun khích. Thay vào đó dữ liệu từ một vài hệ XII' lý iiiao lác
trưc tuyến (Online Transaction Processing - OLTP) được biến đổi và sau đó
đua vào một nguồn dữ liệu duy nhất là DVVH. Quá trình này ctươc iiọi là đua
do liêu vào DVVH. ũổm các cơng đoan chính sau:
+ Làm sạch (Bo các dữ liệu khóim cán thiết hoặc quá chuvẽn duna)
+ Liên kết các số liệu (Tính trước số liệu lích. ton” . Irun il bình .. ..)
+ Biến đổi dữ liệu: so liệu được hiên dõi llìành dạniỉ thích hợp. lõ clc lại phù
hợp với DWH
+ TÍCỈ1 hop so liệu tù'các 11Üuốn khác nhau.
+ Đonu hô ho;i so liệu ()' mộl thời (tiêm \;ii' dinh.


Khoo> dữ I LI là mól lie tlioni! dữ liệu


nhám

chuán

đẽ XUY (lưi)íi hệ lio irợ

hị

t|U\yết din (DSS-Decision Support Svstcms) và hộ
(O L L A P -O lin e

phan

líc h

lrục luyến

Analỵsis Processing). Nó chứa mol tập hựp đừ liêu

khổn«

lổ.

ctiKực thiốtvé hLi'ónÜ theo chứ đề. man« các thuộc tính vổ Ihịi oịan vù hau nhu'
khcràg bị hay đổi. Dữ liệu tron« datawarehou.se được lưu trữ

dưới

dạn 2


imiiyên tínoặc clạns tốna hợp phục vu cho các ứns dụns phát hiện tri thức \'à
trự eĩúp qi/ết định.
Troing thàikV đầu định nshĩa DYVH tương đối đơn gián. Đến hiện nay DVVH
vần được hếu là tập hợp dữ liệu thoá mãn 4 điều kiện cơ ban:
Hướng lối tượng.
-

Tích họ.

-

Thay đ(i theo thời gian.

-

Lưu trù lâu đài.

Nhiêm vu (hĩnh cứa DWH là phục vụ cho các hệ hỗ trợ quyét định. Các dữ
liệu co' sỏ' tong DVVH có thê được hiếu diễn dưới vài khuôn (lạnũ khác nhau
nhàm đáp mg khônu chi các càu hỏi cho trước mà cho ca các càu hói chua
xác định.
DWH có

kí;h thước rất lớn vì nó chứa tồn bộ dữ liệu lịch sử. Chính vì lý đo

kích thước, dữ liệu trong DVV được phùn chia làm hai loại: tích cực và khõrm
tích cực. DVH chứa các dữ liệu tích hợp ờ nhiều mức.
Mức ngỉiyêi.

tử


ị mức

th ấ p n h ấ t)

chứa cốt lõi căn han nhất và là một snapshot

(dữ liệu được ghi lại ớ một thời điếm) đún 2 lúc cua dữ liệu. Dữ liệu cìược LcSnti
két theo các °iai đoạn thời tiian nhu' theo từníi mo', theo nứa imày. theo nuày
hoặc theo
Mức

tCrn2 tuần. Mức theo tùìiiỉ giờ là xử lv phức tạp nhất.

ló'iii» i / i é t l ì ấ p :

Thõng tin đuục ton» kết lại là các ihônu tin được

tóm tal

và kơt hợp lại cho một mục đích kinh doanh cụ thè. Điên hình là (.lữ liệu được
lổn <2 kếl theo thời man nhu'tlico ìmày. luán. 2 luân hoặc một Ihánũ.
Mức tong ihc cun:

T h o n ü lili

được lổim

két


lại ()'

mức

cao là nlnìnũ

ih o iiii

im

được l ó m lá t và kê t h ợ p t h e o m ó t IÝ cío n a o d o ral c u l l i c . Đ i ê n h ìn h la d ữ liệ u


10
du'o'c tổn« kết sau một thời ũian dài ví dụ như hà 112 thánsí. hàim quí hoặc1 hànÜ
năn.
Các ilữ liệu này được xử lv một cách ihốn« nhát tronsz DWH đế phục vụ cho
CỊIU. t inh khai thác sau này.
Cúc cặc tính này là chun« cho mọi DWH. Tron tỉ V nsihĩa đó. mọi DWH đéu có
cấu trúc như nhau. Tuy vậy các DYVH trong các lĩnh vực khác nhau đểu có các

H ình 2.1: Mó hình tổng

thế

hệ

th ốn g

kho dữ liệu


2 . 1 . 2 . M ó t so d à c c tic m c ú a k h o d ữ lie n :

Mane các thuộc tính vé thời tiian: đãv là đặc diêm hết sức quan trọn í! cua kho
dữ liệu nhằm đáp ứnu các yêu cầu của siai đoạn khai phá dữ liệu. Mỗi loại dữ
liệu sẽ được tổ chức và lưu trữ và có gán nhãn thịi gian theo từng chư kỳ hoạt
động nghiệp vụ.
Tính ổn định: Dữ liệu trorui kho đữ liệu háu như khòntỉ bị thay đối. chú yêu đế
phục vụ các u cáu truy vấn thơn» Ún. dam báo tính bén vữntỉ vé mậl thì liệu
tron” quá trình thu thập thơim tin.
Hướim chu đổ: Đay la thuộc lính căn ban cua kho dữ liệu vì trước khi phan
tích ihict kê hẹ thoiiii. phủi xác định rõ ràne mục tiịii nííhiệp VỊI (chu etc) cán
(Jal được cua kho dử lícu. Ví (lu Iilur ban (lau khi \ a \ ilựnii kho dữ liệu, ilnéi ké


v ie l c h i đưa ra m ụ c t i ê u là x â v tỉự n ĩi k h o d ữ li ê u

vé hán lé. sau đ ó d o n h u cáu

ph;l tr i e n c ó th ê c ậ p n h a i i h ê m v à o k h o d ứ lie u các

c h u đõ k h á c n h ư hán hàn Li

qu ; m ạ n tỉ. c h ứ n e k h o á n . . . .
T í m l í c h hợ p: T h ó n ũ t i n I r o n í i k h o d ữ liệ u p h a i p h a n á n h đư ợ c t h o n ũ Illicit dưa
tr ị i c á c nsìuỏn t h o n s t i n k h á c n h a u vù c ó th e c ù n t ỉ p h a n á n h tư ơ n ii lự m ộ t vàn
đ ề là o đó .
2 .1 . ỷ V a i t r ò và c á c m u e ù è u c h i n h c u a k h o d ữ lie u :

Kho cữ liệu được tạo ra nhằm đạt dược 2 yêu cầu chính là :

-

Phin tích báo cáo

-

Hỗ rợ quyết định

C á c r ạ i c t iê u c h í n h :

-

Tĩct hợp dữ liệu và siêu dữ liệu (metadata) từ nhiều nguồn khác nhau

-

Nârg cao chất lượng dữ liệu thông qua các phươim pháp chuán hóa, làm sạch
và lìm giàu ciữ liệu.

-

Toni hop và kết nối dữ liệu

-

Đổna bộ hóa c ác imuón dữ liệu

-

Qiub lý metadata


-

Cunỉ c á p dữ liệu và đ á p ứng hiệu quá cho c á c hệ hỗ trợ ra quyết định. cun«
cap tược các thịng tin (one hợp và chính xác theo các chú để mà nmrịĩ sứ
dụnt; quan tam.

Hình dưới đây mơ ta vai trị cứa kho dữ liệu trong các hệ hỗ trợ quyết định:

r

DSS
Y

ODS

V
DW

A

OLAP

A
Lim trư

V
DM

J

Phán tích

Hình 2.2: Mị liìnli lióíi truv VÍIU Ỉ1 Ỏ trợ quvẻt định


T r o n dó:
O D 5 : C o ' SO' d ữ l i ệ u th a o tá c . t h ư ờ n ” t h u ộ c vỏ c á c hệ x ứ IÝ

«JHO lác

( ( )LTP)

D \ \ : < h o d ữ l iệ u
O L A F : P h a n t í c h trự c t u y ê n clựa l ã m c á c hệ lu ậ t t h ư ờ n u đ ư ợ c 2ỌÌ ỉà p h a n l í c h da
c h i é LỊ

D M : “Chai p h á d ữ l i ệ u , t ì m ra c á c i n a l l d ữ l i ệ u m ớ i v à q u a n hệ ai lìa c h ú n « m à
trước ỉó c h u a từnsĩ b iế t.
DSS: Hệ h ỗ t r ợ q u y ế t đ ị n h , th ự c h i ệ n t r u y v ấ n t h ô n g t i n đ ư a t r ê n c á c t h ô n ũ t i n
c u n e cấp từ c á c hệ C S D L tr ê n .

2.1.4. Kho dữ liêu với công nghê Data mimiìu (khai phá dữ liêu)
K h o d ĩ l i ệ u ( D W H ) v ớ i c ô n g n ũ h ệ k h a i p h á d ữ l i ệ u là c á c b i ế n t h ế c ù a c á c k h o
d ữ l i ệ t t r u y ề n t h ố n g . N h ữ n g D V V H n à y sứ d ụ n g đê’ th ự c h i ệ n c á c h i ệ u c h í n h c á c
d ữ liệ i. t h ố n g k ê lớ n . N h ữ n g đ ặ c đ iè r n c u a D W H l o ạ i n à y ià :
Rã: c h i tiế t

-

Có quan hệ lịch


-

Được

th iế t

kế



sâu xa

t ố i ưu đê p h â n t í c h t h ố n s kê

N g o à i ra c á c D W H n à y c ò n đ ị n h h ư ớ n « tới m ộ t d ự á n n à o đ ó . Đ i é u đ ó c ó n ũ h ĩ a
là k h á c v ớ i c á c D Y V H k h á c n ó đ ư ợ c sứ ( h u m n t ỉ a y l ậ p tứ c đ ế t h ự c h i ệ n c á c p h a n
t í c h cần t h i ế l c h o d ự án.
M ộ t k h á c b iệ t q u a n t r ọ n g nữ a c ù a D W H v ớ i c ô n g n s h ệ D a t a m i n i n o là c l u i n t i r a l
th ư ờ n g x u y ê n l ấ y t h ê m c á c d ữ l i ệ u b ê n I i í i o à i . N h ũ n g d ữ l i ệ u đ ó l á t c ó íc h XĨI
t h e o q u a n đ i ế m đ á m b á o t i ể m n ă n » k i n h d o a n h m à đ i ê u n à v rấ t k h ó

neu th iê u

c á c d ữ l i ệ u m ớ i n h ấ t.

2 .1 .5 . M ỏ i tr ư ờ n u h o a t d o n e . c u a k h o d ữ ỈICU b a o i i ổ m c á c t h à n h p h à n sau:

-


Các nmiổn (.lữ liệu: dữ liêu tác niihiộp lùiiìii I1 ÜÜY (Operation dala), ti ũ liệu
phân tán ( Dislribulcđ dala). các nuuon dữ liệu bén nuoài (ihoim liu vé IV uiií.
thị Irườnũ. thời tiết, chI NO chớnÜ khốn). Nhữnu nmiõn dữ liệu nàv được Iã\
VC lìr các hệ thơn Lí (lue I;11>\ à lio;III li';m IKIIII IÌLM',|| kho clữ IiỌu.


Các c ô n il c il c h u y ế n đ ó i . c h u à n h ó a . là m s ạ c h và là m i i i ì u i (lữ l i ệ u ctiín li \';ii
irị tá n II I r m m c h u y ế n (.lữ lie u .
k h o chứa m e ta d a ta (re p o s ito ry ):

Ill'll t r ữ c á c t h ò n ũ t i l l d i n h n iz h ỵa vẽ i h ì m h

phán \ ’à đ ố i u r ợ i m c u a k h o d ữ l i ệ u
Các c ỏ n i ỉ c ụ q u á n tr ị k h o (.lữ l iệ u
Các c ơ n « c u k h a i p h á d ữ l i ê u , p h â n t í c h tr ự c tu v ố n . h ỗ t r ợ q u y ế t đ ị n h .

MƠ HÌNH KHO DU LIỆU
D a ta M arts

Khai p h á d i i lie u

\
c á c c o n g cu
k h a i p h á dư liê u

ỊI|
K h o d ư liê u

c ác c o n g c u D s s


\
JEÏ1

Các c o n g c u OI AP

Dư l ié u l á y t ù
thi trư ò n ọ bẽn n g o ài

o I A p Server

d .
Q u à n t n k h o d u lĩeu

Hình 2.3: Mịi trư ờ ng hoạt dỏng cua kho d ữ liệu

2 . 1 .6 .ỉV ĩô t s ố Ỉ Ị ư ớ n g t i ỏ p c à n

D W jJ



K J D j) I r o n ü j i g à n h

Ik m

c h ính

V ie il

th ơ jig

X ả y d i r n e c á c k h o d ừ liệ u c u a c á c đ o n v ị t h à n h v i ê n p h ụ c v ụ m ộ t s ò c l u i đê
n h â t đ ị n h , s a u d ó d à n d â n sẽ p h á t I r i ê n ca v ô hô r ộ n ” v à b ê s â u ( t h e o m ơ h ì n h
b ơ n g tu y ê t)
T riè n khai

IÓ'P

các hà 1 to á n , t h u ậ t lo a n , t h ư v i ệ n c l u m o p h ụ c v ụ l ã n u I r u n t i

c h u v ê n d ữ l iệ u
N í i h i ê n c ứ u l ri ôn k h a i các ứ n u d ụ n t i C| Lián Ir ị k h o d ữ l i ệ u c ó n h i ê u cla ta m a

1‘ t


14

-

X á v d ự n <2 c á c hệ k h á m p h á t r i t h ứ c p h ụ c v ụ t r ợ Líiup q u v ê l đ ị n h I r o i m c á c
lĩnh v ự c : c h i ê n lư ợ c k i n h đ o a n h - t i ố p t h ị . d ầ u t i r v à p h á i t r i e n m ạ n í i I u ì V l p h á t
tr ie n d ị c h v ụ a iá t r ị ° i a tă n e .

2.1. Cong nghệ khám phá tri thức (KDD)
2.2. L T ổ n g q u a n vé K D D
H.U11Z n g h ì n n ă m n a y c á c v ấ n d ê v ề tô c h ứ c v à k h a i th á c d ừ l i ệ u là v ấ n d ê m à
con n g ư ờ i p h a i s i ả i q u y ế t . Đ e n n a y v â n đ ề n à y v ầ n c h ư a e i a i q u y ế t đ ư ợ c t r i ệ t dê.
C á ; c h u y ê n g ia t r o n g c á c l ĩ n h v ự c k h á c n h a u t r o n s q u á t r ì n h h o ạ t đ ộ n g c ủ a m ì n h
t h i th ậ p đ ư ợ c m ộ t k h ô i lư ợ n o k i ế n t h ứ c k h ô n s l ô n h ư n g t ô c h ứ c c ơ s ơ d ừ l i ệ u đ ó
thành m ộ t h ệ t h ố n s đ ê p h â n t í c h đ ư a ra n h ữ n s t h ô n g t i n c ầ n t h i ế t t r ê n c ơ sỏ' d ữ

liệu đ ã đ ư ợ c tậ p h ợ p là m ộ t v â n đ ề r â t p h ứ c tạ p .
Các h ệ t h ô n « tồ n tạ i m ộ t c á c h c h ồ n « c h é o k h i ế n c á c t h ô n t ỉ t i n t h ừ a \ a \ ra n h i è u
v à / â n đề x ử lý số l i ệ u lớ n là r ấ t p h ứ c tạ p . C ó m ộ t n e h ị c h lý là c h ú n g ; ta t h u t h ậ p
t h c n s t i n n h a n h h ơ n râ t n h i ê u v i ệ c x ử l v t h ô n ” tin .
C u o i th ê k \ 20. p h u ' 0'n« p h á p p h à n l í c h s ơ l i ệ u m ộ t c á c h t r i t u ệ ( l à p h ư ơ n u p h á p
khai th á c t h ô n g t i n t r ự c t i ế p từ d ữ l i ệ u t h ô ) đ a n s c á c n h à k h o a h ọ c d a n ạ tậ p
t r u r g g ia i q u y e l. N h ữ n g th ứ n s h iệ m dã d ư ợ c áp d ụ n a th ứ k h i p h â n tíc h th ị
i r ư c n u tà i c h í n h , n g â n h à n g , d a n h g i á k h a n ă n ti c h o v a y . p h â n t í c h đ á n h ũ iá
n h ù r m m ạ o h iê m tr o n o cìâu tLI' d ư ợ c t i ê n h à n h r â t n h i ê u . Đ â v là v â n đ ê d ặ c h i ệ t
k h ó k h i ta c ỏ m ộ t lư ợ n II t h ô n u t i n k h ơ n g lị . H à i t o á n c à n 2 Ìa i q u y ê t ớ d â y là
phân t í c h s ơ l iệ u ra s a o ? C o n n s ư ờ i v à m á y t í n h sẽ k ê t h ợ p v ớ i n h a u đ ê a i à i
q u y è t v â n d ê n h ư th ế n à o . c o n n m r ờ i sẽ là m n h ừ n s a i v à n h ĩ r n a RÌ sẽ a i a o c h o
m á ) m ó c . D ự đ o á n c á c v â n d ê t r ê n t r o n a tu x r n u lai là râ t k h ó n h ư n s q u a n t r ọ n u
nhà', là h i ê u d ư ợ c tzió'i h ạ n c o n n m r ờ i v à g i ớ i h ạ n c u a c á c t h i ế t b ị m á y m ó c . T h e o
J o h n N c u m a l th ỉ số lư ợ n ũ n eun.ll c u a m ộ t n su'ó'i la 10: " b i t s m ặ c d ù c h ú n g ta
k l i ô n u th ê s ư đ ụ n » h ô t sô l ư ợ n 2 n à v . M ộ t sò n h à b á c h ọ c dã m ô p h o n ũ c á c h à n h
v i m ậ n d ạ n « c u a n ã o b ộ ( v í d ụ m ạ n u 1 Ỉ D p l i c l d ) c h o ta k h a n ă n « n h ậ n d ạ i i í i

ILIOTU tự'

n l u r n ã o n m r ó 'i. C a e m à u đà đ i ạ r c h u â n l u \ ện ele n h ậ n clạnu sè k í c h

th íc h ()' m ộ t v i i n y dã d ư ợ c x á c đ ị n h tr ư ớ c . N üU'ó'i ta dà t í n h cliro'c r ă n u n ê u m ộ t hộ
t h ũ i ụ clu'o’c l ỉ i i c t lậ p tù' 10

N c u r a ỉ i h i u h i n h ậ n tlin .ic 5 . I ( ) IX m ầ u k h á c n h a u .


sô lir ợ n u N e u r a l . ỈOíiy c ũ n u c h í n h la s ô lư ợ n <2 m ầ n l ó n n h â t m à c o n


bảnL

n ti ươi c o th ò n h ó ' d ư i r c . I ) ó là c o n sơ k h ô n u lô m à t h i ê t hị d i ệ n l ư k h ô n ư c ó k h a
n ă n ì: dạt diro'c.

I L1\ n h iê n , tô c d ộ c u a cá c N e u r a l s in h h ọ c q u á c h ậ m so v ớ i các

c ơ n e ì m liệ tín h to á n h iệ n n a \ . V â n d ê n à v c ó l v d o la

á

N e u r a l s i n h h ọ c l ố c cỉộ

p h a i' ứ n ti n h o h ơ n N e u r a l n h â n tạ o 8 lâ n . T ừ h a i \ c u to so lu 'ỗ 'n u \' t c c u a
N e u r a l ta x á c đ ị n h d ư ợ c k h á n ă n s s ứ d ụ n u hệ t h ô n tỉ t r í tu ệ n h â n t ạ o t r o n » q u á
t r ì n h K D D là q u á t r ì n h k h a i th á c t h ô n t i n tù' c ơ sỏ' d ừ liệ u . K h ô n ũ c ó m ộ t
c h u 'o n ¿ t r i n h m á y t í n h n à o h i ệ n n a \ c ũ n a n h ư t r o n o k h o a n s t h ờ i í i i a n sắ p t ó i c ó
th ê m ô ta d ư ợ c đ ộ p h o n s p h ú c u a t r í tu ệ c o n r m r ờ i . T ố t n h ấ t c h Ún 2 ta n ẻ n h ạ n
c h ê các b à i t o á n c ủ a c o n n g ư ờ i t r o n g l ĩ n h v ự c t ô c h ứ c c ỏ n s v i ệ c . M á v m ó c tốt
n h â t là tậ p t r u n g v à o v i ệ c t i m k i ế n t h ứ c m ớ i ( c á c q u v l u ậ t ẩ n d ư ớ i k h ố i d ữ li ệ u
k h ổ n a lồ ).
C á c hệ t h ố n e K D D c ó th e x á c đ ị n h m ộ t c á c h h ì n h t i r o n a là c á c b ộ t ă n « t ố c c h o
t r í tu ệ c ủ a c o n n s ư ờ i . U n e d ụ n s c ủ a h ệ t h ố n « K D D Y êu c à u n e h ệ t h u ậ t b i ê u d i e n
v à p h ư ơ n iĩ p h á p t ô c h ứ c c á c h à i to á n . K ê t q u a c u ố i c ù n g là l ờ i a i a i d ir a t rê n
n h ừ n e t h ô n a t i n d ã t h u t h ậ p d ư ợ c . C h ì a k h o á c u a v à n d ề sư đ ụ n lí K D D k h ò n u
p h a i lụ a c h ọ n m ộ t h o ặ c \ ài t h u ậ t to á n K D D d ã b i ẽ l m à d ir a \ à o \ iệ c p h â n lí c h
d ừ l i ệ u b ă n s t ô h ợ p cá c p h ư ơ n s p h á p . T a c ó t h ê l â \ v í d ụ trơ n a , l ĩ n h v ự c \ tò.
Đ â u th ò k y 2 1 . lo à i n s ư ờ i d ã b i ế t d ư ợ c l o 5 t r i ệ u c l u m o b ệ n h . I ( f m ẫ u t h u ố c . I 0 4
c á c lo ạ i b ệ n h k h á c n h a u . R õ r à n u n ê u k h ô n s c ỏ s ự a i ú p đ ỡ c u a K D D th ỉ v i ệ c
k h á m phá ra tr i th ứ c t r o 11 ũ d ó là d iê u k h ô n a th ê d ô i \ 'ứ i b â t k ỳ c h u y ê n iĩ ia n à o .

C h ú 11 Ü ta c ó th ê c o i Iri ih ứ c n h u ' 1h ô n SI I m l í c h h ợ p . h a o o ổ m c iíc s ự v i ệ c \'à n h ữ n ũ
q u a n hệ c u a c h ú i m , m à c ó th è l ĩ n h h ộ i . k h a m p h á . h o ặ c h ọ c lậ p . N o i m ộ t c á c h
k h á c , tri

th ứ c c ó th ê la d ữ l i ệ u ớ m ứ c Irừ u lư ợ n il h ó a v à k h á i q u á i c a o .

2 . 2 .2 . K h á m p h á tr i th ứ c là g j ?
K h á m p h á tri t h ứ c t r o n « c á c

CO'

sớ đ ừ l iệ u là m ộ t q u i t r ì n h n h ậ n h i ê t c á c m â u

h o ặ c c á c m ị h ì n h t r o n tỉ d ữ l iệ u v ớ i c á c l í n h n ă n u : h ọ p th ứ c . m ớ i . k h a íc h . và c ỏ
thê h i ô u đ ư ợ c . D â y là m ộ t q u á t r ì n h m i l l i o n c ứ u m ộ t k h ô i l ư ự r m d ừ l i ệ u lớ n h ă n u
các p h i r o ' i m t iệ n tự d ộ n u . M ụ c ci ích c u a p h á t h iệ n t r i t h ứ c \ à

ch in h la

t ì m ra c á c m a u

và các IÏ1Ơ hình

n h i m u \ àn c o n bị e h e k l u i à l ho'i

hànti

dan

Li


n ú i d ữ liệ u .

tô n

lại

k h a i phá d ữ liộ ii

tro n u các

CO' SO'

d ừ liệ u


I(>

K h á n phá tri th ứ c n h a n h c h ó n s p h ;il t l i ê n c ù n i i \
MIC k h á c

n lu r :

co'

sớ đ ữ l i ệ u . i h m i ü kõ i h õ i m ti n . h ọ c m á y . t r í c h rú I II I th ứ c hữ u íc h lù' n h ữ i iụ tậ p
h ợ p 1(11 d ữ liệ u , l í n h to á n s o n i i s o n t i \'à h iệ u n ã n i i c a o . t h u n h ạ n i n

ih ú v c h o


nhữnL>hẹ t hôn ti c h u y ê n i iia . và tr ự c q u a n h ó a d ữ liệ u . C á c l ã n h v ự c n ù v đ ê u c ó
m ộ t rrụ c đ íc h c h u n a là r ú t ra tri th ứ c từ d ữ l i ệ u c u a n h ữ r m c ơ sớ d ữ l i ệ u lớ n .
N h ữ n í: ITnh vực h ọ c m á y và n h ậ n đ ạ n i ỉ c ó c ù n s i v ớ i K D D
n h ữ n a l ýmỉ t h u Jy ế t và <2w KII t h u ã. t n h ă m

m ụ c đ íc h n s h iè n cứu

Iã -\/ ra c á c m ầ u v à m ơ h ì n h từ d ữ l i ò u ( là

n h ữ n g k v th u ậ t k h a i p h á d ữ l i ệ u ) , hu'ó'ns tớ i v i ệ c m ớ r ị n « n h ữ n s l ý t h u y ế t \ a ì í i a i
t h u ậ t u ì v để c ó th ể t ì m k i ế m cĩuực n h ữ n g m ầ u đ ặ c b i ệ t ( n h ũ n « t h ứ m à c ó th ế
đ ư ợ c r ọ i là tr i th ứ c h ữ u íc h h o ặ c t h ú v ị ) t r o n « n h ĩ í n s tậ p h ợ p l ớ n d ữ l i ệ u c u a th ê
g i ớ i th- 1'c tế.
K D D cũnơ c ó n h i ề u đ i ể m c h u n a s o v ớ i p h ư ơ n g p h á p t h ố n g k ê . p h à n t í c h d ữ li ệ u .
N h ữ n e hệ th ố n « K D D th ư ờ n « đ ư ợ c n h i í n s v à o b ơ n t r o n g n h ỡ n « t h ú t ụ c t h ô n g k é
đ ặ c biet đ ê m ó h ì n h h ó a d ữ l i ệ u v à q u a n l ý n h i ễ u , n h ữ r m t h u t ụ c n à y đ ó n u v a i 1rị
n h u ' m ó t th à n h p h á n t r o n tỉ k ế t c à u tổnsi th e c u a hệ k h á m p h á t r i th ứ c .
M ộ t lĩn h vực l i ê n q u a n k h á c đ ố n K D D là k h o d ứ l i ệ u . đ ó n u U()p \ ai I r ị l l u i í h ậ p
v à là m s ạ c h tlữ li ệ u , lạ o ra m ộ t k h o d ữ li ệ u c ó d â y đ u l í n h n á i i ũ sán s à im và i r ự c
t u y ế n . C á c h l i ế p c ậ n th õ n s i th ư ờ n « đ è p h à n t í c h k h o d ữ l i ệ u d ư ợ c u ọ i O L A P (XU'
l ý p h â n l í c h trự c t u y ê n ) . N h ữ n a c ô n t i c u O L A P c u n i ỉ c ấ p k h a n ã n s p h â n t í c h d ữ
l i ệ u đa c h i c u / đ a k h í a c ạ n h ( m u l l i - t l i m e n s i o n a l ) . d â y là c ơ n « c ụ c ấ p c a o h ơ n NO
v ớ i n g ó n ngữ tr u y vãn c h u á n S Q L tr o n ii v iệ c lỏ m

lư ợ c v à l í n h l o á n t h e o n h i ê u

c h i é u dữ liệ u .
M ộ t câu h o i rất hav d ư ợ c d ặ l ra là p h â n h i ệ t u i ừ a c ơ n í i c ụ K D I ) và O L A P . C ô i m
c ụ p h â n t í c h t r ự c t u y ế n ( O L A P ) c ũ n 2 là c ò n t ĩ n t i h ệ h ỗ t r ự c h o q u á t r ì n h ra q u y ê t

đ ị n h . M ộ t sự k h á c b iệ t c ơ h a n íiiừ a K O I ) và O L A P là O L A P c h o ta c â u tr a l ò i
d ố i v ớ i c á c tìn h h u o n ü m à i m ư ờ i clặl c à u h o i d ã c h u â n b ị i r ư ớ c . C o n K D D thì
k h á c hãn. n ó tụ' p h á t h iệ n ra c á c q u \

l u ậ l đ ê lù' d ó n m r ờ i n e h i c n c ứ u r ú t ra c ác

k ế t lu ậ n c ầ n I h i c i . N m i à i ra K l ) l ) d ư a ra cae u i a t h i c i m ó 'i c ỏ th è d ì n m c ỏ n e cụ
O L A P dê x á c n h ậ n h o ặ c lo ạ i b o .

Nlur

\ ậ \ K l ) l ) v à O i . A P c ó q u a n hệ

tiro n a

hơ.

hỗ t r ơ n h a u . C h ú n í i ta c o ih ê c o i ca c ò n u n u h ệ k h á m p h á i r i t h ứ c lãn ( )l A I ’ la


n h ĩrn u k h í a c ạ n h q u a n i r ọ n u dê tạ o ra nh ữ n s i c ô r m c ụ th ô n <2 m i n h c ó th ê t r í c h rú t
và -Ilian IV t l i ô n a tin .
Nh-I' la dã b i c l . K D D là m ộ t l ò n u h ợ p cua c á c lĩ n h v ự c k i ê n t h ứ c 1'ài k h á c n h a u .
C ó h a i p h ư o n u án d ê t i ê p cận K D I ) :
-

T i ế p c ậ n t h e o h ư ớ n o t h ô i m kê

-


T iế p cận th e o h ư ớ n s m a n s N e u ra l

T r c n e t h ờ i a ia n a ầ n đ â v . n s u ó 'i ta c o i p h ư ơ n g p h á p t h ơ n « k ê là m ộ t b ộ p h ậ n c ủ a
K C D v ì K D D sư c lụ n e c á c p h ư ơ n o p h á p t h ơ n « k ẻ p h ơ i h ọ p v ớ i c á c p h ư ư n s p h á p
trí m ệ n h â n tạ o k h á c . D ù n 2 c á c p h ư ơ n s p h á p K D D c ỏ th è a i à i q u v è t d ư ợ c các
b à i t o á n sau:
X â y d ự n g từ tậ p h ợ p dữ l i ệ u c h o t r ư ớ c c á c m ô h ỉ n h k h á c n h a u đ ê d ự đ o á n
và đ ư a ra q u y ế t đ ị n h . T r o n g n h i ê u t ì n h h u ơ n s k h a i th á c

d ừ liệ u k h ơ n «

đà\

đủ.
X á c đ ị n h q u a n h ệ 2 Ĩữ a c á c d ữ liệ u , m ứ c đ ộ a n h h ư o n ũ c u a c á c v e i l tô k h á c
n h a u đ ê n cá c q u á t r ì n h .
2.2 .3 . V a i t r ò v à c á c m u c l i ị u c h í n h c u a K D D
ĩ h u t h ậ p d ư ợ c c á c tr i th ứ c th u d ư ợ c từ d ừ l iệ u c ó săn:


N h i ề u c ơ q u a n đ ã th u t h ậ p t r o n « n h i ê u n á m m ộ t k h ố i lư ợ n u
l iệ u . I lọ sẽ p h á i là m g ỉ v à c ó th ê là m ÜÍ



N a ư ờ i ta lư u t r ừ

các

lo n c á c d ừ


với chuna?

d ừ liệ u vì h ọ i m h ĩ r ă n i i c ó th ê c ỏ nhĩrnu. c u a

đ á n 2 q u í n à o đ ó d a n « t i ề m ân t r o n o c h i m o . V è

V n a h ĩa

khoa

cai

h ọ c th i d ữ

liệ u c h í n h la n l ũ m u q u a n sát dà d ư ợ c tậ p h ợ p lạ i m ộ i c á c h c â n l l i ậ n va
c ô n g p h u v ỏ m ộ t h iệ n t ư ợ n g tụ' n h i ê n h a v xã h ộ i n à o d ó c â n p h a i (.lược
n g h iê n c ứ u .


T r o n e k i n h d o a n h , dũ' l i ệ u h à m c h ứ a cá c t h ô n s t i n v ê các th ị t r ư ờ n ti. v ê
các d ô i t h ú . v à v ê các k h á c h hàn ti.

íro n u

k v n u h ệ . d ữ liệ u c h ử a các

t h ô n g t i n v ề sán x u à t. v ê v ậ n h à n h và c á c k h a n ă n 2 tô i ưu. c ũ n u n h ư các
g ia i p h á p c h u v è u dê cai t iê n c á c q u i t r i n h v a e ia i q u v ê l c ác SỤ' cơ.



C h í c ó i n ộ l l ư ọ n a k h a n h ó ( t h ô n u i h i r ừ i m la \ a o k h o u n u 5"i>dẽn l()"<>) d ữ
liệ u d ã d ư ợ c t l u i th ậ p lu ô n d ư ợ c p h â n lí c h .

LO




Cae
th ậ p

di' liệ u c ó the c h ir a h a o sii tlu'ỗyc p h õ n t íc h v ầ n t iê p tụ c
n l tô n k é m \ (Vi \

iiQ h ĩ lo x a răHLĩ sau n à y sẽ c ó m ộ t c á i ÜI d ó

d ư ọ c th u
rát

q u a n t 'ọ n u c ó th ê dã bị h o q u a .


L ư ợ n e t l ừ li ệ u q u á lớ n d ơ i \ ó'i c á c h th ứ c p h â n t í c h c ô d iè n . D ô i k h i . ta
k h ô n g thê x e m đ ư ợ c h o ặ c c h ứ a đ ư ợ c tâ t ca t r o n o h ộ nhó'.

-

c Line c ấ p c ơ n s c ụ c h o n h ừ n a n s ư ờ i SU' d ụ n a k h ô n a c h u v ê n v ề t h o n s kê.


-

Cân p h a i r h a n h c h ó n s p h á t h i ệ n v à d ir a ra q u v ê t đ ị n h t r o n g c á c t ì n h h u ơ r m
k iỗ n câp tro n s m ô i trư ờ n o c ạ n h tra n h .
ỉvhi cá c cơ s ở d ừ l i ệ u c à n g n g à y c à i m to lê n t h ì k h a n ă n n h ồ t r ợ p h â n t íc h v à
ra q u y ế t đ ịn h b a n s c á c h h ỏ i đ á p t r u y ề n t h o n s ( k i ê u S Q L ) sẽ k h ô n g th ê th ự c
h ện đ ư ợ c . H o ặ c n h i ê u y ê u c à u m à n s ư ờ i sử d u n s q u a n t â m r ấ t k h ó c ó th ơ
r r ơ tả đ ư ợ c b ã n s m ộ t n g ô n n a ừ h ỏ i d á p . c h ă n a h ạ n n h ư " h ã y t ì m c h o tò i tấ t
ca các b a n s h i c h ử n ũ tỏ r ă n s c ó sự s i a n lậ n t r o n a d ó " , h o ặ c h ã y t ỉ m ta t ca
cac b à n gh: t ư ơ n s tụ' n h ư c á c b a n e h i t r o n a ban<¿ X " .

2 .2 .4 .

C)uá n ì a ì n h á t l u c n tr i ih ứ c :

Q u á tr in h p h á t h iệ n t r i th ứ c b a o s ị m m ộ t s ơ b ư ứ c n h ư đ ư ợ c v ẽ t r o n ti h ì n h sau.
o

I


ĩh u ứ tap v à b ẽ n
xữ lý dí> liêu
ĩlm h ieu rinh
vư c ứng du ng

• Các m a u
v à m ị h ình

«


Hì u l i 2. 4: Q u á t r ì n h

KDD

Sừ d u n g
h*ong th u c te

i


19

[ 9 ] Bư ớ c th ứ n h à t là t ì m h i ê u lĩ n h \ LIC irruí d ụ n u \ à h ìn h th à n h b à i to á n . B ư ớ c
n à \ l ì I'll n e là m ộ i d i e u t iê n q u v ê i c h o \ iộc r ú t ra đ ư ợ c c á c tri th ứ c h ữ u ích và
chc việc c h ọ n c á c

phu'OTiü

p h á p k h a i phá d ữ liệ u t h í c h h ợ p t r o n u b ư ớ c ha sao

c h c phù h ọ p v ớ i m ụ c đ íc h ứ n e d ụ i m v à b a n c h â t c u a d ữ liệ u .
Bư ớc th ứ h a i la t h u t h ậ p va x ứ K th ô . h a y c ò n g ọ i là t i ề n x ứ lv d ữ l iệ u n h ă m lo ạ i
b o nhiều h o ặ c c á c d ị d ạ n a . XU' 1Ý v i ệ c t h i ê u d ừ liệ u , t iê n h à n h c á c p h é p b i ê n đ ô i
(n ế .i cần t h i ê t ) v à r ú t g ọ n d ừ liệ u . B ư ớ c n à \ t h ư ờ n « c h i ê m h â u h ê t t h ờ i S
2ian cân
th ié t c h o to à n b ộ q u i t r ì n h K D D .
Bư ơ c t h ứ ba là k h a i p h á d ữ liệ u , tứ c lả t r í c h ra c á c m ẫ u h o ặ c / v à c á c m ô h ì n h ân
d ir c i các d ữ liệ u . M ộ t m ơ h ì n h c ó th ê đ ư ợ c x e m n h ư " m ộ t b i ê u d i ễ n t ô n s th ê c ủ a
một


câu

tr ú c n h ă m t ó m lư ợ c th à n h p h â n m a n a t í n h h ệ t h ơ n g n s ụ t r o n o d ừ liệ u

hoặc m ô tả tậ p d ừ l i ệ u n à y c ó th ê s i n h s ô i n a y n ở ra s a o " . T r á i lạ i. m ộ t m ẫ u là
m ộ t cà u t r ú c c ụ c h ộ c h i l i ê n q u a n t ó i m ộ t n h ó m c á c b iê n v à m ộ t sô tậ p c á c sự

1Ĩ'P c h í n h

k iệ r. C ác
c h ă im h ạ n

như phàn

c u a c á c p h ư ơ n s . p h á p k h a i p h á d ữ l i ệ u là m ỏ h ì n h d ự đ o á n
lo ạ i v ù h ò i q u i : p h â n đ o ạ n ( c h i a c ụ m ) : m ị h ì n h p h ụ

ihuộc

c h ă n s h ạ n n h ư c ác m ỏ h ì n h d ò th ị h o ặ c ư ớ c lư ợ n e m ậ t đ ộ : m ỏ h ì n h t ó m lư ự e
c h ă r.2

hạn

n h ư t i m cá c m ố i

quan hệ

a iừ a c á c tr ư ờ n a . c á c l i ê n k ê t; v à m ô h i n h


th u v d ỏ i v à p h á t h iệ n d ộ lệ c h t r o n c d ữ liệ u v à t r i th ứ c .
B ư ớ c t h ứ tư là hiƠLi t r i th ứ c dà t ì m đ ư ợ c , đ ặ c h i ệ t là là m s á n e t o c á c m ô ta v à d ự
đ o á r . h a i m ụ c t i ê u c h í n h c u a các hộ t h ô n u k h á m p h á t r o n o t h ự c lê. K i n h r u ì h iộ m
c h o :h â \

r ă n i i c á c m a u h o ặ c các m ô h ìn h p h á t h iệ n d ư ợ c từ c á c d ữ liệ u k h ỏ n t i

p h a i lú c n à o c ũ n u đ á n ũ q u a n tâ m v à c ó th ê t r ự c t i ê p sư d ụ n s d ir ợ c r m a v . và q u i
t r i n h K D D c â n p h a i d ư ợ c l ặ p di lặ p lại c ó d i ê u c h i n h t h e o c á c t r i th ứ c dã p h á t
h iệ n d i r ọ c . Đ ê c ó th ơ đ á n h ụ iá các 1Liât d ư ợ c áp d ụ i m i r o n a q u i i r ì n h K D D . n m r ờ i
ta t h i r ò n g c h i a d ữ l i ệ u th à n h hai tập. h u â n l u v ộ n tr ê n tập t h ứ n h à t \ à k i ê m c h í r n a
tr ô n tậ p t h ử h a i. C ó th ê lặ p lạ i q u i t r ì n h n à y m ộ t sò lân v ớ i c á c p h â n c h i a k h á c
n h a n , s a n đ ó là \ t r u n u h ì n h c á c k c t q u a clô irB ư ớ c c u ỏ i c u n u la t l c m t r i th ứ c dà p h á t h iệ n d ư ợ c \ ào sứ ci Lin LI i r o n ü I h Lie le.


20

T r o n Ü m ộ t \ li t r ư ò ĩ m h ợ p . n u ư ị ĩ ta c ó th ơ

SU' tlụníi

U'i th ứ c p h á t h iệ n d ư ợ c mà

k h ô n e càn phai d ư a v a o m ộ t hệ t h ô n i i m a v t í n h . M ặ t k h á c , n u ư o i sir d ụ n u c ó th ê
h v v ọ n i rã n u tr i t h ứ c dã t i m đ ư ợ c c ó th ê c lir ọ c d ir a v à o c á c m á \ t í n h vu d i r ọ c
k h a i th.ic b o 1: m ộ t sò c l u r o n ũ t r ì n h . D ư a c á c k ẽ t q u a dà t i m d ư ợ c \ à o sư d ụ n s
t r o n e t l ự c tè c h í n h la m ụ c d i c h c u ơ i c ì m e c u a m ộ t q u i t r ì n h K D D .
C ầ n Ill'll ý ra n a k h ô n s s i a n c u a c á c m ầ u t h ư ờ n 2 là v ô h ạ n . v à d ê li ệ t k ê ra đ ư ợ c

các m ầu n à y ta C lin e c a n p h a i t i ê n h à n h n t ĩ h i ê n c ứ u râ t n h i ê u nữ a. T h à n h p h â n
k h a i thac d ữ l i ệ u t r o n g q u i t r i n h K D D c h ù y ê u l iê n q u a n d e n v i ệ c p h á t h iệ n và
l i ệ t kê ra các m ầ u từ d ừ liệ u . B ộ p h ậ n p h á t h i ệ n t r i th ứ c q u a n tâ m đ ế n v i ệ c đ á n h
g iá va p h â n tíc h

V n e h ĩa

cua các m a u đê đ i tớ i các q u y ê t đ ịn h m a u n à o có ý

n g h ĩ a VÀ m ầ u n à o k h ơ n g . N ó c ị n b a o 2 Ôm v i ệ c lự a c h ọ n cá c lư ợ c đ ơ m à h ó a ,
tiê n x ử



dữ

liệ u , r ú t m ẫ u . và c á c p h é p d ự đ o á n d ữ l i ệ u tr ư ớ c k h i t iê n h à n h íiia i

(lo ạ n k h a i p h á d ừ liệ u .
C h ú n g t.ì sẽ x e m x é t c ụ th ê m ộ t sò c ô n e đ o ạ n sau:

* T ìm
d ic h

h

êu rỏ

phạm \ i


CUE n m r ờ i

ÚTIÜ dụim:

n h ữ n u tri th ứ c

cỏ

liê n

quan uưov

dâ_\. c ú c

111 Lie

sư d ụ n t i . ...

* T ạ o lập tậ p d ữ l iệ u d i c h : c h ọ n ra m ộ t tậ p d ữ liệ u , h o ặ c l ậ p t r u n e v à o m ộ t tậ p
c o n c á c b ie n h o ặ c c á c m ẫ u d ừ liệ u m à I r e n d ó câ n p h a i p h á t h iệ n ra c á c t r i th ứ c .
* Q u á t r in h là m s ạ c h d ữ l iệ u : các p h é p
k> d ị n ô n h ọ p Iv.

XU'

CO' h a n

n h ư lo ạ i h o n h i ề u h o ặ c c á c a iá tr ị

lý c á c u iá tr ị bị t h i ê u , sưa c á c lô i m a n u t í n h hộ t h ơ n ũ .



:i

o n T R ÌN ÍI KD D

Mình 2.5: Qui trình K DD

R ú t j ọ n v à dụ' d o á n d ừ liệ u : p h á t h iệ n ra c á c đ ặ c d i ê m h ữ u íc h d ê b i ê u d i ễ n lạ i
d ữ liệu s a o c h o p h ù h ợ p n h â t v ó i m ụ c t i ê u c â n d ạ t t ớ i.



th ê sứ d ụ n u p h ư ơ n t i

p h á p r ú t b ớ t s ô c h i ê u h o ặ c b i ê n d ô i d ữ li ệ u d ê u i á m h ớ t sỏ lư ọ 'n u c á c b iê n .
* L ụ a ch ọ n n h iệ m

VỊI c u a k h a i p h á d ữ l i ệ u : q u y ê t đ ị n h x c m

m ụ c d ic h cua qui

t r ì n h K D D n à y là íĩì: p h â n l o ạ i, h ồ i q u i . h a y a ộ p n h ó m . Y.Y.
* L ụ a c h ọ n phưcms p h á p k h a i p h á d ừ l iệ u : c h ọ n c á c plurorm p h á p sẽ sư d ụ n t i dê
t i m các m à u I r o n t ! d ừ liệ u .

I r o i m ció k ê c a v i ệ c q u v ê t t l ị n h x c m c á c m ơ h ì n h n à o

và các t h a m s ô n à o là t h í c h h ợ p .
* RÚ! ra c á c m ầ u / c á c m ơ h ì n h : t i m k i ế m c á c m a i l đ á r u ì c h u


V du'ó'i

m ộ t d ạ n ũ b iê u

d i ê n k h á c d i h o ặ c m ộ t tậ p c á c bill'll d i e n n h ư v ậ v : c á c q u i tã c p h â n lo ạ i h o ặ c cá c
c ã v , L'ộp n h ó m , và \ ân \ ân.


A
N

l ' ù ' i ỗ i tL ¿

<±£'Ị-J
C'

u

#


0



* A _ *

s





IJ

0





0

t)i¿ üi
Thi

TT^Jn h jn g

Ti m n hập

--------------►
Hình 2.6: Phân tích V nghĩa và đánh giá các m ẫu/các mơ hình.

* C ủ n a c ố tr i t h ứ c đ ã p h á t h iệ n đ ư ợ c : t í c h h ợ p t r i t h ứ c n à y v à o hệ t h ố n a t h ự c
h à n h , h o ặ c đơn e i ả n h ơ n là l à m c á c b á o c á o v ề n ó v à p h â n p h á t c h o n h ừ r m n ụ ià v i
q u a n tà m . K i é m tr a lạ i x e m t r i th ứ c n à y c ó e i t r á i v ó i n h ừ n s t r i t h ứ c d ã c ó t r ư ó v
đ â \ khơng.


'Chươi u 3: Khai phá dữ jjcu

3 . 1 . T ü í i ü q u a n ve k l i a i p h a d ữ IĨC‘11
3 . 1 . 1 . K h a i ph á d ữ liê u là m ộ t b ư ớ c tr o n » q u i t r ì n h p h á t h iệ n tr i th ứ c e ô m c ó các
:huật ¡ốn k h a i p h á d ừ l i ệ u c h u v ê n d ù n o d ư ó i m ộ t sô q u i d ị n h v é h iệ u qu a
:ín h toán c h â p n h ậ n đ ư ợ c dê t i m ra các m â u h o ặ c các m ỏ h ì n h t r o n g d ữ liệ u .
-

K h a i phá d ữ liệ u b a o £ ổ m m ộ t tậ p h ợ p c á c

kỹ

th u ậ t t i ế p

cận

tự đ ộ n g n h à m

k h á o sát. p h â n t í c h ti m í v à đ u a ra c á c m ố i l i ê n hệ p h ứ c tạ p . n h ũ n g t h ơ n « t in
có ích b ê n I r o i m c á c tậ p h ợ p d ữ l i ệ u k h ố n s lổ .
-

K h a i phá d ữ l i ệ u sử d ụ i m các k v t h u ậ t v à c ác k h á i n i ệ m c u a c á c l ĩ n h v ự c
n g h iê n c ứ u tr ư ớ c đ â y n h ư : m á y h ọ c . n h ộ n d ạ n e . t h ố n e kê ,

h ồ i quy. phân

n h ó m .V.V.. K h a i p h á d ữ li ệ u d ư ợ c sử đ ụ n a đ ê tạ o ra c á c 2 Ía t h u y ế t , đê là m
dược đ iê u n à y k h a i p h á d ừ liệ u

sư d ụ n a c á c t h ô n a t in trono, q u á k h ứ


dê h ọ c

và sư d ụ n e c h ú r m đê t i m ra c á c m a u đá n ti q u a n t â m s a u d ỏ dụ' đ o á n d ư ợ c các
m ầ u m ớ i.
C ác nhà t h ò n u k ê th ì x e m k h a i p h á d ữ liệ u n h ư la m ộ t q u i t r ì n h p h à n tíc h
đư ợc t h i ê t k ẻ d ê t h ă m d ò m ộ t lư ợ n a c ự c lớ n c á c d ừ l i ệ u n h ă m p h á t h iệ n ra
các m a u t h í c h h ợ p v à / h o ặ c c á c m ô i q u a n hệ m a n a t í n h hộ t h ô n ạ u iữ a các
b iê n . \ à sau d ó sẽ h ọ p t h ứ c h o á c á c k c t q u a t ì m đ ư ự c b ã n u c á c h á p d ụ n a các
m âu đã p h á t h iệ n đ ư ợ c c h o c á c tậ p c o n m ớ i c u a d ừ liệ u . Q u i t r ì n h n à y ba o
tiỏ m ba u i a i d o ạ n c ư b a n : t h ă m d ò , x â y d ự i m m ơ h ìn h h o ặ c đ ị n h n u h ĩ a m ầ u .
và hự p t h ứ c / k i ê m c h ứ n u .
3 .1 .2 . Phân m è m k h a i phá d ữ li ê u



các c ơ n ti cụ phân tíc h dữ liệ u c h o phép

n g ư ờ i sử d ụ n « p h á n t í c h th e o n h i c n c h iể u và n h i é u íỉó c c ạ n h , đ ặ c tr ư n g h ó a và
tontz h ợ p lại t h à n h c á c m ố i q u a n hệ r iõ n u .
3 . 1.3. C á c t h à n h ph á n c u a MUÚ n i n h k h a i nhá d ữ lie u :
a.

D ữ l iệ u : là b ã l k ỳ c á c Yêu lô . c o n số. \ ’ăn bá n m à c ó th ơ đư ợ c XII' IÝ bới

m á ) l í n h . D ữ liê u c ó ih é c o n h i c u k h u ô n clan*:, i l u i ộ c I i h i c u c o ' so'(.lữ liệ u k h á c
n h a u . h ;io ũ ổ m :



C;k (lữ liệu xu' lv IUOI1Ü liic nhu' (lữ liệu h;in ỈKÌiìíi. ui;í c;I. ké loiin....



24



C á c dư liệ u k h ơ n « xứ



1ư ơ n *:

lá c

n h ư d ữ l i ệ u l o n LI h ợ p đ a q u a x ử

lý ,

clữ l i ệ u d ự h á o . k i n h l ố v ĩ m ò . . . .


S iê u d ữ l i ệ u ( in e ta c la ta ) : là đ ữ li ệ u l ự đ ị n h n ẹ h ĩ a clữ l i ệ u n h u ' c á c t h i ế t
ke vé c ơ sớ dũ' l i ệ u h a y c á c đ ị n h nsihĩa từ đ i ê n d ữ liệ u .

b. T T ò n u t i n d irợ c l ấ y ra từ cá c m ơ h ì n h / m ẫ u . c á c m ố i l i ê n k ô t h o ặ c c á c q u a n hệ

21 ici c á c tậ p h ợ p d ữ l i ệ u .
V

í ci II : T h ơ n a t i n p h a n t í c h đư ợc l ấ y ra v ề c á c p h i ê n « i a o d ị c h m u a / b á n . c h i ra


t ì m trạ n s bán h àn g cá c sán p hám .
c. T r th ứ c c ó th ê c o i n h ư là t h ơ n g t i n tí c h h ọ p . b a o s ò m c á c sự k i ệ n v à c á c m ố i
quan h ệ a iữ a chúng;. C á c m ô i q u a n h ệ n à y c ó th ẻ đ ư ợ c h i ê u ra. c ó th ê đ ư ợ c
ph. 1t h iệ n , h o ặ c c ó t h ê đ ư ợ c h ọ c . N ó i c á c h k h á c , t r i t h ứ c c ó th ê đ ư ợ c c o i là
các d ữ l i ệ u c ó đ ộ t r ừ u t ư ợ n g v à tô c h ứ c c a o .
3 .1 .4 . D ư đ o á n d ữ liê u
D ụ đ o á n d ữ l i ệ u là m ộ t t h u ậ t nsũr q u a n t r ọ n g c u a k h a i p h á d ữ liệ u .
N h ằ m s ư đ ụ n " t h ô n g t i n lấ y ra từ m ộ t t á p h ợ p c á c s iá i r ị đ ế (lự đ o á n n h ữ n u
g ù i t r ị k h á c . K h a i p h á d ữ l iệ u d ự đ o á n th ư ờ n « S U 'đ u n « m ộ t t r o n « h a i p h ư ơ n g
p h ;.p : p h á n lo ạ i v à h ồ i q u i . V i ệ c sử c h u m p h ư ơ n s p h á p h ổ i q u i đ ế d ự đ o á n
t h u ờ n g đ ư ợ c i i ọ i sự d ự b á o .
Kh; chúns
hoặc

phạm

ta

phân

trù

lo ạ i c á i

riê n g

sì đ ó . c h ú n ơ

h iệ l. đ ặ t d n iiiiZ


ta c h ia

vào phạm

cát

ch ú n g

vi c u a

phạm

v à o tro n
trù

SI

vài nhóm

đó.

D ư ớ i đ â y là m ộ t hài t o á n p h â n lo ạ i n h ỏ . đ ơ n s i n n đ ể m i n h h ọ a :
D ữ l iệ u h a o g ồ m c h i ề u c a o . I r o n s lư ợ n 2 . v à t u ổ i . C á n p h á i x á c đ ị n h :
1.

G i ớ i t í n h C lin m ỗ i ir ư ờ n t i hợ p

2.


T h ể h i ệ n đ ộ t i n c ậ y c u a m ỗ i tr ư ờ n » h ợ p t h e o c á c m ứ c đ ộ : C a o . t r u n g
h ìn h , t h ấ p h o ặ c k h o n u x á c đ ị n h

ID
A

C hiều cao C án năng
I m 75m

7 5 k í!

B

1m 5 5

c

I m25

50 k i:
30 k ”

D

0m 40

lO k . ü

Tuổi


(ỉiói tính Độ tin cậy
•)

27

38
10
0.5

•)
')

■)


T a c a n p h ili quvC't đ ị n h (lựa (re n CO'so' n h ữ n ” h ic u bíêt ve n h ữ n tỉ c h iê u c a o và
In nu
l i r o• ì m c o n 11c*: ười. V í d u. . tỉa số n h ỡ n V-” n u
ười m à ta n h ì n t h ã „\ h o ã c h ic t
c
V*.
tới m à c a o l m 7 8 vù c á n n ặ n " m ót n u ười k h ơ n « b iế t

c h iề u c a o và t r ọ n « lư ợ n ” m à t h u ộ c c ù n e sự p h à n lo a i

d ó th ì c ũ r m là đ à n ô n a .
T u y n h iê n c á n p h a i lư u ý r ã n a tri th ứ c k h ơ n « c h i là n h ữ n a 21 m à ta c ó th ê
phan lo ạ i đ ư ợ c m à c ò n là ca n h ũ n ” tỉ ì m à ta k h ơ n « th ế p h à n l o ạ i đ u ự c dưa
trên dữ l iệ u c ó sán. H á u nhu' m ọ i n g ư ờ i đ ề u c h o r ă n « k h ơ n s c ó c á c h n à o c ó

thê p h à n lo ạ i trẻ e m dự a tr ê n c ơ sớ c h í đ o n g i a n về c h i ề u c a o và t r ọ n g lư ợ ng.
B a n s p h à n lo ạ i ở h ì n h t r ê n c ó th ế đư ợc th ê h iệ n b a n s k ế t q u a d ư ớ i đ à y . m ứ c
đ ộ ti n c ậ y t r u n g b ì n h đ ố i v ớ i n h ũ n 2 p h ụ nữ n ặ n « 1 10 p o u n d v à c a o 5 ’ 3 ” . m ứ c
đ ộ k h ô n g t i n c ậ y đ ố i v ớ i tr ẻ e m từ 10 t u ổ i t r ở x u ố n s

ID

Chiều cao C ân nặng

Tuổi

Giói tính Đị tin cậv
Nam

A

lm 7 5 m

75 k s

27

Cao

B

1ĩ r õ 5

5 0 k ỉí


38

Nữ

T r u n tỉ h ìn h

c

lm 2 5

30 k °

10

Nữ

K h ô n « tin cậ y

D

0m 40

10 k °

Nữ

K h ô n « tin cậ y

0.5
Báng 3.2.


T r o n g v í d ụ tr ê n , ta sử t k i i i ü k ỹ i h u ậ l p h à n lo ạ i dò th ử k h á m p h á n l u ì i m đ ặ c
t í n h đ ặ c h iệ t về m ỗ i cá n h ã n . B ằ n » v i ệ c đưa ra I tậ p h ợ p n h ữ iiũ (lữ liệ u nhất
đ i n h , la p h á i x á c đ i n h u i á tr i c h o m ộ t I r ư ờ i ii i L rố u ii I r o n a m u i b a il l i li i. Đỏnt>
th ờ i ta c ó th ê x á c đ ị n h m ứ c đ ộ t i n c ậ y t r o n g k h i d ự đ o á n .
T a c ó th ê sử d ụ n g c ù n ũ cỉữ l iệ u và c ì in t i k v t h u ậ t đ ó . k h ỏ n í i p h á i c h i đô đ iể n
i h ô n s t i n bị t h i ế u h ụ t. m à th ú v ị hơn là đẽ đư a ra c á c ứ n g x ử p h ù h o p Iro n s ’
tư ơ n s la i đ ổ i v ớ i t ì m « cá n h â n .
V í tlụ c ó h o n n g ư ờ i, c ó the ta m u ố n b iê t Iiüii'o'i n à o sẽ c a n m ộ i h ộ (tons’ p h ụ c
b ó n g đ á c h u y ê n n ũ h iệ p ?
H o ặ c , t iia i h i ẽ ì m ỏ i cá n h a n đ ò n tù m ộ t Li¡a d i n h k h á c n h a u , l i l i nhữiiLi Líiii
cíình n à o là Iihữnii k h á c h h ñ n ü ln'o'nü lai ( lo i \ (V| Iihữiii2 c a t a l o ũ (lõ che vi và
I | i i ; ì n á o c u n ỉIV COI)?


’"Liệu

c ó n ê n m õ t íiu'i t h ư C|Lia ctu'ô'nü h im đ i ê n I(Vi h a i h a v tớ i cá b ó n ü ia

dì il h / " là m ô i C| Il \ cl đ ị n h k i n h d o a n h c â n x e m
cậ

XÓI. v à p h á i dưa l i ê n d ò tin

CII.I m ỏ i trư ờ n SI h o p .

3 . 1.5.

D ư ba o d ữ Ị_ịẽu


D i háo d ữ l i ệ u là m ộ t k i ê u d ự đ o á n m à là m v i ệ c vớ i c á c c o n s ố đ ê n h ũ n « c á u
tra lời đ ặ c b iệ t c h ứ k h ô n ” p h a i c â u trá lờ i m a n t i t í n h x á c th ự c . T r o n o th u ậ t
n s ĩ k \ th u â t. dll' b á o là v i ê. c d l. l ' đ o á n n h ù 'n a»— «a
iá tr i- t r o n o*— m o t c h u ỗ i l i ê n t i ế pI


các giá trị trons một cứa sổ thời aian.
B ớ vậy, n h ũ n g d ự b á o c ó th ê đư a ra n h ữ n ơ g iá t r ị m à v ầ n c h u a x u ấ t h i ê n
t r o i s dữ l i ệ u , t r o n g k h i p h ư ư r m p h á p p h â n lo a i th ì c h i g i ớ i h ạ n t r o n g n h ữ n íì
lớp đã có d ữ l i ệ u trư ớ c đ ó .
3 .1 .6 .

Lưa

c h o n d ư báo ( h ỏ i q u i) h a y d ư đ o á n (p h à n lo a i)?

V ie c phát b iế u c â u h ỏ i l i ê n q u a n đ ế n v i ệ c l i ệ u ta sẽ sứ c h u m p h ư ơ n s p h á p
philn lo ạ i h o ặ c p h ư ơ n g p h á p h ồ i q u i. D ư ớ i đ â y là vài v í d ụ :


D ự b á o : N h i ệ t đ ộ n g c iy m a i là h a o n h i ê u ?







D ự h á o : C h ú n g ta sẽ h á n san p h á m A t r o n Sĩ m ỏ i k h o c u a c l ú m g ta v à o


đoán

: N h i ô t đ ỏ I I ” à y m a i sẽ ir ê n 3 6 đ ô

c?

q u í sau là b a o n h i ê u ?

đốn

sau sẽ h á n

được

Dự



D ư h á o : N í i à y m a i c o p h á n X sẽ h á n đ ư ợ c CHO n h á t là h a o n h i ê u ?



Dự

đốn:

: Nhữna kho

nào q




n h i ê u san p h á m A ?

c ổ p h ầ n X sẽ lên. X u ố n Ü h a y ctứnỵ t r o n g n ü à y m a i ?

PhuơriH p h á p p h â n n h ó m

là k h á c há n vớ i p h ư ơ n ũ p h á p p h â n lo ạ i. K h i p h à n

lo ạ i c á i gì đ ó . ta sẽ g á n c h o n ó c h o m ộ l t i e n đ ị n h n ü h ỵ a ve lớp.
Sụ' phân n h ó m th ự c h i ệ n t ì m

nhỡn« n h ó m

h a n u h i L’ i o n " n h a n m ộ t c á c h tự

n h iê n k h ỏ n ũ t h e o m ộ t đ ị n h h ư ớ n ũ vé n h ó m đ ó p h a i n h u ' th è n ào. V i ệ c p h â n
n h ỏ m hữu íc h c h o v i ệ c n h ũ n « v iệ c k h á o sát d ữ liệ u h a n đ à u . đ ô c h i a m ộ t
k h ố i l i l i liệ u ( h à n h n h ữ n ií p h á n n h ỏ h o n .
3 . 2 . V a ị t r ò và cá c m u e tie n c h í n h c u a k h a i |)lia d ữ [[e u


×