Tải bản đầy đủ (.pdf) (69 trang)

Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (11.79 MB, 69 trang )

B GIÁO D

O
HÒNG

ÁN T T NGHI P
NGÀNH CÔNG NGH THÔNG TIN


B GIÁO D

O
HÒNG

H I PHÒNG 2016

K TH

M TRONG
KHAI PHÁ D

ÁN T T NGHI P H

LI U WEB

I H C CHÍNH QUY

Ngành: Công ngh Thông tin
H¶i Phßng 2016

H I PHÒNG 2016




B GIÁO D

O
HÒNG

K T H P CÁC
KHAI PHÁ D

ÁN T T NGHI P H

M TRONG
LI U WEB

I H C CHÍNH QUY

Ngành: Công ngh Thông tin

Sinh viên th c hi n: Cao H u H i
ng d n: Nguy n Tr
Mã sinh viên: 1212101007

H I PHÒNG 2016


TR

T


H

Sinh viên: Cao H u H i

Mã s : 1212101007

L p:CT1601

Ngành: Công ngh Thông tin

tài: K t h

m trong khai phá d li u Web


1. N i dung và các yêu c u c n gi i quy t trong nhi m v

tài t t nghi p.

a. N i dung:
-

Tìm hi u v khai phá d li u, khai phá d li u Web.
Tìm hi u các thu t toán phân c m ph bi n.

-

Áp d ng các thu t toán phân c m trong tìm ki m và phân c m tài li u
Web.


-

ra
ng h th ng.
Th nghi m v i các công c
gi i quy t bài toán.

b. Các yêu c u c n gi i quy t.
-

N
N
N

c lý thuy t v khai phá d li u Web.
c các thu t toán phân c m d li u.
c quá trình phân c m d li u Web.
c mô hình phân c m d li u v i ph n m n Orange.

2. Các s li u c n thi

m th c t p

thi t k , tính toán


CÁN B

NG D


TÀI T T NGHI P

ng d n th nh t:
H và tên: Nguy n Tr
H c hàm, h c v : Th
i h c Dân l p H i Phòng
N

ng d n:
toán.
tài t t nghi

Yêu c u ph
n nhi m v

n nhi m v

Sinh viên

Cán b

H

ng d

2016

HI

NG


n H u Ngh


PH N NH N XÉT TÓM T T C A CÁN B
1. Tinh th

nhi m v

1.

c

ng c
tài t t nghi p):

m c a cán b

NG D N

tài t t nghi p:

tài t t nghi p (so v i n i dung yêu c

ng d n:

m ghi b ng s và ch )

ra trong



PH N NH
PH N BI
1.
thuy

2.

A CÁN B

CH M

TÀI T T NGHI P
tài t t nghi p (v các m
th c t

m c a cán b ph n bi n
m ghi b ng s và ch )

lý lu n,


L IC
Trong l
u tiên c
c m trong khai phá d li u Web

án t t nghi
Áp d
n g i nh ng l


thành nh t c a mình t i t t c nh
th n trong quá trình th c hi
án.
ch
ng d n, nh

em v ki n th c và tinh

y giáo Ths. Nguy n Tr

viên khoa Công ngh Thông t
ti

tr

, gi ng

i h c Dân l p H

c

em trong su t quá trình th c hi

Xin chân thành c
h c Dân l p H i Phòng, ban giám hi

án.

n H u Ngh Hi

ng t
i
ng, các th y cô trong khoa Công ngh

Thông t
u ki n t t nh
b n khác trong su t th i gian h c t p và làm t t nghi p.
Cu i cùng em xin g i l i c
ng viên em r t nhi u trong quá trình h c t p và làm

án t t nghi p.

M
ts cc g
hoàn thi n báo cáo t t nghi p song kh
còn h n ch nên bài báo cáo v n còn thi u nhi u sai sót. Vì v y em r
a các th y cô và b n bè.
Em xin chân thành c
H i Phòng,ngày 24 tháng 12
Sinh viên
Cao H u H i

cs


M CL C
L IC

.........................................................................................................1


M C L C ..............................................................................................................2
DANH SÁCH HÌNH ..............................................................................................4
DANH SÁCH B NG.............................................................................................6
DANH M C T

VI T T T .................................................................................6
U WEB ...............................8

1.1

Khai phá d li u và khai phá tri th c.......................................................8

1.1.1 Khai phá d li u ..................................................................................8
1.1.2 Quá trình khám phá tri th c ................................................................8
1.1.3 Khai phá d li

.........................................9

1.1.4 Các k thu t áp d ng trong khai phá d li u.......................................9
1.1.5 Nh ng ch
1.1.6

a khai phá d li u ...................................10

ng d ng c a khai phá d li u .........................................................11

1.2

m d li u .............................................................12


1.2.1

k thu t phân c m .......................................................12

1.2.2

ng d ng c a phân c m d li u .......................................................14

1.2.3 Các yêu c

i v i k thu t phân c m d li u ................................14

1.2.4 Các ki u d li
1.3

...................................................15

........................................................................................19

1.3.1 Các ki u d li u Web ........................................................................21
1.3.2 X lý d li
1.3.3 M t s v
1.4

Ti u k

n ng d ng trong khai phá d li u Web ...........22
trong x lý d li

n........................................22


..................................................................................24
T S K THU T PHÂN C M D

LI U ............................25

2.1

Thu t toán k-means................................................................................25

2.2

Thu t toán PAM.....................................................................................27


2.3

Thu t toán BIRCH .................................................................................31

2.4

Thu t toán DBSCAN .............................................................................33

2.5

Ti u k

..................................................................................36
LI U WEB ..........................................................37


3.1

Khai phá n i dung Web .........................................................................37

3.1.1 Khai phá k t qu tìm ki m ................................................................38
3.1.2
3.2

n Web ......................................................................38

Khai phá theo s d ng Web...................................................................43

3.2.1 Các k thu

c s d ng trong khai phá theo s d ng Web .........44

3.2.2 Quá trình khai phá theo s d ng Web...............................................44
3.3

Khai phá c u trúc Web ..........................................................................45

3.3.1 Tiêu chu

.......................................................46

3.3.2 Khai phá và qu n lý c
3.4

ng Web ................................................47


Áp d ng thu t toán trong tìm ki m và phân c m tài li u Web..............48

3.4.1 Tìm hi u k thu t phân c m tài li u Web .........................................48
3.4.2 Quá trình tìm ki m và phân c m tài li u ...........................................49
3.5

Th c nghi m ..........................................................................................53

3.6

Ti u k

..................................................................................59

K t lu n.................................................................................................................60
Tài li u tham kh o ................................................................................................61


DANH SÁCH HÌNH
Hình 1-1: Quy trình khai phá tri th c .....................................................................8
Hình 1-2: Mô ph ng s phân c m ........................................................................13
Hình 1-3: Phân lo i d li u Web ..........................................................................21
Hình 1-

th th ng kê t n s c a t

Hình 2-1: Hình d ng c m d li
Hình 2-2:

= d(


,

nh lu t Zipf.................................24
c khám phá b i k-means ..........................26

)

d(

Hình 2-3 :

,

) Cjmp không âm .........................28
có th âm ho

...................29

Hình 2-

ng h p Cjmp= 0 ...............................................................................29

Hình 2-

ng h p Cjmp= (Oj,Op)- d(Oj, Om,2). Cjmp luôn âm..........................30

Hình 2-

c t o b i BIRCH ...............................................................31


Hình 2-7: Lân c n c a m

mpv

ng Eps.............................................33

Hình 2-8: M

-

c tr c ti p ....................................................................34

Hình 2-9: M

-

c ................................................................................34

Hình 2-10: M

- liên thông ..............................................................................35

Hình 2-

ng nhi u ...........................................................................35

Hình 3-1: Phân lo i khai phá Web........................................................................37
Hình 3-


n Web ..........................................................38

Hình 3-3: Quan h tr c ti p gi a 2 trang..............................................................46
Hình 3-

ng trích d n.......................................................................47

Hình 3-

ch m c.............................................................................47

Hình 3-

c phân c m k t qu tìm ki m trên Web ..................................50

Hình 3-7: Mô hình phân c m d li u trên Orange ...............................................54
Hình 3-

li u chu n hóa và mô hình.......................................................54

Hình 3-9: B ng chu n hóa ....................................................................................55
Hình 3-10: Do kho ng cách b ng Euclidean ........................................................55
Hình 3-11: Phân c m d li

m phân c p..................56


Hình 3-12: D li u sau khi phân c m phân c p ...................................................57
Hình 3-13: Phân c m b ng k-means, 8 c m là t


t...................................58

Hình 3-14: Bi u di n d li u sau khi phân c m k-means.....................................59


DANH SÁCH B NG
B ng 1-1: B ng tham s thu c tính nh phân .......................................................17
B ng 1-2: Th ng kê các t n s xu t hi n cao .......................................................23

DANH M C T

VI T T T

Stt

T vi t
t t

T ti ng anh

ti ng vi t

1

KPDL

Khai phá d li u

2


PCDL

Phân c m d li u

3

CSDL

4

KDD

5

KPVB

6

IF

Term Frequency

T n s xu t hi n c a t
n

7

IDF

Inverse Document Frequency


T n s ngh ch c a 1
t trong t
n

8

PAM

Partitioning Around Medoids

Thu t toán phân c m d a
ng k-medoid

9

BIRCH

Balanced Iterative Reducing and
Clustering Using Hierarchies

Thu t toán phân c m d a
ng cây phân c p

10

DBSCAN Density Based Spatial Clustering of Thu t toán phân c m d a
Applications with Noise
trên m


11

HTML

Hypertext Markup Language

Ngôn ng
n

12

URL

Uniform Resource Locator

nh v tài nguyên th ng
nh t

13

CF

Cluster Features

d li u

Knowledge Discovery in Database

Khám phá tri th c trong
d li u

n

mc m

u siêu


.D
,
,

V

kh8

d li u truy n th
u và áp

d ng k thu t khai phá d li u và khám phá tri th
vi c nghiên c u các mô hình d pháp khai li u m i và áp d
trong khai phá tài nguyên Web là m t xu th t t y u v
c ti n cao.

phá d li u
cv a

án

m ts v


c s d ng

n th
v bi u di n và x lý d li

n v khám phá tri th c, khai phá d li u,
n áp d ng trong khai phá d li u.

i thi u m t s
c khai phá d li u Web.

m d li u ph bi

ng

Web và ti p c
ng s d ng các
k thu t phân c m d li
gi i quy t bài toán khai phá d li u Web. Trong ph n
t mô hình áp d ng k thu t phân c m d li u trong tìm ki m và
phân c m tài li u Web.


LI U WEB
1.1 Khai phá d li u và khai phá tri th c
1.1.1 Khai phá d li u
cm
c nghiên c u, nh m t
thông tin, tri th c m i h u ích, ti m n t nh ng CSDL l


ng khai thác
, t ch c,

doanh nghi
y kh
n xu t, kinh doanh, c nh tranh cho các
, t ch c này. Các k t qu nghiên c u khoa h c cùng nh ng ng d ng thành
công trong KDD cho th y KPDL là m
l i ích và có nhi u tri n v
ng th

v c phát tri n b n v ng, mang l i nhi u
n so v i các công c tìm

ki m phân tích d li u truy n th ng. Hi
ng d ng ngày càng r ng rãi
i, tài chính, y h c, vi n thông, tin sinh
khai phá, trích xu t, khai thác và s d ng
nh ng d li u có giá tr ti m n t bên trong
ng l n d li
trong các
d li u (CSDL), kho d li u, trung tâm d li
1.1.2 Quá trình khám phá tri th c
Quá trình khá phá tri th c có th

Trích ch n

D li u

[1]:


Bi

D li u
l a ch n

D li u
ti n x lý

D li u
bi
i

bi u di n

i

Các m u

Tri

thô
Ti n x lý

Khai phá

Hình 1-1: Quy trình khai phá tri th c

Quá trình KPDL có th
Trích ch n d li u:

t các t p d li u l

n sau:

c trích ch n nh ng t p d li u c
u theo m t s tiêu chí nh
nh.

c khai phá

Ti n x lý d li u:
c làm s ch d li u (lo i b d li
lý d li u thi u sót,...), rút g n d li u (s d ng hàm nhóm và tính t
pháp nén d li u, s d ng histograms, l y m u,...), r i r c hóa d li u (r i r c hóa d a


vào histograms, entropy

c này, d li u s nh

c rút g n

c r i r c hóa.
Bi

i d li u:

c chu n hóa và làm m n d li

cùng m t ki u, d ng thu n l i nh t nh m ph c v quá trình x

Khai phá d li u:

li u v
c sau.

c áp d ng nh ng k thu

thu t c a h c máy) nh
khai thác d li u, trích ch
nh ng m i liên h
c bi t trong d li

c nh ng m u
,
c quan tr ng và t n

nhi u th i gian nh t c a toàn quá trình KDD.
u di n tri th c: Nh ng m u thông tin và m i liên h trong d li u
c khám phá
is d
nh ng tri th

c bi
i và bi u di n
th , cây, b ng bi u, lu
ng th
c theo nh ng tiêu chí nh

m t d ng g


i

nh.

1.1.3 Khai phá d li
KPDL là m
c liên quan t i th ng kê, h c máy, CSDL, thu t toán, tính
toán song song, thu nh n tri th c t h chuyên gia và d li u tr
a
h th ng khám phá tri th c là nh
t toán và k thu t t
nh
KPDL.
c h c máy và nh n d ng m
KDD nghiên c u các lý thuy t và thu t toán c a h th
trích ra các m u và mô
hình t d li u l n. KDD t p trung vào vi c m r ng các lý thuy t và thu t toán cho
các v
tìm ra các m
c bi t (h u ích ho c có th rút ra tri th c quan tr ng)
trong CSDL l n.
th
ng g n nh ng th t c
th ng kê cho mô hình d li
Analysis - EDA).
1.1.4 Các k thu t áp d ng trong khai phá d li u
vào các bài toán c n gi i quy t thì KPDL g m các k thu t sau [5]:
Phân l p và d báo: X p m
ng vào m t trong nh ng l
c.

Ví d
p các d li u b nh nhân trong h
ng ti p c n này
ng s d ng m t s k thu t c a h
nh, m
t o,... Phân l p và d
c g i là h c có giám sát.
Lu t k t h p: Là d ng lu t bi u di n tri th c

d

n. Ví d

n gi i vào siêu th n u mua ph n thì có t i 80% trong s h s
t
k th
c ng d ng nhi
c kinh doanh, y h c, tin-sinh, tài chính và
th
ng ch ng khoán,...


Phân tích chu i theo th i gian

tk th

thêm tính th t và tính th
ng ti p c
c ng d ng nhi
v c tài chính và th

ng ch ng khoán vì nó có tính d báo cao.

h

Phân c m: X
ng theo t ng c m d li u t nhiên. Phân c m còn
c g i là h c không có giám sát.
Mô t và tóm t t khái ni m: Thiên v mô t , t ng h p và tóm t t khái ni m, ví d
n.
1.1.5 Nh ng ch

a khai phá d li u
báo là dùng m t s bi n

ho
d
quan tr ng khác. Vi c mô t t p trung vào tìm ki m các m

t ho c s có c a các bi n
i có th hi u

mô t d li
c KDD, mô t
c quan tâm nhi
c v i các ng d ng h c máy và nh n d ng m
ng là m
c a KDD g m [1]:

báo,
c d báo


m c tiêu chính c a KPDL, các ch

Mô t l p và khái ni m: D li u có th
c k t h p trong l p và khái ni m. Ví
d : trong kho d li u bán hàng thi t b tin h c, các l p m t hàng bao g m máy tính,
m khách hàng bao g m khách hàng mua s và khách mua l . Vi c
mô t l p và khái ni m là r t h
n t ng h
c và chính xác
hoá. Mô t l p và khái ni
c b t ngu n t
li u và phân bi t d
li
li u là quá trình t ng h p nh
c tính ho c các thành ph n
chung c a m t l p d li u m c tiêu. Phân bi t d li u là so sánh l p d li u m c tiêu
v i nh ng l p d li
i chi u khác. L p d li u m c tiêu và các l
i chi u là do
i dùng ch
ng v
ng d li u nh
c nh truy v n.
Phân tích s k t h p: Phân tích s k t h p là khám phá lu t k t h p th hi n m i
quan h gi a các thu c tính giá tr mà ta nh n bi
c nh t n su t xu t hi n cùng
nhau c a chúng.
Phân l p và d báo: Phân l p là quá trình tìm ki m m t t p các mô hình ho c
ch

và phân bi t nó v i các l p ho c khái ni m khác. Các mô hình
này nh m m
h d báo v l p c a m t s
ng. Vi c xây d ng mô hình d a
trên s phân tích m t t p các d li
c hu n luy n có nhi u d ng th hi n mô hình
t phân l p (IF-THEN), cây quy
nh, công th c toán h c hay m
S phân l
c s d ng
d
pc
ng trong d li u. Tuy
nhiên trong nhi u ng d
i ta mong mu n d
ng giá tr khuy t thi u


ng h p d

c a d li u ki u s

khi phân l p và d báo, có th c n th c hi n phân tích thích h
các thu c tính không tham gia vào quá trình phân l p và d báo.

c

nh và lo i b

Phân c m: Không gi

p và d báo, phân c
i
ng d li
t nhãn c a l p. Nhìn chung, nhãn l p không t n t i trong
su t quá trình hu n luy n d li u, nó phân c m có th
cs d
c a l p. S phân c m th c hi
ng d li u theo nguyên t
ng trong cùng m t nhóm thì gi

i

ng khác nhóm. M i c m

c t o thành có th
tl
ng mà các lu
c l y ra t
ng c a c
c hình thành theo m t c u trúc phân c p c a các l p mà m i l p
là m t nhóm các s ki

nhau.

ng ngoài cu c:
d li u trong CSDL. H u h



ng không tuân theo mô hình

ng ngoài

cu c là nhi u và lo i b chúng. Tuy nhiên trong m t s ng d ng, ch ng h
hi n nhi u, thì s ki n hi m khi x y ra l
nh
ng xuyên g p
ph i. S phân tích d li u ngoài cu
ng ngoài
cu c. M t s
cs d
phát hi
ng ngoài cu c: s d ng
các test mang tính th
m t phân ph i d li u hay m t mô hình xác su t
cho d li
ng có m t kho ng
nc mb
ng ngoài cu
pháp d
l
ki m tra s khác nhau trong nh
ính c a các
ng.
Phân tích s ti n hoá: Phân tích s ti n hoá th c hi n vi c mô t và mô hình hoá
các quy lu
ng c a nh
ng mà hành vi c
i
theo th i gian. Phân tích s ti n hoá có th bao g m c
oá, phân bi t, tìm

lu t k t h p, phân l
n th i gian, phân tích d li u theo chu i
th i gian, so sánh m u theo chu k và phân tích d li u d
.
1.1.6

ng d ng c a khai phá d li u
KPDL
-

:


-

g

T

:
-

N

:
-

-

-


-

1.2
1.2.1

C

m d li u
k thu t phân c m

ng
t
. PCDL là m t k thu t trong
KPDL, nh m tìm ki m, phát hi n các c m, các m u d li u t nhiên, ti m n, quan
tr ng trong t p d li u l n t
p thông tin, tri th c h u ích cho vi c ra quy t
nh. M
a PCDL nh m khám phá c u trúc c a m u d li
thành l p
các nhóm d li u t t p d li u l


và nghiên c u cho t ng c m d li u này nh m khám phá và tìm ki m các thông tin
ti m n, h u ích ph c v cho vi c ra quy
y, PCDL x là m

nh. Ví d :
lý thông tin quan tr ng và


ph bi n, nó nh m khám phá m i liên h gi a các m u d li u b ng cách t ch c
chúng thành các c m [1].

Hình 1-2: Mô ph ng s phân c m

hay
v
ng g p
trong PCDL
. Nhi
có th
ng
d li u không chính xác ho
ng d li u khuy t thi u thông tin v m t s
thu c tính. M t trong các k thu t x lý nhi u ph bi n là vi c thay th giá tr c a các
thu c tính c

nhi

b ng giá tr thu c

ng c

li u g n nh t.

-

Bi u di n d li u
Xây d
Xây d ng các tiêu chu n phân c m


-

Xây d ng mô hình cho c u trúc c m d li u
Xây d ng thu t toán phân c m và xác l
u ki n kh i t o
Xây d ng các th t c bi u di
t qu phân c m

ng d


1.2.2

ng d ng c a phân c m d li u
PCDL là m t trong nh ng công c chính c
i và khoa h c. Các k thu

s

ng d

n hình tr

c ng d ng trong nhi u
c áp d ng cho m t

c sau [5]:

i: PCDL có th

hàng quan tr
trong CSDL khách hàng
Sinh h c:
v i ch

c t h t các m u mua bán
.
cs d

i sinh v t, phân lo i các Gen
c các c u trúc trong các m

L p quy ho
: Nh n d ng các nhóm nhà theo ki u và v
nh m cung c p thông tin cho quy ho
.
a lý: Phân l

a lý

ng v t, th c v

Khai phá Web: PCDL có th khám phá các nhóm tài li u quan tr ng, có nhi u ý
ng Web. Các l p tài li u này tr giúp cho vi c khám phá tri th c
t d li u Web, khám phá ra các m u truy c p c
c bi t hay khám phá
ra c
1.2.3 Các yêu c

i v i k thu t phân c m d li u


Vi c xây d ng, l a ch n m t thu t toán phân c
quy t v
phân c m, s l a ch n này ph thu
m
a ng d ng th c t ho
hay t
th c hi n thu

c then ch t cho vi c gi i
c tính d li u c n phân c m,
n gi a ch
ng c a các c m

[5]:
Có kh
r ng: M t s thu t toán có th ng d ng t t cho t p d li u nh
(kho ng 200 b n ghi d li
u qu khi áp d ng cho t p d li u l n
(kho ng 1 tri u b n ghi).
Thích nghi v i các ki u d li u khác nhau: Thu t toán có th áp d ng hi u qu
cho vi c phân c m các t p d li u v i nhi u ki u d li
li u ki u
s , ki u nh phân, d li
h p.

nh danh, h ng m c,... và thích nghi v i ki u d li u h n


Khám phá ra các c m v i hình thù b t k : Do h u h t các CSDL có ch a nhi u

c m d li u v i c
y,
c các c m có tính t nhiên thì các thu t toán phân c m c n ph i có
kh

m d li u có hình thù b t k .
T i thi

ng tri th c c

nh các tham s vào: Do các giá tr

ng
ng r t l
n thu t toán phân c m và r t ph c t
tr vào thích h
i v i các CSDL l n.
Ít nh y c m v i th t c a d li u vào: Cùng m t t p d li
cho thu t toán PCDL v i các th t vào c
ng d li u
khác nhau thì không

ng l

Kh

u vào

nh các giá



các l n th c hi n

n k t qu phân c m.

i d li u nhi u cao: H u h t các d li u phân c m trong

u ch
ng các d li u l i, d li
, d li u rác. Thu t toán
phân c m không nh ng hi u qu
i v i các d li u nhi u mà còn tránh d
n ch t
ng phân c m th p do nh y c m v i nhi u.
Ít nh y c m v i các tham s
khác nhau ít gây ra các thay i l
Thích nghi v i d li

u vào:
c a các tham s
i v i k t qu phân c m.
u: Thu t toán có kh

u vào

ng hi u qu cho d

li u có s chi u khác nhau.
D hi u, d


t và kh thi.

1.2.4 Các ki u d li
ng d li u c n phân tích có th
i, nhà c a,
ti
c th ph n m
c di n t
i
d ng các thu c tính c
i các ki u thu c tính khác nhau là m t v
c n gi i quy
i v i h u h t các t p d li u nh m cung c
n thu n l i
nh n d ng s khác nhau c a các ph n t d li
p d a trên hai
c mi n và h
[2].
1.2.4.1 Phân lo i ki u d li u d

c mi n

Thu c tính liên t c: N u mi n giá tr c a nó là vô h
gi a hai giá tr t n t i vô s giá tr khác. Thí d
ho
âm thanh.

c tính v màu, nhi



- Thu c tính r i r c: N u mi n giá tr c a nó là t p h u h n ho
d

c. Thí

c tính v s serial c a m t cu n sách, s thành viên trong m t gia

1.2.4.2 Phân lo i ki u d li u d a trên h
Gi s r

ng x, y và các thu c tính

thu c tính th i c a chúng. Chúng ta có các l p ki u d li u
Thu

nh danh (Nominal Scale ):

thu c tính nh
nt
là x # y ho c x = y.

ng v i

sau:

ng thu c tính khái quát hóa c a

n giá tr là r i r c không phân bi t th t và có nhi u
u x và y là hai
ng thu c tính thì ch có th x

nh

Thu c tính có th t (Ordinal Scale): là thu

nh danh có thêm tính th t ,

ng. N u x và y là hai thu c tính th t thì ta có th
nh là x # y ho c x = y ho c x>y ho c xThu c tính kho ng (Interval Scale): V i thu c tính kho ng, chúng ta có th xác
nh m t thu

c ho

ng sau thu c tính khác v i m t kho ng là

bao nhiêu. N u xi > yi thì ta nói x cách y m t kho ng
th i.

ng v i thu c tính

Thu c tính t l (Ratio Scale): là thu c tính kho
i so v
m 0 làm m c.

m m c, thí d

c xác

nh m t


c tính chi u cao ho c cân n ng l y

Trong các thu c tính d li u trình bày trên, thu
nh danh và thu c tính
có th t g i chung là thu c tính h ng m c (Categorical), thu c tính kho ng và thu c
tính t l
c g i là thu c tính s (Numeric).

1.2.4.3 Khái ni
phân c
gi
nhau gi a các c
(Similar) ho
T tc
gian metric là m t t
v i nh ng tính ch

i ta ph
ng d li

nh
d li
ng các hàm này ho
t (Dissimilar) gi

gi ng
ng d li u.

nh trong không gian metric. M t không
a t ng c p ph n t ,

ng c a kho ng cách hình h
t t p X (các


ph n t c a nó có th là nh
li

c p

trên

ng b t k

ng d li

c g i là m t không gian metric n u:

V i m i c p ph n t x, y thu
s th

d

nh, theo m t quy t c

t

c g i là kho ng cách gi a x và y.
Quy t c trên tho mãn h tính ch t sau:
-


u x =y;

-

im
c g i là m t metric c a không gian. Các ph n t
m c a không gian này.

cg
M

c a

s phù h p v i m i ki u d li u khác nhau[5].

Thu c tính kho ng:
Sau khi chu
nh b

ng d li u x, y

c

Kho ng cách Minskowski:

c xác

, v i q là s nguyên

Kho ng cách Euclidean:


,

ng h

c bi t c a

ng h p q =2).

kho
Kho ng cách Manhattan:
kho ng cách Minskowski
Kho ng cách c

,

ng h

c bi t c a

ng h p q=1).
i:

,

kho ng cách Minskowski

ng h p

.


Thu c tính nh phân:
c h t ta có xây d ng b ng tham s sau:
y:1

y:0

x:1
y:1
B ng 1-1: B ng tham s thu c tính nh phân

ng h p c a


×