B GIÁO D
O
HÒNG
ÁN T T NGHI P
NGÀNH CÔNG NGH THÔNG TIN
B GIÁO D
O
HÒNG
H I PHÒNG 2016
K TH
M TRONG
KHAI PHÁ D
ÁN T T NGHI P H
LI U WEB
I H C CHÍNH QUY
Ngành: Công ngh Thông tin
H¶i Phßng 2016
H I PHÒNG 2016
B GIÁO D
O
HÒNG
K T H P CÁC
KHAI PHÁ D
ÁN T T NGHI P H
M TRONG
LI U WEB
I H C CHÍNH QUY
Ngành: Công ngh Thông tin
Sinh viên th c hi n: Cao H u H i
ng d n: Nguy n Tr
Mã sinh viên: 1212101007
H I PHÒNG 2016
TR
T
H
Sinh viên: Cao H u H i
Mã s : 1212101007
L p:CT1601
Ngành: Công ngh Thông tin
tài: K t h
m trong khai phá d li u Web
1. N i dung và các yêu c u c n gi i quy t trong nhi m v
tài t t nghi p.
a. N i dung:
-
Tìm hi u v khai phá d li u, khai phá d li u Web.
Tìm hi u các thu t toán phân c m ph bi n.
-
Áp d ng các thu t toán phân c m trong tìm ki m và phân c m tài li u
Web.
-
ra
ng h th ng.
Th nghi m v i các công c
gi i quy t bài toán.
b. Các yêu c u c n gi i quy t.
-
N
N
N
c lý thuy t v khai phá d li u Web.
c các thu t toán phân c m d li u.
c quá trình phân c m d li u Web.
c mô hình phân c m d li u v i ph n m n Orange.
2. Các s li u c n thi
m th c t p
thi t k , tính toán
CÁN B
NG D
TÀI T T NGHI P
ng d n th nh t:
H và tên: Nguy n Tr
H c hàm, h c v : Th
i h c Dân l p H i Phòng
N
ng d n:
toán.
tài t t nghi
Yêu c u ph
n nhi m v
n nhi m v
Sinh viên
Cán b
H
ng d
2016
HI
NG
n H u Ngh
PH N NH N XÉT TÓM T T C A CÁN B
1. Tinh th
nhi m v
1.
c
ng c
tài t t nghi p):
m c a cán b
NG D N
tài t t nghi p:
tài t t nghi p (so v i n i dung yêu c
ng d n:
m ghi b ng s và ch )
ra trong
PH N NH
PH N BI
1.
thuy
2.
A CÁN B
CH M
TÀI T T NGHI P
tài t t nghi p (v các m
th c t
m c a cán b ph n bi n
m ghi b ng s và ch )
lý lu n,
L IC
Trong l
u tiên c
c m trong khai phá d li u Web
án t t nghi
Áp d
n g i nh ng l
thành nh t c a mình t i t t c nh
th n trong quá trình th c hi
án.
ch
ng d n, nh
em v ki n th c và tinh
y giáo Ths. Nguy n Tr
viên khoa Công ngh Thông t
ti
tr
, gi ng
i h c Dân l p H
c
em trong su t quá trình th c hi
Xin chân thành c
h c Dân l p H i Phòng, ban giám hi
án.
n H u Ngh Hi
ng t
i
ng, các th y cô trong khoa Công ngh
Thông t
u ki n t t nh
b n khác trong su t th i gian h c t p và làm t t nghi p.
Cu i cùng em xin g i l i c
ng viên em r t nhi u trong quá trình h c t p và làm
án t t nghi p.
M
ts cc g
hoàn thi n báo cáo t t nghi p song kh
còn h n ch nên bài báo cáo v n còn thi u nhi u sai sót. Vì v y em r
a các th y cô và b n bè.
Em xin chân thành c
H i Phòng,ngày 24 tháng 12
Sinh viên
Cao H u H i
cs
M CL C
L IC
.........................................................................................................1
M C L C ..............................................................................................................2
DANH SÁCH HÌNH ..............................................................................................4
DANH SÁCH B NG.............................................................................................6
DANH M C T
VI T T T .................................................................................6
U WEB ...............................8
1.1
Khai phá d li u và khai phá tri th c.......................................................8
1.1.1 Khai phá d li u ..................................................................................8
1.1.2 Quá trình khám phá tri th c ................................................................8
1.1.3 Khai phá d li
.........................................9
1.1.4 Các k thu t áp d ng trong khai phá d li u.......................................9
1.1.5 Nh ng ch
1.1.6
a khai phá d li u ...................................10
ng d ng c a khai phá d li u .........................................................11
1.2
m d li u .............................................................12
1.2.1
k thu t phân c m .......................................................12
1.2.2
ng d ng c a phân c m d li u .......................................................14
1.2.3 Các yêu c
i v i k thu t phân c m d li u ................................14
1.2.4 Các ki u d li
1.3
...................................................15
........................................................................................19
1.3.1 Các ki u d li u Web ........................................................................21
1.3.2 X lý d li
1.3.3 M t s v
1.4
Ti u k
n ng d ng trong khai phá d li u Web ...........22
trong x lý d li
n........................................22
..................................................................................24
T S K THU T PHÂN C M D
LI U ............................25
2.1
Thu t toán k-means................................................................................25
2.2
Thu t toán PAM.....................................................................................27
2.3
Thu t toán BIRCH .................................................................................31
2.4
Thu t toán DBSCAN .............................................................................33
2.5
Ti u k
..................................................................................36
LI U WEB ..........................................................37
3.1
Khai phá n i dung Web .........................................................................37
3.1.1 Khai phá k t qu tìm ki m ................................................................38
3.1.2
3.2
n Web ......................................................................38
Khai phá theo s d ng Web...................................................................43
3.2.1 Các k thu
c s d ng trong khai phá theo s d ng Web .........44
3.2.2 Quá trình khai phá theo s d ng Web...............................................44
3.3
Khai phá c u trúc Web ..........................................................................45
3.3.1 Tiêu chu
.......................................................46
3.3.2 Khai phá và qu n lý c
3.4
ng Web ................................................47
Áp d ng thu t toán trong tìm ki m và phân c m tài li u Web..............48
3.4.1 Tìm hi u k thu t phân c m tài li u Web .........................................48
3.4.2 Quá trình tìm ki m và phân c m tài li u ...........................................49
3.5
Th c nghi m ..........................................................................................53
3.6
Ti u k
..................................................................................59
K t lu n.................................................................................................................60
Tài li u tham kh o ................................................................................................61
DANH SÁCH HÌNH
Hình 1-1: Quy trình khai phá tri th c .....................................................................8
Hình 1-2: Mô ph ng s phân c m ........................................................................13
Hình 1-3: Phân lo i d li u Web ..........................................................................21
Hình 1-
th th ng kê t n s c a t
Hình 2-1: Hình d ng c m d li
Hình 2-2:
= d(
,
nh lu t Zipf.................................24
c khám phá b i k-means ..........................26
)
d(
Hình 2-3 :
,
) Cjmp không âm .........................28
có th âm ho
...................29
Hình 2-
ng h p Cjmp= 0 ...............................................................................29
Hình 2-
ng h p Cjmp= (Oj,Op)- d(Oj, Om,2). Cjmp luôn âm..........................30
Hình 2-
c t o b i BIRCH ...............................................................31
Hình 2-7: Lân c n c a m
mpv
ng Eps.............................................33
Hình 2-8: M
-
c tr c ti p ....................................................................34
Hình 2-9: M
-
c ................................................................................34
Hình 2-10: M
- liên thông ..............................................................................35
Hình 2-
ng nhi u ...........................................................................35
Hình 3-1: Phân lo i khai phá Web........................................................................37
Hình 3-
n Web ..........................................................38
Hình 3-3: Quan h tr c ti p gi a 2 trang..............................................................46
Hình 3-
ng trích d n.......................................................................47
Hình 3-
ch m c.............................................................................47
Hình 3-
c phân c m k t qu tìm ki m trên Web ..................................50
Hình 3-7: Mô hình phân c m d li u trên Orange ...............................................54
Hình 3-
li u chu n hóa và mô hình.......................................................54
Hình 3-9: B ng chu n hóa ....................................................................................55
Hình 3-10: Do kho ng cách b ng Euclidean ........................................................55
Hình 3-11: Phân c m d li
m phân c p..................56
Hình 3-12: D li u sau khi phân c m phân c p ...................................................57
Hình 3-13: Phân c m b ng k-means, 8 c m là t
t...................................58
Hình 3-14: Bi u di n d li u sau khi phân c m k-means.....................................59
DANH SÁCH B NG
B ng 1-1: B ng tham s thu c tính nh phân .......................................................17
B ng 1-2: Th ng kê các t n s xu t hi n cao .......................................................23
DANH M C T
VI T T T
Stt
T vi t
t t
T ti ng anh
ti ng vi t
1
KPDL
Khai phá d li u
2
PCDL
Phân c m d li u
3
CSDL
4
KDD
5
KPVB
6
IF
Term Frequency
T n s xu t hi n c a t
n
7
IDF
Inverse Document Frequency
T n s ngh ch c a 1
t trong t
n
8
PAM
Partitioning Around Medoids
Thu t toán phân c m d a
ng k-medoid
9
BIRCH
Balanced Iterative Reducing and
Clustering Using Hierarchies
Thu t toán phân c m d a
ng cây phân c p
10
DBSCAN Density Based Spatial Clustering of Thu t toán phân c m d a
Applications with Noise
trên m
11
HTML
Hypertext Markup Language
Ngôn ng
n
12
URL
Uniform Resource Locator
nh v tài nguyên th ng
nh t
13
CF
Cluster Features
d li u
Knowledge Discovery in Database
Khám phá tri th c trong
d li u
n
mc m
u siêu
.D
,
,
V
kh8
d li u truy n th
u và áp
d ng k thu t khai phá d li u và khám phá tri th
vi c nghiên c u các mô hình d pháp khai li u m i và áp d
trong khai phá tài nguyên Web là m t xu th t t y u v
c ti n cao.
phá d li u
cv a
án
m ts v
c s d ng
n th
v bi u di n và x lý d li
n v khám phá tri th c, khai phá d li u,
n áp d ng trong khai phá d li u.
i thi u m t s
c khai phá d li u Web.
m d li u ph bi
ng
Web và ti p c
ng s d ng các
k thu t phân c m d li
gi i quy t bài toán khai phá d li u Web. Trong ph n
t mô hình áp d ng k thu t phân c m d li u trong tìm ki m và
phân c m tài li u Web.
LI U WEB
1.1 Khai phá d li u và khai phá tri th c
1.1.1 Khai phá d li u
cm
c nghiên c u, nh m t
thông tin, tri th c m i h u ích, ti m n t nh ng CSDL l
ng khai thác
, t ch c,
doanh nghi
y kh
n xu t, kinh doanh, c nh tranh cho các
, t ch c này. Các k t qu nghiên c u khoa h c cùng nh ng ng d ng thành
công trong KDD cho th y KPDL là m
l i ích và có nhi u tri n v
ng th
v c phát tri n b n v ng, mang l i nhi u
n so v i các công c tìm
ki m phân tích d li u truy n th ng. Hi
ng d ng ngày càng r ng rãi
i, tài chính, y h c, vi n thông, tin sinh
khai phá, trích xu t, khai thác và s d ng
nh ng d li u có giá tr ti m n t bên trong
ng l n d li
trong các
d li u (CSDL), kho d li u, trung tâm d li
1.1.2 Quá trình khám phá tri th c
Quá trình khá phá tri th c có th
Trích ch n
D li u
[1]:
Bi
D li u
l a ch n
D li u
ti n x lý
D li u
bi
i
bi u di n
i
Các m u
Tri
thô
Ti n x lý
Khai phá
Hình 1-1: Quy trình khai phá tri th c
Quá trình KPDL có th
Trích ch n d li u:
t các t p d li u l
n sau:
c trích ch n nh ng t p d li u c
u theo m t s tiêu chí nh
nh.
c khai phá
Ti n x lý d li u:
c làm s ch d li u (lo i b d li
lý d li u thi u sót,...), rút g n d li u (s d ng hàm nhóm và tính t
pháp nén d li u, s d ng histograms, l y m u,...), r i r c hóa d li u (r i r c hóa d a
vào histograms, entropy
c này, d li u s nh
c rút g n
c r i r c hóa.
Bi
i d li u:
c chu n hóa và làm m n d li
cùng m t ki u, d ng thu n l i nh t nh m ph c v quá trình x
Khai phá d li u:
li u v
c sau.
c áp d ng nh ng k thu
thu t c a h c máy) nh
khai thác d li u, trích ch
nh ng m i liên h
c bi t trong d li
c nh ng m u
,
c quan tr ng và t n
nhi u th i gian nh t c a toàn quá trình KDD.
u di n tri th c: Nh ng m u thông tin và m i liên h trong d li u
c khám phá
is d
nh ng tri th
c bi
i và bi u di n
th , cây, b ng bi u, lu
ng th
c theo nh ng tiêu chí nh
m t d ng g
i
nh.
1.1.3 Khai phá d li
KPDL là m
c liên quan t i th ng kê, h c máy, CSDL, thu t toán, tính
toán song song, thu nh n tri th c t h chuyên gia và d li u tr
a
h th ng khám phá tri th c là nh
t toán và k thu t t
nh
KPDL.
c h c máy và nh n d ng m
KDD nghiên c u các lý thuy t và thu t toán c a h th
trích ra các m u và mô
hình t d li u l n. KDD t p trung vào vi c m r ng các lý thuy t và thu t toán cho
các v
tìm ra các m
c bi t (h u ích ho c có th rút ra tri th c quan tr ng)
trong CSDL l n.
th
ng g n nh ng th t c
th ng kê cho mô hình d li
Analysis - EDA).
1.1.4 Các k thu t áp d ng trong khai phá d li u
vào các bài toán c n gi i quy t thì KPDL g m các k thu t sau [5]:
Phân l p và d báo: X p m
ng vào m t trong nh ng l
c.
Ví d
p các d li u b nh nhân trong h
ng ti p c n này
ng s d ng m t s k thu t c a h
nh, m
t o,... Phân l p và d
c g i là h c có giám sát.
Lu t k t h p: Là d ng lu t bi u di n tri th c
d
n. Ví d
n gi i vào siêu th n u mua ph n thì có t i 80% trong s h s
t
k th
c ng d ng nhi
c kinh doanh, y h c, tin-sinh, tài chính và
th
ng ch ng khoán,...
Phân tích chu i theo th i gian
tk th
thêm tính th t và tính th
ng ti p c
c ng d ng nhi
v c tài chính và th
ng ch ng khoán vì nó có tính d báo cao.
h
Phân c m: X
ng theo t ng c m d li u t nhiên. Phân c m còn
c g i là h c không có giám sát.
Mô t và tóm t t khái ni m: Thiên v mô t , t ng h p và tóm t t khái ni m, ví d
n.
1.1.5 Nh ng ch
a khai phá d li u
báo là dùng m t s bi n
ho
d
quan tr ng khác. Vi c mô t t p trung vào tìm ki m các m
t ho c s có c a các bi n
i có th hi u
mô t d li
c KDD, mô t
c quan tâm nhi
c v i các ng d ng h c máy và nh n d ng m
ng là m
c a KDD g m [1]:
báo,
c d báo
m c tiêu chính c a KPDL, các ch
Mô t l p và khái ni m: D li u có th
c k t h p trong l p và khái ni m. Ví
d : trong kho d li u bán hàng thi t b tin h c, các l p m t hàng bao g m máy tính,
m khách hàng bao g m khách hàng mua s và khách mua l . Vi c
mô t l p và khái ni m là r t h
n t ng h
c và chính xác
hoá. Mô t l p và khái ni
c b t ngu n t
li u và phân bi t d
li
li u là quá trình t ng h p nh
c tính ho c các thành ph n
chung c a m t l p d li u m c tiêu. Phân bi t d li u là so sánh l p d li u m c tiêu
v i nh ng l p d li
i chi u khác. L p d li u m c tiêu và các l
i chi u là do
i dùng ch
ng v
ng d li u nh
c nh truy v n.
Phân tích s k t h p: Phân tích s k t h p là khám phá lu t k t h p th hi n m i
quan h gi a các thu c tính giá tr mà ta nh n bi
c nh t n su t xu t hi n cùng
nhau c a chúng.
Phân l p và d báo: Phân l p là quá trình tìm ki m m t t p các mô hình ho c
ch
và phân bi t nó v i các l p ho c khái ni m khác. Các mô hình
này nh m m
h d báo v l p c a m t s
ng. Vi c xây d ng mô hình d a
trên s phân tích m t t p các d li
c hu n luy n có nhi u d ng th hi n mô hình
t phân l p (IF-THEN), cây quy
nh, công th c toán h c hay m
S phân l
c s d ng
d
pc
ng trong d li u. Tuy
nhiên trong nhi u ng d
i ta mong mu n d
ng giá tr khuy t thi u
ng h p d
c a d li u ki u s
khi phân l p và d báo, có th c n th c hi n phân tích thích h
các thu c tính không tham gia vào quá trình phân l p và d báo.
c
nh và lo i b
Phân c m: Không gi
p và d báo, phân c
i
ng d li
t nhãn c a l p. Nhìn chung, nhãn l p không t n t i trong
su t quá trình hu n luy n d li u, nó phân c m có th
cs d
c a l p. S phân c m th c hi
ng d li u theo nguyên t
ng trong cùng m t nhóm thì gi
i
ng khác nhóm. M i c m
c t o thành có th
tl
ng mà các lu
c l y ra t
ng c a c
c hình thành theo m t c u trúc phân c p c a các l p mà m i l p
là m t nhóm các s ki
nhau.
ng ngoài cu c:
d li u trong CSDL. H u h
cá
ng không tuân theo mô hình
ng ngoài
cu c là nhi u và lo i b chúng. Tuy nhiên trong m t s ng d ng, ch ng h
hi n nhi u, thì s ki n hi m khi x y ra l
nh
ng xuyên g p
ph i. S phân tích d li u ngoài cu
ng ngoài
cu c. M t s
cs d
phát hi
ng ngoài cu c: s d ng
các test mang tính th
m t phân ph i d li u hay m t mô hình xác su t
cho d li
ng có m t kho ng
nc mb
ng ngoài cu
pháp d
l
ki m tra s khác nhau trong nh
ính c a các
ng.
Phân tích s ti n hoá: Phân tích s ti n hoá th c hi n vi c mô t và mô hình hoá
các quy lu
ng c a nh
ng mà hành vi c
i
theo th i gian. Phân tích s ti n hoá có th bao g m c
oá, phân bi t, tìm
lu t k t h p, phân l
n th i gian, phân tích d li u theo chu i
th i gian, so sánh m u theo chu k và phân tích d li u d
.
1.1.6
ng d ng c a khai phá d li u
KPDL
-
:
-
g
T
:
-
N
:
-
-
-
-
1.2
1.2.1
C
m d li u
k thu t phân c m
ng
t
. PCDL là m t k thu t trong
KPDL, nh m tìm ki m, phát hi n các c m, các m u d li u t nhiên, ti m n, quan
tr ng trong t p d li u l n t
p thông tin, tri th c h u ích cho vi c ra quy t
nh. M
a PCDL nh m khám phá c u trúc c a m u d li
thành l p
các nhóm d li u t t p d li u l
và nghiên c u cho t ng c m d li u này nh m khám phá và tìm ki m các thông tin
ti m n, h u ích ph c v cho vi c ra quy
y, PCDL x là m
nh. Ví d :
lý thông tin quan tr ng và
ph bi n, nó nh m khám phá m i liên h gi a các m u d li u b ng cách t ch c
chúng thành các c m [1].
Hình 1-2: Mô ph ng s phân c m
hay
v
ng g p
trong PCDL
. Nhi
có th
ng
d li u không chính xác ho
ng d li u khuy t thi u thông tin v m t s
thu c tính. M t trong các k thu t x lý nhi u ph bi n là vi c thay th giá tr c a các
thu c tính c
nhi
b ng giá tr thu c
ng c
li u g n nh t.
-
Bi u di n d li u
Xây d
Xây d ng các tiêu chu n phân c m
-
Xây d ng mô hình cho c u trúc c m d li u
Xây d ng thu t toán phân c m và xác l
u ki n kh i t o
Xây d ng các th t c bi u di
t qu phân c m
ng d
1.2.2
ng d ng c a phân c m d li u
PCDL là m t trong nh ng công c chính c
i và khoa h c. Các k thu
s
ng d
n hình tr
c ng d ng trong nhi u
c áp d ng cho m t
c sau [5]:
i: PCDL có th
hàng quan tr
trong CSDL khách hàng
Sinh h c:
v i ch
c t h t các m u mua bán
.
cs d
i sinh v t, phân lo i các Gen
c các c u trúc trong các m
L p quy ho
: Nh n d ng các nhóm nhà theo ki u và v
nh m cung c p thông tin cho quy ho
.
a lý: Phân l
a lý
ng v t, th c v
Khai phá Web: PCDL có th khám phá các nhóm tài li u quan tr ng, có nhi u ý
ng Web. Các l p tài li u này tr giúp cho vi c khám phá tri th c
t d li u Web, khám phá ra các m u truy c p c
c bi t hay khám phá
ra c
1.2.3 Các yêu c
i v i k thu t phân c m d li u
Vi c xây d ng, l a ch n m t thu t toán phân c
quy t v
phân c m, s l a ch n này ph thu
m
a ng d ng th c t ho
hay t
th c hi n thu
c then ch t cho vi c gi i
c tính d li u c n phân c m,
n gi a ch
ng c a các c m
[5]:
Có kh
r ng: M t s thu t toán có th ng d ng t t cho t p d li u nh
(kho ng 200 b n ghi d li
u qu khi áp d ng cho t p d li u l n
(kho ng 1 tri u b n ghi).
Thích nghi v i các ki u d li u khác nhau: Thu t toán có th áp d ng hi u qu
cho vi c phân c m các t p d li u v i nhi u ki u d li
li u ki u
s , ki u nh phân, d li
h p.
nh danh, h ng m c,... và thích nghi v i ki u d li u h n
Khám phá ra các c m v i hình thù b t k : Do h u h t các CSDL có ch a nhi u
c m d li u v i c
y,
c các c m có tính t nhiên thì các thu t toán phân c m c n ph i có
kh
m d li u có hình thù b t k .
T i thi
ng tri th c c
nh các tham s vào: Do các giá tr
ng
ng r t l
n thu t toán phân c m và r t ph c t
tr vào thích h
i v i các CSDL l n.
Ít nh y c m v i th t c a d li u vào: Cùng m t t p d li
cho thu t toán PCDL v i các th t vào c
ng d li u
khác nhau thì không
ng l
Kh
u vào
nh các giá
lý
các l n th c hi n
n k t qu phân c m.
i d li u nhi u cao: H u h t các d li u phân c m trong
u ch
ng các d li u l i, d li
, d li u rác. Thu t toán
phân c m không nh ng hi u qu
i v i các d li u nhi u mà còn tránh d
n ch t
ng phân c m th p do nh y c m v i nhi u.
Ít nh y c m v i các tham s
khác nhau ít gây ra các thay i l
Thích nghi v i d li
u vào:
c a các tham s
i v i k t qu phân c m.
u: Thu t toán có kh
u vào
ng hi u qu cho d
li u có s chi u khác nhau.
D hi u, d
t và kh thi.
1.2.4 Các ki u d li
ng d li u c n phân tích có th
i, nhà c a,
ti
c th ph n m
c di n t
i
d ng các thu c tính c
i các ki u thu c tính khác nhau là m t v
c n gi i quy
i v i h u h t các t p d li u nh m cung c
n thu n l i
nh n d ng s khác nhau c a các ph n t d li
p d a trên hai
c mi n và h
[2].
1.2.4.1 Phân lo i ki u d li u d
c mi n
Thu c tính liên t c: N u mi n giá tr c a nó là vô h
gi a hai giá tr t n t i vô s giá tr khác. Thí d
ho
âm thanh.
c tính v màu, nhi
- Thu c tính r i r c: N u mi n giá tr c a nó là t p h u h n ho
d
c. Thí
c tính v s serial c a m t cu n sách, s thành viên trong m t gia
1.2.4.2 Phân lo i ki u d li u d a trên h
Gi s r
ng x, y và các thu c tính
thu c tính th i c a chúng. Chúng ta có các l p ki u d li u
Thu
nh danh (Nominal Scale ):
thu c tính nh
nt
là x # y ho c x = y.
ng v i
sau:
ng thu c tính khái quát hóa c a
n giá tr là r i r c không phân bi t th t và có nhi u
u x và y là hai
ng thu c tính thì ch có th x
nh
Thu c tính có th t (Ordinal Scale): là thu
nh danh có thêm tính th t ,
ng. N u x và y là hai thu c tính th t thì ta có th
nh là x # y ho c x = y ho c x>y ho c x
Thu c tính kho ng (Interval Scale): V i thu c tính kho ng, chúng ta có th xác
nh m t thu
c ho
ng sau thu c tính khác v i m t kho ng là
bao nhiêu. N u xi > yi thì ta nói x cách y m t kho ng
th i.
ng v i thu c tính
Thu c tính t l (Ratio Scale): là thu c tính kho
i so v
m 0 làm m c.
m m c, thí d
c xác
nh m t
c tính chi u cao ho c cân n ng l y
Trong các thu c tính d li u trình bày trên, thu
nh danh và thu c tính
có th t g i chung là thu c tính h ng m c (Categorical), thu c tính kho ng và thu c
tính t l
c g i là thu c tính s (Numeric).
1.2.4.3 Khái ni
phân c
gi
nhau gi a các c
(Similar) ho
T tc
gian metric là m t t
v i nh ng tính ch
i ta ph
ng d li
nh
d li
ng các hàm này ho
t (Dissimilar) gi
gi ng
ng d li u.
nh trong không gian metric. M t không
a t ng c p ph n t ,
ng c a kho ng cách hình h
t t p X (các
ph n t c a nó có th là nh
li
c p
trên
ng b t k
ng d li
c g i là m t không gian metric n u:
V i m i c p ph n t x, y thu
s th
d
nh, theo m t quy t c
t
c g i là kho ng cách gi a x và y.
Quy t c trên tho mãn h tính ch t sau:
-
u x =y;
-
im
c g i là m t metric c a không gian. Các ph n t
m c a không gian này.
cg
M
c a
s phù h p v i m i ki u d li u khác nhau[5].
Thu c tính kho ng:
Sau khi chu
nh b
ng d li u x, y
c
Kho ng cách Minskowski:
c xác
, v i q là s nguyên
Kho ng cách Euclidean:
,
ng h
c bi t c a
ng h p q =2).
kho
Kho ng cách Manhattan:
kho ng cách Minskowski
Kho ng cách c
,
ng h
c bi t c a
ng h p q=1).
i:
,
kho ng cách Minskowski
ng h p
.
Thu c tính nh phân:
c h t ta có xây d ng b ng tham s sau:
y:1
y:0
x:1
y:1
B ng 1-1: B ng tham s thu c tính nh phân
ng h p c a