án t t nghi p
i Phòng
M CL C
....................................................................................................1
DANH SÁCH CÁC HÌNH ..........................................................................3
................................................................................................6
............................................................8
..............................................................................8
....................................9
...................11
......................................................11
........................................................................12
...............................................12
........................................................15
.........................................17
........................................................................................17
1.7
.............................19
...................................................................................19
..........................................20
...........................................21
..........................................21
...........................................................21
......22
.................24
.............................................................................24
.....................................................................28
...........................................................31
.......35
.............................................................................................35
............................................................................36
....................................................................................36
..............................................................................37
...............................................................................38
.........................................................................39
............................................................................................43
...........................................43
.................................................................49
..................................................................51
..............................................................................................52
......................................................................................53
.......................................................................53
..............................................................................53
.......................................................................54
....................................................................55
..............................................................56
...................................................................56
3.5.5 Giao
................................................................................................57
Nguy
CT1301
1
án t t nghi p
i Phòng
.........................................................................58
Nguy
CT1301
2
án t t nghi p
i Phòng
DANH SÁCH CÁC HÌNH
c th c hi n trong quá trình khám phá tri th c..............................10
n Khám phá tri th c trong CSDL......................11
kh i Kh i truy v n..........................................................................13
kh
m c...........................................................................14
Hình2.1:Hình minh h a phân c m d li u................................................................19
Hình2.2: Hình d ng c m d li
c b i k-means................................25
c s d ng b i thu t toán BIRCH............................................28
Hình 2.4:Các c m d li
c khám phá b i CURE..............................................30
Hình 2.5: Hình minh h a phân c m OPTICS...........................................................33
Hình 2.6:Hình minh h a DENCLUE v i hàm phân ph i Gaussian.........................34
Hình 3.1: Bi
Use Case t ng quan.....................................................................37
Hình 3.2: Bi
ca s d
p nh ...........................................................39
Hình 3.3: Bi
ca s d
.........................................................39
Hình 3.4: Bi
ca s d
............................................................41
Hình 3.5: Bi
tu n t th c thi ca s d
p nh t nhóm s n ph
.............44
Hình 3.6: Bi
c ng tác th c thi ca s d
p nh t nhóm s n ph
...........44
Hình 3.7: Bi
tu n t th c thi ca s d
p nh t lo is n ph
.................45
Hình 3.8: Bi
c ng tác th c thi ca s d
p nh t lo is n ph
...............45
Hình 3.9: Bi
tu n t th c thi ca s d
p nh t s n ph
.......................46
Hình 3.10: Bi
c ng tác th c thi ca s d
p nh t s n ph
..................46
Hình 3.11: Bi
tu n t th c thi ca s d
p nh
.............47
Hình 3.12: Bi
c ng tác th c thi ca s d
p nh
.........47
Hình 3.13: Bi
tu n t th c thi ca s d
p nh t thông s tìm ki
......48
Hình 3.14: Bi
c ng tác th c thi ca s d
p nh t thông s tìm ki
..48
p nh .....................................................49
Hình 3.16: Bi
tu n t th c thi ca s d
...................................49
Hình 3.17: Bi
c ng tác th c thi ca s d
.................................50
.....................................................50
Hình 3.19: Bi
tu n t th c thi ca s d
................................51
Hình 3.20: Bi
c ng tác th c thi ca s d
....................................51
........................................................51
Hình 3.22: Mô hình l p thi t k h th ng ................................................................52
Hình 3.23 Giao di n chính c
.......................................................... 53
Hình 3.24: Giao di n c p nh t s n ph m..................................................................53
Hình 3.25: Giao di n c p nh t lo i s n ph m ..........................................................54
Hình 3.26: Giao di n c p nh t nhóm s n ph m...................................................... 55
Nguy
CT1301
3
án t t nghi p
i Phòng
Hình 3.27: Giao di n tìm ki m thông tin s n ph m.................................................56
Nguy
CT1301
4
án t t nghi p
i Phòng
DANH SÁCH B NG BI U
B ng 3.1: B
nh các ch
p v c a h th ng.....................36
B ng 3.2: B
nh tác nhân c a h th ng .............................................37
B ng 3.3: B ng mô t các ca s d ng và tác nhân ..........................................38
B ng 3.4: B ng mô t ca s d ng c p nh t nhóm s n ph m ..........................39
B ng 3.5: B ng mô t ca s d ng c p nh t lo i s n ph m..............................40
B ng 3.6: B ng mô t ca s d ng c p nh t s n ph m ....................................40
B ng 3.7: B ng mô t ca s d ng câp nh t Search Engine.............................41
B ng 3.8: B ng mô t ca s d ng c p nh t thông s tìm ki m ......................41
B ng 3.9: B ng mô t ca s d ng tìm ki m ...................................................42
B ng 3.10: B ng mô t ca s d ng báo cáo ...................................................43
Nguy
CT1301
5
án t t nghi p
i Phòng
GI I THI U
Web là kho tài nguyên d li u kh ng l , không ng
ng v i t
cao. Ngày càng nhi u thông tin trong cu c s
,
Internet ch a nhi u thông tin có giá tr
ho
nc
ng nói chung, và các
ng s n xu t kinh doanh nói riêng.Xu t phát t th c t
pháp nào? Chúng ta có th khai thác thông tin t
,v
ph c v cu c s ng.
Hi n nay có nhi u công trình nghiên c
Internet.
Xu t phát t bài toán th c t trong ho
i, li u có
s n ph m thông qua các nh n xét c
dùng trên Internet?
t bài toán khó c n k t h p nhi u ki n th c
quy t bài toán này.
ph m t
gi i quy
i
gi i
tài:
s n
.Khóa lu n t p trung tìm hi u các lý thuy t liên quan nh m ph n nào
cv
t ra.
M t h th ng t ng h p thông tin t
thông tin c n
v s n ph
, h th
n s n ph m
c ra
có th h tr các doanh nghi p có thêm
m t kênh thông tin v các s n ph m trên th
ng. H th
c mô t
i dùng nh p các thu t ng v thông tin s n
1. Nh p thông tin s n ph m:
ph m vào ô thông tin s n ph m c
th ng tr v các thông tin s n
ph m mà h th ng khai thác, phân lo i, th
c thông qua máy tìm ki m
2. Tìm ki m thông tin:H th ng d a vào các thông tin s n ph m
vào và g i vào máy tìm ki
tìm các Ý ki
c nh p
i dùng s n ph mho c Xu
ng.
3. H tr
ánh giá:K t qu tr v t máy tìm ki
kê các thông tin c n thi t v s n ph m nh
i, th ng
m nh n c a
i tiêu dùng
i v i s n ph
4. Báo cáo:H th
n báo cáo v ý ki n c
i s d ng s n
ph m b ng các s li u theo chuyên môn.
Nguy
CT1301
6
án t t nghi p
i Phòng
5. Giao di n h th ng:H th ng có giao di n thân thi n, thu n l
i
i qu n lý.
tv
trên, khóa lu
c trình bày
Gi i thi u: Gi i thi u chung v bài toán và ph m vi c a khóa lu n.
lý thuy
th c hi n khóa lu n.
Trình bày các ki n th
Internet
tr giúp các ho
n bài toán tìm ki m thông tin trên
ng trong kinh doanh.
Trình bày ph n phân tích thi t k m t ng d ng mang tính ch t th
nghi m.
K t lu n
Tài li u tham kh o
Nguy
CT1301
7
án t t nghi p
i Phòng
LÝ THUY T
1.1
Khai phá d li u là m
k thu
c áp d
t th p niên tr l
.Các
c th a k t
c
c này ph n l
d li u,h c máy, trí tu nhân t o, lý thuy t thông tin, xác su t th ng kê, và
phát tri n nhanh c a Khai phá d li u v ph m vi áp
tính toán hi
d
m tri th c,
v Khai phá d li u. Tuy nhiên,
m t m c tr
Khai phá d li u
m khác nhau
ng nh
nh, theo [1] khái ni m
:
Khai phá d li u là m t quá trình tìm ki m, phân tích, phát hi n
các tri th c m i, ti m n, h u d ng trong
c khai phá d li u, có nhi
ts
ng nghiên c u
c nhi u nhà nghiên c u quan tâm.
Khai phá d li u
k
d li u l n.
n,Web, Trích ch n thông tin, Phân tích m ng xã h i,
m, Phân tích d li u kinh t - tài chính, Khai phá d li u sinh h c,
yt
Khóa lu n
n vi c tìm hi u và xây d ng h th ng th ng nh m
khai thác thông tin các s n ph
i tiêu
th là các trang web.
i tiêu dùng có mua, s d ng các s n ph m và h
c m nh
s n ph
ng c m nh n v s n
ph
. Bài toán mà
khóa lu n này tìm cách gi i quy t là tìm cách khai thác các thông tin v m t s n
ph m c th
, th
n ph m trên th
ng.
ph c v cho công tác kh o sát và
t s khái ni
c s d ng.
Thông tin s n ph m: Là thông tin mô t v ngu n g c,
tính ch t lý hóa tính, công d ng chính, giá thành, màu s c, hình dáng,
thu t,
c,
a s n ph m.
Nguy
CT1301
8
án t t nghi p
i Phòng
Ý ki
ph
i dùng ph n ánh v s n
i dùng s n ph m:
c th hi n qua các t
b n, r ,
t, thu n ti n, ti t ki m,
p, phong phú,
ng,
t mà, m n,
c
m: X u, kém, mau h ng, hàng gi , hàng nhái,
v s n ph m qua các t
, giá mà, c n, ph i,
ng: Là các t
ph
c th hi n mong mu n
t
,
n các mong mu n c
i dùng v s n
ng t t ho c x u ho c không thi n c m.
ng t
n ph m t t
ng x
n ph m x u
ng không thi n c
ng không khen, không chê s n ph m.
i mua ho
i tiêu dùng:
i s d ng s n ph m ho
i có
nh mua hay s d ng s n ph m có g i thông tin lên Internet.
i h th ng.
i dùng:
i qu n tr :
i có nhi m v qu n lý h th ng.
Máy tìm ki m:Các c máy tìm ki m thông tin trên Internet: Google, Yahoo,
Bing,
S n ph m: Là t t c các m
th
c tiêu th trên th
ng bao g m
c ngoài.
Khai phá d li u
c có liên quan
th ng kê, h c máy, tính toán phân tán,
n nhi u ngành khác nhau
d li u, thu t toán, mô hình hóa d
li
M c tiêu c a khai phá d li u là khám phá tri th c t
c h p này có th
Trích ch n d li u:
phá t
các h
c chia thành m t s
CT1301
n [3][4]:
c này trích nh ng b d li u c
th ng d
c khám
li u (databases, data warehouses, data
u theo m t s tiêu chí nh
Nguy
tr ra quy t
nh.
9
án t t nghi p
i Phòng
Ti n x lý d li u:B
c này làm s ch d li u (x lý nh ng d li
th a, nhi u, .v.v.), rút g n d li u (áp d ng các thu t toán l y m u,
.v.v.), r i r c hóa d li u. K t qu là d li u s nh
rút g
Bi
c
c r i r c hóa.
i d li u:
c chu n hóa d li u, tinh ch nh d li
li u v d ng chu
giúp k thu t khai phá d li u
c
sau.
Khai phá d li u: Áp d ng nh ng k thu t phân tích nh
ch n thông tin, nh ng m i liên h
c bi t c a d li u.
trích
c này r t
quan tr ng và c n nhi u tài nguyên nh t c a toàn b quá trình khai phá
trin th c.
à bi u di n tri th c: Các m u tin và quan h gi a chúng
c rút trích
sát
c mã hóa và bi u di n theo d ng d quan
th , cây, b ng bi u, lu t, .v.v.
cho các nhà qu n tr ra quy
n trong
c này cung c p thông tin
nh.
c th hi n tr
:
Hình 1.1:
Nguy
CT1301
10
án t t nghi p
i Phòng
1.3.1 Các k thu t ti p c n trong Khai phá d li u
Khai phá tri th c là m
c liên ngành, bao g m: T ch c d li u, h c
máy, trí tu nhân t o và các khoa h c khác, s k t h p này có th
trong hình 1.2
c di n t
:
Hình 1.2
D a trên
m c a h c máy thì các k thu t trong Khai phá d li u,
bao g m:
H c có giám sát: Là quá trình gán nhãn l p cho các ph n t trong
CSDL d a trên m t t p các ví d hu n luy n và các thông tin v nhãn
l
t.
H c không có giám sát: Là quá trình phân chia m t t p d li u thành
các l p hay là c m (clustering) d li
t
c các thông tin v l p hay t p các ví d hu n luy n.
H c n a giám sát: Là quá trình phân chia m t t p d li u thành các
l p d a trên m t t p nh các ví d hu n luy n và m t s các thông tin
v m t s nhãn l
Theo
c.
ba
:
Phân l p và d
(classification and prediction): x p m
ng
vào m t trong nh ng l
c. Ví d : phân l p các b nh nhân d
li u trong h
ng ti p c
ng s d ng m t s k
thu t c a h
Nguy
CT1301
nh (decision tree), m
11
án t t nghi p
i Phòng
t o (neural network), .v.v. Phân l p và d
giám sát.
c g i là h c có
Lu t k t h p (association rules): là d ng lu t bi u di n tri th
d ng khá
n. Ví d
gi i vào siêu th n u ph n thì có t i 80%
trong s h s
tk th
c ng d ng nhi u trong
c kinh doanh, y h c, tin-sinh, tài chính và th
ng ch ng khoán,
.v.v.
Phân tích chu i theo th i gian (sequential/ temporal patterns)
tk th
t và tính th i gian.
ng ti p c
c ng d ng nhi u t
ng ch ng khoán vì nó có tính d báo cao.
c tài chính và th
Phân c m (clustering/ segmentation): x
ng theo t ng c m
d li u t nhiên. Phân c m
c g i là h c không có giám sát (
unsupervised learning).
Mô t khái ni m (concept description and summarization): thiên v mô
t , t ng h p và tóm t t khái ni m. Ví d : tóm t
n.
1.3.2 Các d ng d li u có th khai phá
Do Khai phá d li u
c ng d ng r ng rãi trên nhi
c có th làm
vi c v i r t nhi u ki u d li u khác nhau. Ví d :
d li uquan h , d li u
chi u,
d li u quan h ng,
d li u có thu c tính không
gian và th i gian,
d li u chu i th i gian,
d li u
n,
1.4
Theo [th y1] máy tìm ki m là m t h th ng ph n m
ti p nh n yêu c u tìm ki m c
ki
d li
u này và tìm
c t i xu ng t Internet và
danh sách các trang Web lên quan v i yêu c
V
c xây d ng nh m
ra k t qu là
i dùng.
n, m i k thu t t p trung vào máy tìm ki m (Searche engine). Hi n
nay trên th gi i có r t nhi u máy tìm ki
n hình là Google, Bing, Yahoo
m t s máy tìm ki m có cách th c hi n r
c bi t không ch
ki
Nguy
,và
t qu tìm
a ch ch a thông tin mà tìm ki m và t ng h p tri th
CT1301
12
án t t nghi p
i Phòng
Wolframanpha, máytìm ki m này còn bi t cách tr l i các v
mang tính ch t
toán h c, lý, hóa, l ch s
Ki
n c a máy tìm ki m g m các kh
ch m c, phân lo i d li
n d li
.Nói chung, máy tìm ki m th c hi n m t s
b n sau:
c 1: Phân tích các yêu c u c
các yêu c
i dùng, phân lo
m c
th ng.
c 2:Các k t qu tìm ki
m
h th ng.
c 3: Khi có yêu c u tìm ki m thông tin, máy tìm ki m so kh p yêu c u v i
các yêu c
n n u phù h p s
c
t qu ra luôn, n u yêu
tìm thông tin r i thao tác l
k t qu tìm ki m m i s b
c
iv i
c 2.
ki n trúc chung c a m t s kh i trong máy tìm ki m [2].
Kh i Truy v n
Hình 1.3
Kh i truy v n nh n thông tin t
lo
i dùng theo d
n. T
nh yêu c u c a câu truy v n xem thu
câu. Tìm ki
d li u ch m c r i tr l i k t qu tìm ki
i
dùng.
Nguy
CT1301
13
án t t nghi p
i Phòng
Kh i ánh ch m c
Hình1.4
Trong khóa lu n này máy tìm ki m Google
thông tin.
n sau s kh o sát k
c s d ng làm công c
l y
máy tìm ki m c a Google.
Tên g i c a máy tìm ki m Google có ngu n g c t ch
t
th i gian không lâu máy tìm ki m này tr nên n i ti
n
ng nh ng k thu t tiên ti
ng t t yêu c u
nâng cao kh
n
ph m c a h
Công ngh crawling có t
H th
cao khi thu th p tài li u và c p nh t chúng.
không nh ng
ch s mà
toàn b n i dung tài
li u.
H th
s hi u qu khi làm vi c trên hàng tr m tetrabyte d li u.
Câu h i c
c ti p nh
hà
h i trong m t giây.
Máy tìm ki m này có m t s
- Boolean: vi c cho phép ng
nh các phép toán logic(and, or, not, (),+,-) trong
câu h i tìm ki m và th c hi n.
- Default:P
c thi hành ng
nh.
- Proxymity:Th c hi n tìm theo c m t .
- Truncation: Ti n hành tìm ki m theo t g c,cho phép có kí hi
i di n trong
câu h i.
Nguy
CT1301
14
án t t nghi p
i Phòng
- Fields: Cho
t tham s tìm ki m theo m t s
a ch
URL, liên k t, mi n/site, ki u file, ...
- Limits: C
t s h n ch v th
c,n
n ...
- Stop(stop word): Cho phép lo i b t d ng, m t s t
ng h p không ti n hành
tìm ki m t quá thông d ng.
- Sorting: S p x p k t qu tìm ki
liên quan, phân c m theo
s p theo th t th
a ch web,
c.
1.5
Bài toán phânc m thông tinlà m t trong nh ng bài toán quan tr ng nh t trong
c khai phá d li u. Phân c m d li u là d a vào các m c tiêu t c là c th
các tiêu chí phân c m
t
ng sinh ra các l p(c m) thông tin.
Khi áp d ng các thu t toán phân c m d li u nh m m
khai phácác c u trúc c a m u d li
g c
t
quan tr ng là
o ra các c m d li u t kho d li u
, nghiên c u cho t ng c m d li u
trích xu t các thông tin ti m n, có ích h tr ra quy
Ví d : Sau khi tìm ki
h th ng
nh.
n trên Internet v các thông tin s n ph m,
c xây d ng ph i khám phá ra các thông tin v s
tiêu dùng v s n ph
ph m c
khám phá và
i
ng mong mu n v s n
i tiêu dùng.
y, phân c m d li u là
th c x lý thông tin nh m khám phá
m i liên h gi a các m u d li u b ng cách t ch c chúng thành các c m.Hi n nay,
các k thu t phân c
c ng d ng r ng rãi trong các ng d
d ng m u, x lý nh, nghiên c u th
theo, khóa lu n s
c
n
ng, tr
ng phân c m d i u
n
i dung ti p
ph n quan tr ng
nh v c khai phá d li u.
ng gi i quy t phân c m:
Theo [th y1], có m t s cách phân c
Nguy
CT1301
15
án t t nghi p
i Phòng
-
m theo mô hìnhvà phân vùng (partitioning):
pháp th nh t t o ra các mô hình bi u di n các c
hai ch
gi n là t p h p các ph n t d li u vào các c m.
nh và phân c m xác su t: Trong phân c m
- Phân c
nh, m i
m t ph n t d li u (thông tin trên trang Web) ch ph thu c vào m t c m. Có th
xem xét vi c gán thông tin d thu c c m i
t m t giá tr trong m ng hai
chi u Z Boolean Zd,ilà l. Trong phân c m xác su t. m i ph n t d li u s có xác
i v i m i c m. Trong ng c nh này, Zd,i có giá tr là m t s th c
su
trongkho ng[0,1]. T c là, giá tr trong b ng là m t ánh x z: S S
vector ci, làm c c ti u hóa
ho c c
[0, 1] và các
i hóa
.
- Phân c m ph ng và phân c m phân c p: Phân c m ph ng ch
n là
chia t p d li u thành m t s t p con. Còn phân c m phân c p t o ra m t cây phân
c p c a các c m. Vi c phân ho ch có th th c hi n theo hai cách,a) cách th nh t
b
u b ng vi c cho m i m u tin vào m t c m c a nó và ti n hành k t h p các
c ml iv
t
n khi s các c m là phù h p, cách này
i lên (bottom - up). b) Cách th hai b
nguyên th
u b ng vi c khai báo các c m
m u tin vào các c m,
t trên xu ng (top -
c g i là phân c m
c g i là phân c m
y, có th xem xét k thu t phân c m bottom - up
d a vào quá trình l p l i vi c tr n các c
cs
c m mongmu n; k thu t phân c m top - down làm m n d n b ng cách gán các
m u tin vào các c
có th
nguyên th
c thi
c. K thu t bottom - up th
c dùng tr n m t t p nh các m
cs d
Trong khóa lu n này, các m u tin
i thu t phân c m
phân vào c m thích h p.
c phân c m theo các tiêu chí
ác tiêu chí tìm ki m bao g m tên s n ph m, các thu c tính c a
s n ph m. Các s n ph
Nguy
Trong phân theo lô, toàn b t p d
t o ra các c m. Trong phân c
l y t ng ph n t d li u và c p nh t các c
tìm ki
kh i t o các c m
c khi ti n hành k thu t t trên xu ng.
- Phân c m theo lô và phân c
li
ng ch
CT1301
c phân lo i theo lo i s n ph m. Các lo i s n ph m
16
án t t nghi p
i Phòng
thu c m t nhóm s n ph
c gán m
nh(mã
tìm ki m) nh m phân bi t các tiêu chí khác nhau, d dàng cho vi c phân c m.
1.6
Khi có k t qu tìm ki m các h th ng c
theo m
ph c v các nghi p v ti p theo. Hi
ng dùng h qu n tr
s d li u l
hi
nh d
Postgre
nh d ng XML là m t trong nh ng chu n d li
Khóa lu n này s d ng h qu n tr
D li u khai thác v
d li
c bi t
c dùng ph bi n.
.
c phân lo i theo các tiêu chí tìm ki m, các thông tin
t các trang web khi l y v
mã
phân bi t cho m i l n l y k t qu . Các
c g n v i mã tìm ki m. Các url chính xác c a t ng b n tin
thông tin này
thu n ti n cho vi c l y l i n i dung sau này.
Ví d
thông tin sau khi tìm ki m:
WebsiteID SearchID
97
Url
26
Content
Vanphongphamt2.com
WebsiteID là mã c a trang Web ch a b n tin th a mãn tiêu chí tìm ki m có mã
SearchID là 26 (ch a các t khóa v s n ph m các lo i bút bi). Thu c tính Url ch a
a ch c a Website có ch a thông tin v bút bi, Thu c tính Contentch
b n v thông tin các lo i bút b có trong Website Vanphongphamt2.com,
còn có l n các th
nh d ng HTML c
li u này m i ch là d
li u thô.
Các b
c nhóm theo m c tiêu tìm ki m (ph thu c vào n i dung c a
khóa tìm ki m) do v y các b
ng ch a các thông tin v m t lo i s n ph m
c th .
1.7
Các b n tin nh
c t các máy tìm ki m
s d li u SQL Server. Các d li u
n phi c
Nguy
CT1301
trong h qu n tr
c g i là d li u thô. V m t hình th c
c di n t
17
án t t nghi p
i Phòng
b ng các danh t và các thu c tính c
c mô t b ng các tính t , tr ng
t
Khi x
c máy tìm ki m tr v , d a vào b t khóa tìm ki m
SearchKeystrong b ng SearchTable theo hình sau:
SearchID
SearchKeys
ProductID
SearchEngineID
Bút + bi + ngo i +
26
Giá + ti n + B n +
10
www.google.com
R
D li
c phân c m theo mã s n ph m ProductID = 10và các thu c tính
c a s n ph m này. H th ng phân tích các thông tin r i phân c m chúng theo các
SearchKeys
Nguy
CT1301
i v i s n ph m có mã ProductID = 10.
18
án t t nghi p
i Phòng
KHAI PHÁ VÀ T NG H P D
n trình bày m t s ki n th
kê và khai phá d li
LI U
n liên quan
n th ng
cách th c t ng h p thông tin t các m u
c
2.1 P
2].
"
"
,
Hình2.1:
trên, khi áp d
" hay là "
" thì chúng
P
các b
Nguy
CT1301
,
19
án t t nghi p
i Phòng
.
"n
à
Ngày nay,
,
,... Các
:
nhóm
.
:
:
Web:
Nguy
CT1301
ai phá các nhóm
ó
20
án t t nghi p
i Phòng
Sau
D
trong không gian k
,
D: x=(x1,x2,..,xk);y=(y1,y2,..,yk);z=(z1,z2,..,zk
x,y,z là các
yi, zi
n
i,
i 1, k
[2].
2.3.1 Phân lo i các ki u d li u d
c mi n
:
: M
này
.
:Yes/No
,
False/true
2.3.2 Phân lo i các ki u d li u d a trên h
i,
yi
:
minal Scale)
-
.
:
tính
thao.
Nguy
CT1301
21
án t t nghi p
i Phòng
:
i>yi
i
yi
:
gian.
kilogams hay là centimeter
Pound
nhau
Nguy
CT1301
22
án t t nghi p
i Phòng
.
sau:
(Scalability):
:
:
:
cho
:
:
kh
Các yêu c
ng th
u qu c
pháp phân c m d li
PCDL. Các yêu c u này s
m t s thu
Nguy
c cho các nhà nghiên c
c
n c th
c
o c u chi ti t
c trình bày
CT1301
23
án t t nghi p
2.5
i Phòng
TH
Có r t nhi u thu
c áp d ng trong phân c m d li
ph n này khóa lu n trình bày m t s thu
c m d li u. Các thu
n, r
n trong phân
c chia thành các h thu t toán: H các thu t
toán phân c m phân ho ch (Patitional), h các thu t toán phân c m phân c p
(Hierachical), h các thu t toán phân c m d
i và các thu
: các thu t toán phân c m d a trên m
c
, các thu t toán phân c m
d a
2.5.1 H các thu t toán phân ho ch
H các thu t toán phân c m phân ho ch bao g m các thu
xu
u
c áp d ng nhi u trong
th c t
-means, PAM (Partioning Around Medoids), CLARA (Clustering
c h t
o c u thu t toán k-
t thu
ck
th a s d ng r ng rãi.
2.5.1.1 Thu t toán k-means
Thu t toán phân ho ch K-means do
xu
c th ng kê
a thu t toán k-means là sinh ra k c m d li u {C1, C2
t m t t p d li u ch
ng trong không gian d chi u Xi = (xi1, xi2
k
i 1, n ), sao cho hàm tiêu chu n: E
i 1
x
C D
2
i
(x
m)
:mi là tr ng tâm c a c m Ci, D là kho ng cách gi
Tr ng tâm c a m t c m là m
là trung bình c ng c a các thành ph
trong c
ng.
ng c
li u
u ra
ng cách D gi a các
c s d ng d ng là kho ng cách Euclide, b i
mô hình kho ng cách d
Nguy
(
t giá tr t i thi u.
u vào c a thu t toán là s c m k, và tham s
ng d li
id)
c a m i ph n t c a nó
c a thu t toán là các tr ng tâm c a các c m d li
chu
i
k}
l
ng cách có th
CT1301
nh các c c tr t i thi u. Hàm tiêu
nh c th
vào ng d ng
24
án t t nghi p
ho
i Phòng
mc
i dùng. Thu t toán k-means bao g
n
:
InPut: S c m k và các tr ng tâm c m {mj}kj=1 ;
OutPut: Các c m Ci ( i 1, k ) và hàm tiêu chu
t giá tr t i thi u;
Begin
c 1: Kh i t o:
Ch n k tr ng tâm {mj}kj=1
u trong không gian Rd (d là s chi u c a
d li u) . Vi c l a ch n này có th là ng u nhiên ho c theo kinh nghi m.
c 2: Tính toán kho ng cách:
iv i m
m Xi (1<=i<=n), tính toán kho ng cách c a nó t i m i
tr ng tâm mj
ng tâm g n nh
iv im
m.
c 3: C p nh t l i tr ng tâm:
i v i m i j=1,k, c p nh t tr ng tâm c m mj b
nh trung
bình c ng c
ng d li u.
u ki n d ng
L
n khi các tr ng tâm c a c
i.
End.
Hình
-
means:
Hình2.2: H
-means
2.5.1.2 Thu t toán CLARA
medoid
Nguy
CT1301
25