Tải bản đầy đủ (.pdf) (58 trang)

Bài toán khai thác thông tin về sản phẩm từ Web (Đồ án tốt nghiệp)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (9.64 MB, 58 trang )

án t t nghi p

i Phòng

M CL C
....................................................................................................1
DANH SÁCH CÁC HÌNH ..........................................................................3
................................................................................................6
............................................................8
..............................................................................8
....................................9
...................11
......................................................11
........................................................................12

...............................................12
........................................................15
.........................................17
........................................................................................17

1.7

.............................19
...................................................................................19
..........................................20
...........................................21
..........................................21
...........................................................21

......22
.................24


.............................................................................24
.....................................................................28
...........................................................31

.......35
.............................................................................................35
............................................................................36
....................................................................................36
..............................................................................37
...............................................................................38
.........................................................................39

............................................................................................43
...........................................43
.................................................................49
..................................................................51

..............................................................................................52
......................................................................................53
.......................................................................53
..............................................................................53
.......................................................................54
....................................................................55
..............................................................56
...................................................................56

3.5.5 Giao

................................................................................................57
Nguy


CT1301

1


án t t nghi p

i Phòng

.........................................................................58

Nguy

CT1301

2


án t t nghi p

i Phòng

DANH SÁCH CÁC HÌNH
c th c hi n trong quá trình khám phá tri th c..............................10
n Khám phá tri th c trong CSDL......................11
kh i Kh i truy v n..........................................................................13
kh
m c...........................................................................14
Hình2.1:Hình minh h a phân c m d li u................................................................19

Hình2.2: Hình d ng c m d li
c b i k-means................................25
c s d ng b i thu t toán BIRCH............................................28
Hình 2.4:Các c m d li
c khám phá b i CURE..............................................30
Hình 2.5: Hình minh h a phân c m OPTICS...........................................................33
Hình 2.6:Hình minh h a DENCLUE v i hàm phân ph i Gaussian.........................34
Hình 3.1: Bi
Use Case t ng quan.....................................................................37
Hình 3.2: Bi
ca s d
p nh ...........................................................39
Hình 3.3: Bi
ca s d
.........................................................39
Hình 3.4: Bi
ca s d
............................................................41
Hình 3.5: Bi
tu n t th c thi ca s d
p nh t nhóm s n ph
.............44
Hình 3.6: Bi
c ng tác th c thi ca s d
p nh t nhóm s n ph
...........44
Hình 3.7: Bi
tu n t th c thi ca s d
p nh t lo is n ph
.................45

Hình 3.8: Bi
c ng tác th c thi ca s d
p nh t lo is n ph
...............45
Hình 3.9: Bi
tu n t th c thi ca s d
p nh t s n ph
.......................46
Hình 3.10: Bi
c ng tác th c thi ca s d
p nh t s n ph
..................46
Hình 3.11: Bi
tu n t th c thi ca s d
p nh
.............47
Hình 3.12: Bi
c ng tác th c thi ca s d
p nh
.........47
Hình 3.13: Bi
tu n t th c thi ca s d
p nh t thông s tìm ki
......48
Hình 3.14: Bi
c ng tác th c thi ca s d
p nh t thông s tìm ki
..48
p nh .....................................................49
Hình 3.16: Bi

tu n t th c thi ca s d
...................................49
Hình 3.17: Bi
c ng tác th c thi ca s d
.................................50
.....................................................50
Hình 3.19: Bi
tu n t th c thi ca s d
................................51
Hình 3.20: Bi
c ng tác th c thi ca s d
....................................51
........................................................51
Hình 3.22: Mô hình l p thi t k h th ng ................................................................52
Hình 3.23 Giao di n chính c
.......................................................... 53
Hình 3.24: Giao di n c p nh t s n ph m..................................................................53
Hình 3.25: Giao di n c p nh t lo i s n ph m ..........................................................54
Hình 3.26: Giao di n c p nh t nhóm s n ph m...................................................... 55
Nguy

CT1301

3


án t t nghi p

i Phòng


Hình 3.27: Giao di n tìm ki m thông tin s n ph m.................................................56

Nguy

CT1301

4


án t t nghi p

i Phòng

DANH SÁCH B NG BI U
B ng 3.1: B

nh các ch

p v c a h th ng.....................36

B ng 3.2: B

nh tác nhân c a h th ng .............................................37

B ng 3.3: B ng mô t các ca s d ng và tác nhân ..........................................38
B ng 3.4: B ng mô t ca s d ng c p nh t nhóm s n ph m ..........................39
B ng 3.5: B ng mô t ca s d ng c p nh t lo i s n ph m..............................40
B ng 3.6: B ng mô t ca s d ng c p nh t s n ph m ....................................40
B ng 3.7: B ng mô t ca s d ng câp nh t Search Engine.............................41
B ng 3.8: B ng mô t ca s d ng c p nh t thông s tìm ki m ......................41

B ng 3.9: B ng mô t ca s d ng tìm ki m ...................................................42
B ng 3.10: B ng mô t ca s d ng báo cáo ...................................................43

Nguy

CT1301

5


án t t nghi p

i Phòng

GI I THI U
Web là kho tài nguyên d li u kh ng l , không ng

ng v i t

cao. Ngày càng nhi u thông tin trong cu c s

,

Internet ch a nhi u thông tin có giá tr
ho

nc

ng nói chung, và các


ng s n xu t kinh doanh nói riêng.Xu t phát t th c t

pháp nào? Chúng ta có th khai thác thông tin t

,v
ph c v cu c s ng.

Hi n nay có nhi u công trình nghiên c
Internet.
Xu t phát t bài toán th c t trong ho

i, li u có

s n ph m thông qua các nh n xét c
dùng trên Internet?

t bài toán khó c n k t h p nhi u ki n th c

quy t bài toán này.
ph m t
gi i quy

i
gi i

tài:

s n

.Khóa lu n t p trung tìm hi u các lý thuy t liên quan nh m ph n nào

cv

t ra.

M t h th ng t ng h p thông tin t
thông tin c n

v s n ph

, h th

n s n ph m

c ra

có th h tr các doanh nghi p có thêm

m t kênh thông tin v các s n ph m trên th

ng. H th

c mô t

i dùng nh p các thu t ng v thông tin s n

1. Nh p thông tin s n ph m:
ph m vào ô thông tin s n ph m c

th ng tr v các thông tin s n


ph m mà h th ng khai thác, phân lo i, th

c thông qua máy tìm ki m

2. Tìm ki m thông tin:H th ng d a vào các thông tin s n ph m
vào và g i vào máy tìm ki

tìm các Ý ki

c nh p

i dùng s n ph mho c Xu

ng.
3. H tr

ánh giá:K t qu tr v t máy tìm ki

kê các thông tin c n thi t v s n ph m nh

i, th ng
m nh n c a

i tiêu dùng

i v i s n ph
4. Báo cáo:H th

n báo cáo v ý ki n c


i s d ng s n

ph m b ng các s li u theo chuyên môn.

Nguy

CT1301

6


án t t nghi p

i Phòng

5. Giao di n h th ng:H th ng có giao di n thân thi n, thu n l

i

i qu n lý.
tv

trên, khóa lu

c trình bày

Gi i thi u: Gi i thi u chung v bài toán và ph m vi c a khóa lu n.
lý thuy

th c hi n khóa lu n.


Trình bày các ki n th
Internet
tr giúp các ho

n bài toán tìm ki m thông tin trên
ng trong kinh doanh.

Trình bày ph n phân tích thi t k m t ng d ng mang tính ch t th
nghi m.
K t lu n
Tài li u tham kh o

Nguy

CT1301

7


án t t nghi p

i Phòng

LÝ THUY T
1.1
Khai phá d li u là m
k thu

c áp d


t th p niên tr l

.Các

c th a k t

c

c này ph n l

d li u,h c máy, trí tu nhân t o, lý thuy t thông tin, xác su t th ng kê, và
phát tri n nhanh c a Khai phá d li u v ph m vi áp

tính toán hi
d

m tri th c,

v Khai phá d li u. Tuy nhiên,

m t m c tr

Khai phá d li u

m khác nhau
ng nh

nh, theo [1] khái ni m


:

Khai phá d li u là m t quá trình tìm ki m, phân tích, phát hi n
các tri th c m i, ti m n, h u d ng trong
c khai phá d li u, có nhi
ts

ng nghiên c u

c nhi u nhà nghiên c u quan tâm.

Khai phá d li u
k

d li u l n.

n,Web, Trích ch n thông tin, Phân tích m ng xã h i,

m, Phân tích d li u kinh t - tài chính, Khai phá d li u sinh h c,

yt
Khóa lu n

n vi c tìm hi u và xây d ng h th ng th ng nh m

khai thác thông tin các s n ph

i tiêu

th là các trang web.


i tiêu dùng có mua, s d ng các s n ph m và h

c m nh

s n ph

ng c m nh n v s n

ph

. Bài toán mà

khóa lu n này tìm cách gi i quy t là tìm cách khai thác các thông tin v m t s n
ph m c th

, th

n ph m trên th

ng.

ph c v cho công tác kh o sát và
t s khái ni

c s d ng.

Thông tin s n ph m: Là thông tin mô t v ngu n g c,
tính ch t lý hóa tính, công d ng chính, giá thành, màu s c, hình dáng,


thu t,
c,

a s n ph m.

Nguy

CT1301

8


án t t nghi p

i Phòng

Ý ki
ph

i dùng ph n ánh v s n

i dùng s n ph m:
c th hi n qua các t

b n, r ,

t, thu n ti n, ti t ki m,

p, phong phú,


ng,

t mà, m n,

c

m: X u, kém, mau h ng, hàng gi , hàng nhái,
v s n ph m qua các t

, giá mà, c n, ph i,

ng: Là các t
ph

c th hi n mong mu n
t

,

n các mong mu n c

i dùng v s n

ng t t ho c x u ho c không thi n c m.
ng t

n ph m t t

ng x


n ph m x u

ng không thi n c

ng không khen, không chê s n ph m.
i mua ho

i tiêu dùng:

i s d ng s n ph m ho

i có

nh mua hay s d ng s n ph m có g i thông tin lên Internet.
i h th ng.

i dùng:
i qu n tr :

i có nhi m v qu n lý h th ng.

Máy tìm ki m:Các c máy tìm ki m thông tin trên Internet: Google, Yahoo,
Bing,
S n ph m: Là t t c các m
th

c tiêu th trên th

ng bao g m


c ngoài.

Khai phá d li u

c có liên quan

th ng kê, h c máy, tính toán phân tán,

n nhi u ngành khác nhau

d li u, thu t toán, mô hình hóa d

li
M c tiêu c a khai phá d li u là khám phá tri th c t
c h p này có th
Trích ch n d li u:
phá t

các h

c chia thành m t s

CT1301

n [3][4]:

c này trích nh ng b d li u c

th ng d


c khám

li u (databases, data warehouses, data

u theo m t s tiêu chí nh

Nguy

tr ra quy t

nh.

9


án t t nghi p

i Phòng

Ti n x lý d li u:B

c này làm s ch d li u (x lý nh ng d li

th a, nhi u, .v.v.), rút g n d li u (áp d ng các thu t toán l y m u,
.v.v.), r i r c hóa d li u. K t qu là d li u s nh
rút g
Bi

c


c r i r c hóa.
i d li u:

c chu n hóa d li u, tinh ch nh d li

li u v d ng chu

giúp k thu t khai phá d li u

c

sau.
Khai phá d li u: Áp d ng nh ng k thu t phân tích nh
ch n thông tin, nh ng m i liên h

c bi t c a d li u.

trích
c này r t

quan tr ng và c n nhi u tài nguyên nh t c a toàn b quá trình khai phá
trin th c.
à bi u di n tri th c: Các m u tin và quan h gi a chúng
c rút trích
sát

c mã hóa và bi u di n theo d ng d quan

th , cây, b ng bi u, lu t, .v.v.


cho các nhà qu n tr ra quy
n trong

c này cung c p thông tin

nh.

c th hi n tr

:

Hình 1.1:

Nguy

CT1301

10


án t t nghi p

i Phòng

1.3.1 Các k thu t ti p c n trong Khai phá d li u
Khai phá tri th c là m

c liên ngành, bao g m: T ch c d li u, h c

máy, trí tu nhân t o và các khoa h c khác, s k t h p này có th

trong hình 1.2

c di n t

:

Hình 1.2

D a trên

m c a h c máy thì các k thu t trong Khai phá d li u,

bao g m:
H c có giám sát: Là quá trình gán nhãn l p cho các ph n t trong
CSDL d a trên m t t p các ví d hu n luy n và các thông tin v nhãn
l

t.

H c không có giám sát: Là quá trình phân chia m t t p d li u thành
các l p hay là c m (clustering) d li

t

c các thông tin v l p hay t p các ví d hu n luy n.
H c n a giám sát: Là quá trình phân chia m t t p d li u thành các
l p d a trên m t t p nh các ví d hu n luy n và m t s các thông tin
v m t s nhãn l
Theo


c.
ba

:
Phân l p và d
(classification and prediction): x p m
ng
vào m t trong nh ng l
c. Ví d : phân l p các b nh nhân d
li u trong h
ng ti p c
ng s d ng m t s k
thu t c a h

Nguy

CT1301

nh (decision tree), m

11


án t t nghi p

i Phòng

t o (neural network), .v.v. Phân l p và d
giám sát.


c g i là h c có

Lu t k t h p (association rules): là d ng lu t bi u di n tri th
d ng khá
n. Ví d
gi i vào siêu th n u ph n thì có t i 80%
trong s h s
tk th
c ng d ng nhi u trong
c kinh doanh, y h c, tin-sinh, tài chính và th
ng ch ng khoán,
.v.v.
Phân tích chu i theo th i gian (sequential/ temporal patterns)
tk th
t và tính th i gian.
ng ti p c
c ng d ng nhi u t
ng ch ng khoán vì nó có tính d báo cao.

c tài chính và th

Phân c m (clustering/ segmentation): x
ng theo t ng c m
d li u t nhiên. Phân c m
c g i là h c không có giám sát (
unsupervised learning).
Mô t khái ni m (concept description and summarization): thiên v mô
t , t ng h p và tóm t t khái ni m. Ví d : tóm t
n.
1.3.2 Các d ng d li u có th khai phá

Do Khai phá d li u
c ng d ng r ng rãi trên nhi
c có th làm
vi c v i r t nhi u ki u d li u khác nhau. Ví d :
d li uquan h , d li u
chi u,
d li u quan h ng,
d li u có thu c tính không
gian và th i gian,
d li u chu i th i gian,
d li u
n,

1.4
Theo [th y1] máy tìm ki m là m t h th ng ph n m
ti p nh n yêu c u tìm ki m c
ki

d li

u này và tìm
c t i xu ng t Internet và

danh sách các trang Web lên quan v i yêu c
V

c xây d ng nh m
ra k t qu là

i dùng.


n, m i k thu t t p trung vào máy tìm ki m (Searche engine). Hi n

nay trên th gi i có r t nhi u máy tìm ki

n hình là Google, Bing, Yahoo

m t s máy tìm ki m có cách th c hi n r

c bi t không ch

ki

Nguy

,và

t qu tìm

a ch ch a thông tin mà tìm ki m và t ng h p tri th

CT1301

12


án t t nghi p

i Phòng


Wolframanpha, máytìm ki m này còn bi t cách tr l i các v

mang tính ch t

toán h c, lý, hóa, l ch s
Ki

n c a máy tìm ki m g m các kh

ch m c, phân lo i d li

n d li

.Nói chung, máy tìm ki m th c hi n m t s

b n sau:
c 1: Phân tích các yêu c u c
các yêu c

i dùng, phân lo

m c

th ng.

c 2:Các k t qu tìm ki

m

h th ng.

c 3: Khi có yêu c u tìm ki m thông tin, máy tìm ki m so kh p yêu c u v i
các yêu c

n n u phù h p s

c

t qu ra luôn, n u yêu

tìm thông tin r i thao tác l

k t qu tìm ki m m i s b

c

iv i

c 2.

ki n trúc chung c a m t s kh i trong máy tìm ki m [2].
Kh i Truy v n

Hình 1.3

Kh i truy v n nh n thông tin t
lo

i dùng theo d

n. T


nh yêu c u c a câu truy v n xem thu

câu. Tìm ki

d li u ch m c r i tr l i k t qu tìm ki

i

dùng.

Nguy

CT1301

13


án t t nghi p

i Phòng

Kh i ánh ch m c

Hình1.4

Trong khóa lu n này máy tìm ki m Google
thông tin.

n sau s kh o sát k


c s d ng làm công c

l y

máy tìm ki m c a Google.

Tên g i c a máy tìm ki m Google có ngu n g c t ch

t

th i gian không lâu máy tìm ki m này tr nên n i ti
n

ng nh ng k thu t tiên ti

ng t t yêu c u
nâng cao kh

n

ph m c a h
Công ngh crawling có t
H th

cao khi thu th p tài li u và c p nh t chúng.

không nh ng

ch s mà


toàn b n i dung tài

li u.
H th

s hi u qu khi làm vi c trên hàng tr m tetrabyte d li u.

Câu h i c

c ti p nh



h i trong m t giây.
Máy tìm ki m này có m t s
- Boolean: vi c cho phép ng

nh các phép toán logic(and, or, not, (),+,-) trong

câu h i tìm ki m và th c hi n.
- Default:P

c thi hành ng

nh.

- Proxymity:Th c hi n tìm theo c m t .
- Truncation: Ti n hành tìm ki m theo t g c,cho phép có kí hi


i di n trong

câu h i.
Nguy

CT1301

14


án t t nghi p

i Phòng

- Fields: Cho

t tham s tìm ki m theo m t s

a ch

URL, liên k t, mi n/site, ki u file, ...
- Limits: C

t s h n ch v th

c,n

n ...
- Stop(stop word): Cho phép lo i b t d ng, m t s t


ng h p không ti n hành

tìm ki m t quá thông d ng.
- Sorting: S p x p k t qu tìm ki

liên quan, phân c m theo

s p theo th t th

a ch web,

c.

1.5
Bài toán phânc m thông tinlà m t trong nh ng bài toán quan tr ng nh t trong
c khai phá d li u. Phân c m d li u là d a vào các m c tiêu t c là c th
các tiêu chí phân c m

t

ng sinh ra các l p(c m) thông tin.

Khi áp d ng các thu t toán phân c m d li u nh m m
khai phácác c u trúc c a m u d li
g c

t

quan tr ng là


o ra các c m d li u t kho d li u

, nghiên c u cho t ng c m d li u

trích xu t các thông tin ti m n, có ích h tr ra quy
Ví d : Sau khi tìm ki
h th ng

nh.

n trên Internet v các thông tin s n ph m,

c xây d ng ph i khám phá ra các thông tin v s

tiêu dùng v s n ph
ph m c

khám phá và

i

ng mong mu n v s n

i tiêu dùng.
y, phân c m d li u là

th c x lý thông tin nh m khám phá

m i liên h gi a các m u d li u b ng cách t ch c chúng thành các c m.Hi n nay,
các k thu t phân c


c ng d ng r ng rãi trong các ng d

d ng m u, x lý nh, nghiên c u th
theo, khóa lu n s

c

n

ng, tr
ng phân c m d i u

n
i dung ti p

ph n quan tr ng

nh v c khai phá d li u.
ng gi i quy t phân c m:
Theo [th y1], có m t s cách phân c
Nguy

CT1301

15


án t t nghi p


i Phòng

-

m theo mô hìnhvà phân vùng (partitioning):

pháp th nh t t o ra các mô hình bi u di n các c

hai ch

gi n là t p h p các ph n t d li u vào các c m.
nh và phân c m xác su t: Trong phân c m

- Phân c

nh, m i

m t ph n t d li u (thông tin trên trang Web) ch ph thu c vào m t c m. Có th
xem xét vi c gán thông tin d thu c c m i

t m t giá tr trong m ng hai

chi u Z Boolean Zd,ilà l. Trong phân c m xác su t. m i ph n t d li u s có xác
i v i m i c m. Trong ng c nh này, Zd,i có giá tr là m t s th c

su

trongkho ng[0,1]. T c là, giá tr trong b ng là m t ánh x z: S S
vector ci, làm c c ti u hóa


ho c c

[0, 1] và các

i hóa

.

- Phân c m ph ng và phân c m phân c p: Phân c m ph ng ch

n là

chia t p d li u thành m t s t p con. Còn phân c m phân c p t o ra m t cây phân
c p c a các c m. Vi c phân ho ch có th th c hi n theo hai cách,a) cách th nh t
b

u b ng vi c cho m i m u tin vào m t c m c a nó và ti n hành k t h p các

c ml iv
t

n khi s các c m là phù h p, cách này

i lên (bottom - up). b) Cách th hai b

nguyên th

u b ng vi c khai báo các c m

m u tin vào các c m,


t trên xu ng (top -

c g i là phân c m
c g i là phân c m

y, có th xem xét k thu t phân c m bottom - up

d a vào quá trình l p l i vi c tr n các c

cs

c m mongmu n; k thu t phân c m top - down làm m n d n b ng cách gán các
m u tin vào các c
có th
nguyên th

c thi

c. K thu t bottom - up th

c dùng tr n m t t p nh các m

cs d

Trong khóa lu n này, các m u tin

i thu t phân c m

phân vào c m thích h p.

c phân c m theo các tiêu chí

ác tiêu chí tìm ki m bao g m tên s n ph m, các thu c tính c a

s n ph m. Các s n ph

Nguy

Trong phân theo lô, toàn b t p d

t o ra các c m. Trong phân c

l y t ng ph n t d li u và c p nh t các c

tìm ki

kh i t o các c m

c khi ti n hành k thu t t trên xu ng.

- Phân c m theo lô và phân c
li

ng ch

CT1301

c phân lo i theo lo i s n ph m. Các lo i s n ph m

16



án t t nghi p

i Phòng

thu c m t nhóm s n ph

c gán m

nh(mã

tìm ki m) nh m phân bi t các tiêu chí khác nhau, d dàng cho vi c phân c m.

1.6
Khi có k t qu tìm ki m các h th ng c

theo m

ph c v các nghi p v ti p theo. Hi

ng dùng h qu n tr

s d li u l
hi

nh d

Postgre


nh d ng XML là m t trong nh ng chu n d li

Khóa lu n này s d ng h qu n tr
D li u khai thác v

d li

c bi t
c dùng ph bi n.
.

c phân lo i theo các tiêu chí tìm ki m, các thông tin

t các trang web khi l y v



phân bi t cho m i l n l y k t qu . Các

c g n v i mã tìm ki m. Các url chính xác c a t ng b n tin

thông tin này

thu n ti n cho vi c l y l i n i dung sau này.
Ví d

thông tin sau khi tìm ki m:

WebsiteID SearchID
97


Url

26

Content

Vanphongphamt2.com

WebsiteID là mã c a trang Web ch a b n tin th a mãn tiêu chí tìm ki m có mã
SearchID là 26 (ch a các t khóa v s n ph m các lo i bút bi). Thu c tính Url ch a
a ch c a Website có ch a thông tin v bút bi, Thu c tính Contentch
b n v thông tin các lo i bút b có trong Website Vanphongphamt2.com,
còn có l n các th

nh d ng HTML c

li u này m i ch là d

li u thô.
Các b

c nhóm theo m c tiêu tìm ki m (ph thu c vào n i dung c a

khóa tìm ki m) do v y các b

ng ch a các thông tin v m t lo i s n ph m

c th .


1.7
Các b n tin nh

c t các máy tìm ki m

s d li u SQL Server. Các d li u
n phi c

Nguy

CT1301

trong h qu n tr

c g i là d li u thô. V m t hình th c
c di n t

17


án t t nghi p

i Phòng

b ng các danh t và các thu c tính c

c mô t b ng các tính t , tr ng

t
Khi x


c máy tìm ki m tr v , d a vào b t khóa tìm ki m

SearchKeystrong b ng SearchTable theo hình sau:
SearchID

SearchKeys

ProductID

SearchEngineID

Bút + bi + ngo i +
26

Giá + ti n + B n +

10

www.google.com

R
D li

c phân c m theo mã s n ph m ProductID = 10và các thu c tính

c a s n ph m này. H th ng phân tích các thông tin r i phân c m chúng theo các
SearchKeys

Nguy


CT1301

i v i s n ph m có mã ProductID = 10.

18


án t t nghi p

i Phòng

KHAI PHÁ VÀ T NG H P D
n trình bày m t s ki n th
kê và khai phá d li

LI U

n liên quan

n th ng

cách th c t ng h p thông tin t các m u

c

2.1 P

2].
"

"
,

Hình2.1:

trên, khi áp d
" hay là "

" thì chúng

P
các b

Nguy

CT1301

,

19


án t t nghi p

i Phòng
.

"n

à


Ngày nay,

,

,... Các
:

nhóm
.
:

:

Web:

Nguy

CT1301

ai phá các nhóm

ó

20


án t t nghi p

i Phòng


Sau

D

trong không gian k

,

D: x=(x1,x2,..,xk);y=(y1,y2,..,yk);z=(z1,z2,..,zk

x,y,z là các
yi, zi

n

i,

i 1, k

[2].
2.3.1 Phân lo i các ki u d li u d

c mi n
:

: M
này

.


:Yes/No

,

False/true
2.3.2 Phân lo i các ki u d li u d a trên h
i,

yi
:

minal Scale)
-

.
:
tính

thao.

Nguy

CT1301

21


án t t nghi p


i Phòng
:

i>yi

i

yi

:

gian.

kilogams hay là centimeter
Pound

nhau

Nguy

CT1301

22


án t t nghi p

i Phòng
.


sau:
(Scalability):

:

:

:
cho

:

:
kh

Các yêu c

ng th

u qu c

pháp phân c m d li
PCDL. Các yêu c u này s
m t s thu
Nguy

c cho các nhà nghiên c
c

n c th


c
o c u chi ti t

c trình bày
CT1301

23


án t t nghi p

2.5

i Phòng

TH
Có r t nhi u thu

c áp d ng trong phân c m d li

ph n này khóa lu n trình bày m t s thu
c m d li u. Các thu

n, r

n trong phân

c chia thành các h thu t toán: H các thu t


toán phân c m phân ho ch (Patitional), h các thu t toán phân c m phân c p
(Hierachical), h các thu t toán phân c m d

i và các thu

: các thu t toán phân c m d a trên m

c

, các thu t toán phân c m

d a
2.5.1 H các thu t toán phân ho ch
H các thu t toán phân c m phân ho ch bao g m các thu

xu

u

c áp d ng nhi u trong
th c t

-means, PAM (Partioning Around Medoids), CLARA (Clustering
c h t
o c u thu t toán k-

t thu

ck


th a s d ng r ng rãi.
2.5.1.1 Thu t toán k-means
Thu t toán phân ho ch K-means do

xu

c th ng kê

a thu t toán k-means là sinh ra k c m d li u {C1, C2
t m t t p d li u ch

ng trong không gian d chi u Xi = (xi1, xi2
k

i 1, n ), sao cho hàm tiêu chu n: E
i 1

x

C D

2

i

(x

m)

:mi là tr ng tâm c a c m Ci, D là kho ng cách gi

Tr ng tâm c a m t c m là m
là trung bình c ng c a các thành ph
trong c

ng.

ng c

li u
u ra

ng cách D gi a các

c s d ng d ng là kho ng cách Euclide, b i

mô hình kho ng cách d

Nguy

(

t giá tr t i thi u.

u vào c a thu t toán là s c m k, và tham s
ng d li

id)

c a m i ph n t c a nó


c a thu t toán là các tr ng tâm c a các c m d li

chu

i

k}

l

ng cách có th

CT1301

nh các c c tr t i thi u. Hàm tiêu
nh c th

vào ng d ng

24


án t t nghi p
ho

i Phòng
mc

i dùng. Thu t toán k-means bao g


n

:
InPut: S c m k và các tr ng tâm c m {mj}kj=1 ;
OutPut: Các c m Ci ( i 1, k ) và hàm tiêu chu

t giá tr t i thi u;

Begin
c 1: Kh i t o:
Ch n k tr ng tâm {mj}kj=1
u trong không gian Rd (d là s chi u c a
d li u) . Vi c l a ch n này có th là ng u nhiên ho c theo kinh nghi m.
c 2: Tính toán kho ng cách:
iv i m
m Xi (1<=i<=n), tính toán kho ng cách c a nó t i m i
tr ng tâm mj
ng tâm g n nh
iv im
m.
c 3: C p nh t l i tr ng tâm:
i v i m i j=1,k, c p nh t tr ng tâm c m mj b
nh trung
bình c ng c
ng d li u.
u ki n d ng
L
n khi các tr ng tâm c a c
i.
End.

Hình

-

means:

Hình2.2: H

-means

2.5.1.2 Thu t toán CLARA

medoid

Nguy

CT1301

25


×