Tải bản đầy đủ (.pdf) (80 trang)

Một số kỹ thuật phân cụm dữ liệu và ứng dụng phân loại khách hàng sử dụng dịch vụ viễn thông

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.76 MB, 80 trang )

.

ĐẠI HỌC THÁI NGUYÊN

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NGUYỄN ĐÔNG HUY

MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG
PHÂN LOẠI KHÁCH HÀNG SỬ DỤNG DỊCH VỤ VIỄN THÔNG

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Thái Nguyên - 2014


LỜI CẢM ƠN
Trong quá trình làm luận văn, bản thân em đã nhận đƣợc nhiều sự giúp đỡ
chỉ bảo tận tình của các thầy cơ giáo, sự giúp đỡ, tạo điều kiện của gia đình, bạn
bè để hồn thành khóa luận đúng tiến độ.
Em xin trân trọng cảm ơn thầy giáo TS. Nguyễn Huy Đức đã trực tiếp
hƣớng dẫn nhiệt tình, chỉ bảo cặn kẽ trong quá trình làm luận văn.
Em cũng xin gửi lời cám ơn chân thành tới Ban lãnh đạo nhà trƣờng, các
cán bộ giảng viên của trƣờng Đại học Công nghệ Thông tin và Truyền thông –
Đại học Thái Nguyên đã tạo điều kiện thuận lợi để em hồn thành tốt khóa luận.
Học viên

Nguyễn Đơng Huy

2



LỜI CAM ĐOAN
Em xin cam đoan những kiến thức trình bày trong luận văn này là do em
tìm hiểu, nghiên cứu và trình bày lại theo cách hiểu của em. Trong q trình làm
luận văn em có tham khảo các tài liệu liên quan và đã ghi rõ nguồn tài liệu tham
khảo đó. Phần lớn những kiến thức do em trình bày trong luận văn này chƣa đƣợc
trình bày hồn chỉnh trong bất cứ tài liệu nào.
Thái Nguyên, ngày 10 tháng 4 năm 2014
Học viên

Nguyễn Đông Huy

3


MỤC LỤC

LỜI CẢM ƠN ..................................................................................................... 2
LỜI CAM ĐOAN................................................................................................ 3
MỤC LỤC ........................................................................................................... 4
DANH SÁCH HÌNH VẼ .................................................................................... 6
DANH SÁCH BẢNG BIỂU ............................................................................... 8
DANH MỤC CÁC TỪ VIẾT TẮT .................................................................... 9
LỜIMỞ ĐẦU .................................................................................................... 10
CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ................................ 10
1.1. Khai phá dữ liệu và phát hiện tri thức ............................................... 11
1.1.1. Khai phá dữ liệu .......................................................................... 11
1.1.2. Quá trình khám phá tri thức ........................................................ 12
1.1.3. Khai phá dữ liệu và các lĩnh vực liên quan................................. 13
1.1.4. Các kỹ thuật áp dụng trong khai phá dữ liệu .............................. 13

1.1.5. Ứng dụng khai phá dữ liệu .......................................................... 15
1.2. Kỹ thuật phân cụm trong khai phá dữ liệu ........................................ 16
1.2.1. Tổng quan về kỹ thuật phân cụm ................................................ 16
1.2.2. Ứng dụng của phân cụm dữ liệu ................................................. 18
1.2.3. Các yêu cầu kỹ thuật đối với phân cụm dữ liệu.......................... 19
1.3. Tổng kết chƣơng 1 ............................................................................ 20
CHƢƠNG 2: MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU ........................ 21
2.1. Phâncụmphânhoạch........................................................................... 21
2.1.1 Thuật toán k-means ...................................................................... 22
2.1.2 Thuật toán PAM ........................................................................... 24
2.1.3 Thuật toán CLARA ...................................................................... 28
2.1.4 Thuật toán CLARANS................................................................. 29
2.2. Phân cụm phân cấp ............................................................................ 31
2.2.1. Thuật toán BIRCH ...................................................................... 32
2.2.2. Thuật toán CURE ........................................................................ 35
2.3. Phân cụm dựa trên mật độ ................................................................. 37
2.3.1. Thuật toán DBSCAN .................................................................. 38
2.3.2. Thuật toán OPTICS..................................................................... 42
4


2.3.3. Thuật toán DENCLUE................................................................ 43
2.4. Phân cụm trên lƣới ............................................................................ 44
2.4.1. Thuật toán STING....................................................................... 45
2.4.2. Thuật toán CLIQUE .................................................................... 46
2.5. Phân cụm dữ liệu dựa trên mơ hình .................................................. 47
2.5.1 Thuật toán EM ............................................................................. 48
2.5.2 Thuật toán COBWEB .................................................................. 49
2.6. Phân cụm dữ liệu mờ ........................................................................ 49
2.7. Tổng kết chƣơng 2 ............................................................................ 50

CHƢƠNG 3: ỨNG DỤNG PHÂN CỤM DỮ LIỆU ĐỂ PHÂN LOẠI
KHÁCH HÀNG SỬ DỤNG DỊCH VỤ VIỄN THÔNG ......................................... 52
3.1 Đặt vấn đề bài toán ............................................................................ 52
3.2 Cài đặt Cơ sở dữ liệu ......................................................................... 52
3.3 Cài đặt thuật toán .............................................................................. 56
3.4 Đánh giá kết quả phân cụm bằng thuật toán PAM ........................... 60
3.5 Kết luận chƣơng 3 ............................................................................. 61
KẾT LUẬN ....................................................................................................... 62
TÀILIỆUTHAMKHẢO.................................................................................... 63
PHỤ LỤC .......................................................................................................... 65

5


DANH SÁCH HÌNH VẼ
Hình 1.1.Qtrìnhkhámphátri thức......................................................................11
Hình 1.2.Cáclĩnh vựcliênquan đến khámphátri thứctrongCSDL......................13
Hình 1.3.Trựcquanhóakết quảKPDLtrongOracle...............................................15
Hình 1.4.Mơphỏngsự PCDL...................................................................................16
Hình 2.1.Thuậttốnk-means....................................................................................22
Hình 2.2.Hìnhdạngcụmdữ liệu đƣợc khámphábởi k-means...............................23
Hình2.3.Trƣờnghợp Cjmp=d(Oj,Om,2) –d(Oj,Om) khơngâm............................25
Hình2.4.Trƣờng hợp Cjmp=(Oj,Op)- d(Oj,Om)có thểâm hoặcdƣơng...............26
Hình2.5.Trƣờnghợp Cjmpbằngkhơng..................................................................26
Hình2.6.Trƣờnghợp Cjmp=(Oj,Op)- d(Oj,Om,2)lnâm...................................27
Hình 2.7.Thuậttốn PAM........................................................................................27
Hình 2.8.ThuậttốnCLARA....................................................................................28
Hình 2.9.ThuậttốnCLARANS...............................................................................31
Hình 2.10.Cácchiến lƣợcphâncụmphâncấp...........................................................32
Hình 2.11.CâyCF đƣợcsử dụngbởi thuật tốnBIRCH..........................................34

Hình 2.12.ThuậttốnBIRCH...................................................................................35
Hình 2.13.Ví dụvềkết quảphâncụmbằngthuậttốnBIRCH...............................35
Hình 2.14.Cáccụmdữ liệu đƣợckhámphábởi CURE............................................37
Hình 2.15.ThuậttốnCURE.....................................................................................37
Hình 2.16.Một sốhìnhdạngkhámphá bởi phâncụmdựa trênmật độ...................38
Hình 2.17.LâncậncủaP với ngƣỡngEps................................................................39
Hình 2.18.Mật độ-đến đƣợctrựctiếp.....................................................................40
Hình 2.19.Mật độ đến đƣợc.....................................................................................40
Hình 2.20.Mật độ liênthơng.....................................................................................41
Hình 2.21.Cụmvà nhiễu..........................................................................................41

6


Hình 2.22.ThuậttốnDBSCAN...............................................................................42
Hình 2.23.Thứ tự phâncụmcácđối tƣợngtheoOPTICS........................................43
Hình 2.24.DENCLUEvới hàmphân phối Gaussian................................................45
Hình2.25.Mơhìnhcấutrúcdữliệulƣới..................................................................46
Hình2.26.ThuậttốnCLIQUE ...................................................................................... 48
Hình2.27.QtrìnhnhậndạngcácơcủaCLIQUE ........................................................... 48

7


DANH SÁCH BẢNG BIỂU
Hình 3.1. Các trƣờng khai báo dữ liệu...................................................................54
Hình 3.2.Dữ liệu khách hàng.................................................................................55
Hình 3.3.Dữ liệu khách hàng trong SQL Server..................................................56
Hình 3.4.Giao diện chính của chƣơng trình nhập dữ liệu...................................57
Hình 3.5.Giao diện chọn các tham số cho thuật tốn..........................................58

Hình 3.6.Giao diện phân cụm theo thời lƣợng cuộc gọi.....................................58
Hình 3.7.Danh sách các khách hàng thuộc cụm 1 theo thời lƣợng cuộc

gọi............................................................................................................................59
Hình 3.8.Danh sách các khách hàng thuộc cụm 2 theo thời lƣợng cuộc

gọi............................................................................................................................59
Hình 3.9.Danh sách các khách hàng thuộc cụm 3 theo thời lƣợng cuộc

gọi............................................................................................................................59
Hình 3.10.Giao diện phân cụm theo tiền dịch vụ................................................60
Hình 3.11.Danh sách các khách hàng thuộc cụm 1 theo tiền dịch vụ................60
Hình 3.12.Danh sách các khách hàng thuộc cụm 2 theo tiền dịch vụ................61
Hình 3.13.Danh sách các khách hàng thuộc cụm 3 theo tiền dịch vụ................61


DANH MỤC CÁC TỪ VIẾT TẮT
Stt

Viết tắt

Cụm từtiếngAnh

1

CNTT

InformationTechnology

Côngnghệthôngtin


2

CSDL

Database

Cơ sởdữliệu

3

KDD

KnowledgeDiscovery
inDatabase

4

KPDL

Datamining

Khaiphá dữliệu

5

KPVB

TextMining


Khaiphávănbản

6

PCDL

DataClustering

Phâncụmdữ liệu

9

Cụm từtiếngViệt

Khámphá trithứctrongcơ
sởdữliệu


LỜIMỞĐẦU
Trongnhữngnămgầnđâycùngvớipháttriểnnhanhchóngcủakhoahọckỹthuậtlà
sựbùngnỗvềtrithức.Khodữliệu,nguồntrithứccủanhânloạicũngtrởnênđồsộ,vơtậnlà
mchovấnđềkhaitháccácnguồntrithứcđóngàycàngtrởnênnóngbỏngvàđặtratháchthứ
clớnchonềncơngnghệthơngtinthếgiới.
Đốivớimộtdoanhnghiệpthơngtin

diđộngviệcpháttriểnthbao

mới

đểkiếmtìmlợinhuậnvàothờiđiểmhiệntạiđãkhơngcịnđemlạihiệuquả.Thayvàođólà

mộtphƣơngánkinhdoanhtiếnđếnpháttriểnchấtlƣợngdịchvụ
vàcungcấpthêmnhiềudịchvụgiátrịgiatăng.Tuynhiêncácdịchvụtruyềnthốngnhƣtho
ại,nhắntinvẫncóthểđemlạinguồnlợinhuậncaohơnnếukíchthíchđƣợcnhucầusửdụng
củakháchhàng. Để thực hiện đƣợc điều đó, các doanh nghiệp phải khơng ngừng
giữ vững đƣợc khách hàng hiện có mà còn phải đƣa ra đƣợc các chiến lƣợc phát
triển kinh doanh dài hạn, phân loại đƣợc các nhóm khách hàng đang sử dụng để
từ đó có chính sách phân khúc thị trƣờng hợp lý. Vì vậy, em dựa vào thực trạng
nhƣ trên và kết hợp với kỹ thuật phân cụm trong khai phá dữ liệu để thực hiện đề
tài: “Một số kỹ thuật phân cụm dữ liệu và ứng dụng phân loại khách hàng sử
dụng dịch vụ Viễn thông”
Bố cục luận văn gồm 3 chương:
Chƣơng 1: Trình bày một cách tổng quan các kiến thức cơ bản về khai
phá dữ liệu và phát hiện tri thức, các kỹ thuật phân cụm trong khai phá dữ liệu.
Chƣơng 2: Giới thiệu một số dữ liệu phân cụm phổ biến thƣờng đƣợc sử
dụng trong khai phá dữ liệu và phát hiện tri thức.
Chƣơng 3: Sử dụng kỹ thuật phân cụm để ứng dụng vào phân loại khách
hàng sử dụng dịch vụ viễn thông. Trong chƣơng này cũng trình bày chƣơng
trình mơ phỏng áp dụng kỹ thuật phân cụm để phân loại sử dụng dịch vụ Viễn
thông.
Phần kết luận của luận văn tổng kết lại những vấn đề đã nghiên cứu, đánh
giá kết quả nghiên cứu, hƣớng phát triển của đề tài.
CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
10


1.1. Khai phá dữ liệu và phát hiện tri thức
1.1.1. Khai phá dữ liệu
Cuốithậpkỷ80củathếkỷ20,sựpháttriểnrộngkhắpcủacácCSDLđãtạorasựbùngn
ổthơngtintrêntồncầu,vàothờigiannàyngƣờitabắtđầuđềcậpđếnkháiniệmkhủnghoản
gtrongviệcphântíchdữliệutácnghiệpđểcungcấpthơngtinvớiucầuchấtlƣợngngàyc

tàichính,

àngcaochongƣờilàmquyếtđịnhtrongcáctổchứcchínhphủ,
thƣơngmại,khoahọc,…

ĐúngnhƣJohnNaisbettđãcảnhbáo“Chúngtađangchìmngậptrongdữliệumàvẫn
đóitrithức”.Lƣợngdữliệukhổnglồnàythựcsựlàmộtnguồntàinguncónhiềugiátrịbởi
thơngtinlàyếutốthenchốtphụcvụchomọihoạtđộngquảnlý,kinhdoanh,pháttriểnsảnxu
ấtvàdịchvụ,…nógiúpngƣờiđiềuhànhvàquảnlýcónhữnghiểubiếtvềmơitrƣờngvàtiếnt
rìnhhoạtđộngcủatổchứcmìnhtrƣớckhiraquyếtđịnhđểtác
độngđếnqtrìnhhoạtđộngnhằm

đạtđƣợc

các

mục

tiêu

mộtcáchhiệuquả

vàbềnvững.
KPDLlàmộtlĩnhvựcmớiđƣợcnghiêncứu,nhằm
tựđộngkhaithácthơngtin,trithứcmớihữch,tiềmẩntừnhữngCSDLlớnchocácđơnvị,
tổchức,doanhnghiệp,….từđólàmthúcđẩykhảnăngsảnxuất,kinhdoanh,cạnhtranhch
ocácđơnvị,tổchứcnày.Cáckếtquảnghiêncứukhoahọccùngnhữngứngdụngthànhcơn
gtrongKDDchothấyKPDLlàmộtlĩnhvựcpháttriểnbềnvững,manglạinhiềulợiíchvàc
ónhiềutriểnvọng,


đồngthờicóƣuthế

hơnhẵnsovớicáccơngcụtìmkiếmphântíchdữliệutruyềnthống.Hiệnnay,KPDLđãứng
dụngngàycàngrộngrãitrongcáclĩnhvựcnhƣthƣơngmại,tàichính,yhọc,
viễnthơng,tin–
sinh,….CáckỹthuậtchínhđƣợcápdụngtronglĩnhvựcKPDLphầnlớnđƣợcthừakếtừlĩn
hvựcCSDL,họcmáy,trítuệnhântạo,lýthuyếtthơngtin,xácsuấtthốngkê
vàtínhtốnhiệunăngcao,...
NhƣvậytacóthểkháiqthóakháiniệmKPDLlàmộtqtrìnhtìmkiếm,
pháthiệncáctrithứcmới, hữch, tiềmẩn trongCSDL lớn.

11


KDDlàmụctiêuchínhcủaKPDL,dovậyhaikháiniệmKPDLvàKDDđƣợccácnhà
khoahọctrênhailĩnhvựcxemlàtƣơngđƣơngvớinhau.Thếnhƣngnếuphânchiamộtcách
chitiếtthìKPDLlàmộtbƣớcchínhtrongqtrìnhKDD.
1.1.2. Q trình khám phá tri thức
Qtrìnhkháphátrithứccóthểchiathành5bƣớcnhƣ sau:

Hình 1.1 Q trình khám phá tri thức
QtrìnhKPDL có thểphânthànhcác giaiđoạnsau [6]:
Tríchchọndữliệu:Đâylà bƣớctríchchọnnhữngtậpdữliệu cần đƣợc khaiphá
từcáctậpdữliệulớnbanđầutheomộtsốtiêuchínhấtđịnh.
Tiềnxửlýdữliệu:Đâylàbƣớclàmsạchdữliệu(xửlýnhữngdữliệukhơngđầyđủ,nh
iễu,khơngnhấtqn,...),rútgọndữliệu(sửdụnghàmnhómvàtínhtổng,cácphƣơngpháp
néndữliệu,sửdụnghistograms,lấymẫu,...),rờirạchóadữliệu(rờirạchóadựavàohistogr
ams,dựavàoentropy,dựavàophânkhoảng,...).Saubƣớcnày,dữliệusẽnhấtqn,đầyđủ
,đƣợcrútgọnvàđƣợcrờirạchóa.
Biếnđổidữliệu:Đâylàbƣớcchuẩnhóavàlàmmịndữliệuđểđƣadữliệuvề

dạngthuậnlợinhấtnhằmphụcvụqtrìnhkhaiphá ởbƣớcsau.
Khaiphádữliệu:Đâylàbƣớcápdụngnhữngkỹthuậtphântích(nhƣcáckỹthuậtcủ
ahọcmáy)nhằmđểkhaithácdữliệu,tríchchọnđƣợcnhữngmẫuthơngtin,nhữngmốiliên
hệđặcbiệttrongdữliệu.Đâyđƣợcxemlàbƣớcquantrọng
vàtốnnhiềuthờigiannhấtcủatồnq trìnhKDD.

12


Đánhgiávàbiểudiễntrithức:Nhữngmẫuthơngtinvàmốiliênhệtrongdữliệuđãđ
ƣợckhámpháởbƣớctrênđƣợcbiếnđổivàbiểudiễnởmộtdạnggầngũivớingƣờisửdụngn
hƣđồthị,cây,bảngbiểu,luật,...Đồngthờibƣớcnàycũng
đánhgiánhữngtrithứckhámphá đƣợc theonhữngtiêuchínhấtđịnh.
1.1.3. Khai phá dữ liệu và các lĩnh vực liên quan
KPDLlàmộtlĩnhvựcliênquantớithốngkê,họcmáy,CSDL,thuậttốn,tínhtốns
ongsong,thunhậntrithứctừhệchungiavàdữliệutrừutƣợng.Đặctrƣngcủahệthốngkh
ámphátrithứclànhờvàocácphƣơngpháp,thuậttốnvà
kỹthuậttừnhữnglĩnhvựckhácnhauđểKPDL.
LĩnhvựchọcmáyvànhậndạngmẫutrongKDDnghiêncứucáclýthuyếtvàthuậtto
áncủahệthốngđểtríchracácmẫuvàmơhìnhtừdữliệulớn.KDDtậptrungvàoviệcmởrộn
gcáclýthuyếtvàthuậttốnchocácvấnđềtìmracácmẫuđặcbiệt(hữch hoặc cóthểrútra
trithứcquantrọng)trongCSDL lớn.
Ngồira,KDDcónhiềuđiểmchungvớithốngkê,đặcbiệtlàphântíchdữliệuthăm
dị(ExploratoryDataAnalysisEDA).HệthốngKDDthƣờnggắnnhữngthủtụcthốngkêchomơhìnhdữliệuvàtiếntrìnhn
hiễutrongkhámphátrithứcnóichung.
Mộtlĩnhvựcliênquankháclàphântíchkhodữliệu.Phƣơngphápphổbiếnđểphânt
íchkhodữliệulàOLAP(On-LineAnalyticalProcessing).CáccơngcụOLAP
tậptrungvàophântíchdữ liệuđa chiều.
1.1.4. Các kỹ thuật áp dụng trong khai phá dữ liệu
KDDlàmộtlĩnhvựcliênngành,baogồm:Tổchứcdữliệu,họcmáy,trítuệnhântạo

vàcác khoahọckhác. Sựkếthợpnàycó thểđƣợcdiễntả nhƣsau:

13


Hình 1.2 Các lĩnh vực liên quan đến khám phá tri thức
Đứngtrênquanđiểmcủahọc máy,thìcáckỹthuậttrongKPDL,baogồm:
Họccógiámsát:LàqtrìnhgánnhãnlớpchocácphầntửtrongCSDLdựatrênmột
tậpcácvídụhuấn luyệnvà cácthơngtinvề nhãnlớpđãbiết.
Họckhơngcógiámsát:Làqtrìnhphânchiamộttậpdữliệuthànhcáclớphaycụm
dữliệutƣơngtựnhaumàchƣabiếttrƣớccácthơngtinvềlớphaytậpcác vídụhuấnluyện.
Họcnửagiám

sát:Làqtrìnhphânchiamộttậpdữliệuthành

các

lớpdựatrênmộttậpnhỏcácvídụhuấnluyệnvàcácthơngtinvềmộtsốnhãnlớpđãbiếttrƣớ
c.
+
Nếucăncứvàolớpcácbàitốncầngiảiquyết,thìKPDLbaogồmcáckỹthuậtápdụngsau
[6]:
Phânlớpvàdựbáo:Xếpmộtđốitƣợngvàomộttrongnhữnglớpđãbiếttrƣớc.Vídụ
nhƣphânlớpcácdữliệubệnhnhântronghồsơbệnhán.Hƣớngtiếpcậnnàythƣờngsửdụn
gmộtsốkỹthuậtcủahọcmáynhƣcâyquyếtđịnh,mạngnơronnhântạo,... Phânlớpvàdự
báo cịnđƣợcgọilàhọccógiámsát.
Luậtkếthợp:Làdạngluậtbiểudiễntrithứcởdạngkháđơngiản.Vídụ:“60%
nữgiớivàosiêuthị

nếumua


phấnthìcótới80%

trongsốhọ

sẽmuathêmson”.Luậtkếthợpđƣợcứngdụngnhiềutronglĩnhvựckinhdoanh,yhọc,tinsinh, tàichínhvà thịtrƣờngchứngkhoán,...

14


Phântíchchuỗitheothờigian:Tƣơngtựnhƣkhaipháluậtkếthợpnhƣngcóthêmtí
nhthứtựvàtínhthờigian.Hƣớngtiếpcậnnàyđƣợcứngdụngnhiềutronglĩnhvựctàichính
và thịtrƣờngchứngkhốnvìnócótínhdự báocao.
Phâncụm:Xếpcácđốitƣợngtheotừngcụmdữliệutựnhiên.Phâncụmcịnđƣợcgọ
ilàhọckhơngcógiámsát.
Mơtảvàtómtắtkháiniệm:Thiênvềmơtả,tổnghợpvàtómtắtkháiniệm,vídụ
nhƣtómtắtvăn bản.
đƣợc

DoKPDL

ứngdụngrộngrãinênnócóthểlàmviệcvớirấtnhiềukiểudữliệukhácnhau.Sauđâylàmột
sốdạngdữliệuđiểnhình:Dữliệuquanhệ,dữliệuđachiều,dữliệudạnggiaodịch,dữliệuqu
anhệhƣớngđốitƣợng,dữliệukhơnggianvàthờigian,dữliệuchuỗithờigian,dữliệuđaphƣơng
tiện,dữliệuvănbảnvà Web,…
1.1.5. Ứng dụng khai phá dữ liệu
KPDLlàmộtlĩnhvựcđƣợcquantâmvàứngdụngrộngrãi.Mộtsốứngdụngđiểnhì
nhtrongKPDLcóthểliệtkênhƣ

sau:Phântíchdữliệuvàhỗtrợraquyếtđịnh,điềutrịy


học,KPVB,khaipháWeb,tin-sinh,tàichínhvàthịtrƣờngchứngkhốn, bảohiểm,...
Thƣơngmại:Nhƣphântíchdữliệubánhàngvàthịtrƣờng,phântíchđầutƣ,
pháthiệngianlận,chứngthựchóakháchhàng, dự báoxuhƣớngpháttriển,...
Thơngtinsảnxuất:Điềukhiển,lậpkếhoạch,hệthốngquảnlý,phântíchthửnghiệ
m,...
Thơngtinkhoahọc:Dự

báothờitiết,

bảolụt,

độngđất,tinsinhhọc,...HiệnnaycáchệquảntrịCSDLđãtíchhợpnhữngmodulđểKPDL
nhƣSQLServer,Oracle,đếnnăm2007MicrosoftđãcungcấpsẵncơngcụKPDLtíchhợp
trongcả MS-Word, MS-Excel,..

15


Hình 1.3 Trực quan hóa kết quả KPDL trong Oracle
1.2.

Kỹ thuật phân cụm trong khai phá dữ liệu

1.2.1. Tổng quan về kỹ thuật phân cụm
MụcđíchchínhcủaPCDLnhằmkhámphácấutrúccủamẫudữliệuđểthànhlậpcá
cnhómdữliệutừtậpdữliệulớn,theođónóchophépngƣờitađisâuvàophântíchvànghiên
cứuchotừngcụmdữliệunàynhằmkhámphávàtìmkiếmcácthơngtintiềmẩn,hữchph
ụcvụchoviệcraquyếtđịnh.Vídụ“nhómcáckháchhàngtrongCSDLngânhàngcóvốnc
ácđầutưvàobấtđộngsảncao”…Nhƣvậy,PCDLlàmộtphƣơngphápxửlýthơngtinqua

ntrọngvàphổbiến,nónhằmkhámphámốiliênhệgiữacácmẫudữliệubằngcáchtổchức
chúngthànhcáccụm.
TacóthểkháiqthóakháiniệmPCDL
[6][10]:PCDLlàmộtkỹthuậttrongKPDL,nhằmtìmkiếm,pháthiệncáccụm,cácmẫud
ữliệutựnhiên,tiềmẩn,quantrọngtrongtậpdữliệulớntừđócungcấpthơngtin,trithứchữ
chchoviệc raquyếtđịnh.
Nhƣvậy,PCDLlàqtrìnhphânchiamộttậpdữliệubanđầuthànhcáccụmdữ
liệusaochocácphầntửtrongmộtcụm"tƣơngtự"vớinhau vàcácphầntử trong các
cụmkhácnhausẽ

"phitƣơngtự"

vớinhau.Sốcác

16

cụmdữ

liệuđƣợc


phânởđâycóthểđƣợcxácđịnhtrƣớctheokinhnghiệmhoặccóthểđƣợctựđộngxácđịnhc
ủaphƣơngphápphâncụm.
Độtƣơngtựđƣợcxácđịnhdựatrêngiátrịcácthuộctínhmơtảđốitƣợng.Thơngthƣ
ờng,phépđokhoảngcáchthƣờngđƣợcsửdụngđểđánhgiáđộtƣơngtựhayphitƣơngtự.
Ta có thểminhhoạvấnđềphâncụmnhƣ hìnhsauđây:

Hình 1.4 Mơ phỏng sự PCDL
Tronghìnhtrên,saukhiphâncụmtathuđƣợcbốncụmtrongđócácphầntử"tươngt
ự"thìđƣợcxếpvàomộtcụm,cácphầntử"phitươngtự"thìchúngthuộc vềcác cụmkhác

nhau.
TrongPCDLkháiniệm,haihoặcnhiềuđốitƣợngcùngđƣợcxếpvàomộtcụmnếuc
húngcóchungmộtđịnhnghĩavềkháiniệmhoặcchúngxấpxỉvớicác

kháiniệmmơtả

chotrƣớc. Nhƣ vậy, PCDL khơngsử dụng độđo“tươngtự”nhƣđã trìnhbàyở trên.
Tronghọcmáy,PCDLđƣợcxemlàvấnđềhọckhơngcógiámsát,vìnóphảigiảiquy
ếtvấnđềtìmmộtcấutrúctrongtậphợpdữ
liệuchƣabiếttrƣớccácthơngtinvềlớphaycácthơngtinvềtậphuấnluyện.Trongnhiềutrƣ
ờnghợp,nếuphânlớpđƣợcxemlàvấnđềhọccógiámsátthìPCDLlàmộtbƣớctrongphânl
ớpdữliệu,PCDL

sẽkhởitạocáclớpchophânlớpbằng

cáchxác

địnhcácnhãnchocácnhómdữ liệu.
MộtvấnđềthƣờnggặptrongPCDLlàhầuhếtcácdữliệucầnchophâncụmđềucóc
hứadữliệu"nhiễu"doqtrìnhthuthậpthiếuchínhxáchoặcthiếuđầyđủ,vìvậycầnphảix
âydựngchiếnlƣợcchobƣớctiềnxửlýdữliệunhằmkhắcphụchoặcloạibỏ"nhiễu"trƣớck
hibƣớcvàogiaiđoạnphântích
PCDL."Nhiễu"ởđâycóthểlàcácđốitƣợngdữliệukhơngchínhxáchoặccácđốitƣợngdữ
liệukhuyếtthiếuthơngtinvềmộtsốthuộctính.Mộttrongcáckỹthuậtxửlýnhiễuphổbiếnl

17


àviệcthaythếgiátrịcủacácthuộctínhcủađốitƣợng"nhiễu"bằnggiátrịthuộctínhtƣơng
ứngcủađốitƣợngdữ liệugầnnhất.

Ngồira,dịtìmphầntửngoạilailàmộttrongnhữnghƣớngnghiêncứuquantrọngt
rongPCDL,chứcnăngcủanólàxácđịnhmộtnhómnhỏcácđốitƣợngdữ
liệu"khácthường"sovớicác

dữliệukháctrongCSDL-tứclàcác

đốitƣợngdữliệukhơngtntheocáchànhvihoặcmơhìnhdữ

liệu-nhằm

tránhsựảnhhƣởngcủachúngtớiqtrìnhvàkếtquảcủaPCDL.Khámphácácphầntửngo
ạilaiđãđƣợcpháttriểnvàứngdụngtrongviễnthơng,dịtìmgianlậnthƣơngmại…
Tómlại,PCDLlàmộtvấnđềkhóvìngƣờitaphảiđigiảiquyếtcácvấnđềconcơ
bảnnhƣsau:
- Biểudiễndữ liệu.
- Xây dựnghàmtínhđộtƣơngtự.
- Xây dựngcáctiêuchuẩnphâncụm.
- Xây dựngmơhìnhchocấutrúccụmdữliệu.
- Xây dựngthuậttốn phâncụmvà xác lậpcác điềukiệnkhởitạo.
- Xây dựngcácthủtục biểudiễnvà đánhgiákếtquảphâncụm.
Theocácnghiêncứuthìđếnnaychƣacómộtphƣơngphápphâncụmtổngqtnàoc
óthểgiảiquyếttrọnvẹnchotấtcảcácdạngcấutrúccụmdữliệu.Hơnnữa,cácphƣơngpháp
phâncụmcầncócáchthứcbiểudiễncấutrúccáccụmdữliệukhácnhau,vớimỗicáchthứcb
iểudiễnkhácnhausẽcómộtthuậttốnphâncụmphùhợp.PCDLđanglà
vấnđềmởvàkhóvìngƣờita

cần

phảiđigiảiquyếtnhiềuvấnđềcơbảnnhƣđãđềcậpởtrênmộtcáchtrọnvẹnvàphùhợpvớin
hiềudạngdữliệukhácnhau.Đặcbiệtđốivớidữliệuhỗnhợp,đangngàycàngtăngtrƣởngk

hơngngừngtrongcáchệquảntrịdữliệu,đâycũnglàmộttrongnhữngtháchthứclớntrongl
ĩnhvựcKPDLtrongnhữngthậpkỷtiếptheo.
1.2.2. Ứng dụng của phân cụm dữ liệu
PCDLlàmộttrongnhữngcơngcụchínhcủaKPDLđƣợcứngdụngtrongnhiềulĩnh
vựcnhƣthƣơngmạivàkhoahọc.CáckỹthuậtPCDLđãđƣợcápdụngchomộtsốứngdụng
điểnhìnhtrongcác lĩnhvựcsau[10][19]:
18


Thươngmại:PCDLcóthểgiúpcácthƣơngnhânkhámpháracácnhómkháchhàng
quantrọngcócácđặctrƣngtƣơngđồngnhauvàđặctảhọtừcácmẫumua bántrongCSDL
kháchhàng.
Sinhhọc:PCDLđƣợcsửdụngđểxácđịnhcácloạisinhvật,phânloạicácGenvớich
ứcnăngtƣơngđồngvà thuđƣợccác cấutrúctrongcácmẫu.
Phântíchdữliệukhơnggian:Dosựđồsộcủadữliệukhơnggiannhƣdữliệuthuđƣợ
ctừcáchìnhảnhchụptừvệtinh,cácthiếtbịyhọchoặchệthốngthơngtinđịalý(GIS),…là
mchongƣờidùngrấtkhóđểkiểmtracácdữliệukhơnggianmộtcáchchitiết.PCDLcóthểt
rợgiúpngƣờidùngtựđộngphântíchvàxửlýcácdữliêukhơnggiannhƣnhậndạngvàchiết
xuấtcácđặctínhhoặc các mẫudữ liệuquantâmcó thể tồntạitrongCSDL khơng gian.
Lập

quy

hoạchđơthị:Nhậndạngcác

nhómnhàtheokiểuvà

vịtríđịa

lý,…nhằmcungcấpthơngtin choquyhoạchđơthị.

Nghiêncứutráiđất:Phâncụmđểtheodõicáctâmđộngđấtnhằmcungcấpthơngtin
chonhậndạngcácvùngnguy hiểm.
Địalý:Phânlớpcácđộngvật, thựcvậtvàđƣa ra đặctrƣngcủachúng.
KhaipháWeb:PCDLcóthểkhámphácácnhómtàiliệuquantrọng,cónhiềnghĩ
atrongmơitrƣờngWeb.CáclớptàiliệunàytrợgiúpchoviệckhámphátrithứctừdữliệuW
eb,

khámpháracácmẫutruycậpcủakháchhàngđặcbiệthaykhámphá

ra

cộngđồngWeb,…
1.2.3. Các u cầu kỹ thuật đối với phân cụm dữ liệu
Việcxâydựng,lựachọnmộtthuậttốnphâncụmlàbƣớcthenchốtchoviệcgiảiquy
ếtvấnđềphâncụm,sựlựachọnnày
phụthuộcvàođặctínhdữliệucầnphâncụm,mụcđíchcủaứngdụngthựctếhoặcxácđịnhđ
ộƣutiêngiữachấtlƣợngcủa cáccụmhaytốc độthựchiệnthuậttốn,…
HầuhếtcácnghiêncứuvàpháttriểnthuậttốnPCDLđềunhằmthoảmãncác
ucầu cơbảnsau [6][10]:
Cókhảnăngmởrộng:Mộtsốthuậttốncóthểứngdụngtốtchotậpdữliệunhỏ(kho
ảng200bảnghidữliệu)nhƣngkhơnghiệuquảkhiápdụngchotậpdữliệulớn(khoảng1triệ
ubảnghi).
19


Thíchnghivớicáckiểudữliệukhácnhau:Thuậttốncóthểápdụnghiệuquảchoviệ
cphâncụmcáctậpdữliệuvớinhiềukiểudữliệukhácnhaunhƣdữliệukiểusố,kiểunhịphâ
n,dữliệuđịnhdanh,hạngmục,...vàthíchnghivớikiểudữliệuhỗnhợp.
Khámpháracáccụmvớihìnhthùbấtkỳ:DohầuhếtcácCSDLcóchứanhiềucụmd
ữliệuvớicáchìnhthùkhácnhaunhƣ:hìnhlõm,hìnhcầu,hìnhque,…Vìvậy,đểkhámphá

đƣợccáccụmcótínhtựnhiênthìcácthuậttốnphâncụmcần

phảicókhảnăngkhámphá

racác cụmdữ liệucóhìnhthùbấtkỳ.
Tốithiểulượngtrithứccầnchoxácđịnhcácthamsốvào:Docácgiátrịđầuvàothƣờ
ngảnhhƣởngrấtlớnđếnthuậttốnphâncụmvàrấtphứctạpđểxácđịnhcác
giátrịvàothíchhợpđốivớicácCSDL lớn.
Ítnhạycảmvớithứtựcủadữliệuvào:Cùngmộttậpdữliệu,khiđƣavàoxửlýchothu
ậttốnPCDLvớicácthứtựvàocủacácđốitƣợngdữliệuởcáclầnthựchiệnkhácnhauthìkh
ơngảnhhƣởnglớnđếnkếtquảphâncụm.
Khảnăngthíchnghivớidữliệunhiễucao:HầuhếtcácdữliệuphâncụmtrongKPD
Lđềuchứađựngcácdữliệulỗi,dữliệukhơngđầyđủ,dữliệurác.Thuậttốnphâncụmkhơn
gnhữnghiệuquảđốivớicácdữliệunhiễumàcịntránh
dẫnđếnchấtlƣợngphâncụmthấpdonhạycảmvớinhiễu.
Ítnhạycảmvớicácthamsốđầuvào:Nghĩalàgiátrịcủacácthamsốđầuvàokhácnh
atgâyra các thayđổi lớnđốivớikếtquảphâncụm.
Thíchnghivớidữliệuđachiều:Thuậttốncókhảnăngápdụnghiệuquảchodữliệu
cósốchiềukhácnhau.
Dễhiểu, dễ càiđặtvàkhảthi.
CácucầunàyđồngthờilàcáctiêuchíđểđánhgiáhiệuquảcủacácphƣơngphápP
CDL,đâylànhữngtháchthứcchocácnhànghiêncứutronglĩnhvựcPCDL.
1.3.

Tổng kết chƣơng 1
Trong

chƣơng1trìnhbàynhữngkiếnthứccơbảnvềkhaiphádữliệuvàkhámphátrithứctrongCS
DL,cáckỹthuậtápdụngtrongkhaiphádữliệu,nhữngchứcnăngchính,ứngdụngcủanótr
ongxã hội,...

20


Chƣơngnàycũngtrìnhbàymộthƣớngnghiêncứuvàứngdụngtrongkhaiphádữli
ệulàphâncụmdữliệu,gồmtổngquanvềkỹthuậtphâncụm,cácứngdụngcủaphâncụm,cá
cucầuđốivớikỹthuậtphâncụm,cáckiểudữliệuvàđộđotƣơngtự,...

CHƢƠNG 2: MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU
CáckỹthuậtápdụngđểgiảiquyếtvấnđềPCDLđềuhƣớngtớihaimụctiêuchung:C
hấtlƣợngcủacáccụmkhámpháđƣợcvàtốcđộthựchiệncủathuậttốn.Tuynhiên,cáckỹt
huậtPCDLcóthểđƣợcphânloạithànhmộtsốloạicơbảndƣatrêncácphƣơngpháptiếpcậ
nnhƣsau [6][13]:
2.1.

Phâncụmphânhoạch
Ýtƣởngchínhcủakỹthuậtnàylàphânmộttậpdữliệucónphầntửchotrƣớcthànhkn

hómdữliệusaochomỗiphầntửdữliệuchỉthuộcvềmộtnhómdữliệuvàmỗinhómdữliệuc
ótốithiểtnhấtmộtphầntửdữliệu.Cácthuậttốnphânhoạchcóđộphứctạprấtlớnkhixá
cđịnhnghiệmtốiƣutồncụcchovấnđềPCDL,vìnóphảitìmkiếmtấtcảcáccáchphânhoạ
chcóthểđƣợc.Chínhvìvậy,trênthựctế ngƣờita thƣờng đi tìmgiải pháptốiƣucục
bộchovấnđềnàybằngcáchsửdụngmộthàmtiêuchuẩnđểđánhgiáchấtlƣợngcủacáccụ
mcũngnhƣđểhƣớngdẫnchoqtrìnhtìmkiếmphânhoạchdữliệu.Vớichiếnlƣợcnày,th
ơngthƣờngngƣờitabắtđầukhởitạomộtphânhoạchbanđầuchotậpdữliệutheophépngẫu
21


nhiênhoặctheoheuristicvàliêntụctinhchỉnhnóchođếnkhithuđƣợcmộtphânhoạchmo
ngmuốn,thoảmãncácđiềukiệnràngbuộcchotrƣớc.Cácthuậttốnphâncụmphânhoạch
cốgắngcảitiếntiêuchuẩnphâncụmbằngcáchtínhcácgiátrịđođộtƣơng

tựgiữacácđốitƣợngdữliệuvàsắpxếpcácgiátrịnày,sauđóthuậttốnlựachọnmộtgiátrịtr
ongdãysắpxếpsaochohàmtiêuchuẩnđạtgiátrịtốithiểu.Nhƣvậy,ýtƣởngchínhcủathuậ
ttốnphâncụmphânhoạchtốiƣucụcbộlàsửdụngchiếnlƣợcănthamđểtìmkiếmnghiệm.
Lớpcácthuậttốnphâncụmphânhoạchbaogồmcácthuậttốnđềxuấtđầutiêntro
nglĩnhvựcKPDLcũnglàcácthuậttốnđƣợcápdụngnhiềutrongthựctếnhƣkmeans,PAM,CLARA,CLARANS.Sauđâylàmộtsốthuậttốnkinhđiểnđƣợckế thừa
sử dụngrộngrãi.
2.1.1 Thuật tốn k-means
Thuật tốn phân cụm k-means do MacQueen đề xuất trong lĩnh vực thống
kê năm 1967, mục đích của thuật tốn k-means là sinh ra k cụm dữ liệu {C1,
C2,..., Ck) từ một tập dữ liệu ban đầu gồm n đối tƣợng trong không gian d chiều
Xi =(xi1,xi2,.....xid) (i = 1,n), sao cho hàm tiêu chuẩn:

k

2

x Ci

D 2 ( x mi ) đạt giá trị

i 1

tối thiểu. Trong đó : mi là trọng tâm của cụm Ci,D là khoảng cạh giữa hai đối
tƣợng.
Trọng tâm của một cụm là một vector, trong đó giá trị của mỗi phần tử
của nó là trung bình cộng các thành phần tƣơng ứng của các đối tƣợng vector dữ
liệu trong cụm đang xét. Tham số đầu vào của thuật toán là số cụm k, tập CSDL
gồm n phần tử và tham số đầu ra của thuật toán là các trọng tâm của các cụm dữ
liệu. Độ đo khoảng cách D giữa các đối tƣợng dữ liệu thƣờng đƣợc sử dụng
dụng là khoảng cách Euclide, bởi vì đây là mơ hình khoảng cách dễ để lấy đạo

hàm và xác định các cực trị tối thiểu. Hàm tiêu chuẩn và độ đo khoảng cách có
thể đƣợc xác định cụ thể hơn tuỳ vào ứng dụng hoặc các quan điểm của ngƣời
dùng. Thuật toán k-means bao gồm các bƣớc cơ bản nhƣ sau:
INPUT: Một CSDL gồm n đối tƣợng và số các cụm k.
OUTPUT: Các cụm Ci (i=l,....,k) sao cho hàm tiêu chuẩn E đạt giá trị tối thiểu.
Bƣớc 1: Khởi tạo
Chọn k đối tƣợng mj (j=1 ..... k..) là trọng tâm ban đầu của k cụm từ tập dữ liệu
22 theo kinh nghiệm).
(việc lựa chọn này có thể là ngẫu nhiên hoặc


Hình 2.1 Thuật tốn k- means
Thuật tốn k-means đƣợc chứng minh là hội tụ và có độ phức tạp tính
tốn là: 0((n k d )
liệu, d là số chiều,

T f l o p ). Trong đó: n là số đối tƣợng dữ liệu, k là số cụm dữ
là số vòng lặp, T f l o p là thời gian đề thực hiện một phép

tính cơ sở nhƣ phép tính nhân, chia, .. .Nhƣ vậy, do k-means phân tích phân cụm
đơn giản nên có thể áp dụng đối với tập dữ liệu lớn. Tuy nhiên, nhƣợc điểm của
k- means là chỉ áp dụng với dữ liệu có thuộc tính số và khám phá ra các cụm có
dạng hình cầu, k-means cịn rất nhạy cảm với nhiễu và các phần tử ngoại lai
trong dữ liệu. Hình sau diễn tả mơi phỏng về một số hình dạng cụm dữ liệu
khám phá đƣợc bởi k-means:

23


Hình 2.2 Hình dạng cụm dữ liệu được khám phá bởi k - means

Hơn nữa, chất lƣợng PCDL của thuật toán k-means phụ thuộc nhiều vào
các tham số đầu vào nhƣ: số cụm k và k trọng tâm khởi tạo ban đầu. Trong
trƣờng hợp, các trọng tâm khởi tạo ban đầu mà quá lệch so với các trọng tâm
cụm tự nhiên thì kết quả phân cụm của k-means là rất thấp, nghĩa là các cụm dữ
liệu đƣợc khám phá rất lệch so với các cụm trong thực tế. Trên thực tế ngƣời ta
chƣa cỏ một giải pháp tối ƣu nào để chọn các tham số đầu vào, giải pháp thƣờng
đƣợc sử dụng nhất là thử nghiệm với các giá trị đầu vào k khác nhau rồi sau đó
chọn giải pháp tốt nhất.
Đến nay, đã có rất nhiều thuật tốn kế thừa tƣ tƣởng của thuật toán kmeans áp dụng trong KPDL để giải quyết tập dữ liệu có kích thƣớc rất lớn đang
đƣợc áp dụng rất hiệu quả và phồ biến nhƣ thuật toán k-medoid, PAM, CLARA,
CLARANS, k- prototypes, ...
2.1.2 Thuật toán PAM
Thuật toán PAM (Partitioning Around Medoids) đƣợc Kaufman và
Rousseeuw đề xuất 1987, là thuật toán mở rộng của thuật tốn k-means, nhằm
có khả năng xử lý hiệu quả đối với dữ liệu nhiễu hoặc các phần tử ngoại lai.
Thay vì sử dụng các trọng tâm nhƣ k-means, PAM sử dụng các đối tƣợng
medoid để biểu diễn cho các cụm dữ liệu, một đối tƣợng medoid là đối tƣợng
đặt tại vị trí trung tâm nhất bên trong của mỗi cụm. Vì vậy, các đối tƣợng
medoid ít bị ảnh hƣởng của các đối tƣợng ở rất xa trung tâm, trong khi đó các
trọng tâm của thuật tốn k -means lại rất bị tác động bởi các điểm xa trung tâm
này. Ban đầu, PAM khởi tạo k đối tƣợng medoid và phân phối các đối tƣợng còn
lại vào các cụm với các đối tƣợng medoid đại diện tƣơng ứng sao cho chúng
tƣơng tự với đối tƣợng medoid trong cụm nhất.
Để xác định các medoid, PAM bắt đầu bằng cách lựa chọn k đối tƣợng
medoid bất kỳ. Sau mỗi bƣớc thực hiện, PAM cố gắng hoán chuyển giữa đối
tƣợng medoid Om và một đối tƣợng Op không phải là medoid, miễn là sự hoán
chuyển này nhằm cải tiến chất lƣợng của phân cụm, quá trình này kết thúc khi

24



chất lƣợng phân cụm không thay đổi. Chất lƣợng phân cụm đƣợc đánh giá thông
qua hàm tiêu chuẩn, chất lƣợng phân cụm tốt nhất khi hàm tiêu chuẩn đạt giá trị
tối thiểu.
Để quyết định hoán chuyển hai đối tƣợng Om và Op hay khơng, thuật tốn
PAM sử dụng giá trị tồng chi phí hốn chuyển cjmp làm căn cứ:
- Om : Là đốitƣợng medoid hiện thời cần đƣợc thay thế
- Op : Là đối tƣợng medoid mới thay thế cho Om
- Om,2 : Là đối tƣợng dữ liệu (không phải là medoid) có thề đƣợc di
chuyển sang cụm khác.
- Om,2 :Là đối tƣợng medoid hiện thời khác với Ommà gần đối tƣợng Oj
nhất.
Bốn trƣờng hợp nhƣ mơ tả trong thí dụ trên, PAM tính giá trị hốn đổi
Cjmp cho tất cả các đối tƣợng Oj. CJmp ở đây nhằm để làm căn cứ cho việc hoán
chuyển giữa Om và Op. Trong mỗi trƣờng hợp Cjmp đƣợc tính với 4 cách khác
nhau nhƣ sau:
- Trƣờng hợp 1: Giả sử Ojhiện thời thuộc về cụmcó đại diệnlàOmvàOj
tƣơng tự với Om,2 hơn Op (d(Oj;Op)≥ d(Oj, Om,2)). Trong khi đó, Om,2 là đối
tƣợng medoid tƣơng tự xếp thứ 2 tới OJ trong số các medoid. Trong trƣờng hợp
này, ta thay thế Om bởi đối tƣợng medoid mới Op và Oj sẽ thuộc về cụm có đối
tƣợng đại diện là Om2. Vì vậy, giá trị hoán chuyển Cjmp đƣợc xác định nhƣ sau:
Cjmp = d(Oj, Om,2) - d(OJ, Om). Giá trị cjmp là không âm.

25


×