Tải bản đầy đủ (.pdf) (78 trang)

Nghiên cứu thuật toán phân cụm dữ liệu mờ và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.83 MB, 78 trang )

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG
KHOA CÔNG NGHỆ THÔNG TIN
-------------o0o------------

SOUKSAKHONE BOUTDYVONG

NGHIÊN CỨU THUẬT TOÁN PHÂN CỤM DỮ LIỆU
MỜ VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái nguyên, Năm 2022

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG
KHOA CÔNG NGHỆ THÔNG TIN
-------------o0o------------

SOUKSAKHONE BOUTDYVONG

NGHIÊN CỨU THUẬT TOÁN PHÂN CỤM DỮ LIỆU
MỜ VÀ ỨNG DỤNG

Chuyên ngành : Khoa học máy tính
Mã số : 8480101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học : TS. VŨ ĐỨC THÁI

Thái nguyên, Năm 2022

LỜI CẢM ƠN


Luận văn này được hồn thành trong khóa đào tạo thạc sỹ của trường Đại học Công
nghệ thông tin và truyền thông Thái Nguyên, dưới sự hướng dẫn khoa học của thầy TS.
Vũ Đức Thái;
Em xin chân thành bày tỏ lòng biết ơn sâu sắc tới Thầy hướng dẫn, người đã tạo
cho em một phương pháp nghiên cứu khoa học đúng đắn, tinh thần làm việc nghiêm túc;
thầy đã dành nhiều thời gian và công sức để trao đổi, thảo luận và hướng dẫn em giải
quyết các nội dung đề ra để đạt mục tiêu và đúng kế hoạch;
Em cũng xin bày tỏ lòng biết ơn sâu sắc tới Ban Giám hiệu, các cán bộ, nhân viên
của Trường ĐH Công nghệ Thông tin và Truyền thông Thái Nguyên, đã tạo điều kiện
tốt cho chúng em sinh hoạt học tập trong trường; cám ơn các thầy, cô giáo đã tận tình
giảng dạy và khích lệ, động viên em vượt qua những khó khăn trong học tập hồn thành
khóa học.
Em xin chân thành cảm ơn Phòng Đào tạo, Phòng KHCN&HTQT đã tạo mọi điều
kiện thuận lợi, hỗ trợ em trong suốt thời gian học tập tại trường;
Cuối cùng, em xin cảm ơn bạn bè, người thân và gia đình đã giúp đỡ, động viên,
ủng hộ em cả về vật chất và tinh thần để em có thể hồn thành tốt luận văn cũng như
khóa học của mình.

HỌC VIÊN

Souksakhone BOUTDYVONG

i

LỜI CAM ĐOAN

Tôi xin cam đoan rằng các kết quả trình bày trong luận văn này là hồn tồn trung

thực và khơng trùng lặp với các luận văn trước đây. Nguồn tài liệu sử dụng cho việc


hoàn thành luận văn là các nguồn tài liệu mở. Các thông tin, tài liệu trong luận văn đã

được ghi rõ nguồn gốc.

Thái Nguyên, Ngày tháng năm 2022

Tác giả luận văn

Souksakhone BOUTDYVONG

ii

MỤC LỤC

LỜI CẢM ƠN.................................................................................................................. i
LỜI CAM ĐOAN ........................................................................................................... ii
MỤC LỤC ..................................................................................................................... iii
DANH MỤC CÁC TỪ VIẾT TẮT.................................................................................v
DANH MỤC HÌNH ...................................................................................................... vi
DANH MỤC BẢNG .................................................................................................... vii
ĐẶT VẤN ĐỀ .................................................................................................................1
CHƯƠNG 1 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU VÀ LÝ THUYẾT TẬP MỜ 3
1.1. Một số kiến thức cơ sở .............................................................................................3
1.1.1 Tập mờ....................................................................................................................3
1.2. Phân cụm ..................................................................................................................6
1.3. Phương pháp giải bài toán tối ưu đa mục tiêu ..........................................................8
1.3.1. Phương pháp nhân tử Lagrange.............................................................................8
1.3.2 . Phương pháp thỏa dụng mờ................................................................................10
1.4. Kết luận...................................................................................................................11
CHƯƠNG 2 NGHIÊN CỨU MỘT SỐ THUẬT TOÁN PHÂN CỤM MỜ ................12

2.1. Phân cụm mờ (Fuzzy C-means – FCM) .................................................................12
2.2. Thuật toán phân cụm bán giám sát mờ chuẩn (SSFCM)........................................13
2.3. Phân cụm bán giám sát mờ an toàn ........................................................................18
2.3.1. Phân cụm bán giám sát mờ an toàn C-Means (Safe Semi-supervised Fuzzy c-
Means Clustering (S3FCM)) .........................................................................................18
2.3.2. Phương pháp phân cụm bán giám sát an tồn có trọng số độ tin cậy (Confidence-
weighted safe semi-supervised clustering) (CS3FCM) .................................................19
2.4. Phân cụm mờ viễn cảnh..........................................................................................21
2.4.1. Tập mờ viễn cảnh ................................................................................................21
2.4.2. Phân cụm mờ viễn cảnh.......................................................................................22
2.5. Thuật toán phân cụm bán giám sát mờ lai ghép .....................................................24
2.6. Thuật toán phân cụm bán giám sát mờ có đặc trưng khơng gian...........................29
2.7. Thuật tốn phân cụm bán giám sát mờ SSFC-SC cho ảnh nha khoa .....................36
2.7.1. Mơ hình hóa phân đoạn ảnh nha khoa.................................................................36
2.7.3. Nhận xét...............................................................................................................41
2.8. Kết luận chương .....................................................................................................42
CHƯƠNG 3 THỰC NGHIỆM VÀ ĐÁNH GIÁ MỘT SỐ THUẬT TOÁN PHÂN CỤM
.......................................................................................................................................43
3.1. Các điều kiện thực nghiệm .....................................................................................43

iii

3.2. Kết quả thực nghiệm trên bộ dữ liệu UCI ..............................................................44
3.2.1. Đánh giá theo độ chính xác phân cụm ................................................................44
3.2.2. Đánh giá theo chất lượng cụm.............................................................................45
3.2.3. Đánh giá theo thời gian tính tốn ........................................................................46
3.2.4. Nhận xét...............................................................................................................46
3.3. Kết quả thực nghiệm trên bộ dữ liệu ảnh hoa ........................................................47
3.4. Kết luận chương .....................................................................................................48
KẾT LUẬN ...................................................................................................................49

1. Kết quả đạt được........................................................................................................49
2. Hạn chế ......................................................................................................................49
3. Hướng phát triển........................................................................................................49
TÀI LIỆU THAM KHẢO .............................................................................................51
PHỤ LỤC MÃ NGUỒN ...............................................................................................53

iv

DANH MỤC CÁC TỪ VIẾT TẮT

CSDL Cơ sở dữ liệu

MF Hàm liên thuộc của phần tử x trong A
FCM Fuzzy C-means

SSFCM Thuật toán phân cụm bán giám sát mờ chuẩn
eSFCM Thuật toán phân cụm bán giám sát mờ theo quy tắc entropy
SSFCMBP Thuật toán phân cụm bán giám sát mờ của Bouchachia và Pedrycz
S3FCM Phân cụm bán giám sát mờ an toàn C-Means
CS3FCM Phương pháp phân cụm bán giám sát an tồn có trọng số độ tin
FC-PFS Thuật toán phân cụm mờ viễn cảnh
CA Độ chính xác phân cụm
DB Chỉ số chất lượng cụm Davies–Bouldin
UCI Bộ dữ liệu học máy UCI

v

DANH MỤC HÌNH
Hình 1.1. Một số dạng hàm thuộc cơ bản........................................................................3
Hình 2.1. Lược đồ tổng quan của phương pháp lai ghép ..............................................25

Hình 2.2. Ảnh đầu vào cỡ 9x9 .......................................................................................27
Hình 2.3. Ảnh nhị phân của ảnh đầu vào khi áp dụng phương pháp Otsu....................27
Hình 2.4. Lược đồ hoạt động của thuật tốn mới ..........................................................30
Hình 2.5. Cách tính LBP ...............................................................................................32
Hình 2.6. Cửa sổ đơng nhất thích ứng ...........................................................................37
Hình 3.1. Kết quả phân cụm ảnh 1: (a) ảnh gốc; (b): CS3FCM; (c): FCPFS ...............47
Hình 3.2. Kết quả phân cụm ảnh 2: (a) ảnh gốc; (b): CS3FCM; (c): FCPFS ...............47
Hình 3.3. Kết quả phân cụm ảnh 3: (a) ảnh gốc; (b): CS3FCM; (c): FCPFS ...............48

vi

DANH MỤC BẢNG
Bảng 2.1. Ma trận độ thuộc cuối cùng của FCM ..........................................................35
Bảng 2.2. Xác định u1 ....................................................................................................35
Bảng 2.3. Các định các đặc trưng nha khoa ..................................................................35
Bảng 2.4. Xác định u2 ....................................................................................................36
Bảng 2.5. Xác định ma trận bổ trợ ................................................................................36
Bảng 3.1. Dữ liệu UCI dùng cho thực nghiệm..............................................................44
Bảng 3.2. Giá trị độ chính xác phân cụm ......................................................................44
Bảng 3.3. Giá trị chất lượng phân cụm theo độ đo DB .................................................45
Bảng 3.4. Thời gian tính tốn ........................................................................................46

vii

ĐẶT VẤN ĐỀ

Ngày nay, khai phá dữ liệu (Datamining) đã trở thành một trong những xu
hướng nghiên cứu phổ biến trong lĩnh vực học máy và công nghệ tri thức. Nhiều
thành tựu của Datamining đã được áp dụng trong thực tế nhận dạng ảnh viễn thám,
ảnh nha khoa, tim, phổi. Datamining có nhiều hướng quan trọng và một trong hướng

đó là phân cụm dữ liệu (Data Clustering). Phân cụm dữ liệu là quá trình phân chia tập
dữ liệu ban đầu thành các cụm dữ liệu sao cho các phần tử trong cụm “tương tự’’
(similer) với nhau và các phần tử trong các cụm khác nhau sẽ “phi tương tự’’
(dissimiler) với nhau. Cho đến nay nhiều phương pháp, thuật toán phát triển trong
nghiên cứu phân cụm như: nghiên cứu các độ đo, độ đo mờ, bán kính cụm… [13].
Trong đó, nghiên cứu các vấn đề về phân cụm bán giám sát kết hợp với machine
learning là một nhánh nghiên cứu ứng dụng nhiều trong thực tiễn. Nhóm tác giả
Haitao Gan, Yingle Fan , Zhizeng Luo , Rui Huang , Zhi Yang [10] đề xuất phân
nhóm bán giám sát an tồn có trọng số tin cậy trong đó kiến thức trước đó được đưa
ra dưới dạng nhãn lớp. Trong một số ứng dụng, một số mẫu có thể bị người dùng dán
nhãn sai. Do đó, ý tưởng cơ bản là các mẫu khác nhau nên có tác động hoặc tâm sự
khác nhau đối với nhóm. Trong thuật tốn sử dụng phân nhóm không được giám sát
để thực hiện phân vùng tập dữ liệu và tính tốn ma trận nhầm lẫn chuẩn hóa được sử
dụng để ước tính độ tin cậy an tồn của mỗi mẫu được gắn nhãn dựa trên giả định
rằng một mẫu được phân nhóm chính xác phải có độ tin cậy cao. Nhóm Haitao Gan,
Yingle Fan, Zhizeng Luo, Qizhong Zhang [11] phát triển phân nhóm bán giám sát
an tồn nhất quán đồng nhất cục bộ trong đó nhãn lớp được đưa ra như kiến thức
trước. Ý tưởng cơ bản là các dự đốn của một mẫu và mẫu khơng dán nhãn đồng nhất
gần nhất của nó phải giống nhau khi mẫu được dán nhãn có rủi ro. Thuật tốn khai
thác tích cực các mẫu được gắn nhãn bằng cách hạn chế các kết quả đầu ra tương ứng
để là các nhãn lớp đã cho khi các nhãn được dán nhãn có thể hữu ích. Theo nghĩa
này, các dự đốn của các mẫu được gắn nhãn trong thuật toán là sự cân bằng giữa các
nhãn lớp đã cho và các dự đoán của địa phương láng giềng đồng nhất. Để xác minh
tính hiệu quả của thuật tốn, nhóm nghiên cứu đã tiến hành một loạt thử nghiệm trên
một số bộ dữ liệu UCI. Kết quả cho thấy thuật toán hoạt động tốt hơn thuật tốn
khơng được giám sát tương ứng và phương pháp phân cụm bán giám sát ngay cả khi
tỷ lệ dán nhãn sai lên tới 30% [11].

Hiện nay, các phương pháp phân cụm đã và đang được phát triển và áp dụng
nhiều trong các lĩnh vực khác nhau, bao gồm: nhận dạng, phân tích dữ liệu, nghiên

cứu thị trường, mơ hình hệ thống, xử lý ảnh,…Thơng thường, mỗi phương pháp phân

1

cụm dữ liệu phân một tập dữ liệu ban đầu thành các cụm dữ liệu có tính tự nhiên và
mỗi đối tượng dữ liệu chỉ thuộc về một cụm dữ liệu, phương pháp này chỉ phù hợp
với việc khám phá ra các cụm có mật độ cao và rời nhau. Tuy nhiên, trong thực tế,
các cụm dữ liệu lại có thể chồng lên nhau, nghĩa là một số các đối tượng dữ liệu thuộc
về nhiều các cụm khác nhau, người ta đã áp dụng lý thuyết về tập mờ trong phân cụm
dữ liệu để giải quyết cho trường hợp này, cách thức kết hợp này được gọi là phân
cụm mờ. Chính vì lý do trên em lựa chọn chủ đề “Nghiên cứu thuật toán phân cụm
dữ liệu mờ và ứng dụng’’. Trong đó nghiên cứu các lý thuyết, các kết quả nghiên cứu
trước đó và vận dụng cài đặt cho một bài toán cụ thể.

2

CHƯƠNG 1
TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU VÀ LÝ THUYẾT TẬP MỜ

1.1. Một số kiến thức cơ sở

1.1.1 Tập mờ

Một ánh xạ f : X Y là một quy tắc cho mỗi phần tử x X tương ứng với

một phần tử y Y sao cho y  f (x) .

Tập mờ [3] được coi là phần mở rộng của tập kinh điển. Nếu X là một không

gian nền (một tập nền) và những phần tử của nó được biểu thị bằng x , thì một tập mờ


A trong X được xác định bởi một cặp các giá trị:

A = {x,A  x| x  X },0  A  x  1 (1.1)

Trong đó A  x được gọi là hàm liên thuộc của x trong A viết tắt là MF. Nó

khơng cịn là hàm hai giá trị như đối với tập kinh điển nữa, mà là một hàm với một
tập các giá trị hay còn gọi là một ánh xạ. Tức là, hàm liên thuộc ánh xạ mỗi một phần
tử của X tới một giá trị liên thuộc trong khoảng [0,1], thỏa mãn:

A(x)  0, SupxX A(x)  1,x  X .

Hình 1.1. Một số dạng hàm thuộc cơ bản
3

Như vậy, kiến trúc của một tập mờ phụ thuộc vào hai yếu tố: không gian nền và

hàm liên thuộc phù hợp. Sự đặc biệt của hàm thuộc là nó mang tính chủ quan với ý

nghĩa là với cùng định nghĩa một khái niệm nhưng với mỗi người khác nhau thì hàm

thuộc có thể được xây dựng khác nhau.

Các hàm liên thuộc được xây dựng từ những hàm cơ bản như: Kết nối hành vi,

hàm bậc nhất, hình thang, hình tam giác, hàm phân bố Gaussian, đường cong sigma,

đường cong đa thức bậc hai và bậc ba. Hình 1.1 ở trên mơ tả một vài dạng hàm thuộc


cơ bản.

Có rất nhiều sự lựa chọn rộng rãi để chúng ta có thể lựa chọn hàm liên thuộc

phù hợp. Ngoài 11 hàm liên thuộc được xây dựng sẵn, bộ công cụ logic mờ trong

Matlab cũng cho phép chúng ta tạo hàm liên thuộc của chính mình nếu chúng ta nhận

thấy các hàm liên thuộc được định nghĩa sẵn là chưa đủ. Nhưng với những hàm liên

thuộc ngoại lai này, khơng có nghĩa là chắc chắn sẽ đưa ra được một hệ thống đầu ra

mờ hồn hảo.

Để tính lực lượng của một tập mờ, tuỳ thuộc vào không gian nền và hàm liên

thuộc là rời rạc hay liên tục mà ta có các cách tính như sau:

 xiX A  xi  Nếu X là tập hợp các đối tượng rời rạc

 (1.2)
A  Nếu X là không gian liên tục.

Ax / x

X

a) Các phép toán trên tập mờ

Tương tự như các tập kinh điển, những phép toán cơ bản trên tập mờ là phép


hợp, phép giao và phép phủ định cũng được định nghĩa thông qua hàm liên thuộc.

Phép giao: Điểm giao nhau của hai tập mờ A và B được xác định tổng quát

bởi một ánh xạ nhị phân T , tập hợp của hai hàm liên thuộc sẽ là như sau:

AB  xT A x,A x (1.3)

Điểm giao nhau của những phép toán mờ thường được coi như những phép

toán tiêu chuẩn T (tiêu chuẩn tam giác), ta có những yêu cầu cơ bản sau:

Toán hạng chuẩn T là một ánh xạ bậc hai T () thoả mãn:

Đường biên: T(0,0)  0;T(a,1)  T(1,a)  a (1.4)

Đơn điệu: T(a,b)  T(c, d) nếu a  c và b  d (1.5)

Giao hoán: T(a,b)  T(b, a) (1.6)

Kết hợp: T(a,T(b,c))  T(T(a,b),c) (1.7)

Yêu cầu đầu tiên tác động một cách khái quát tới những tập xoắn. Yêu cầu thứ

hai làm giảm những giá trị liên thuộc trong A hoặc B , không thể đưa ra kết quả làm

4

tăng giá trị liên thuộc ở điểm giao A, B . Yêu cầu thứ ba chỉ ra rằng thứ tự của tốn


hạng bên trong tập mờ là khơng khác nhau. Cuối cùng, yêu cầu thứ tư cho phép chúng

ta đưa ra điểm giao nhau của bất kỳ phần tử nào của tập ở bên trong thứ tự của từng

cặp.

Trên cơ sở đó, người ta thường sử dụng một số phép toán giao thoả mãn chuẩn

T-norm như sau:

Min (Zadeh 1965) T(x, y)  min(x, y) (1.8)

Dạng tích: T(x, y)  xy (1.9)

Chuẩn Lukasiewicz: T(x, y)  max{x  y 1,0} (1.10)

min( x, y ) x  y  1
Min nilpotent: T  x, y (1.11)
 0 x  y 1

min( x, y ) max( x, y )  1
T chuẩn yếu nhất: Z  x, y (1.12)
 0 max( x, y ) 1

Phép hợp: Giống như điểm giao nhau mờ, phép toán kết hợp mờ được xác định

khái quát bằng một ánh xạ nhị phân S

AB  xS A  x,B x (1.13)


Những toán hạng kết hợp mờ này thường được coi như những tốn hạng khơng

tiêu chuẩn T (hoặc tiêu chuẩn S), chúng phải thoả mãn những yêu cầu cơ bản sau:

Tốn hạng khơng tiêu chuẩn T (hoặc tiêu chuẩn S ) là một ánh xạ bậc hai S()

thoả mãn:

Đường biên: S(1,1) 1; S(a,0)  S(0,a)  a (1.14)

Đơn điệu: S(a,b)  S(c, d) nếu a  c và b  d (1.15)

Giao hoán: S(a,b)  S(b, a) (1.16)

Kết hợp: S(a, S(b,c))  S(S(a,b),c) (1.17)

Trên cơ sở đó, người ta thường sử dụng một số phép toán giao thoả mãn chuẩn
S như sau:

Max (Zadeh 1965): S(x, y)  max(x, y) (1.18)

Dạng tích: S(x, y)  x  y  xy (1.19)

Chuẩn Lukasiewicz: S(x, y)  min{x  y,1} (1.20)

5

max( x,y ) x  y  1
Max nilpotent (Fodor 1993): S  x,y (1.21)

 0 x  y 1

max( x, y ) min( x, y )  0
S chuẩn yếu nhất: Z  x, y (1.22)
 0 min( x, y ) 0

Phép bù mờ: Bù mờ là một trong các phép toán logic cơ bản. Để suy rộng chúng

ta cần tới toán tử N gọi là toán tử phủ định mờ. Toán tử này thoả mãn điều kiện sau:

Hàm N :[0,1] [0,1] không tăng được gọi là hàm phủ định nếu thoả mãn các

điều kiện sau:

Điều kiện biên: N(0) 1 và N(1)  0

Đơn điệu: N(A)  N(B) nếu A  B

Nếu N(N(A))  A thì phép phủ định này gọi là phủ định chặt.

Trên cơ sở đó, người ta thường sử dụng một số phép toán phủ định như sau:

Zadeh: N(x) 1 x (1.23)

Sugeno: NS  x  1  x (1.24)
(1.25)
1  sx

Yager: w 1/ w


Nw (x)  (1 x )

1.2. Phân cụm
Phân cụm dữ liệu [7], [1], là q trình nhóm một tập các đối tượng tương tự

nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là
tương đồng, còn các đối tượng thuộc các cụm khác nhau sẽ ít tương đồng.

Phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu nhằm tìm kiếm, phát
hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn quan trọng trong tập dữ liệu lớn từ đó
cung cấp thơng tin hữu ích cho việc ra quyết định.

Ngoài ra, phân cụm dữ liệu cịn có thể được sử dụng như một bước tiền xử lý
cho các thuật toán khai phá dữ liệu khác như là phân loại và mô tả đặc điểm, có tác
dụng trong việc phát hiện ra các cụm. Phân cụm dữ liệu đang là vấn đề mở và khó vì
người ta cần phải giải quyết nhiều vấn đề cơ bản về dữ liệu để nó phù hợp với nhiều
dạng dữ liệu khác nhau.

Mục tiêu của phân cụm dữ liệu là xác định được bản chất nhóm trong tập dữ
liệu chưa có nhãn. Trong thực tế, khơng có tiêu chuẩn tuyệt đối “tốt” được đưa ra mà
không phụ thuộc vào kết quả phân cụm. Vì vậy, phân cụm địi hỏi người sử dụng phải

6

cung cấp tiêu chuẩn phân cụm một cách rõ ràng theo cách mà kết quả phân cụm sẽ
đáp ứng được yêu cầu của bài toán đặt ra.

Hiện nay chưa có một phương pháp phân cụm tổng quát nào có thể giải quyết
trọn vẹn cho tất cả các dạng cấu trúc dữ liệu. Hơn nữa, các phương pháp phân cụm
cần có một cách thức biểu diễn cấu trúc của dữ liệu và với mỗi cách thức biểu khác

nhau sẽ có tương ứng một thuật tốn phân cụm phù hợp.

Phân cụm là một thách thức trong lĩnh vực nghiên cứu vì những ứng dụng tiềm
năng của chúng được đưa ra ngay trong chính những yêu cầu đặc biệt của chúng. Sau
đây là những yêu cầu cơ bản của phân cụm trong khai phá dữ liệu:

Có khả năng mở rộng: Nhiều thuật tốn phân cụm dữ liệu làm việc tốt với những
tập dữ liệu nhỏ chứa ít hơn 200 đối tượng, tuy nhiên một CSDL lớn có thể chứa tới
hàng triệu đối tượng. Việc phân cụm với một tập dữ liệu lớn có thể làm ảnh hưởng
tới kết quả. Vậy làm thế nào để chúng ta phát triển các thuật tốn phân cụm có khả
năng mở rộng cao đối với các CSDL lớn?

Khả năng thích nghi với các kiểu thuộc tính khác nhau: Nhiều thuật tốn được
thiết kế cho việc phân cụm dữ liệu có kiểu số. Tuy nhiên, nhiều ứng dụng có thể địi
hỏi việc phân cụm với nhiều kiểu dữ liệu khác nhau, như kiểu nhị phân, kiểu định
danh - khơng thứ tự, và dữ liệu có thứ tự hay dạng hỗn hợp của những kiểu dữ liệu
này.

Khám phá các cụm với hình dạng bất kỳ: Nhiều thuật tốn phân cụm xác định
các cụm dựa trên các phép đo khoảng cách Euclidean và khoảng cách Manhattan.
Các thuật toán dựa trên các phép đo như vậy hướng tới việc tìm kiếm các cụm hình
cầu với mật độ và kích cỡ tương tự nhau. Tuy nhiên, một cụm có thể có bất cứ một
hình dạng nào. Do đó, việc phát triển các thuật tốn có thể khám phá ra các cụm có
hình dạng bất kỳ là một việc làm quan trọng.

Tối thiểu lượng tri thức cần cho xác định các tham số đầu vào: Nhiều thuật toán
phân cụm yêu cầu người dùng đưa vào những tham số nhất định trong phân tích phân
cụm chẳng hạn như số lượng các cụm mong muốn, số bước lặp tối đa cần thực hiện.
Kết quả của phân cụm thường bị ảnh hưởng nhiều bởi các tham số đầu vào. Trong
một số trường hợp, các tham số rất khó để xác định, nhất là với các tập dữ liệu có

kích thước lớn. Điều này không những gây trở ngại cho người dùng mà cịn khó có
thể điều chỉnh được chất lượng của phân cụm.

Khả năng thích nghi với dữ liệu nhiễu: Hầu hết những CSDL thực đều chứa
đựng dữ liệu ngoại lai, dữ liệu lỗi, dữ liệu chưa biết hoặc dữ liệu sai. Một số thuật
toán phân cụm nhạy cảm với dữ liệu như vậy và có thể dẫn đến chất lượng phân cụm
thấp.

7

Ít nhạy cảm với thứ tự của các dữ liệu vào: Một số thuật toán phân cụm nhạy
cảm với thứ tự của dữ liệu vào, ví dụ như với cùng một tập dữ liệu, khi được đưa ra
với các thứ tự khác nhau thì với cùng một thuật tốn có thể sinh ra các cụm rất khác
nhau. Do đó, việc quan trọng là phát triển các thuật tốn mà ít nhạy cảm với thứ tự
vào của dữ liệu.

Số chiều lớn: Một CSDL hoặc một kho dữ liệu có thể chứa một số chiều hoặc
một số các thuộc tính. Nhiều thuật toán phân cụm áp dụng tốt cho dữ liệu với số chiều
thấp, bao gồm chỉ từ hai đến 3 chiều. Người ta đánh giá việc phân cụm là có chất
lượng tốt nếu nó áp dụng được cho dữ liệu có từ 3 chiều trở lên. Một thách thức đối
với các thuật toán phân cụm là các đối tượng dữ liệu cần phân cụm có số chiều lớn,
đặc biệt trong trường hợp dữ liệu rất thưa và có độ nghiêng lớn.

Phân cụm ràng buộc: Nhiều ứng dụng thực tế có thể cần thực hiện phân cụm
dưới các loại ràng buộc khác nhau. Nhiệm vụ đặt ra là đi tìm những nhóm dữ liệu có
trạng thái phân cụm tốt và thỏa mãn các ràng buộc.

Dễ hiểu và dễ sử dụng: Người sử dụng có thể chờ đợi những kết quả phân cụm
dễ hiểu, dễ lý giải và dễ sử dụng. Nghĩa là, nhu cầu phân cụm cần được giải thích ý
nghĩa và ứng dụng rõ ràng. Với những yêu cầu đáng lưu ý này, các nghiên cứu về

phân tích phân cụm diễn ra như sau: Đầu tiên, ta nghiên cứu các kiểu dữ liệu khác và
cách chúng có thể gây ảnh hưởng tới các phương pháp phân cụm. Thứ hai, ta đưa ra
một cách phân loại chung trong các phương pháp phân cụm. Sau đó, ta nghiên cứu
chi tiết mỗi phương pháp phân cụm, bao gồm các phương pháp phân hoạch, phân cấp,
dựa trên mật độ,... Ta cũng khảo sát sự phân cụm trong không gian đa chiều và các
biến thể của các phương pháp khác.

Phân cụm dữ liệu được chia thành 2 nhóm cơ bản: Phân cụm cứng (phân cụm
chính xác) và phân cụm mờ. Trong phân cụm cứng, mỗi điểm dữ liệu chỉ thuộc vào
một cụm duy nhất nào đó. Cịn trong phân cụm mờ, một điểm dữ liệu có thể thuộc
vào nhiều cụm khác nhau. Trong trường hợp này, khái niệm độ thuộc được sử dụng
và được hiểu là xác suất để một điểm thuộc vào một cụm nào đó.
1.3. Phương pháp giải bài tốn tối ưu đa mục tiêu
1.3.1. Phương pháp nhân tử Lagrange

Phương pháp nhân tử Lagrange[4] là một phương pháp để tìm cực tiểu hoặc
cực đại địa phương của một hàm số chịu các điều kiện giới hạn. Đây cũng là một
phương pháp khá hiệu quá trong những bài tốn cực trị có điều kiện ràng buộc ngồi
ra cịn có thể dùng phương pháp này để tìm điều kiện xảy ra dấu bằng của bất đẳng
thức.

8

Trong đó cực trị có điều kiện của hàm hai biến z = f(x,y) được hiểu là cực trị

của hàm này với điều kiện là các biến x, y phải thỏa mãn ràng buộc dưới dạng phương

trình (x, y)  0 . Để tìm cực trị có điều kiện của hàm z = f(x,y) theo phương pháp

nhân tử Lagrange khi ràng buộc (x, y)  0 được xác định, một hàm bổ trợ là hàm


Lagrange được thiết lập: (1.26)

L x, y,  f  x, y   x, y

Trong đó  là một nhân tử hằng chưa biết gọi là nhân tử Lagrange. Điều kiện

cần để có cực trị là hệ các phương trình sau có nghiệm:

'  x , y ,   0

Lx

'  x , y ,   0 (1.27)

Ly

'  x , y ,   0

L

Vấn đề tồn tại và đặc tính của cực trị có điều kiện được giải bằng cách xét dấu

vi phân cấp 2 của hàm Lagrange tại các điểm P(x0 , y0 ) (gọi là điểm dừng của hàm

L). Đạo hàm cấp 2 của hàm L được xác định bởi:

2 '' 2 '' ''
d L  Lxxdx  2Lxydxdy  Lyydy2 (1.28)


Trong đó dx, dy thỏa mãn ràng buộc biểu thị bằng phương trình:

x' dx y' dy 0, dx2  dy2 0 (1.29)

Các bước thực hiện của phương pháp nhân tử Lagrange được mơ tả như sau:

1. Phát biểu bài tốn dưới dạng mơ hình tốn học: Tìm cực đại (hoặc cực tiểu)

của hàm z = f(x,y) thỏa mãn ràng buộc (x, y)  0

2. Thiết lập hàm Lagrange như trong công thức (1.26)

3. Tìm điểm dừng từ hệ phương trình (1.27)
4. Xét dấu d2L tại điểm P(x0, y0) tìm được ở bước 3.

Nếu d2L < 0 thì P(x0, y0) là cực đại

Nếu d2L > 0 thì P(x0, y0) là cực tiểu

Từ các bước thực hiện trên, phương pháp nhân tử Lagrange có thể được áp

dụng để tìm cực trị cho các hàm nhiều biến.

9

1.3.2 . Phương pháp thỏa dụng mờ
Phương pháp thỏa dụng mờ đã được áp dụng cho nhiều bài toán quy hoạch

như: quy hoạch tuyến tính [4], quy hoạch tuyến tính ngẫu nhiên [5] và quy hoạch hỗn


hợp mờ-ngẫu nhiên [5]. Trong những bài toán này, hàm mục tiêu của bài toán là các

hàm đa mục tiêu được xem xét.

Ý tưởng cơ bản của phương pháp thỏa dụng mờ tương tác là: Trước hết, tách

từng phần của hàm đa mục tiêu và giải quyết những bài tốn riêng biệt bằng một

phương pháp thích hợp. Sau đó, dựa trên các nghiệm của bài tốn, xây dựng các hàm

thoả dụng mờ cho mỗi bài toán con. Cuối cùng, tổ hợp các hàm rời rạc này thành một

hàm thỏa dụng mờ kết hợp và giải bài toán ban đầu bằng một lược đồ lặp.

Trong trường hợp bài tốn là bài tốn quy hoạch tuyến tính, hàm mục tiêu có

dạng một hàm đa mục tiêu như sau:

p (1.30)

min zi  x,
i1

Với x  Rn thỏa mãn

Ax b, ARmn , bRm (1.31)

Định nghĩa 1 [5]: (Hàm thỏa dụng mờ).

Trong một miền chấp nhận được X, đối với mỗi hàm mục tiêu zi , i = 1,...p , hàm


thỏa dụng mờ được định nghĩa như sau:

i  zi  zi  zi , i 1,..., p, (1.32)

zi  zi

Trong đó: zi , zi , i  1,..., p là giá trị lớn nhất và nhỏ nhất của xi trong X tương ứng.
Định nghĩa 2 [5]: (Nghiệm tối ưu Pareto).

Trong một miền chấp nhận được X, một điểm x*X được gọi là nghiệm tối ưu

Pareto nếu và chỉ nếu không tồn tại một điểm x X nào khác mà i (x) i (x*) với

mọi i =1,..., p và i  x   j  x*  với ít nhất một j1,..., p .

Phương pháp thỏa dụng mờ [5] tương tác bao gồm 2 phần chính là phần khởi
tạo và phần lặp như sau:

Khởi tạo:
Giải các bài toán con dưới đây:
min zi(x), i=1,...p, (1.33)
Với điều kiện thỏa mãn ràng buộc trong công thức (1.31). Giả sử các nghiệm
tối ưu tìm được tương ứng của các bài toán con này là x1,..., x p

10

- Tính tốn các giá trị của các hàm mục tiêu zi ,i = 1,...p tại p nghiệm tìm được
và lập bảng pay-off. Sau đó, xác định cận trên và cận dưới của mỗi hàm mục tiêu zi .
Ký hiệu:


zi maxzi  xi , j  1,..., p; zi minzi  xi , j  1,..., p,i  1,..., p. (1.34)

- Xác định các hàm thỏa dụng mờ cho mỗi mục tiêu của bài tốn zi, i=1,...p
cơng thức:

  zi  zi  zi ,i 1,...p (1.35)

zi  zi

- Đặt Sp x1,...,xp, r 1,air  zi .

Bước lặp:
Bước 1:

- Xây dựng một hàm thỏa dụng mờ kết hợp:

u b11  z1  b22  z2   ... bpp  zp . (1.36)

Với các tham số b1,...,bp được chọn ngẫu nhiên thỏa mãn:

b1 b2 b3 1, 0  b1 ,b2 ,b3 1 (1.37)

- Giải bài toán (1.36)-(1.37) với m ràng buộc (1.31) và p ràng buộc nữa như

trong công thức (1.38) dưới đây, chúng ta có được nghiệm tối ưu x( r ).

zi  x  zi ,i  1,..., p. (1.38)

Bước 2:


- Nếu min mini  zi ,i  1,..., p với  là một ngưỡng nào đó thì xr

khơng chấp nhận. Ngược lại, nếu xr Sp thì đưa xr vào tập Sp.

- Trong trường hợp cần mở rộng Sp thì r = r + 1 và kiểm tra điều kiện:

Nếu r > L1 hoặc sau L2 lần lặp liên tiếp mà khơng mở Sp (L1, L2 là giá trị tùy

chọn) thì air  zi ,i 1,..., p và xác định chỉ số h ngẫu nhiên trong

1,2,..., p, ahr zh ,zh  thì quay lại Bước 1.



- Trong trường hợp không cần mở rộng tập S p thì chuyển sang Bước 3.
Bước 3: Kết thúc.

1.4. Kết luận
Trong chương này, luận văn đã trình bày lý thuyết về: tập mờ, phân cụm mờ,

phương pháp giải tối ưu. Một số phương pháp, cơng thức tốn học cần thiết để sử

dụng khi phân tích các thuật tốn. Các kiến thức này là nền tảng để giải quyết các bài

toán mà luận văn hướng tới trong các chương tiếp theo.

11



×