Tải bản đầy đủ (.pdf) (92 trang)

Phân cụm mờ với đại số gia tử và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.59 MB, 92 trang )

TÓM TẮT LUẬN VĂN THẠC SĨ
Đề tài: Phân cụm mờ với Đại số gia tử và ứng dụng.
Tác giả luận văn: Đinh Khắc Đông – Khóa: 2009.
Người hướng dẫn: PGS. TS. Trần Đình Khang.
Nội dung tóm tắt:
a) Lý do chọn đề tài
Các phương pháp phân cụm từ khi ra đời đã được nghiên cứu rộng rãi và thu được nhiều
thành tựu trong rất nhiều lĩnh vực như bài toán ra quyết định, học máy, khai phá dữ liệu.
Tuy vậy, quá trình nghiên cứu chỉ ra nhiều hạn chế của thuật toán ảnh hưởng đến chất lượng
phân cụm.
Bên cạnh đó, những nghiên cứu về cấu trúc tự nhiên của miền ngôn ngữ của nhóm tác
giả mà đứng đầu là GS. Nguyễn Cát Hồ với những đề xuất về hàm độ đo tính mờ và hàm
định lượng ngữ nghĩa đã trở nên đủ mạnh để cung cấp một metric cho bài toán phân cụm
mờ và hứa hẹn mang lại những cải tiến cho thuật toán FCM truyền thống.
Dưới sự tìm tòi nghiên cứu của tác giả và tính khả thi của đề tài dưới sự hướng dẫn của
PGS. TS. Trần Đình Khang – Viện Công nghệ thông tin và Truyền thông, Đại học Bách
Khoa Hà Nội, tôi quyết định nghiên cứu vấn đề “Phân cụm mờ với Đại số gia tử và ứng
dụng” trong luận văn Cao học này.
b) Mục đích nghiên cứu, đối tượng và phạm vi nghiên cứu
Trong số hơn 60.000 nghiên cứu về bài toán phân cụm, lớp thuật toán được chú ý hơn
cả là phân cụm mờ cho phép một dữ liệu bất kỳ thuộc vào nhiều cụm với những độ thuộc
tương ứng khác nhau. Tuy vậy, các nghiên cứu sau đó chỉ ra những khó khăn gặp phải khi
áp dụng thuật toán phân cụm mờ - Fuzzy C-Means trong các bài toán thực tế. Từ những
phân tích về hạn chế của FCM truyền thống, luận văn đề xuất hướng cải tiến bằng cách sử
dụng cấu trúc ĐSGT. Trong khuôn khổ luận văn Cao học này, lớp ĐSGT được nghiên cứu
là ĐSGT đối xứng và tuyến tính.
c) Các nội dung chính và đóng góp mới
Sau khi nghiên cứu về thuật toán FCM truyền thống và phân tích các hạn chế, luận văn
đề xuất hướng cải tiến bằng cách sử dụng cấu trúc ngôn ngữ của ĐSGT. Với phương pháp
này, luận văn có những đóng góp mới như sau:
• Đầu tiên, cấu trúc ngôn ngữ của biến chân lý được sử dụng để thay đổi khoảng cách


giữa các dữ liệu đến tâm cụm. Cụ thể là độ đo tính mờ của các giá trị ngôn ngữ trong


cấu trúc ĐSGT đóng vai trò là các trọng số khi tính toán khoảng cách giữa dữ liệu và
các tâm cụm tương ứng. Do đó ảnh hưởng của các dữ liệu đến quá trình cập nhật tâm
cụm trở nên rất đa dạng, phụ thuộc vào các tham số của ĐSGT.
• Đóng góp thứ hai của luận văn là trong quá trình cập nhật tâm cụm, chỉ có những
điểm có độ thuộc lớn hơn hay bằng phần tử trung hòa của cấu trúc ĐSGT mới được
coi là thuộc vào cụm và được dùng quá trình tính toán tâm cụm mới. Do đó, khi dữ
liệu có nhiễu hay các điểm ngoại lai thì ảnh hưởng đến tâm cụm được giảm thiểu.
• Cuối cùng, các tham số của ĐSGT được sử dụng làm tham số huấn luyện trong phương
pháp học có giám sát để thu được kết quả phân cụm tốt hơn.
d) Phương pháp nghiên cứu
Đầu tiên, thuật toán Fuzzy C-means truyền thống được nghiên cứu để tìm ra những vấn
đề gặp phải về mặt lý thuyết cũng như triển khai. Sau đó, cấu trúc ngôn ngữ của biến chân
lý được nghiên cứu trên ĐSGT tuyến tính và đối xứng. Ảnh hưởng của độ đo tính mờ của
các gia tử tác động lên độ đo tính mờ của các giá trị ngôn ngữ được xem xét thông qua hàm
độ đo tính mờ và ánh xạ định lượng ngữ nghĩa. Từ đó đưa ra đề xuất cải tiến thuật toán
FCM để khắc phục các nhược điểm.
Sau khi đưa ra thuật toán cải tiến: Phân cụm mờ với Đại số gia tử, các mệnh đề về tính
duy nhất của trọng số gán cho các mẫu và mệnh đề về tính tổng quát của thuật toán được
trình bày, khẳng định tính giá trị về mặt lý thuyết của thuật toán.
Cuối cùng, thuật toán Phân cụm mờ với Đại số gia tử được thử nghiệm trên bài toán
Phân cụm với dữ liệu nhân tạo và Phân cụm với dữ liệu thực đa chiều để khẳng định tính
thực tiễn của thuật toán khi áp dụng trong các bài toán thực tế.
e) Kết luận
Luận văn đã tìm hiểu thuật toán FCM để tìm ra những hạn chế khi áp dụng trong các
bài toán phân cụm. Ngoài ra, với những nghiên cứu về ĐSGT đối xứng và tuyến tính, luận
văn đề xuất thuật toán cải tiến FCM bằng cách gán trọng số cho mỗi mẫu trong không gian
đầu vào. Các trọng số này được xây dựng trên khoảng cách từ các mẫu đến các tâm cụm.

Ngoài ra, phần tử trung hòa trong cấu trúc ĐSGT được dùng làm ngưỡng trong quá trình
cập nhật tâm cụm. Với tiếp cận này, ta có thể thu được các kết quả tốt hơn nhờ quá trình tối
ưu hóa trên các tham số của ĐSGT. Luận văn cũng chỉ ra thuật toán đề xuất là tổng quát
của thuật toán FCM truyền thống trong trường hợp đặc biệt. Một số ứng dụng thử nghiệm
đã cho thấy khả năng ứng dụng của thuật toán cải tiến.
2


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
————————

Đinh Khắc Đông

PHÂN CỤM MỜ VỚI ĐẠI SỐ GIA TỬ
VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ KHOA HỌC
CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS. Trần Đình Khang

Hà Nội - Năm 2011


Lời cảm ơn

Tôi xin gửi lời cảm ơn sâu sắc tới thầy giáo, PGS. TS. Trần Đình Khang,
hiện đang là Phó viện trưởng Viện Công nghệ thông tin và Truyền thông, Đại

học Bách Khoa Hà Nội. Dưới sự hướng dẫn nghiêm khắc và phong cách nghiên
cứu khoa học nghiêm túc của thầy, tôi đã trưởng thành hơn rất nhiều trong
quá trình làm luận văn này.
Tôi xin chân thành cảm ơn ThS. Phan Anh Phong, giảng viên khoa Công
nghệ thông tin, trường Đại học Vinh, Nghệ An, hiện đang là Nghiên cứu sinh
tại Đại học Bách Khoa Hà Nội với những đóng góp mang tính chuyên môn cho
luận văn.
Tôi cũng xin gửi lời cảm ơn chân thành đến các thầy cô giáo trong Viện
Công nghệ thông tin và Truyền thông, Đại học Bách Khoa Hà Nội với những
tri thức quý báu mà các thầy cô đã truyền đạt lại cho tôi trong suốt quá trình
học Cao học tại trường.
Cuối cùng tôi xin gửi lời cảm ơn thương yêu nhất đến bố mẹ, anh trai tôi,
bạn bè tôi và đặc biệt là em Bùi Thu Trang đã quan tâm, khuyến khích, động
viên tôi trong suốt thời gian học tập và hoàn thành luận văn xa nhà.

Đinh Khắc Đông
Hà Nội, tháng 6 năm 2011

i


Lời cam đoan

Tôi – Đinh Khắc Đông – học viên cao học lớp Công nghệ thông tin - Khóa
2009, cam kết nội dung Luận văn tốt nghiệp Cao học dưới đây là công trình
nghiên cứu của bản thân tôi, dưới sự hướng dẫn của PGS.TS. Trần Đình
Khang.
Tôi cam đoan các kết quả của luận văn là hoàn toàn trung thực. Các hình
vẽ, tri thức sử dụng lại đều được tham chiếu đầy đủ, rõ ràng từ các tài liệu
chỉ ra ở cuối luận văn.


Đinh Khắc Đông
Hà Nội, tháng 6 năm 2011

ii


Mục lục

Lời cảm ơn

i

Lời cam đoan

ii

Mục lục

iii

Danh sách các ký hiệu, chữ viết tắt

vii

Danh sách bảng

viii

Danh sách hình vẽ


viii

1 Mở đầu

1

1.1

Lý do chọn đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.2

Lịch sử nghiên cứu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

1.3

Mục đích, đối tượng và phạm vi nghiên cứu . . . . . . . . . . . . . . . . .

8

1.4

Các luận điểm cơ bản và đóng góp mới . . . . . . . . . . . . . . . . . . . .

9


1.5

Phương pháp nghiên cứu . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

1.6

Bố cục của luận văn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11

iii


Mục lục
2 Phân cụm dữ liệu

13

2.1

Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

13

2.2

Bài toán phân cụm dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . .


15

2.3

Các định nghĩa và ký hiệu . . . . . . . . . . . . . . . . . . . . . . . . . . .

17

2.4

Biểu diễn mẫu và trích chọn đặc trưng . . . . . . . . . . . . . . . . . . . .

18

2.5

Các độ đo sự tương tự . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

2.6

Các kỹ thuật phân cụm . . . . . . . . . . . . . . . . . . . . . . . . . . . .

22

2.6.1

Các thuật toán phân cụm phân cấp . . . . . . . . . . . . . . . . . .


22

2.6.2

Các thuật toán phân vùng . . . . . . . . . . . . . . . . . . . . . . .

25

2.6.3

Phân cụm mờ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

2.6.4

Phân cụm với mạng nơron nhân tạo . . . . . . . . . . . . . . . . . .

29

2.6.5

Phân cụm với thuật toán tiến hóa . . . . . . . . . . . . . . . . . . .

30

2.7

So sánh các phương pháp phân cụm dữ liệu . . . . . . . . . . . . . . . . .


31

2.8

Các ứng dụng của phân cụm dữ liệu . . . . . . . . . . . . . . . . . . . . .

33

3 Đại số gia tử

36

3.1

Tổng quan về Đại số gia tử . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

3.2

Hàm dấu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

3.3

Hàm độ đo tính mờ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

40


3.3.1

41

Định nghĩa hàm độ đo tính mờ . . . . . . . . . . . . . . . . . . . .

iv


Mục lục
3.3.2

Tính chất hàm độ đo tính mờ . . . . . . . . . . . . . . . . . . . . .

42

3.4

Hàm định lượng ngữ nghĩa . . . . . . . . . . . . . . . . . . . . . . . . . . .

42

3.5

Ứng dụng của Đại số gia tử . . . . . . . . . . . . . . . . . . . . . . . . . .

43

3.5.1


Xây dựng tập mờ loại hai Đại số gia tử . . . . . . . . . . . . . . . .

43

3.5.2

Lập luận xấp xỉ dựa trên Đại số gia tử . . . . . . . . . . . . . . . .

44

4 Phân cụm mờ với Đại số gia tử

46

4.1

Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

4.2

Khái niệm tâm cụm ngôn ngữ . . . . . . . . . . . . . . . . . . . . . . . . .

48

4.3

Thuật toán xác định trọng số . . . . . . . . . . . . . . . . . . . . . . . . .


51

4.4

Thuật toán phân cụm mờ với Đại số gia tử - HAFCM . . . . . . . . . . . .

53

4.5

Tối ưu hóa các tham số của Đại số gia tử . . . . . . . . . . . . . . . . . . .

55

5 Các ứng dụng của Thuật toán phân cụm mờ với ĐSGT
5.1

57

Giải thuật di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

58

5.1.1

Mã hóa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

58


5.1.2

Toán tử chọn lọc . . . . . . . . . . . . . . . . . . . . . . . . . . . .

58

5.1.3

Toán tử lai ghép . . . . . . . . . . . . . . . . . . . . . . . . . . . .

59

5.1.4

Toán tử đột biến . . . . . . . . . . . . . . . . . . . . . . . . . . . .

60

5.1.5

Hàm thích nghi . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

60

5.1.6

Các thành phần khác . . . . . . . . . . . . . . . . . . . . . . . . . .

60


v


Mục lục
5.2

Ứng dụng trong bài toán phân cụm với dữ liệu nhân tạo . . . . . . . . . .

61

5.3

Ứng dụng trong bài toán phân cụm với dữ liệu thực đa chiều . . . . . . . .

63

5.4

Các kết quả và bàn luận . . . . . . . . . . . . . . . . . . . . . . . . . . . .

64

6 Kết luận

66

6.1

Đóng góp của luận văn . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


66

6.2

Các vấn đề tồn tại . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

67

6.3

Hướng phát triển . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

68

Tài liệu tham khảo

69

Phụ lục

73

vi


Danh sách các ký hiệu, chữ viết tắt

ANN

Artificial Neural Network


ES

Evolutional Strategy

EP

Evolutional Programming

GK

Gustafson-Kessel

HA

Hedge Algebra

HAFCM Hedge Algebraic Fuzzy-C Means
HCM

Hard C-Means

FCM

Fuzzy C-means

FCV

Fuzzy C-varieties


FLS

Fuzzy Logic System

GA

Generic Algorithm

SA

Search-based Algorithm

SOM

Self-organizing map

vii


Danh sách bảng

2.1

Một số hàm khoảng cách . . . . . . . . . . . . . . . . . . . . . . . . . . . .

21

3.1

Ví dụ về quan hệ SIG . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


39

5.1

Kết quả phân cụm của 3 thuật toán . . . . . . . . . . . . . . . . . . . . . .

63

viii


Danh sách hình vẽ

1.1

Số lượng bài báo về chủ đề “Phân cụm” từ năm 1990 đến năm 2010 . . . .

6

1.2

Quá trình nghiên cứu các vấn đề liên quan đến luận văn . . . . . . . . . .

8

2.1

Ví dụ về phân cụm dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . .


14

2.2

Một số bước trong bài toán phân cụm . . . . . . . . . . . . . . . . . . . .

15

2.3

Ví dụ về cụm có dạng đường cong. [1] . . . . . . . . . . . . . . . . . . . . .

19

2.4

Ví dụ về độ tương tự khi xét đến yếu tố khái niệm. [28] . . . . . . . . . . .

22

2.5

Các dữ liệu thuộc về ba cụm . . . . . . . . . . . . . . . . . . . . . . . . . .

23

2.6

Biểu đồ có được khi sử dụng thuật toán với liên kết đơn . . . . . . . . . .


23

2.7

Kết quả phân cụm phân cấp với thuật toán liên kết đơn . . . . . . . . . .

24

2.8

Kết quả phân cụm phân cấp với thuật toán liên kết đầy đủ . . . . . . . . .

24

2.9

Hai cụm dữ liệu đồng tâm . . . . . . . . . . . . . . . . . . . . . . . . . . .

25

2.10 Thuật toán k-means nhạy cảm với những khởi tạo ban đầu . . . . . . . . .

27

2.11 Thuật toán phân cụm mờ . . . . . . . . . . . . . . . . . . . . . . . . . . .

28

ix



Danh sách hình vẽ
2.12 Hoạt động của toán tử lai ghép . . . . . . . . . . . . . . . . . . . . . . . .

31

2.13 Giải thuật di truyền đưa ra lời giải toàn cục . . . . . . . . . . . . . . . . .

32

2.14 (a) Ảnh đa mức xám gốc. (b) Biểu đồ mức xám của ảnh. (c) Kết quả sau
khi phân ngưỡng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

34

3.1

Một phần độ đo tính mờ của AX . . . . . . . . . . . . . . . . . . . . . . .

41

3.2

Giá trị hàm định lượng ngữ nghĩa của các giá trị chân lý trong hình 3.1 . .

43

4.1

Ví dụ về độ thuộc trong thuật toán FCM . . . . . . . . . . . . . . . . . . .


49

4.2

Độ đo tính mờ của các giá trị ngôn ngữ . . . . . . . . . . . . . . . . . . . .

50

4.3

Tâm cụm ngôn ngữ xây dựng dựa trên cấu trúc Đại số gia tử . . . . . . . .

51

4.4

Tập dữ liệu có chứa nhiễu: (a) Tập các trọng số giống nhau, (b) Tập các
trọng số tốt hơn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

56

5.1

Minh họa quá trình lai ghép . . . . . . . . . . . . . . . . . . . . . . . . . .

59

5.2


HCM, FCM, HAFCM cho kết quả phân cụm giống nhau khi không có nhiễu 61

5.3

Kết quả phân cụm của thuật toán HCM với dữ liệu nhiễu

. . . . . . . . .

62

5.4

Kết quả phân cụm của thuật toán FCM với dữ liệu nhiễu . . . . . . . . . .

62

5.5

Kết quả phân cụm của thuật toán HAFCM với dữ liệu nhiễu . . . . . . . .

63

5.6

Tỉ lệ nhận dạng của FCM và HAFCM với bộ dữ liệu IRIS . . . . . . . . .

64

x



Chương 1
Mở đầu
“Muốn vượt qua chặng đường dài ngàn dặm, phải bắt đầu bằng một bước đi.”
– Lão Tử

1.1

Lý do chọn đề tài

Chúng ta đang sống trong kỷ nguyên của thế giới số với khối lượng thông tin khổng lồ
được tạo ra mỗi ngày. Hàng ngày, chúng ta luôn làm việc với rất nhiều loại dữ liệu vô cùng
đa dạng từ nhiều nguồn khác nhau. Đó có thể là dữ liệu mô tả hoạt động của các sinh
vật, quan sát một hiện tượng thiên nhiên, tổng kết các kết quả từ một thí nghiệm khoa
học hoặc là file log ghi lại hoạt động của một hệ thống. Những dữ liệu này được lưu trữ
lại với những mục đích quan trọng hơn: đó là cơ sở để đưa ra những phân tích, suy diễn
hay quyết định trong tương lai.
Khi tiến hành phân tích dữ liệu, một trong những yêu cầu quan trọng nhất và cũng thường
gặp nhất là phân loại dữ liệu thành các nhóm hay các cụm. Các dữ liệu được phân loại
vào cùng một nhóm khi chúng có chung một tính chất nào đó theo những tiêu chí nhất
định. Trên thực tế, trong lịch sử phát triển của loài người, nhu cầu phân loại dữ liệu là
1


Chương 1. Mở đầu
rất tự nhiên và không thể thiếu được. Đó là khi tiếp xúc với những sự vật, hiện tượng
mới, con người luôn có xu hướng xác định các thuộc tính của chúng và cố gắng so sánh
với những sự vật hiện tượng có trong tri thức của mình rồi sau đó tổng quát hóa lên dựa
trên những tiêu chuẩn hoặc quy luật nhất định.
Xét một ví dụ đơn giản, các đối tượng tự nhiên có thể được phân loại thành 3 nhóm sau:

động vật, thực vật và khoáng vật. Theo quan điểm sinh học, động vật lại được chia thành:
giới, ngành, lớp, bộ, họ, giống và loài. Với phép phân loại này, chúng ta có thể suy ra các
tính chất của một đối tượng cụ thể dựa trên nhóm mà nó được phân loại. Ví dụ như khi
nhìn thấy một con hải cẩu nằm dễ dàng trên mặt đất, ta có thể biết ngay là nó bơi rất
giỏi mà không cần phải nhìn thấy nó bơi thế nào.
Về cơ bản, các hệ thống phân loại có thể được chia làm hai loại: có giám sát và không
có giám sát. Trong các hệ thống phân cụm có giám sát, ánh xạ từ tập dữ liệu đầu vào d
chiều: x ∈

d

vào một tập xác định các nhãn lớp rời nhau: y ∈ 1, ..., C, được mô hình bởi

hàm số: y = y(x, w), với w là véctơ tham số điều khiển. Giá trị của các tham số này được
xác định (tối ưu hóa) bởi các giải thuật đệ quy để cực tiểu hóa rủi ro kinh nghiệm trên
một tập xác định các dữ liệu vào ra (xi , yi ), i = 1, ..., N với N là lực lượng của tập huấn
luyện.
Trong các hệ thống phân loại không có giám sát, như phân cụm hay phân tích dữ liệu, ta
không cần các dữ liệu có sẵn nhãn hay đầu ra tương ứng của các dữ liệu vào là không biết
trước. Mục tiêu của bài toán phân cụm là phân tách tập các dữ liệu xác định, không có
nhãn vào một tập các cấu trúc dữ liệu rời nhau một cách tự nhiên theo các tính chất nào
đó.
Từ những quan sát trên, ta có thể thấy nhu cầu phân cụm không có giám sát trực tiếp
đến từ yêu cầu khai phá các tính chất tiềm ẩn của dữ liệu với rất ít hoặc không có thông
tin cho trước. Ví dụ như bài toán chẩn đoán bệnh và đưa ra hướng điều trị trong y tế. Với
một loại bệnh cụ thể, có thể có một vài bệnh cùng loại có những biểu hiện lâm sàng tương

2



Chương 1. Mở đầu
tự nhưng phác đồ điều trị lại khác nhau. Trong tình huống này, phương pháp phân cụm
với dữ liệu gen là phương pháp hứa hẹn sẽ phát hiện ra sự khác biệt giữa các loại bệnh
để từ đó đưa ra hướng điều trị thích hợp. Đôi khi, quá trình gán nhãn cho dữ liệu là rất
tốn kém về thời gian và tiền bạc. Vì thế, phân cụm là lựa chọn lí tưởng để tiết kiệm cả
tiền bạc và thời gian. Chính vì vậy, từ khi ra đời, phương pháp phân cụm được ứng dụng
rộng rãi trong nhiều lĩnh vực như phân tích mẫu, gom nhóm, bài toán ra quyết định, học
máy, khai phá dữ liệu, trích rút thông tin, phân vùng ảnh...
Từ những năm 60 của thế kỷ trước, khi Zadeh đề xuất logic mờ, khái niệm này ngày càng
được nghiên cứu rộng rãi vì khả năng mô hình sự không chắc chắn vốn là bản chất của
dữ liệu thu được từ các phép đo. Trước khi logic mờ được đưa vào bài toán phân cụm,
các kĩ thuật phân cụm chỉ dừng lại ở mức phân cụm rõ, tức là một dữ liệu bất kỳ chỉ
thuộc vào 1 cụm duy nhất. Năm 1981, Bezdek [19] đã đưa ra phương pháp phân cụm mờ
Fuzzy C-means hay FCM. Với logic mờ, tính chất “mỗi dữ liệu chỉ thuộc vào một cụm duy
nhất” đã được nới lỏng. Các dữ liệu khi đó thuộc về tất cả các cụm với những độ thuộc
tương ứng nhất định. Điều này thật sự có ý nghĩa khi các cụm không rời nhau rõ ràng và
khó xác định ranh giới. Ngoài ra, các độ thuộc mờ này có thể giúp tìm ra những mối liên
hệ phức tạp giữa các dữ liệu và tâm cụm. Tuy vậy, những nghiên cứu sau đó [18] chỉ ra
những khó khăn gặp phải khi áp dụng FCM cho các bài toán thực tế như:

• Cần xác định trước số lượng cụm làm đầu vào cho thuật toán. Điều này đòi hỏi
những tiêu chuẩn và thuật toán cụ thể để xác định số lượng cụm từ tập dữ liệu đầu
vào. Đôi khi, chi phí cho việc này là khá lớn và ảnh hưởng đến kết quả phân cụm.
• Tính chất và vị trí của các tâm cụm không được xác định trước nên cần những
phương pháp khởi tạo hợp lý.
• Dữ liệu trong các bài toán phân cụm rất đa dạng về hình dạng, mật độ, và số lượng
trong một cụm. Do đó với những bài toán cụ thể cần những điều chỉnh nhất định
để có được kết quả mong muốn.
3



Chương 1. Mở đầu
Xét một ví dụ trong tình huống bạn đang trên một chiếc taxi ra sân bay và nhận thấy
rằng mình đang bị muộn. Khi đó bạn sẽ nói gì với người lái xe? Có hai lựa chọn sau:

• “Anh có thể đi với vận tốc 60km/h được không?”
• “Anh có thể đi khá nhanh được không?”

Sẽ không khó khăn để nhận ra trên thực tế lời đề nghị thứ hai là tự nhiên hơn so với lời đề
nghị đầu tiên. Từ ví dụ trên ta có thể thấy, ngôn ngữ con người sử dụng trong cuộc sống
thường ngày luôn chứa đựng sự không chắc chắn. Trên thế giới đã có rất nhiều nghiên
cứu nhằm hỗ trợ thao tác trên ngôn ngữ và đã thu được những kết quả nhất định như
những nghiên cứu của Zadeh [22] hay Mendel [23]. Đồng hành với những nghiên cứu trên
thế giới, nhóm các tác giả Việt Nam mà khởi đầu là GS Nguyễn Cát Hồ đã có những công
trình nghiên cứu về cấu trúc tự nhiên của miền giá trị ngôn ngữ của các biến ngôn ngữ
với những đề xuất trong [32]. Các tác giả đã chỉ ra tính thứ tự về mặt ngữ nghĩa giữa các
giá trị của biến ngôn ngữ. Ví dụ như với biến ngôn ngữ Tuổi, quan hệ ngữ nghĩa giữa Trẻ
và Già là Trẻ nhỏ hơn Già. Xuất phát từ quan hệ ngữ nghĩa đó, các tác giả đã xây dựng
cấu trúc Đại số gia tử (ĐSGT)
Một cấu trúc ĐSGT bao gồm 4 thành phần (AX, G, H, ≤). Trong đó, AX là miền giá trị
của biến ngôn ngữ, G là tập các phần tử sinh, H là tập các gia tử bao gồm các gia tử
dương và các gia tử âm, và cuối cùng “≤” là quan hệ cảm sinh từ ngữ nghĩa tự nhiên giữa
các giá trị ngôn ngữ. Quan hệ này có thể được hình thức hóa từ thứ tự của các phần tử
sinh, thứ tự của các gia tử và tác động nhấn mạnh hay làm yếu đi khi tác động gia tử
vào các giá trị ngôn ngữ. Tuy vậy, ngữ nghĩa được biểu diễn qua cấu trúc ĐSGT mang
tính định tính nên chưa có những ứng dụng rõ rệt. Đây chính là động cơ để các tác giả
trong [33] xây dựng hàm độ đo tính mờ của các giá trị ngôn ngữ và ánh xạ định lượng
ngữ nghĩa bảo toàn quan hệ thứ tự của các giá trị ngôn ngữ.
Đại số gia tử với những đề xuất về hàm độ đo tính mờ và hàm định lượng ngữ nghĩa đã
4



Chương 1. Mở đầu
trở nên đủ mạnh để cung cấp một metric cho bài toán phân cụm mờ và hứa hẹn mang lại
những cải tiến cho thuật toán FCM truyền thống.
Dưới sự tìm tòi nghiên cứu của tác giả và tính khả thi của đề tài dưới sự hướng dẫn của
PGS. TS Trần Đình Khang - Viện Công nghệ thông tin và Truyền thông, Đại học Bách
Khoa Hà Nội, tôi quyết định nghiên cứu vấn đề “Phân cụm mờ với Đại số gia tử và ứng
dụng” trong luận văn Cao học này.

1.2

Lịch sử nghiên cứu

Quay ngược lịch sử nghiên cứu của bài toán phân cụm, ta sẽ đến được thời kỳ trước công
nguyên với Aristotle - nhà triết học Hi Lạp cổ đại và sau đó là thế kỷ 18 với các nhà tự
nhiên học Buffon, Cuvier and Linné [15]. Ngày nay, những nghiên cứu về bài toán phân
cụm ngày càng được mở rộng ra nhiều ngành khác nhau. Website Web of Knowledge
() đã thống kê ra khoảng 63.000 bài báo tại các hội thảo
và tạp chí chứa từ khóa “clustering” trong phần Title, Keywords hoặc Abstract (số liệu tính
đến hết năm 2010). Kết quả thống kê từ năm 1990 đến năm 2010 được mô tả chi tiết trong
Hình 1.1. Số liệu được cung cấp qua website với ba cơ
sở dữ liệu “The Science Citation Index ExpandedT M ” (SCI_EXPANDED), “The Social
Sciences Citation Index”(SSCI), và “The Arts & Humanities Citation Index” (A&HCI).
Trong số hơn 60.000 nghiên cứu này, có những bài báo đã tổng kết các nghiên cứu được
chú ý trong cùng giai đoạn. Bắt đầu từ góc nhìn nhận dạng mẫu mang tính thống kê của
Jain và các cộng sự năm 1999 tóm tắt rất nhiều thuật toán phân cụm và các ứng dụng của
chúng về phân vùng ảnh, nhận dạng đối tượng và chữ viết, trích rút thông tin và khai phá
dữ liệu. Những góc nhìn khác nhau lần lượt ra đời vào cùng thời điểm. Năm 1997, Hansen
và Jaumard đã nghiên cứu bài toán phân cụm với mô hình toán học. Kolatch (2001) và

He (1999) đã lần lượt bàn luận về các ứng dụng của thuật toán phân cụm trong hệ thống

5


Chương 1. Mở đầu

Hình 1.1: Số lượng bài báo về chủ đề “Phân cụm” từ năm 1990 đến năm 2010

cơ sở dữ liệu không gian và trích rút thông tin. Berkhin (2001) đã mở rộng chủ đề theo
hướng khai phá dữ liệu. Murtagh (1983) đã phân tích và chỉ ra những ưu điểm nổi bật
của phương pháp phân cụm phân cấp. Liao (2005) tập trung nghiên cứu về phân cụm
trên chuỗi thời gian thực. Gordon (1998) và Halkidi (2002) nhấn mạnh các chủ đề về tính
hợp lý của các cụm. Gần đây nhất, năm 2005, Xu và Wunsch đã đưa ra những tổng kết
toàn diện về các thuật toán phân cụm. Năm 2006, Kettenring đã bàn luận về những vấn
đề thực tế trong bài toán phân tích cụm.
Ngoài ra, có những nghiên cứu mang tính so sánh giữa các thuật toán phân cụm, cho thấy
điểm mạnh yếu và mối quan hệ giữa các thuật toán. Ví dụ như năm 2000, Rauber và các
cộng sự đã trình bày những kết quả mang tính kinh nghiệm về 5 thuật toán phân cụm
điển hình. Trong khi đó, Wei và các cộng sự đã so sánh các thuật toán nhanh cho CSDL
lớn trong nghiên cứu của mình năm 2000. Năm 1997, Scheunders đã so sánh một số thuật
toán phân cụm thông qua các ứng dụng trên bài toán lượng tử hóa ảnh màu, nhấn mạnh
6


Chương 1. Mở đầu
vào độ phức tạp tính toán và khả năng thu được tối ưu toàn cục. Ngoài ra, các ứng dụng
và đánh giá với bài toán phân tích dữ liệu gen từ DNA được mô tả trong nghiên cứu của
Jiang và các cộng sự năm 2004, Madeira và Oliveira năm 2004, Shamir và Sharan năm
2002, Tibshirani và các cộng sự năm 1999. Bên cạnh đó, một số đánh giá mang tính thử

nghiệm với bài toán phân cụm trên tài liệu dựa trên thuật toán phân cụm phân cấp và
K-means đã được Steinbach và các cộng sự đưa ra năm 2000.
Thuật toán FCM được đưa ra bởi Bezdek năm 1981 [19] được xem như sự tổng quát hóa
của thuật toán ISODATA của Dunn [12]. Sau đó rất nhiều cải tiến đã được tiến hành theo
các hướng nghiên cứu về hàm đo khoảng cách, tác động của tham số mờ m trong việc
điều khiển tính mờ, tối ưu hóa các phân vùng mờ, tăng tốc giải thuật FCM và cải thiện
các hạn chế của FCM [4,7,9,17].
Về Đại số gia tử, những nghiên cứu được bắt đầu từ năm 1990 với đề xuất của các tác giả
Ho N. C. và Wechler W. trong [32]. Tuy nhiên cấu trúc ĐSGT lúc này mới chỉ dừng lại
ở mức định tính. Năm 1999, các tác giả trong [33] đã đưa ra hàm độ đo tính mờ và ánh
xạ định lượng ngữ nghĩa cho cấu trúc ĐSGT. Sau đó, ĐSGT đã được nghiên cứu rộng rãi
theo nhiều hướng khác nhau như: Lập luận mờ sử dụng ĐSGT và ứng dụng trong điều
khiển mờ [37], Cơ sở dữ liệu mờ với ĐSGT [31], Tập mờ loại hai ĐSGT, các phép toán và
ứng dụng [34, 35].
Trải qua quá trình thực tập tốt nghiệp và thực hiện đồ án tốt nghiệp (từ 2008 đến 2009)
với đề tài “Hệ logic mờ loại hai dựa trên Đại số gia tử và ứng dụng”, và tham gia vào nhóm
nghiên cứu dưới sự hướng dẫn của PGS. TS. Trần Đình Khang, tác giả đã có được những
kiến thức tổng quát về cấu trúc Đại số gia tử. Ngoài ra trong quá trình học cao học tại
Viện Công nghệ thông tin và Truyền thông (ĐHBKHN), tác giả đã tìm hiểu thuật toán
FCM về những ưu điểm, hạn chế cũng như cách thức triển khai thuật toán. Từ đó, dưới
sự hướng dẫn của PGS. TS. Trần Đình Khang, tác giả đã đề xuất phương pháp “Phân
cụm mờ với Đại số gia tử” là nội dung của luận văn cao học này. Nội dung chính của luận
văn được cô đọng trong bài báo “Fuzzy clustering with Hedge algebra” nằm trong Kỷ yếu
7


Chương 1. Mở đầu
hội thảo “2010 Symposium on Information and Communication Technology” được tổ chức
tại Trường Đại học Bách Khoa Hà Nội, 27-28 tháng 8 năm 2010. Quá trình nghiên cứu
các vấn đề liên quan đến luận văn được mô tả trong hình 1.2


Hình 1.2: Quá trình nghiên cứu các vấn đề liên quan đến luận văn

1.3

Mục đích, đối tượng và phạm vi nghiên cứu

Trong số hơn 60.000 nghiên cứu về bài toán phân cụm, lớp thuật toán đáng chú ý hơn
cả là phân cụm mờ với ưu điểm cho phép một điểm bất kỳ thuộc về tất cả các cụm với
những độ thuộc khác nhau. Các độ thuộc này có thể giúp tìm ra những mối liên hệ phức
tạp giữa các dữ liệu và tâm cụm. Tuy vậy, những nghiên cứu sau đó [18] chỉ ra những khó
khăn gặp phải khi áp dụng FCM cho các bài toán thực tế. Từ những phân tích về hạn chế
của thuật toán FCM truyền thống, luận văn đề xuất hướng cải tiến bằng cách sử dụng
cấu trúc Đại số gia tử.
8


Chương 1. Mở đầu
Trong thực tế, có rất nhiều giá trị ngôn ngữ của một biến ngôn ngữ có hai phần tử sinh
đối nghịch nhau. Ví dụ như với biến Tuổi, ta có hai phần tử sinh Trẻ và Già, hay Sai và
Đúng với biến chân lý. Trong hai phần tử sinh này, phần tử có ngữ nghĩa mạnh hơn (Già
hay Đúng) là phần tử sinh dương, phần tử có ngữ nghĩa yếu hơn (Trẻ hay Sai) là phần
tử sinh âm. Lớp Đại số gia tử này được gọi là Đại số gia tử đối xứng [33].
Tập các gia tử H của cấu trúc Đại số gia tử được chia làm hai phần: H + chứa các phần
tử sinh dương và H − chứa các phần tử sinh âm. Nếu các phần tử sinh này được sắp thứ
tự tuyến tính thì ta có cấu trúc Đại số gia tử tuyến tính. Trong khuôn khổ luận văn này,
lớp Đại số gia tử được nghiên cứu chính là Đại số gia tử đối xứng và tuyến tính.

1.4


Các luận điểm cơ bản và đóng góp mới

Sau khi nghiên cứu về thuật toán FCM truyền thống và phân tích các hạn chế, luận văn
đề xuất hướng cải tiến bằng cách sử dụng cấu trúc ngôn ngữ của Đại số gia tử. Với phương
pháp này, luận văn có những đóng góp mới như sau: [30]

• Đầu tiên, cấu trúc ngôn ngữ của biến chân lý được sử dụng để thay đổi khoảng cách
giữa các dữ liệu đến tâm cụm. Cụ thể là độ đo tính mờ của các giá trị ngôn ngữ
trong cấu trúc ĐSGT đóng vai trò là các trọng số khi tính toán khoảng cách giữa
dữ liệu và các tâm cụm tương ứng. Do đó ảnh hưởng của các dữ liệu đến quá trình
cập nhật tâm cụm trở nên rất đa dạng, phụ thuộc vào các tham số của ĐSGT.
• Với thuật toán FCM truyền thống, tất cả các mẫu đều tác động đến quá trình cập
nhật tâm cụm. Điều này làm FCM khá nhạy cảm với các điểm ngoại lai và ảnh
hưởng đến chất lượng của tâm cụm. Đóng góp thứ hai của luận văn là trong quá
trình cập nhật tâm cụm, chỉ có những điểm có độ thuộc lớn hơn hay bằng phần tử
trung hòa của cấu trúc ĐSGT được coi là thuộc vào cụm. Và chỉ có những điểm này

9


Chương 1. Mở đầu
tác động đến quá trình tính toán tâm cụm mới. Do đó, khi dữ liệu có nhiễu hay các
điểm ngoại lai thì ảnh hưởng đến tâm cụm được giảm thiểu.
• Khi sử dụng độ đo tính mờ của các giá trị ngôn ngữ làm trọng số khi tính toán
khoảng cách từ các mẫu đến tâm cụm, các trọng số này thay đổi theo các tham số
của ĐSGT. Các tham số này được sử dụng làm tham số huấn luyện trong phương
pháp học có giám sát để thu được kết quả tốt hơn với thuật toán phân cụm mờ với
Đại số gia tử.

Trên đây là tóm tắt ngắn gọn các đóng góp mới của tác giả trong luận văn. Phần chi tiết

sẽ được trình bày trong Chương 4: Phân cụm mờ với Đại số gia tử.

1.5

Phương pháp nghiên cứu

Đầu tiên, thuật toán Fuzzy C-means truyền thống được nghiên cứu để tìm ra những vấn
đề gặp phải về mặt lý thuyết cũng như triển khai. Sau đó, cấu trúc ngôn ngữ của biến
chân lý được nghiên cứu trên Đại số gia tử tuyến tính và đối xứng. Ảnh hưởng của độ đo
tính mờ của các gia tử tác động lên độ đo tính mờ của các giá trị ngôn ngữ được xem xét
thông qua hàm độ đo tính mờ và ánh xạ định lượng ngữ nghĩa. Từ đó đưa ra đề xuất cải
tiến thuật toán FCM để khắc phục các nhược điểm.
Sau khi đưa ra thuật toán cải tiến: Phân cụm mờ với Đại số gia tử, các mệnh đề về tính
duy nhất của trọng số gán cho các mẫu và mệnh đề về tính tổng quát của thuật toán được
trình bày, khẳng định tính giá trị về mặt lý thuyết của thuật toán.
Cuối cùng, thuật toán Phân cụm mờ với Đại số gia tử được thử nghiệm trên hai bài toán:

• Phân cụm với dữ liệu nhân tạo
• Phân cụm với dữ liệu thực đa chiều
10


Chương 1. Mở đầu
và kết quả thu được đã khẳng định tính thực tiễn của thuật toán khi áp dụng trong các
bài toán thực tế.

1.6

Bố cục của luận văn


Luận văn được trình bày gồm 6 chương có bố cục như sau:

• Chương 1: Mở đầu. Trong chương đầu tiên, tác giả đưa ra lý do chọn đề tài luận
văn cũng như mục đích, đối tượng và phạm vi nghiên cứu của luận văn. Sau đó, các
luận điểm cơ bản và các đóng góp chính của luận văn được trình bày cùng phương
pháp nghiên cứu.
• Chương 2: Phân cụm dữ liệu. Các kiến thức tổng quan về bài toán phân cụm
như: việc xác định bài toán, các định nghĩa, độ đo và cách thức biểu diễn mẫu và
trích chọn đặc trưng. Sau đó các kỹ thuật phân cụm được trình bày bao gồm: các
thuật toán phân cụm phân cấp, các thuật toán phân vùng, phân cụm dựa trên láng
giềng gần, phân cụm mờ, phân cụm với mạng nơron nhân tạo, phân cụm với thuật
toán tiến hóa, phân cụm dựa trên tìm kiếm. Các thuật toán được so sánh và tiếp đó
một số ứng dụng của các thuật toán phân cụm được trình bày ở cuối chương.
• Chương 3: Đại số gia tử. Các kiến thức cơ bản về Đại số gia tử về định tính và
định lượng với hàm độ đo tính mờ và ánh xạ định lượng ngữ nghĩa của các giá trị
ngôn ngữ trong cấu trúc Đại số gia tử được trình bày trong chương này. Chương 3
khép lại với một số ứng dụng của Đại số gia tử trong các nghiên cứu gần đây.
• Chương 4: Phân cụm mờ với Đại số gia tử. Đây là phần quan trọng nhất của
luận văn với những nghiên cứu chính của tác giả. Chương 4 bắt đầu bằng ý nghĩa
của việc nghiên cứu thuật toán phân cụm với Đại số gia tử. Sau đó, khái niệm tâm
cụm ngôn ngữ được đề xuất và từ đó trình bày thuật toán xác định trọng số cho
11


Chương 1. Mở đầu
từng mẫu. Các khái niệm trên là tiền đề để tác giả xây dựng thuật toán Phân cụm
mờ với Đại số gia tử. Hai mệnh đề sau đó được lần lượt trình bày khẳng định ý
nghĩa về mặt lý thuyết của thuật toán.
• Chương 5: Các ứng dụng của thuật toán Phân cụm mờ với Đại số gia tử.
Thuật toán được lần lượt áp dụng với hai bài toán: Phân cụm với dữ liệu nhân tạo

và Phân cụm với dữ liệu thực đa chiều. Các kết quả và bàn luận liên quan được
trình bày ở phần cuối chương.
• Chương 6: Kết luận. Chương cuối cùng trình bày những kết luận quan trọng và
những đóng góp mới của luận văn. Phần cuối cùng đề xuất những hướng nghiên cứu
của luận văn trong tương lai.

12


×