Tải bản đầy đủ (.docx) (81 trang)

NGHIÊN cứu một số PHƯƠNG PHÁP PHÂN cụm mờ và ỨNG DỤNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (673.68 KB, 81 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KHOA HỌC

NGUYỄN THỊ NGA

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP
PHÂN CỤM MỜ VÀ ỨNG DỤNG

CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 60.48.01.01

LUẬN VĂN THẠC SĨ KHOA HỌC
ĐỊNH HƯỚNG NGHIÊN CỨU

NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. NGUYỄN CÔNG HÀO

Thừa Thiên Huế, 2018


LỜI CAM ĐOAN
Tôi xin cam đoan: Luận văn thạc sĩ khoa học định hướng nghiên cứu với đề
tài “Nghiên cứu một số phương pháp phân cụm mờ và ứng dụng” là công trình
nghiên cứu của cá nhân tôi. Các kết quả nêu trong luận văn là trung thực, đảm bảo
độ chuẩn xác cao nhất có thể. Các tài liệu tham khảo, trích dẫn có xuất xứ rõ ràng.
Tôi xin chịu mọi trách nhiệm về công trình nghiên cứu của riêng mình!
Thừa Thiên Huế, tháng 7 năm 2018
Tác giả luận văn

Nguyễn Thị Nga




LỜI CẢM ƠN
Để hoàn thành luận văn “Nghiên cứu một số phương pháp phân cụm mờ
và ứng dụng”, tôi đã nhận được nhiều sự giúp đỡ hết sức quý báu của các tập thể
và cá nhân.
Trước hết, tôi xin bày tỏ lòng biết ơn sâu sắc đến TS Nguyễn Công Hào người Thầy đã tận tâm hướng dẫn khoa học trong quá trình học tập, nghiên cứu và
triển khai luận văn.
Tôi xin chân thành cảm ơn tập thể quý thầy cô Khoa Công nghệ Thông tin,
Phòng Sau Đại học thuộc trường Đại học Khoa học, Đại học Huế; Sở Giáo dục và
Đào tạo tỉnh Kon Tum; Trường THPT Duy Tân tỉnh Kon Tum đã tạo mọi điều kiện
thuận lợi cho tôi trong suốt quá trình học tập, nghiên cứu và thực hiện luận văn.
Xin được biết ơn gia đình, những người thân, bạn bè đồng nghiệp đã luôn là
điểm tựa vững chắc để tôi hoàn thành luận văn này.
Thừa Thiên Huế, tháng 7 năm 2018
Tác giả luận văn

Nguyễn Thị Nga


MỤC LỤC
Trang
Lời cam đoan...............................................................................................................
Lời cảm ơn..................................................................................................................
Mục lục........................................................................................................................
Danh mục các bảng.....................................................................................................
Danh mục các hình......................................................................................................
Danh mục các chữ viết tắt...........................................................................................
PHẦN MỞ ĐẦU......................................................................................................1
PHẦN NỘI DUNG..................................................................................................4

CHƯƠNG 1: MỘT SỐ KIẾN THỨC CƠ SỞ CỦA LÝ THUYẾT TẬP MỜ............4
1.1. TẬP MỜ VÀ THÔNG TIN KHÔNG CHẮC CHẮN.....................................4
1.1.1. Khái niệm tập mờ....................................................................................4
1.1.2. Tập lát cắt của tập mờ..............................................................................5
1.1.3. Một số khái niệm đặc trưng của tập mờ...................................................6
1.2. BIẾN NGÔN NGỮ.........................................................................................7
1.2.1. Định nghĩa...............................................................................................7
1.2.2. Các đặc trưng của biến ngôn ngữ.............................................................7
1.3. CÁC PHÉP TÍNH TRÊN TẬP MỜ................................................................8
1.3.1. Phép hợp mờ............................................................................................8
1.3.2. Phép giao mờ...........................................................................................9
1.3.3. Phép lấy phần bù....................................................................................10
1.3.4. Phép tổng và tích đại số các tập mờ.......................................................10
1.3.5. Phép tích Descartes các tập mờ..............................................................11
1.3.6. Phép tập trung........................................................................................11
1.3.7. Phép dãn................................................................................................12
1.3.8. Phép tổ hợp lồi.......................................................................................12
1.4. MỜ HÓA VÀ KHỬ MỜ...............................................................................13
1.4.1. Phương pháp mờ hóa.............................................................................13
1.4.2. Phương pháp khử mờ.............................................................................14
1.5. TIỂU KẾT CHƯƠNG 1...............................................................................16


CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM MỜ.............................17
2.1. TỔNG QUAN VỀ PHÂN CỤM...................................................................17
2.1.1.Khái niệm phân cụm dữ liệu...................................................................17
2.1.2. Mục tiêu của phân cụm dữ liệu..............................................................19
2.1.3. Quy trình phân cụm dữ liệu...................................................................19
2.1.4. Yêu cầu trong phân cụm dữ liệu............................................................20
2.1.5. Vấn đề còn tồn tại trong phân cụm dữ liệu............................................21

2.1.6. Phân loại các kiểu dữ liệu......................................................................22
2.1.7. Độ đo tương tự và phi tương tự..............................................................23
2.2. MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU............................................24
2.2.1. Phân cụm phân hoạch............................................................................26
2.2.2. Phân cụm phân cấp................................................................................30
2.2.3. Phân cụm dựa trên mật độ.....................................................................35
2.2.4. Phân cụm dựa trên mô hình...................................................................40
2.2.5. Phân cụm dựa trên ràng buộc.................................................................41
2.3. PHÂN CỤM DỮ LIỆU MỜ.........................................................................43
2.3.1. Giới thiệu về phân cụm dữ liệu mờ........................................................43
2.3.2. Một số thuật toán phân cụm mờ.............................................................44
2.4. TIỂU KẾT CHƯƠNG 2...............................................................................51
CHƯƠNG 3: ỨNG DỤNG PHÂN CỤM DỮ LIỆU MỜ CHO BÀI TOÁN
PHÂN LOẠI BỆNH ĐỘNG KINH VÀ VIÊM GAN..........................................52
3.1. ĐẶT VẤN ĐỀ..............................................................................................52
3.1.1 Hiện trạng và phương pháp chuẩn đoán viêm gan..................................52
3.1.2 Hiện trạng và phương pháp chuẩn đoán động kinh.................................53
3.2. PHÁT BIỂU BÀI TOÁN..............................................................................55
3.2.1. Bài toán bệnh động kinh........................................................................55
3.3. PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN...............................................59
3.4. CÁC BƯỚC THU THẬP VÀ XỬ LÝ DỮ LIỆU.........................................60
3.4.1. Nguồn dữ liệu........................................................................................60
3.4.2. Chuẩn bị dữ liệu.....................................................................................60


3.5. MÔ PHỎNG.................................................................................................60
3.5.1. Các bước mô phỏng...............................................................................60
3.5.2. Kết quả đạt được....................................................................................61
3.6. NHẬN XÉT KẾT QUẢ................................................................................69
KẾT LUẬN............................................................................................................70

TÀI LIỆU THAM KHẢO.....................................................................................71

DANH MỤC CÁC BẢN


Bảng 3.1: Bộ dữ liệu động kinh...............................................................................55
Bảng 3.2: Năm cụm dữ liệu sau khi phân cụm........................................................55
Bảng 3.3: Bộ dữ liệu phân lớp “viêm gan” của UCI................................................58
Bảng 3.4: Danh sách hàm chức năng.......................................................................59
Bảng 3.5: Tham số đầu vào bài toán phân loại bệnh động kinh...............................61
Bảng 3.6: Kết quả phân cụm thuật toán FCM..........................................................62
Bảng 3.7: Kết quả phân cụm thuật toán KFCM.......................................................63
Bảng 3.8: Kết quả phân cụm thuật toán PFCM........................................................63
Bảng 3.9: Kết quả phân cụm thuật toán QPSO_FCM..............................................63
Bảng 3.10: So sánh kết quả phân cụm giữa các thuật toán phân cụm mờ................64
Bảng 3.11: Thống kê trung bình giá trị....................................................................65
Bảng 3.12: Kết quả chỉ số đánh giá chất lượng phân cụm.......................................65
Bảng 3.13: Giá trị đầu vào cho bài toán phân cụm viêm gan...................................66
Bảng 3.14: Kết quả đánh giá “entropy và purity”....................................................67
Bảng 3.15: Chất lượng phân cụm giữa các thuật toán phân cụm rõ và mờ..............68
Bảng 3.16: Khoảng cách trung bình đến tâm cụm...................................................68


DANH MỤC CÁC HÌNH
Hình 1.1: Phép tập trung..........................................................................................12
Hình 2.1: Hình dạng các loại cụm...........................................................................17
Hình 2.2: Sự thay đổi tâm cụm trong k-means khi có phần tử ngoại lai..................28
Hình 2.3: Phân cụm phân cấp Top-down và Bottom-up..........................................30
Hình 2.5: Liên kết đôi..............................................................................................31
Hình 3.1: Các bước mô phỏng thực nghiệm............................................................60

Hình 3.2: Hình ảnh phân cụm trên bộ tham số đầu vào options 1...........................62
Hình 3.3: Tỉ lệ phân cụm đúng FCM.......................................................................62
Hình 3.4: So sánh thuật toán phân cụm mờ.............................................................65
Hình 3.5: So sánh Purity và MI của thuật toán phân cụm mờ..................................66
Hình 3.6: So sánh Dunn và Davie của thuật toán phân cụm mờ..............................66
Hình 3.7: Đánh giá Entropy và Purity các thuật toán phân cụm rõ và mờ...............68


DANH MỤC CÁC CHỮ VIẾT TẮT
Từ viết tắt

Tiếng anh

CURE

Clustering using representatives

DM
EM
Eps
FCM
HMT
KCTB
KFCM
MI

Dissimilarity measure
Expectation-Maximization
Epsilon
Fuzzy clustering means

Kernel fuzzy clustering means
Mutual information

PAM

Partitioning around methoids

PCĐ
PFCM

Possibilistic fuzzy clustering means

QPSO_FC
M
SM

Quantum_behavied particle swam
fuzzy clustering means
Similarity measure

STING

Statistical information grid approach

Tiếng việt
Phân cụm sử dụng
đại diện
Độ đo phi tương tự
Tối ưu hóa kỳ vọng
Giá trị mục tiêu tối thiểu

Phân cụm mờ
Hàm mục tiêu
Khoảng cách trung bình
Phân cụm mờ Kernel
Dữ liệu hỗn hợp
Phân hoạch quanh đối
tượng đại diện
Phân cụm đúng
Phân cụm mờ dựa vào đặc
trưng
Phân cụm mờ dựa vào tối
ưu hóa quần thể.
Độ đo tương tự
Phân cụm dựa trên lưới dữ
liệu


PHẦN MỞ ĐẦU
Hơn một thập niên trở lại đây, lượng thông tin được lưu trữ trên các thiết bị điện
tử (đĩa cứng, CD-ROM, băng từ, .v.v.) không ngừng tăng lên. Sự tích lũy dữ liệu này
xảy ra với một tốc độ bùng nổ. Thống kê sơ bộ cho thấy, lượng thông tin trên các hệ
thống tin học cứ sau 20 tháng lại tăng gấp đôi. Cuối thập kỷ 80 của thế kỷ 20 sự phát
triển rộng khắp của các cơ sở dữ liệu ở mọi quy mô đã tạo ra sự bùng nổ thông tin trên
toàn cầu. Vào thời gian này, người ta bắt đầu đề cập đến khái niệm khủng hoảng phân
tích dữ liệu tác nghiệp để cung cấp thông tin với yêu cầu chất lượng ngày càng cao cho
người làm quyết định trong các tổ chức tài chính, thương mại, khoa học,…
Đúng như John Naisbett đã cảnh báo “Chúng ta đang chìm ngập trong dữ
liệu mà vẫn đói tri thức”. Lượng dữ liệu khổng lồ này thực sự là một nguồn “tài
nguyên” rất giá trị bởi thông tin là yếu tố then chốt trong hoạt động kinh doanh.
Khai phá dữ liệu là một hướng tiếp cận mới với khả năng giúp các công ty chú

trọng vào những thông tin có nhiều ý nghĩa từ những tập hợp dữ liệu lớn (databases,
data warehouses, data repositories) mang tính lịch sử. Với những ưu thế của mình,
khai phá dữ liệu đã chứng tỏ được tính hữu dụng của nó trong môi trường kinh
doanh đầy tính cạnh tranh ngày nay.
Khai phá dữ liệu bao hàm rất nhiều hướng tiếp cận. Các kỹ thuật chính được
áp dụng trong lĩnh vực này phần lớn được thừa kế từ lĩnh vực cơ sở dữ liệu, học
máy, trí tuệ nhân tạo, lý thuyết thông tin, xác suất thống kê, và tính toán hiệu năng
cao. Các bài toán chủ yếu trong khai phá dữ liệu là phân lớp/dự đoán
(classification/prediction), khai phá luật kết hợp (association rules mining), khai phá
chuỗi (sequence mining), và phân cụm (Clustering) - một trong những hướng
nghiên cứu chính của khai phá dữ liệu, là kĩ thuật nhằm tìm kiếm, phát hiện các
cụm, các mẫu dữ liệu tự nhiên, tiềm ẩn trong tập dữ liệu lớn, từ đó cung cấp thông
tin, tri thức hữu ích cho việc ra quyết định..
Một vài ví dụ về ý nghĩa thực tiễn của phân cụm dữ liệu như sau:
 Khai thác thông tin từ văn bản sử dụng các kỹ thuật phân cụm để phân tích
các loại văn bản và để truyền đạt thông tin cho người sử dụng một cách trực
1


quan như nghiên cứu Text Mining with the WEBSOM (Lagus and others
2000), (Lin, Soergel, and Marchionini 1991), biểu diễn từ văn bản
(Subramanian and Vora 2016), phân tích các tài liệu y học (Skupin,
Biberstine, and Börner 2013), Phân lớp thông tin sáng chế (Choi et al. 2013),
phân cụm dữ liệu văn bản về sức khỏe (Yoo et al. 2012)
 Marketing các kỹ thuật phân cụm giúp xác định các nhóm khách hàng (khách
hàng tiềm năng, khách hàng giá trị, phân loại và dự đoán hành vi khách
hàng,…) sử dụng sản phẩm hay dịch vụ của công ty để giúp công ty có chiến
lược kinh doanh hiệu quả hơn như các nghiên cứu: (Gull et al. 2014),
(AleEbrahim and Fathian 2013)
 Biology: Phân nhóm động vật và thực vật dựa vào các thuộc tính của chúng.

Đây là một lĩnh vực mới đang được thu hút sự quan tâm như các nghiên cứu
(Rebholz-Schuhmann, Oellrich, and Hoehndorf 2012), (Dash et al. 2012)
 Libraries: Theo dõi độc giả, sách, dự đoán nhu cầu của độc giả như (Fox and
Sornil 2003), (Chang and Chen 2006),
 Insurance, Finance: Phân nhóm các đối tượng sử dụng bảo hiểm và các dịch
vụ tài chính (Mosley Jr 2012), dự đoán xu hướng (trend) của khách hàng,
phát hiện gian lận tài chính của Holton 2009; dự đoán xu hướng công nghệ
của Yoon and Park 2004…
 Phân tích các dữ liệu word wide web là một mảng ứng dụng rất lớn của các kỹ
thuật phân cụm văn bản như các nghiên cứu của Kaur 2013, Hu et al. 2008…
Trong phân cụm ta có hai hướng đó là phân cụm rõ và phân cụm mờ. Một ví
dụ cho dễ hình dung việc phân cụm rõ là phân cụm học sinh tiểu học theo khối lớp:
1, 2, 3, 4, 5, mỗi học sinh chỉ thuộc về một khối lớp. Nhưng trong thực tế có nhiều
trường hợp không thể tách biệt một cách rõ ràng ví dụ hãy phân loại sách, tài liệu
tham khảo theo các chủ đề thì một tài liệu có thể có nhiều chủ đề khác nhau. Vì vậy
người ta đã áp dụng lý thuyết về tập mờ để giải quyết cho trường hợp này. Cách
thức kết hợp này được gọi là Phân cụm mờ.

2


Luận văn này trình bày các nghiên cứu về phân cụm dữ liệu mờ, các thuật
toán phân cụm dữ liệu mờ làm tăng tính ổn định, chính xác của kết quả phân cụm
dữ liệu và ứng dụng vào bài toán phân cụm trên bộ dữ liệu động kinh và viêm gan.
Bố cục luận văn như sau:

» Phần mở đầu:
» Phần nội dung
 Chương 1: Trình bày một cách tổng quan các kiến thức cơ bản về tập mờ.
 Chương 2: Giới thiệu tổng quan về phân cụm, một số kỹ thuật phân

cụm dữ liệu phổ biến, thuật toán phân cụm mờ FCM và một vài thuật
toán cải tiến của FCM.
 Chương 3: Mô phỏng một số thuật toán phân cụm dữ liệu trên hai bộ
dữ liệu viêm gan và động kinh nguồn từ UCI.

» Phần kết luận: Tổng kết lại những vấn đề đã nghiên cứu, đánh giá kết quả
nghiên cứu và hướng phát triển của đề tài.

3


PHẦN NỘI DUNG

Chương 1: MỘT SỐ KIẾN THỨC CƠ SỞ CỦA LÝ THUYẾT TẬP MỜ
1.1. TẬP MỜ VÀ THÔNG TIN KHÔNG CHẮC CHẮN
L.A. Zadeh là người sáng lập ra lý thuyết tập mờ với hàng loạt bài báo mở
đường cho sự phát triển và ứng dụng của lý thuyết này, khởi đầu là bài báo “Fuzzy
Sets” trên Tạp chí Information and Control, 8, 1965. Ý tưởng nổi bật của khái niệm
tập mờ của Zadeh là, từ những khái niệm trừu tượng về ngữ nghĩa của thông tin mờ,
không chắc chắn như trẻ, nhanh, cao-thấp, xinh đẹp.., ông đã tìm ra cách biểu diễn
nó bằng một khái niệm toán học, được gọi là tập mờ, như là một sự khái quát trực
tiếp của khái niệm tập hợp kinh điển.
1.1.1. Khái niệm tập mờ
Định nghĩa 1.1. Cho một tập vũ trụ U. Tập hợp được xác định bởi đẳng
thức: được gọi là một tập hợp mờ trên tập U.
Biến u lấy giá trị trong U được gọi là biến cơ sở và vì vậy tập U còn
được gọi là tập tham chiếu hay miền cơ sở.
Hàm : U  [0. 1] được gọi là hàm thuộc (membership function) và giá trị
tại u được gọi là độ thuộc của phần tử u thuộc về tập hợp mờ .
Họ tất cả các tập mờ trên miền cơ sở U được ký hiệu là F (U)

F (U) = {: U  [0, 1] = [0, 1]U }
Có nhiều cách biểu diễn hình thức một tập mờ. Trong trường hợp U là một
tập hữu hạn, đếm được hay vô hạn liên tục, tập mờ có thể được biểu diễn bằng
các biểu thức hình thức như sau:
Trong trường hợp U hữu hạn, U = {}, ta có thể viết:
+
Hay
Trong trường hợp này tập mờ được gọi là tập mờ rời rạc (discrete fuzzy)
4


Trong trường hợp U là vô hạn đếm được, U = {ui: i = 1, 2, …}, ta có thể
viết:

Trong trường hợp U là vô hạn liên tục, U = [a, b], ta có thể viết:

Định nghĩa 1.2. Tập mờ có dạng hình thang xác định bởi bộ 4 giá trị (a, b,
c, d), ký hiệu = (a, b, c, d) và được xác định:

1.1.2. Tập lát cắt của tập mờ
Định nghĩa 1.3: Cho một tập mờ trên tập vũ trụ U và Tập lát cắt (hoặc +)
của tập là một tập kinh điển, ký hiệu là (hoặc ), được xác định bằng đẳng thức sau:
(hoặc ).
Như vậy, mỗi tập mờ sẽ cảm sinh một họ các tập kinh điển, ta có ánh xạ
(1*)
Để đơn giản ký hiệu, ta viết họ các tập kinh điển như vậy bằng
. Họ các tập như vậy có tính chất sau:
Định lý 1.1: Cho , là ánh xạ được cho trong (1*) và , . Khi đó
(i) Mỗi họ như vậy là dãy đơn điệu giảm, nếu , thì ;
(ii) Nếu .

Nghĩa là tồn tại một song ánh từ họ các tập mờ F(U) và họ của những họ tập
kinh điển ở dạng (1*).
Chứng minh: Tính chất (i) dễ dàng rút ra từ tính chất ().
Để chứng minh tính chất (ii), giả sử , . Để định ý ta giả sử rằng có sao cho .
Chọn . Điều này khẳng định . Vậy .
Hiển nhiên là nếu . Như vậy ta chứng tỏ ánh xạ là song ánh.
5


1.1.3. Một số khái niệm đặc trưng của tập mờ
Định nghĩa 1.4. (i) Giá của tập mờ: Giá của tập mờ , ký hiệu là Support(), là
tập con của U trên đó .
(ii) Độ cao của tập mờ: Độ cao của tập mờ , ký hiệu là , là cận trên đúng
của hàm thuộc .
(iii) Tập mờ chuẩn (normal): Tập mờ được gọi là chuẩn nếu hight() = 1.
Trái lại, tập mờ được gọi là dưới chuẩn (subnormal).
(iv) Lõi của tập mờ: Lõi của tập mờ , ký hiệu là Core(), là một tập con của
U được xác định như sau:
Định nghĩa 1.5. Lực lượng của tập mờ
Cho là một tập mờ trên U
(i)

Lực lượng vô hướng (scalar cardinality): Lực lượng hay bản số thực

của tập , ký hiệu là Count(), được tính theo công thức đếm sau (đôi khi được gọi
là sigma count).
, nếu U là tập hữu hạn hay đếm được
, nếu U là tập vô hạn liên tục
Ở đây , là tổng và tích số học
(ii)


Lực lượng mờ (fuzzy cardinality): Lực lượng hay bản số mờ của tập

là một tập mờ trên tập các số nguyên không âm N được định nghĩa như sau:

Trong đó được xác định theo công thức sau, với là lực lượng của tập mức
Có thể xem công thức tính ở trên là công thức “đếm” số phần tử trong U.
Thực vậy, nếu tập ở trên về tập kinh điển thì trên U và do đó công thức trên chính là
bộ đếm số phần tử. Khi, thì u chỉ thuộc về tập với tỉ lệ phần trăm bằng và do đó phần
tử u chỉ được “đếm” vào số lượng các phần tử một đại lượng bằng .
Lưu ý rằng, khác với trường hợp tập kinh điển, dù tập U là vô hạn đếm
6


được hay vô hạn liên tục, thì lực lượng của tập mờ vẫn có thể là hữu hạn, tùy
theo dáng điệu của hàm .
1.2. BIẾN NGÔN NGỮ
1.2.1. Định nghĩa
Biến ngôn ngữ là một bộ năm (X, T(X), U, R, M ), trong đó X là tên biến,
T(X) là tập các giá trị ngôn ngữ của biến X, U là không gian tham chiếu của biến
cơ sở u, mỗi giá trị ngôn ngữ xem như là một biến mờ trên U kết hợp với biến
cơ sở u, R là một qui tắc cú pháp sinh các giá trị ngôn ngữ của T(X), M là qui tắc
ngữ nghĩa gán mỗi giá trị ngôn ngữ trong T(X) với một tập mờ trên U.
1.2.2. Các đặc trưng của biến ngôn ngữ
Trong thực tế có rất nhiều biến ngôn ngữ khác nhau về các giá trị nguyên
thuỷ, chẳng hạn như biến ngôn ngữ SỐ NGÀY LÀM VIỆC có giá trị nguyên
thuỷ là ít, nhiều, biến ngôn ngữ LƯƠNG có giá trị nguyên thuỷ là thấp, cao…..Tuy
nhiên, những kết quả nghiên cứu đối với một miền trị của một biến ngôn ngữ cụ
thể vẫn giữ được ý nghĩa về mặt cấu trúc đối với miền giá trị của các biến còn
lại. Đặc trưng này được gọi là tính phổ quát của biến ngôn ngữ.

Ngữ nghĩa của các gia tử và các liên từ hoàn toàn độc lập với ngữ cảnh,
điều này khác với giá trị nguyên thủy của các biến ngôn ngữ lại phụ thuộc vào ngữ
cảnh. Dó đó khi tìm kiếm mô hình cho các gia tử và các liên từ chúng ta không
quan tâm đến giá trị nguyên thuỷ của biến ngôn ngữ đang xét. Đặc trưng này
được gọi là tính độc lập ngữ cảnh của gia tử và liên từ.
1.3. CÁC PHÉP TÍNH TRÊN TẬP MỜ
Trước khi định nghĩa các phép tính trong F(U, [0, 1]), chúng ta hãy xem
đoạn [0, 1] như là một cấu trúc dàn L[0, 1] = ([0, 1], , , –) với thứ tự tự nhiên trên
đoạn [0, 1]. Khi đó, với mọi a, b [0, 1], ta có:
a b = max {a, b}, a b = min {a, b} và – a = 1 b.
Chúng ta có thể kiểm chứng rằng L[0,1] = ([0, 1], , , –) là một đại số
DeMorgan, hơn nữa nó có các tính chất sau:
7


Tính chất giao hoán

:

a b = b a và a b = b a

Tính chất phân phối

:

a (b c) = (a b) (a c) và
a (b c) = (a b) (a c)

Tính chất nuốt


:

a (a b) = a.

Tính chất nuốt đối ngẫu

:

a (a b) = a.

Tính chất lũy đẳng

:

a a=a

Tính chất phủ định

:

–(–a) = a

Tính chất đơn điệu giảm

:

a b –a b

Tính chất De Morgan


:

–(a b)= –a –b; –(a b) = –a –b.

và a a = a

1.3.1. Phép hợp mờ
Cho hai tập mờ trên tập vũ trụ U. Hợp của hai tập mờ này là một tập mờ
ký hiệu là mà hàm thuộc được định nghĩa theo điểm (pointwise) như sau: hay,
trong trường hợp U là hữu hạn hay đếm được:

hay, trong trường hợp U là tập liên tục:

Một cách tổng quát, cho với I là tập chỉ số hữu hạn hay vô hạn nào đó. Khi
đó hợp của các tập mờ như vậy, ký hiệu là , được định nghĩa bằng hàm thuộc như
sau: )(u)=.
Một cách tổng quát, nếu cho trước các tập mờ , i=1, 2, m thì hợp các tập mờ
này là tập mờ được định nghĩa mở rộng bằng quy nạp và được ký hiệu là:

Nhận xét 1.1: Các hạng thức dạng có thể xem là một tập mờ mà giá của nó
chỉ chứa duy nhất một phần tử , hàm thuộc của nó bằng 0 tại mọi u và bằng tại mọi
phần tử . Kí hiệu tập mờ này là , tích của số vô hướng của với tập kinh điển 1-phần
tử {ui}. Khi đó, với định nghĩa phép hợp như trên, các phép cộng hình thức “+” có
thể được biểu thị bằng phép hợp.
1.3.2. Phép giao mờ
Cho hai tập mờ trên tập vũ trụ U. Hợp của hai tập mờ này là một tập mờ
8


ký hiệu là , mà hàm thuộc của nó được định nghĩa theo điểm (pointwise) như sau:

hay, trong trường hợp U là hữu hạn hay đếm được:

hay, trong trường hợp U là tập liên tục:

Một cách tổng quát, cho với I là tập chỉ số hữu hạn hay vô hạn nào đó. Khi
đó giao của các tập mờ như vậy, ký hiệu là , được định nghĩa bằng hàm thuộc như
sau
, (u)=.
1.3.3. Phép lấy phần bù
~
Xét một tập mờ A trên tập vũ trụ U. Phép lấy bù của tập , ký hiệu là ~, là
tập mờ với hàm thuộc được xác định bằng đẳng thức sau:

Tập mờ biểu diễn ở dạng công thức hình thức có dạng sau:
Trường hợp U là hữu hạn hay vô hạn đếm được

Trường hợp U là vô hạn liên tục

1.3.4. Phép tổng và tích đại số các tập mờ
Phép cộng đại số hai tập mờ: Cho hai tập mờ trên tập vũ trụ U.
Tổng đại số của hai tập mờ này là một tập mờ, ký hiệu là , được định nghĩa
bởi đẳng thức sau:
Trong trường hợp U là hữu hạn hay vô hạn đếm được,

Trong trường hợp U là vô hạn liên tục,
9


Lưu ý rằng giá trị biểu thức luôn luôn thuộc [0, 1] và do đó các định nghĩa
của phép tính trên là đúng đắn.

Phép nhân đại số hai tập mờ: Nhân đại số hai tập mờ là một tập mờ, ký hiệu
là , được xác định như sau:
Trong trường hợp U là hữu hạn hay vô hạn đếm được,

Trong trường hợp U là vô hạn liên tục,

1.3.5. Phép tích Descartes các tập mờ
Cho hai tập mờ và xác định trên tập vũ trụ tương ứng U và V. Tích
Descartes của và được kí hiệu , là một tập mờ trên tập vũ trụ U V với hàm thuộc
được xác định như sau:
.
Cho , i= 1, 2, …, n, được kí hiệu , là một tập mờ trên tập vũ trụ với hàm
thuộc được xác định như sau:

1.3.6. Phép tập trung
Cho tập mờ trên U. Phép tập trung tập mờ là tập mờ, ký hiệu là , được
định nghĩa như sau:

Vì > 1 nên và do đó miền giới hạn bởi hàm sẽ nằm trọn trong miền giới hạn
bởi hàm , hàm thuộc của tập mờ bị co lại sau phép tập trung. Nói khác đi tập mờ
biểu thị một khái niệm dặc tả hơn khái niệm gốc biểu thị bởi tập mờ . Về trực quan
chúng ta thấy khái niệm mờ càng đặc tả thì nó càng chính xác hơn, ít mờ hơn và gần
giá trị kinh điển hơn.
10


1.3.7. Phép dãn
Ngược với phép tập trung là phép dãn. Phép dãn khi tác động vào một tập
mờ , ký hiệu là DIL(), được xác định bởi đẳng
thức sau:


Trong Trường hợp này ta thấy và do đó
phép dãn sẽ làm hàm thuộc của tập mờ đó dãn

Hình 1.1: Phép tập trung

nở ra, hàm thuộc của tập mờ thu được sẽ xác định một miền thực sự bao hàm
miền giới hạn bởi hàm thuộc của tập mờ gốc.
Hình 1.1, ta thấy đường cong nết chấm biểu thị hàm thuộc còn đường cong
nét liền biểu thị hàm thuộc . Ngữ nghĩa của khái niệm mờ biểu thị bởi tập mờ kết
quả ít đặc tả hơn hay ngữ nghĩa của nó càng mờ hơn.
Ngược với hay đối ngẫu với việc sử dụng phép CON, phép DIL được sử
dụng dể biểu thị ngữ nghĩa của gia tử có thể hay xấp xỉ vì ngữ nghĩa của khái
niệm có thể trẻ ít đặc tả hơn hay tính mờ của nó lớn hơn.
1.3.8. Phép tổ hợp lồi
Cho là tập mờ của tập vũ trụ tương ứng với biến ngôn ngữ Xi, i= 1, 2,
…, n, và wi là các trọng số về mức độ quan trọng tương đối của biến Xi so với
các biến khác, i = 1, 2, …, n, và thỏa ràng buộc .
Khi đó tổ hợp lồi của các tập mờ i=1, 2, n, là một tập mờ xác định trên U
= , hàm thuộc của nó được định nghĩa như sau:

Trong đó là tổng số học (chứ không phải là tổng hình thức).
Phép tổ hợp lồi thường được sử dụng để biểu thị ngữ nghĩa của gia tử kiểu
“cốt yếu” (essentially) hay “đặc trưng” hay “đặc tính tiêu biểu” (typically).

11


1.4. MỜ HÓA VÀ KHỬ MỜ
1.4.1. Phương pháp mờ hóa

Việc mờ hóa có hai bài toán:
(i)

Tìm tập mờ biểu thị một tập kinh điển hay, một cách tổng quát
hơn, hãy mờ hóa một tập mờ đã cho ;

(ii)

Tìm độ thuộc của giá trị ngôn ngữ của một biến ngôn ngữ tương
ứng với một dữ liệu đầu vào là thực hoặc mờ.

Theo nghĩa thứ nhất ta định nghĩa phép mờ hóa như sau:
Phép mờ hóa F của một tập mờ trên tập vũ trụ U sẽ cho ta một tập mờ
được xác định theo công thức sau:
.Trong đó là một tập mờ trên , , được gọi là nhân (kernel) của F.
Nếu là hàm thuộc của tập kinh điển 1-phần tử {u}, chỉ bằng 1 tại phần tử u
còn lại là bằng 0 hay ta có tập “mờ” {1/u}, thì ta có:
=
Nếu là tập kinh điển A, trên A và bằng 0 ngoài A, thì mờ hóa của A với
nhân sẽ là tập mờ sau:
.
Bài toán mờ hóa thứ 2 được giới hạn trong trường hợp tập vũ trụ là tập
hữu hạn các giá trị ngôn ngữ
Cụ thể bài toán mờ hóa trong trường hợp này như sau: Giả sử T là tập các
giá trị ngôn ngữ của một biến ngôn ngữ X nào đó với miền cơ sở U. Cho một tập
kinh điển hoặc tập mờ trên U. Hãy tìm tập mờ trên miền T biểu thị tập mờ hay,
một cách tương đương, hãy tìm độ thuộc của giá trị trong T tương ứng với dữ
liệu đầu vào .
1.4.2. Phương pháp khử mờ
Về trực quan chúng ta có thể đưa ra những yêu cầu để một phương pháp

12


khử mờ được xem là tốt. Hellendoorn, H. and C. Thomas năm 1993 đã đưa ra 5
tiêu chuẩn trực quan sau.
(i) Tính liên tục, nghĩa là một sự thay đổi nhỏ của dữ liệu đầu vào của
phương pháp nó cũng chỉ tạo ra những thay đổi nhỏ ở dữ liệu đầu ra;
(ii) Tính không nhập nhằng (disambiguity), nghĩa là phương pháp chỉ sinh
ra một giá trị đầu ra duy nhất;
(iii) Tính hợp lý (plausibility) đòi hỏi rằng giá trị đầu ra phải nằm ở vùng
trung tâm của tập mờ và độ thuộc hay giá trị hàm thuộc tại đó phải lớn (không
nhất thiết lớn nhất);
(iv) Độ phức tạp tính đơn giản (computational simplicity), một đòi hỏi tự nhiên.
(v) Tính trọng số của phương pháp (weighting method) đòi hỏi phương
pháp tính đến trọng số hay “sự ưu tiên” của các tập mờ kết quả đầu ra (đối với
trường hợp bài toán cho nhiều kết quả đầu ra như đối với một số phương pháp lập
luận mờ đa điều kiện).
Nói chung, chúng ta có thể hiểu các tiêu chuẩn cần bảo đảm giá trị khử mờ
của tập mờ là phần tử thực đại diện một cách hợp lý của .
Sau đây chúng ta nghiên cứu một vài phương pháp khử mờ.
1.4.2.1. Phương pháp cực đại trung bình (average maximum)
Cho tập mờ với hàm thuộc . Gọi tương ứng là hai giá trị nhỏ nhất và lớn
nhất của miền cơ sở U mà tại đó hàm thuộc nhận giá trị lớn nhất (cực đại toàn
phần). Ký hiệu giá trị khử ở của theo phương pháp cực đại trung bình là . Khi đó
được định nghĩa như sau:

Ý tưởng của phương pháp này là chúng ta chỉ quan tâm đến các giá trị của U
mà tại đó nó phù hợp hay tương thích với ngữ nghĩa của tập mờ nhất, tại đó độ thuộc
là cực đại toàn phần. Những giá trị khác của U mà tại đó độ thuộc nhỏ hơn 1 đều bị
bỏ qua. Vì vậy, một khả năng lựa chọn giá trị khử mờ là giá trị trung bình của giá trị

nhỏ nhất và giá trị lớn nhất tại đó độ thuộc vào tập mờ là lớn nhất. Đó chính là lý do
13


người ta gọi phương pháp khử mờ này là phương pháp cực đại trung bình.
1.4.2.2. Phương pháp cực đại trung bình có trọng số
Ý tưởng của phương pháp này là tìm những đoạn tại đó hàm thuộc đạt cực
đại địa phương. Nghĩa là tại các giá trị của miền cơ sở mờ độ thuộc của chúng đạt
cực đại địa phương. Nói khác đi các giá trị đó của U thuộc về tập mờ với độ tin cậy
có độ trội nhất. Các giá trị như vậy cần được tham gia “đóng góp” vào việc xác định
giá trị khử mở của tập với trọng số đóng góp chính là độ thuộc của chúng vào tập .
Chúng ta chọn cách đóng góp như vậy bằng phương pháp lấy trung bình có trọng số
(weighted average maxima method). Vì vậy cách tính giá trị khử mờ của tập mờ
như sau:
Xác định các giá trị của U mà tại đó hàm thuộc đạt giá trị cực đại địa
phương. Ký hiệu là giá trị lớn nhất và nhỏ nhất trong các giá trị của U mà tại đó
hàm thuộc đạt cực đại địa phương. Giá trị trung bình cộng của sẽ được ký hiệu là ,
trong đó, chỉ số i chỉ nó là giá trị tương ứng với giá trị cực đại địa phương thứ i.
Giả sử hàm thuộc có m giá trị cực đại địa phương, i = 1, 2, …, m. Khi đó giá
trị khử mờ của tập mờ được tính theo công thức trung bình cộng có trọng số như
sau:

1.4.2.3. Phương pháp trọng tâm
Theo nghĩa thông thường của trọng tâm, công thức tính giá trị khử mờ có
dạng sau:

1.5. TIỂU KẾT CHƯƠNG 1
Như vậy qua chương 1 luận văn đã trình bày cơ sở lý thuyết tập mờ, các
phép toán trên tập mờ. Tập mờ đóng vai trò quan trọng trong việc phân cụm. Trong
cách biểu diễn tập mờ sử dụng đến một hàm thuộc để biểu thị tính thuộc (thành

viên) của đối tượng vào một tập. Trong chương tiếp theo luận văn sẽ trình bày đến
tổng quan về phân cụm và một số thuật toán phân cụm mờ.
14


Chương 2: MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM MỜ
2.1. TỔNG QUAN VỀ PHÂN CỤM
2.1.1. Khái niệm phân cụm dữ liệu
Định nghĩa 2.1:
Cho X là một tập dữ liệu:

(2.1)

Ta định nghĩa m–phân cụm của X như một sự phân chia X thành m tập
(cụm): sao cho thoả 3 điều kiện:
(i) .
(ii) .
(iii)
Thêm vào đó, các vector trong một cụm là “tương tự” nhau hơn so với các
vector thuộc một cụm khác. Lượng hoá thuật ngữ “tương tự” và “không tương tự”
phụ thuộc rất nhiều vào loại của cụm (xem hình 2.1). Với định nghĩa trên, mỗi
vector chỉ thuộc về một cụm riêng nên loại phân cụm này thỉnh thoảng còn được gọi
là chặt hay rõ (hard or crisp).

Các tập chặc

Các tập dài và mỏng

Các tập dạng cầu và
ellipsoid

Hình 2.1: Hình dạng các loại cụm

Dựa vào khái niệm tập mờ ta có thể định nghĩa như sau:

15


Định nghĩa 2.2:
Một sự phân cụm mờ tập X thành m cụm được mô tả bởi m hàm
thuộc sao cho:

(2.2)


(2.3)

Mỗi cụm trong trường hợp này có thể không được định nghĩa chính xác.
Nghĩa là mỗi vector x thuộc về nhiều hơn một cụm, với mỗi cụm nó lại thuộc về với
độ thuộc :
 gần 1: mức độ thuộc của x vào cụm thứ j cao;
 gần 0: mức độ thuộc của x vào cụm thứ j thấp.
Nếu một hàm thuộc có giá trị gần 1 với hai vector thì hai vector này được coi
là tương tự nhau. Điều kiện (2.3) đảm bảo rằng không tồn tại một cụm mà không
chứa bất kỳ vector nào. Định nghĩa 2.1 là một trường hợp riêng của định nghĩa 2.2
khi hàm thuộc chỉ nhận hai giá trị 0 và 1, lúc này nó được gọi là hàm đặc trưng.
Để tối ưu hóa, các thuật giải phân cụm, dữ liệu yêu cầu phải được chuẩn hóa.
Có 2 dạng chuẩn hóa dữ liệu phổ biến:
(i)

Min-max normalization: khi muốn giá trị chuẩn hóa nằm trong đoạn 0..1


(ii)

Z-score standardization: Giá trị chuẩn hóa trong đoạn -3…3

Ngoài phương pháp sử dụng khoảng cách để tính độ “tương tự”, phân cụm
dữ liệu còn tính độ “tương tự” dựa vào khái niệm: hai hay nhiều đối tượng thuộc
cùng nhóm nếu có một định nghĩa khái niệm chung cho tất cả các đối tượng trong
đó. Nói cách khác, đối tượng của nhóm phải phù hợp với nhau theo miêu tả các khái
niệm đã được định nghĩa, không phải theo những biện pháp đơn giản tương tự.
2.1.2. Mục tiêu của phân cụm dữ liệu
Mục tiêu của phân cụm dữ liệu là để xác định các nhóm nội tại bên trong một
16


×