(Luận văn thạc sĩ) tiếp cận mờ trong phân cụm dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.02 MB, 62 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN TRUNG ĐỨC

TIẾP CẬN MỜ TRONG PHÂN CỤM DỮ LIỆU

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội, 2013

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN TRUNG ĐỨC

TIẾP CẬN MỜ TRONG PHÂN CỤM DỮ LIỆU

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 05

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS Hoàng Xuân Huấn

Hà Nội, 2013

1

MỤC LỤC
DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT ........................................................... 3
DANH MỤC CÁC HÌNH VẼ .......................................................................................4
DANH MỤC CÁC BẢNG BIỂU ..................................................................................6
MỞ ĐẦU ......................................................................................................................... 7
CHƢƠNG I: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU ..........................................9
1.1. Phân cụm dữ liệu là gì ........................................................................................9
1.2. Thế nào là phân cụm tốt ...................................................................................10
1.3. Các ứng dụng của phân cụm dữ liệu ................................................................ 11
1.4. Các phương pháp phân cụm dữ liệu thông thường ..........................................13
1.4.1. Phương pháp phân cụm phân hoạch ......................................................... 13
1.4.2. Phương pháp phân cụm phân cấp ............................................................. 14
1.4.3. Phương pháp phân cụm dựa trên mật độ ..................................................16
1.4.4. Phương pháp phân cụm dựa trên lưới ....................................................... 17
1.5. Một số chủ đề liên quan ...................................................................................19
CHƢƠNG II: PHÂN CỤM DỮ LIỆU MỜ ............................................................... 20
2.1. Một số khái niệm cơ sở của lý thuyết tập mờ ..................................................20
2.1.1. Khái niệm về tập mờ ..................................................................................20
2.1.2. Các dạng hàm liên thuộc của tập mờ ........................................................ 22
2.1.3. Các thông số đặc trưng cho tập mờ ........................................................... 23
2.2. Phân cụm rõ – phân cụm mờ ...........................................................................24
2.2.1. Phân cụm rõ ............................................................................................... 24
2.2.2. Phân cụm mờ ............................................................................................. 24
2.3. Một số thuật toán phân cụm dữ liệu mờ ........................................................... 27
2.3.1. Thuật toán phân cụm C-means mờ ............................................................ 27
2.3.2. Thuật toán Gustafson-Kessel .....................................................................30
CHƢƠNG III: SỐ CỤM VÀ CHỈ SỐ ĐÁNH GIÁ ..................................................33
3.1. Vấn đề ước lượng số cụm .................................................................................33
3.2. Quá trình ước lượng số cụm tối ưu ..................................................................34
3.3. Một số chỉ số đánh giá điển hình cho phân cụm mờ ........................................35

3.3.1. Chỉ số hệ số phân hoạch và entropy phân hoạch ......................................35
3.3.2. Chỉ số MPC ................................................................................................ 36
3.3.3. Chỉ số XB ...................................................................................................36

2

3.3.4. Chỉ số K......................................................................................................37
3.3.5. Chỉ số PCAES ............................................................................................ 38
3.3.6. Chỉ số CO ...................................................................................................39
CHƢƠNG IV: MỘT CHỈ SỐ ĐÁNH GIÁ SỐ CỤM MỚI CHO PHÂN CỤM MỜ
.......................................................................................................................................41
4.1. Nhận xét............................................................................................................41
4.2. Chỉ số đánh giá mới .......................................................................................... 42
4.3. Kết quả thực nghiệm ........................................................................................ 43
4.3.1. Các tập dữ liệu ........................................................................................... 43
4.3.2. Các kết quả thu được .................................................................................45
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN .................................................................58
TÀI LIỆU THAM KHẢO........................................................................................... 59

3

DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT

DBSCAN
FCM
FN
FPCM
GG

GK
NN
PC
PCAES
PCDL
PE
STING
UPGMA
𝜀FCM

Density – Based Spatial Clustering of Applications with Noise
Fuzzy c-means
Furthest Neighbour
Fuzzy Possibilistic c-Means
Gath – Geva
Gustafson – Kessel
Nearest Neighbour
Partition Coeficient
Partition Coefficient And Exponential Separation
Phân cụm dữ liệu
Partition Entropy
STatistical INformation Grid approach
Un-weighted Pair-Group Method using Arithmetic averages
𝜀-Insensitive Fuzzy C-means

4

DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Mơ phỏng vấn đề phân cụm dữ liệu. ............................................................... 9

Hình 1.2: Các bước của quá trình phân cụm dữ liệu. ....................................................10
Hình 1.3: Tiêu chuẩn phân cụm. ...................................................................................11
Hình 1.4: Phân cụm tập S = {a, b, c, d, e} theo phương pháp “dưới lên”.....................15
Hình 1.5: Hai cụm được tìm bởi thuật tốn DBSCAN. ................................................17
Hình 1.6: Hai cụm dữ liệu có thể tìm được nhờ DBSCAN. ..........................................17
Hình 1.7: Ba tầng liên tiếp nhau của cấu trúc STING. ..................................................18
Hình 2.1: Biểu diễn tập nhiệt độ “NĨNG”....................................................................21
Hình 2.2: Biểu diễn các tập mờ “Trẻ ”, “Trung niên”, “Già”. ......................................22
Hình 2.3: Đồ thị hàm liên thuộc hình tam giác ............................................................. 23
Hình 2.4: Đồ thị hàm liên thuộc hình thang. .................................................................23
Hình 2.5: Độ cao, miền xác định, miền tin cậy của tập mờ. .........................................24
Hình 2.6: Tập dữ liệu “butterfly”. .................................................................................25
Hình 2.7: Kết quả phân cụm rõ tập dữ liệu butterfly. ...................................................26
Hình 2.8: Hai cụm mờ của tập dữ liệu butterfly. ........................................................... 26
Hình 2.9: Các chuẩn khoảng cách khác nhau sử dụng trong phân cụm mờ..................30
Hình 2.10: Kết quả phân cụm tập dữ liệu các cụm khác nhau về hình dáng bởi thuật
tốn FCM và GK ..........................................................................................................32
Hình 3.1: Phân cụm tập dữ liệu với số lượng cụm khác nhau.......................................33
Hình 3.2: (a) Tập dữ liệu gồm 3 cụm, (b) kết quả phân cụm bởi thuật toán FCM với số
cụm là 4 ......................................................................................................................... 34
Hình 3.3: Quá trình ước lượng số cụm tối ưu. .............................................................. 35
Hình 3.4: Kết quả phân cụm và giá trị chỉ số PCAES với các số cụm khác nhau. .......39
Hình 4.1: Hai cụm A, B có cùng số phần tử, phân phối giống nhau nhưng kích thước,
mất độ khác nhau. ..........................................................................................................41
Hình 4.2: Ba cụm A, B, C với tâm cụm biểu thị là hình chữ nhật nhỏ. ........................ 42
Hình 4.3: Mơ tả các tập dữ liệu nhân tạo ......................................................................45
Hình 4.4: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Sep_8. ........................... 46
Hình 4.5: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Over_5. ......................... 47
Hình 4.6: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Over_3. ......................... 49
Hình 4.7: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Over_4. ......................... 51

Hình 4.8: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Difzd_3. ........................ 51
Hình 4.9: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Difz_3. .......................... 52

5

Hình 4.10: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Iris. .............................. 53
Hình 4.11: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Seeds. .......................... 54
Hình 4.12: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Pima Indians Diabetes.
.......................................................................................................................................56

6

DANH MỤC CÁC BẢNG BIỂU
Bảng 1: Giá trị hàm liên thuộc của tập dữ liệu Butterfly bởi thuật toán k-means và cmeans mờ. ......................................................................................................................27
Bảng 2: Mô tả các tập dữ liệu nhân tạo .........................................................................44
Bảng 3: Giá trị của các chỉ số với tập dữ liệu Sep_8 ....................................................45
Bảng 4: Giá trị của các chỉ số với tập dữ liệu Over_5. .................................................46
Bảng 5: Giá trị của các chỉ số với tập dữ liệu Over_3 ..................................................48
Bảng 6: Giá trị của các chỉ số với tập dữ liệu Over_4 ..................................................49
Bảng 7: Giá trị của các chỉ số với tập dữ liệu Difzd_3. ................................................51
Bảng 8: Giá trị của các chỉ số với tập dữ liệu Difz_3. ..................................................52
Bảng 9: Giá trị của các chỉ số với tập dữ liệu Iris. ........................................................ 53
Bảng 10: Giá trị của các chỉ số với tập dữ liệu Seeds. ..................................................54
Bảng 11: Giá trị của các chỉ số với tập dữ liệu Pima Indians Diabetes ........................ 55
Bảng 12: Giá trị số lượng cụm tối ưu 𝑐 ∗ mà các chỉ số xác định cho các tập dữ liệu. 56

7

MỞ ĐẦU

Phân cụm dữ liệu là bài toán thuộc vào lĩnh vực học máy không giám sát và đang
được ứng dụng rộng rãi để khai thác thông tin từ dữ liệu. Nó có nhiệm vụ tổ chức một
tập các đối tượng dữ liệu thành các cụm sao cho những đối tượng trong cùng một cụm
thì “tương tự” nhau trong khi các đối tượng trong các cụm khác nhau thì “kém tương
tự” nhau.
Phương pháp phân cụm dữ liệu truyền thống (PCDL rõ) chia một tập dữ liệu ban
đầu thành các cụm dữ liệu và mỗi đối tượng chỉ thuộc về một cụm. Nhưng trong thực
tế ranh giới giữa các cụm thường khơng rõ ràng, một đối tượng dữ liệu có thể thuộc về
nhiều cụm khác nhau, do đó phương pháp này không mô tả được dữ liệu thực. Để tăng
hiệu quả và tính chính xác cho kết quả phân cụm, người ta đã áp dụng lý thuyết tập mờ
vào việc phân cụm dữ liệu xây dựng lên phương pháp phân cụm dữ liệu mờ.
Hiện nay, phân cụm dữ liệu mờ vẫn là bài toán đang được nhiều người quan tâm
nghiên cứu và ứng dụng thành công trong nhiều lĩnh vực: nghiên cứu thị trường, nhận
dạng, xử lý ảnh, tìm kiếm thơng tin… Các thuật toán phân cụm mờ rất đa dạng như: Cmeans mờ (FCM), Gustafson-Kessel (GK), Gath-Geva (GG), Fuzzy Possibilistic CMeans (FPCM), 𝜀-Insensitive Fuzzy C-means (𝜀FCM),... Tuy nhiên, trong các thuật
toán, thường yêu cầu người dùng xác định trước số lượng cụm. Số cụm là một tham số
quan trọng và ảnh hưởng nhiều tới kết quả của quá trình phân cụm, ứng với số lượng
cụm khác nhau sẽ cho ra các kết quả phân cụm khác nhau, thật khó khăn để quyết định
kết quả phân cụm nào là tốt nhất hay số lượng cụm tối ưu là gì?
Luận văn này trình bày khảo cứu của tác giả về tiếp cận phân cụm mờ. Đặc
biệt, đi sâu vào kỹ thuật đánh giá, ước lượng số cụm nhờ hàm chỉ số. Trên cơ sở đó,
đề xuất một chỉ số đánh giá số cụm mới nhờ kết hợp ưu điểm của chỉ độ nén
(compactness) trong [8,16] và độ chồng nhau (overlap) trong [17,29]. Ưu điểm nổi trội
của chỉ số mới thể hiện qua kết quả thực nghiệm trên nhiều bộ dữ liệu thực và nhân tạo
khi so sánh với các chỉ số điển hình hiện có.
Ngồi phần kết luận, cấu trúc nội dung của luận văn bao gồm 4 chƣơng:
Chương 1: Tổng quan về phân cụm dữ liệu
Chương 1 tập trung trình bày tổng quan về PCDL, đây là một hướng tiếp cận

trong Data Mining. Trong đó đi sâu phân tích chi tiết các vấn đề cơ bản: khái niệm
PCDL và ý nghĩa của nó trong thực tiễn; trình bày một số phương pháp PCDL và giải
thuật điển hình của mỗi phương pháp phân cụm.
Chương 2: Phân cụm dữ liệu mờ
Để làm rõ hơn kỹ thuật PCDL mờ, chương 2 trình bày một số khái niệm cơ bản
của lý thuyết tập mờ; phân tích kỹ thuật phân cụm rõ và phân cụm mờ, trình bày hai

8

thuật tốn phân cụm mờ điển hình: C-means mờ (viết tắt là FCM) và mở rộng của nó
là thuật tốn Gustafson-Kessel (viết tắt là GK).
Chương 3: Số cụm và chỉ số đánh giá
Trong chương 3, luận văn đặc tả vấn đề ước lượng số cụm trong bài toán phân
cụm. Phân tích một số hàm chỉ số thơng dụng để đánh giá chất lượng phân hoạch được
tạo ra bởi các thuật tốn phân cụm mờ, nhờ đó xác định số cụm tối ưu cho tập dữ liệu
được xét.
Chương 4: Một chỉ số đánh giá số cụm mới cho phân cụm mờ
Chương 4, luận văn đề xuất một chỉ số đánh giá số cụm mới nhờ kết hợp độ nén
và độ chồng nhau của các cụm. Tiến hành thực nghiệm trên nhiều bộ dữ liệu nhân tạo
và bộ dữ liệu thực đã cho thấy ưu điểm nổi trội của chỉ số mới so với các chỉ số điển
hình hiện có trong q trình tìm kiếm số cụm tối ưu cho một tập dữ liệu.

9

CHƢƠNG I
TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU

1.1. Phân cụm dữ liệu là gì

Một trong những bài tốn quan trọng trong lĩnh vực khai phá dữ liệu (data
mining) là bài tốn phân cụm. Ở một mức cơ bản, ta có thể định nghĩa phân cụm dữ
liệu như sau: [13]
Phân cụm dữ liệu (PCDL) là quá trình phân chia một tập dữ liệu ban đầu thành
các cụm dữ liệu sao các phần tử trong cùng một cụm thì “tương tự” nhau và các phần
tử trong các cụm khác nhau thì “kém tương tự” nhau.
Số các cụm dữ liệu được phân ở đây có thể được xác định trước hoặc có thể được
tự động xác định theo phương pháp phân cụm.

Hình 1.1: Mô phỏng vấn đề phân cụm dữ liệu.
Trong học máy, PCDL được xem là vấn đề học khơng có giám sát (unsupervised
learning), vì nó phải giải quyết vấn đề tìm một cấu trúc trong tập hợp dữ liệu chưa biết
trước các thông tin về cụm hay các thông tin về tập huấn luyện mà chỉ đơn thuần dựa
vào tính tương đồng của các đối tượng dữ liệu. Trong nhiều trường hợp, nếu phân lớp
được xem là vấn đề học có giám sát thì PCDL là một bước trong phân lớp dữ liệu, nó
sẽ khởi tạo các lớp cho phân lớp bằng cách xác định các nhãn cho các nhóm dữ liệu.
[2,6,13]
Với một tập dữ liệu, q trình phân cụm có thể cho ra nhiều kết quả khác nhau
tùy thuộc vào tiêu chí cụ thể được sử dụng để phân cụm. Các bước cơ bản của quá
trình phân cụm được thể hiện trong hình 1.2 và được tóm tắt như sau:[15,19]
Lựa chọn đặc trưng (Feature selection): các đặc trưng phải được lựa chọn một
cách hợp lý để có thể “mã hóa” nhiều thông tin nhất liên quan đến nhiệm vụ mà chúng
ta quan tâm. Mục tiêu chính là giảm thiểu dư thừa thơng tin giữa các đặc trưng. Do đó,
tiền xử lý dữ liệu là một nhiệm vụ quan trọng trước khi tiến hành các bước sau.

10

Lựa chọn thuật toán phân cụm (clustering algorithm selection): cần lựa chọn một
sơ đồ thuật toán riêng biệt nhằm làm sáng tỏ cấu trúc của tập dữ liệu.

Đánh giá kết quả phân cụm (validation of results): Khi đã có kết quả phân cụm
thì ta phải kiểm tra tính đúng đắn của nó. Với cùng một tập dữ liệu, những cách tiếp
cận khác nhau thường dẫn tới các kết quả phân cụm khác nhau và ngay cả cùng một
thuật toán với các tham số đầu vào khác nhau cũng cho ra các kết quả khác nhau. Vì
vậy, các tiêu chuẩn và tiêu chí để đánh giá kết quả phân cụm là rất quan trọng. Nó
cung cấp cho người dùng mức độ tin cậy của các kết quả mà thuật toán phân cụm
thực hiện.
Giải thích kết quả (interpretation of results): Mục tiêu cuối cùng của việc phân
cụm là cung cấp cho người sử dụng những hiểu biết ý nghĩa từ dữ liệu gốc. Các
chuyên gia phải giải thích những phân vùng dữ liệu thu được. Trong nhiều trường hợp,
các chuyên gia trong các lĩnh vực ứng dụng phải tích hợp các kết quả phân cụm với
các bằng chứng thực nghiệm khác và phân tích để rút ra những kết luận đúng.

Đánh giá
cụm

Giải thích
kết quả

Thuật tốn
phân cụm

Tri thức

Lựa chọn
đặc trưng

Các cụm
cuối cùng

Dữ liệu cho
xử lý

Kết quả
phân cụm

Dữ liệu thơ

Hình 1.2: Các bước của quá trình phân cụm dữ liệu.
1.2. Thế nào là phân cụm tốt
Phương pháp phân cụm nhóm các đối tượng có độ tương tự hay độ tương đồng
cao vào trong một nhóm và các đối tượng khác nhóm nhau thì kém tương đồng nhau.
Sự khác biệt hay tương tự giữa hai đối tượng thường được xác định qua một hàm
khoảng cách. Giá trị của hàm khoảng cách càng nhỏ nghĩa là sự giống nhau giữa hai
đối tượng càng lớn và ngược lại.
Một phương pháp phân cụm tốt sẽ sinh ra các cụm có chất lượng cao, trong đó:
- Mức độ tương tự giữa các đối tượng trong cùng một cụm là cao;
- Mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là thấp.

11

Cực tiểu hóa khoảng
cách bên trong cụm

Cực đại hóa khoảng
cách giữa các cụm

Hình 1.3: Tiêu chuẩn phân cụm.
Chất lượng của kết quả phân cụm phụ thuộc vào cả độ đo tương tự được sử dụng

và cách thức thực hiện.
Chất lượng của phương pháp phân cụm cũng được đánh giá bởi khả năng phát
hiện các mẫu tiềm ẩn (hidden patterns).
Các yêu cầu của phân cụm trong khai phá dữ liệu:[6,13]
Việc xây dựng và lựa chọn một thuật toán phân cụm là bước then chốt cho việc
giải quyết vấn đề phân cụm, sự lựa chọn này phụ thuộc vào đặc tính dữ liệu cần phân
cụm, mục đích của ứng dụng thực tế hoặc xác định độ ưu tiên giữa chất lượng của các
cụm hay tốc độ thực hiện thuật toán,...
Hầu hết các nghiên cứu và phát triển thuật toán PCDL đều nhằm thỏa mãn các
u cầu cơ bản sau:
- Có tính mở rộng ;
- Thích nghi với các kiểu dữ liệu khác nhau;
- Khám phá ra các cụm với hình dạng bất kỳ;
- Tối thiểu lượng tri thức cần cho xác định các tham số vào;
- Thích nghi với dữ liệu nhiễu;
- Ít nhạy cảm với các tham số đầu vào;
- Có khả năng phân cụm với dữ liều có số chiều cao;
- Dễ hiểu, cài đặt và khả dụng.
1.3. Các ứng dụng của phân cụm dữ liệu
Phân cụm dữ liệu là một trong những cơng cụ chính được ứng dụng trong nhiều
lĩnh vực. Một số ứng dụng của phân cụm [2,5,19] như:
Xử lý dữ liệu lớn: việc khám phá tri thức trong các cơ sở dữ liệu thường phải xử
lý khối lượng dữ liệu rất lớn, nhiều khi ngay cả các thuật tốn với độ phức tạp tính
tốn là đa thức cũng khơng dùng được. Do đó, việc phân và xử lý theo các cụm là một
giải pháp hữu hiệu.
Tạo giả thuyết: phân tích cụm được sử dụng để suy ra một số giả thuyết liên quan
đến dữ liệu. Ví dụ: dựa trên tuổi tác và thời điểm mua hàng, chúng ta có thể tìm thấy

12

trong một cơ sở dữ liệu bán lẻ có hai nhóm khách hàng quan trọng. Sau đó, chúng ta
có thể suy ra một số giả thuyết cho dữ liệu là: "những người trẻ tuổi đi mua sắm vào
buổi tối", "người già đi mua sắm vào buổi sáng".
Kiểm định giả thuyết: Trong trường hợp này, phân tích cụm được sử dụng cho
việc xác minh tính hợp lệ của một giả thuyết cụ thể. Ví dụ, chúng ta xem xét giả thuyết
như sau: "Những người trẻ tuổi đi mua sắm vào buổi tối". Một cách để xác minh điều
này là áp dụng phân tích cụm cho một tập đại diện các cửa hàng. Giả sử rằng mỗi cửa
hàng được đặc trưng bởi các chi tiết của khách hàng (tuổi tác, công việc, …) và thời
điểm giao dịch. Nếu sau khi áp dụng phân tích cụm, một cụm tương ứng với "những
người trẻ mua sắm vào buổi tối" được tạo thành thì giả thuyết ban đầu đã được chứng
minh là hợp lệ.
Cụ thể, các kỹ thuật phân cụm dữ liệu đã được áp dụng cho một số ứng dụng
điển hình trong các lĩnh vực sau:
Thương mại: Trong thương mại, phân cụm dữ liệu có thể giúp các nhà tiếp thị
khám phá ra các nhóm khách hàng quan trọng có các đặc trưng tương đồng nhau và
đặc tả họ từ các mẫu mua bán trong cơ sở dữ liệu khách hàng.
Sinh học: Trong sinh học, phân cụm dữ liệu được sử dụng để xác định các loài
sinh vật, phân loại Gen với chức năng tương đồng và thu được những hiểu biết bên
trong những cấu trúc của quần thể.
Phân tích dữ liệu khơng gian: Do một lượng lớn dữ liệu khơng gian có thể thu
được từ các hình ảnh vệ tinh, thiết bị y tế, hệ thống thông tin địa lý (GIS), cơ sở dữ
liệu hình ảnh thăm dị,… làm cho người dùng tốn kém và khó khăn để kiểm tra các dữ
liệu khơng gian một cách cụ thể. Phân cụm dữ liệu có thể giúp người dùng tự động
phân tích và xử lý các dữ liệu khơng gian. Nó được sử dụng để nhận dạng, trích xuất
các đặc tính hoặc các mẫu dữ liệu quan tâm có thể tồn tại trong cơ sở dữ liệu không
gian lớn.
Khai phá Web (Web mining): phân cụm dữ liệu có thể khám phá các nhóm tài
liệu quan trọng, có nhiều ý nghĩa trong mơi trường web. Các lớp tài liệu này hỗ trợ
trong việc phát hiện ra thơng tin. Trong tìm kiếm tương tự (similar search), nếu trước

đó các trang web đã phân cụm, thì khi lọc các kết quả, ta chỉ tập trung vào các trang
Web nằm trong cụm có liên quan nhiều đến câu truy vấn. Như vậy, chất lượng của kết
quả tìm kiếm sẽ tốt hơn. Trong phân cụm phân cấp, có thể tạo ra một hệ thống cây
phân cấp các chủ đề của các trang Web, làm cho người đọc có thể tìm các trang Web
theo chủ đề người đó quan tâm một cách nhanh chóng. Phân cụm cũng có thể ứng
dụng vào việc nhóm các kết quả trả về của một máy tình kiếm thành các nhóm có chủ
đề và như vậy người dùng có thể tìm đến các trang Web thuộc chủ đề quan tâm một
cách nhanh chóng mà khơng phải duyệt qua toàn bộ danh sách kết quả trả về của máy
tìm kiếm.

13

1.4. Các phƣơng pháp phân cụm dữ liệu thơng thƣờng
Có nhiều thuật toán phân cụm nhưng để đưa ra một sự phân loại rõ ràng các
phương pháp phân cụm là khó khăn bởi vì các loại này có thể chồng nhau (overlap).
Do đó, một phương pháp có thể có những đặc tính của một số loại khác nhau. Tuy
nhiên, các phương pháp phân cụm có thể được phân loại tương đối làm 4 loại cơ
bản:[2,14]
-

Phương pháp phân cụm phân hoạch (Partition Data Clustering);
Phương pháp phân cụm phân cấp (Hierarchical Data Clustering);
Phương pháp phân cụm dựa trên mật độ (Density Based Data Clustering);
Phương pháp phân cụm dựa trên lưới (Grid Based Data Clustering).

Trong đó, hai phương pháp phân cấp và phân hoạch là thông dụng hơn.
1.4.1. Phương pháp phân cụm phân hoạch
Trong các phương pháp phân hoạch, với số lượng cụm đã định, người ta lần
lượt phân các đối tượng dữ liệu vào các cụm, sau đó thực hiện lặp quá trình điều

chỉnh để cực tiểu hàm mục tiêu được chọn. Thơng dụng nhất là thuật tốn k-mean và
các biến thể của nó. Trong các thuật tốn này, số lượng cụm k thường được xác định
trước hoặc đặt dưới dạng tham số. Với tập dữ liệu D gồm n đối tượng trong không
gian s chiều, các đối tượng được phân thành c cụm sao cho tổng bình phương độ lệch
của mỗi mẫu tới tâm của nó là nhỏ nhất. Sau đây là thuật tốn k-means, thuật tốn
điển hình của phương pháp này.
Thuật toán k-means
Thuật toán k-means (MacQueue, 1967) chia tập dữ liệu D cho trước thành c cụm
{𝑐1 , 𝑐2 , … , 𝑐𝑐 }, sao cho tổng bình phương khoảng cách của mỗi đối tượng dữ liệu tới
tâm cụm chứa nó đạt cực tiểu. Như vậy, hàm mục tiêu của thuật tốn này là:
𝐸=

𝑐
𝑖=1

𝑥∈𝑐 𝑖

𝑥 − 𝑣𝑖

2

(1.1)

Trong đó: 𝑣𝑖 là tâm của cụm 𝑐𝑖 tương ứng.
Thuật toán này thực hiện như sau:
Bước 0: Xác định trước số lượng cụm c và điều kiện dừng;
Bước 1: Khởi tạo ngẫu nhiên c điểm 𝑣𝑖

𝑐
𝑖=1

làm các tâm cụm;

Bước 2: Lặp khi điều kiện dừng chưa thỏa mãn:
2.1. Phân hoạch D thành c cụm bằng cách gán mỗi đối tượng vào cụm mà nó
gần tâm nhất;
2.2. Tính lại các tâm theo các đối tượng đã được phân hoạch ở bước 2.1.
Điều kiện dừng của thuật toán thường chọn từ các điều kiện sau:

14

- Số lần lặp t = 𝑡𝑚𝑎𝑥 , trong đó 𝑡𝑚𝑎𝑥 là số cho trước;
- Giá trị của hàm E nhỏ hơn một ngưỡng nào đó (đảm bảo chất lượng của các
cụm đủ tốt, hay nó đã chạy được đủ số vịng lặp cần thiết);
- Tới khi các cụm khơng đổi.
Khi tập dữ liệu khơng q lớn thì người ta dùng điều kiện dừng 3.
Nếu tập dữ liệu D gồm n mẫu với số thuộc tính là s, phân thành c cụm và số lần
lặp ở bước 2 là t thì độ phức tạp của thuật tốn chỉ là O(tnsc) [26] nên rất thích hợp khi
tập D gồm lượng dữ liệu lớn.
1.4.2. Phương pháp phân cụm phân cấp
Quá trình thực hiện phân cụm theo phương pháp này được mô tả bởi một đồ thị
có cấu trúc cây, vì vậy nó còn được gọi là phương pháp phân cụm cây. Trong đó, tập
dữ liệu được sắp xếp thành một cấu trúc có dạng hình cây gọi là cây phân cụm. Cây
này có thể được xây dựng nhờ kỹ thuật đệ quy theo hai phương pháp tổng quát:
phương pháp dưới lên (bottom up) và phương pháp trên xuống (top down).
Các thuật toán theo phương pháp dưới lên còn gọi là các thuật toán trộn. Ban
đầu, người ta khởi tạo mỗi đối tượng làm một cụm và dùng thủ tục đệ quy để trộn hai
cụm gần nhất với nhau trong mỗi bước để có kết quả chia cụm mới. Thủ tục đệ quy kết
thúc ta có tập duy nhất là tồn bộ dữ liệu. Các thuật toán phân biệt với nhau ở tiêu

chuẩn đánh giá hai cụm nào là gần nhất dựa trên khoảng cách các cụm chọn trước.
Quy tắc để chọn các cụm trộn này được gọi là quy tắc liên kết. Q trình thực hiện
thuật tốn được biểu diễn thành cây và quyết định phân dữ liệu thành bao nhiêu cụm
sẽ do người dùng quyết định. Người dùng cũng dựa trên cây này để nhận được kết quả
phân cụm.
Cụ thể, với cách tính khoảng cách để chọn cặp cụm trộn với nhau cho trước, các
thuật toán trộn bao gồm các bước sau:
1. Khởi tạo mỗi phần tử làm một cụm 𝑐𝑖 = 𝑥𝑖 , c = n
2. Khi c ≠ 1 thực hiện lặp:
2.1. Chọn hai cụm gần nhất 𝑐𝑖 và 𝑐𝑗 theo quy tắc đã chọn
2.2. Trộn 𝑐𝑖 và 𝑐𝑗 thành 𝑐𝑖𝑗 = 𝑐𝑖 ∪ 𝑐𝑗 // còn c-1 cụm
2.3. c ← c-1
Phương pháp trên xuống còn gọi là phương pháp tách, được thực hiện theo trình
tự ngược với phương pháp trộn. Trong mỗi bước người ta chọn một cụm để tách thành
cụm con theo quy tắc đánh giá và tách cụm cho trước. Phương pháp này phức tạp và
lâu hơn phương pháp dưới lên và thường chỉ được áp dụng khi người ta có thêm thơng
tin về phân bố cụm để có phương pháp tách phù hợp. Ta khơng đi sâu vào phương
pháp này.
Ví dụ:

15

Trong ví dụ này, ta giải thiết đã có quy tắc liên kết và không bàn cụ thể tới cách
chọn cụm trộn. Quá trình thực hiện phương pháp “dưới lên” phân cụm tập dữ liệu S =
{a, b, c, d, e} được mơ tả trong hình 1.4 cụ thể như sau:
Bước 0: Mỗi đối tượng dữ liệu được gán cho mỗi cụm, như vậy các cụm ban đầu
là: {a},{b},{c},{d},{e}.
Bước 1: {a} và {b} là được gộp vào thành một cụm lớn hơn là {a,b} và các cụm
thu được là: {a,b},{c},{d},{e}.

Bước 2: Gộp cụm {d},{e} thành {d,e}, các cụm thu được là {a,b},{c},{d,e}.
Bước 3: Gộp cụm {c} với {d,e} thành {c,d,e}, các cụm thu được là {a,b}, {c,d,e}.
Bước 4: Gộp cụm hai cụm {c,d,e} với {a,b} thành {a,b,c,d,e}.
Bước 0

Bước 1

Bước 2

Bước 3

Bước 4

Chiều từ dưới lên

a
ab
b

abcde

c

cde

d

de

e

Hình 1.4: Phân cụm tập S = {a, b, c, d, e} theo phương pháp “dưới lên”.
Các quy tắc liên kết:
Kết quả phân cụm của một thuật tốn phụ thuộc vào mêtric được dùng để tính
khoảng cách của các đối tượng. Kết quả phân cụm phân cấp cũng phụ thuộc quy tắc
liên kết hay cách tính khoảng cách (hoặc giả khoảng cách) giữa hai cụm 𝑐𝑖 và 𝑐𝑗 để tìm
và trộn hai cụm có khoảng cách nhỏ nhất trong mỗi bước.
Với mêtric trong không gian đặc trưng xác định bởi một chuẩn
đây là một số quy tắc liên kết thơng dụng.

.

đã có, sau

a) Liên kết đơn
Ký hiệu là NN (Nearest Neighbour). Trong quy tắc này, khoảng cách giữa hai
cụm được xác định nhờ khoảng cách nhỏ nhất giữa hai mẫu (đối tượng) tương ứng với
hai cụm:
𝑑 𝑐𝑖 , 𝑐𝑗 = 𝑚𝑖𝑛 𝑥 − 𝑦 : 𝑥 ∈ 𝑐𝑖 , 𝑦 ∈ 𝑐𝑗

(1.2a)

b) Liên kết đầy
Ký hiệu là FN (Furthest Neighbour). Trong quy tắc này, khoảng cách giữa hai
cụm được xác định nhờ khoảng cách lớn nhất giữa hai mẫu tương ứng với hai cụm:

16

𝑑 𝑐𝑖 , 𝑐𝑗 = 𝑚𝑎𝑥 𝑥 − 𝑦 : 𝑥 ∈ 𝑐𝑖 , 𝑦 ∈ 𝑐𝑗

(1.2b)

c) Liên kết trung bình giữa các nhóm
Ký hiệu là UPGMA (Un-Weighted Pair-Group Method using Arithmetic
averages). Như tên gọi của nó, khoảng cách 𝑑 𝑐𝑖 , 𝑐𝑗 là trung bình của khoảng cách
giữa các cặp đối tượng thuộc hai cụm tương ứng:
𝑑 𝑐𝑖 , 𝑐𝑗 =

1
𝑛𝑖𝑛𝑗

𝑥∈𝑐 𝑖

𝑦∈𝑐 𝑗

𝑥−𝑦

(1.2c)

Trong đó: 𝑛𝑖 và 𝑛𝑗 là số phần tử của các cụm 𝑐𝑖 , 𝑐𝑗 tương ứng.
Một số thuật tốn phân cụm phân cấp điển hình như CURE, BIRCH, AGNES…
1.4.3. Phương pháp phân cụm dựa trên mật độ
Hầu hết các phương pháp phân hoạch truyền thống đều phân cụm chỉ dựa trên
khoảng cách giữa các đối tượng. Chúng chủ yếu tìm ra các giới hạn cụm có dạng hình
cầu và rất khó để tìm ra các cụm có hình dạng ngẫu nhiên. Phương pháp phân cụm dựa
vào mật độ xem các cụm như là các vùng có mật độ các đối tượng lớn trong không
gian dữ liệu. Các phương pháp dựa vào mật độ có thể sử dụng để loại bỏ nhiễu và phát
hiện ra các cụm có hình dạng tự nhiên.
Thuật tốn dựa vào mật độ đầu tiên là thuật toán DBSCAN (Ester et al, 1996),
thuật toán này xem xét mật độ theo lân cận của mỗi đối tượng, nếu số lượng các đối

tượng trong khoảng cách 𝜀 của một đối tượng lớn hơn ngưỡng MinPts thì đối tượng đó
được xem là nằm trong một cụm. Bởi vì các cụm tìm được phụ thuộc vào tham số 𝜀 và
MinPts, nên thuật toán DBSCAN cần dựa vào người sử dụng để lựa chọn tập tham số
tốt. Để tránh được vấn đề này, năm 1999 Ankerst đề xuất phương pháp sắp xếp các
cụm gọi là OPTICS (Ordering Point To Identify the Clustering Structure). OPTICS
tính tốn việc sắp xếp các cụm có tham số để phân cụm tự động. Nhược điểm của các
thuật tốn theo hướng này là có độ phức tạp lớn nên không dùng được cho khối lượng
dữ liệu lớn. Thuật toán DBSCAN giúp ta hiểu được cách tiếp cận này.
Thuật toán DBSCAN (Density – Based Spatial Clustering of Applications with Noise)
Thuật toan DBSCAN nhóm các vùng có mật độ đủ cao vào trong một cụm và
thác triển dựa trên các đối tượng lõi để có các cụm với hình dạng tự nhiên trong các
tập khơng gian đặc trưng. Thuật toán yêu cầu xác định trước hai tham số đầu vào là 𝜀
và Minpts. Phân cụm dữ liệu theo thuật toán DBSCAN áp dụng các luật sau đây:
- Các đối tượng nằm trong hình cầu bán kính 𝜀 (𝜀–lân cận) của một đối tượng
được gọi là 𝜀–láng giềng của đối tượng đó. Đối tượng có ít nhất là Minpts
đối tượng khác là 𝜀–láng giềng thì được gọi là đối tượng nhân.
- Một đối tượng có thể nằm trong một cụm khi và chỉ khi nó nằm trong 𝜀–lân
cận của một đối tượng nhân thuộc cụm đó.

17

- Một đối tượng lõi o là 𝜀–láng giềng của một đối tượng nhân p thì o thuộc
cùng cụm với p.
- Hai cụm có giao khác rỗng thì nhập thành một cụm
- Một đối tượng không là nhân r và khơng là 𝜀–láng giềng của một đối tượng
nhân nào thì được xem là phần tử ngoại lai hay là đối tượng nhiễu.
Để lập nên các cụm, DBSCAN kiểm tra 𝜀–láng giềng của mỗi đối tượng trong cơ
sở dữ liệu. Nếu 𝜀–láng giềng của một điểm p chứa nhiều hơn Minpts, một cụm mới
với p là đối tượng nhân được tạo ra. Các cụm này được mở rộng nhờ liên kết các cụm

con tạo nên cụm chứa nó. Những phần tử ngoại lai khơng được phân cụm, nếu cần
thiết thì sau khi phân cụm cụm con hình thành bởi các đối tượng nhân, ta phát triển
được thành các cụm có hình dạng phong phú.
Ví dụ:
Hình 1.5 minh họa một trường hợp với 𝜀 là bán kính của hình trịn và Minpts = 3,
tập dữ liệu gồm hai cụm và các phần tử ngoại lai rải rác. Các đối tượng {o, p, q, r} là
nhân cịn s khơng là đối tượng nhân nhưng nó thuộc cụm vì là 𝜀–láng giềng của một
đối tượng là nhân.

Hình 1.5: Hai cụm được tìm bởi thuật tốn DBSCAN.
Hình 1.6 minh họa một ví dụ về tập dữ liệu gồm hai cụm được nhận biết nhờ
phương pháp này mà khơng dùng phương pháp phân hoạch được.

Hình 1.6: Hai cụm dữ liệu có thể tìm được nhờ DBSCAN.
1.4.4. Phương pháp phân cụm dựa trên lưới
Khi dữ liệu thuộc khơng gian có số chiều lớn, khơng trực quan hóa được thì việc
xác định các tham số 𝜀 và Minpts cho các phương pháp phân cụm dựa vào mật độ rất
khó khăn, hơn nữa với số lượng dữ liệu lớn thì mất nhiều thời gian chạy. Để nâng cao
hiệu quả của phân cụm, một cách tiếp cận là phân chia miền không gian đặc trưng

18

chứa dữ liệu thành một số hữu hạn các ô tạo nên dạng hình lưới và sử dụng các đặc
trưng thống kê để phân tích các dữ liệu trong mỗi ô và quyết định tách hay nhập
chúng. Ta làm quen với thuật toán STING để hiểu cách tiếp cận này.
Thuật toán STING (A STatistical INformation Grid approach)
STING do W. Wang và các cộng sự (1997) đề xuất, phương pháp này tổ chức
miền khơng gian chứa dữ liệu thành lưới hình hộp đa mức để phân tích cụm theo thống
kê phân cấp trên từng ô. Ban đầu ta chia miền dữ liệu thành các ơ hình chữ nhật (hoặc

hình hộp khi khơng gian có số chiều cao) với chiều dài các cạnh ở mức 1. Việc phân
tích thơng tin dựa trên các đặc điểm thống kê của tập dữ liệu trong mỗi ô như:
-

Count: số đối tượng trong ô;
M: vectơ trung bình của dữ liệu trong ơ;
S: độ lệch chuẩn của mọi giá trị thuộc tính trong ơ;
Min: giá trị cực tiểu của các thuộc tính trong ơ;
Max: giá trị cực đại của các thuộc tính trong ơ;
Distribution: kiểu phân phối của các giá trị thuộc tính trong ơ.

Việc phân tích này giúp ta quyết định có chia ơ đang xét ở mức mịn hơn không
hay là đã đủ để phân cụm trong từng ô hoặc kết hợp với các cụm ở ô liền kề. Cách
phân chia ô như vậy tạo ra một cấu trúc phân cấp: mỗi ô ở mức cao được phân chia
thành một số ô ở mức thấp hơn trong bước tiếp theo.
Hình 1.7 mơ tả 3 mức lưới liên tiếp nhau trong cấu trúc STING, mỗi ô ở mức
trên được phân thành bốn ô ở mức tiếp theo. Các tham số thống kê ở mức cao khi chưa
xác định được sẽ được tính tốn từ các tham số trong các ô ở mức thấp hơn. Kiểu phân
bố ở ơ mức cao được tính tốn dựa trên các kiểu phân bố ở các ô tương ứng ở mức
thấp. Nếu các phân bố ở mức thấp không cho biết phân bố mức cao thì phân bố ở ơ
mức cao sẽ là khơng xác định (được đặt là none).

Hình 1.7: Ba tầng liên tiếp nhau của cấu trúc STING.
Việc phân tích thống kê thực hiện phân cấp theo các ơ từ tầng trên. Tầng này bao
gồm một số lượng nhỏ các ơ. Với mỗi ơ trong tầng, tính khoảng chắc chắn mà các ơ
trong đó sẽ trở thành một cụm để quyết định. Các ô không chắc chắn sẽ phân chia tiếp
hoặc loại bỏ. Tiến trình này được lặp lại cho đến khi tính chất cụm của dữ liệu trong

19

mỗi ơ xác định rõ. Việc phân cụm sẽ hồn tất khi xác định được quan hệ cụm giữa dữ
liệu trong các ô.
1.5. Một số chủ đề liên quan
Các thuật toán PCDL đề cập trong chương 1 đều áp dụng phương pháp chung là
chia một tập dữ liệu ban đầu thành các cụm dữ liệu có tính tự nhiên và mỗi đối tượng
chỉ thuộc về một cụm (phương pháp PCDL rõ). Phương pháp này chỉ phù hợp với việc
khám phá ra các cụm có mật độ cao và rời nhau, với đường biên giữa các cụm được
xác định tốt.
Tuy nhiên, trong thực tế, bài toán phân cụm là bài toán thiết lập không đúng đắn,
ranh giới giữa các cụm thường không được xác thực một cách rõ ràng, nghĩa là một
đối tượng dữ liệu có thể thuộc vào nhiều hơn một cụm. Một cách giải quyết tính nhập
nhằng này là dùng tiếp cận mờ.
Hơn nữa, kết quả phân cụm có tính chất bất định rất cao và có hai vấn đề khó khi
thực hiện thuật tốn:[2]
1. Làm thế nào để ước lượng được số cụm?
2. Làm sao để đánh giá chất lượng kết quả phân cụm?
Đến nay vẫn chưa có giải pháp trọn vẹn cho các câu hỏi đó. Tuy vậy, tùy theo
từng hồn cảnh mà chúng ta có thể sử dụng những kỹ thuật phù hợp như:
- Giảm chiều dữ liệu và trực quan hóa;
- Đánh giá cụm.
Những vấn đề trên sẽ được trình bày rõ hơn ở chương 2, 3 và 4 của luận văn.

20

CHƢƠNG II
PHÂN CỤM DỮ LIỆU MỜ
Phương pháp PCDL truyền thống (PCDL rõ) chia một tập dữ liệu ban đầu thành
các cụm dữ liệu, trong đó mỗi đối tượng chỉ được thuộc về một cụm. Tuy nhiên, trong

thực tế, một đối tượng dữ liệu có thể thuộc về nhiều cụm khác nhau. Ví dụ: trong phân
cụm tài liệu, một tài liệu có xu hướng có nhiều hơn một chủ đề (một tài liệu có thể
chứa thơng tin về xe ơ tơ, đua ô tô và các công ty ô tô). Đối với những dữ liệu loại này
các kỹ thuật PCDL rõ làm việc có hiệu quả khơng cao và khơng mơ tả được cấu trúc tự
nhiên của tập dữ liệu. Để giải quyết vấn đề này, người ta đã áp dụng lý thuyết tập mờ
vào việc PCDL. Cách thức kết hợp này được gọi là kỹ thuật PCDL mờ (hay gọi tắt là
phân cụm mờ). [6,14]
2.1. Một số khái niệm cơ sở của lý thuyết tập mờ
2.1.1. Khái niệm về tập mờ
Thật đơn giản nếu thế giới chỉ có đúng hoặc sai, giống như trắng, đen là hai màu
trong muôn vàn màu sắc. Thế giới xung quanh ta được bao bọc bởi các khái niệm
“mờ” và khơng chính xác: Cơ ấy rất trẻ, cô ấy khá cao, anh ta vô cùng thông minh hay
ông ấy là một người đàn ông trung niên…
L.A. Zadeh là người sáng lập ra lý thuyết tập mờ. Ý tưởng nổi bật của khái niệm
tập mờ của Zadeh là từ những khái niệm trừu tượng về ngữ nghĩa của thông tin mờ,
không chắc chắn như: trẻ, nhanh, cao – thấp, xinh đẹp,... ơng đã tìm ra cách biểu diễn
nó bằng một khái niệm tốn học, được gọi là tập mờ, như là một sự khái quát trực tiếp
của khái niệm tập kinh điển (tập cổ điển).[1]
2.1.1.1. Tập kinh điển
Khái niệm tập hợp được hình thành trên nền tảng lôgic và được định nghĩa như là
sự sắp xếp chung các đối tượng có cùng tính chất, được gọi là phần tử của tập hợp đó.
Cho một tập hợp A, một phần tử x thuộc A được ký hiệu: x ∈ A. Thông thường
ta dùng hai cách để biểu diễn tập hợp cổ điển đó là:
- Liệt kê các phần tử của tập hợp, ví dụ A = {xe đạp, xe máy, xe ca, xe tải};
- Biểu diễn tập hợp thơng qua tính chất tổng qt của các phần tử, ví dụ: tập các
số thực (R), tập các số tự nhiên (N).
Để biểu diễn một tập A trên tập nền X, ta dùng hàm thuộc 𝜇𝐴 𝑥 , với:
𝜇𝐴 𝑥 =

1

0

khi x ∈ A
khi x ∉ A

(2.1)

Ký hiệu: A = { x ∈ X | x thỏa mãn một số tính chất nào đó}. Ta nói A được định
nghĩa trên tập nền X.

21

Ví dụ:
Nếu nhiệt độ trên 35 độ C thì nóng, ngược lại là khơng nóng. Hình bên dưới
minh họa tập hợp “NÓNG” gồm tất cả các nhiệt độ từ 35 độ C trở lên.
NÓNG = {x ∈ R| x ≥ 35}.
𝜇𝑁Ĩ𝑁𝐺 𝑥
Đúng
1
Sai

NĨNG
0
35oC

x (oC)

Hình 2.1: Biểu diễn tập nhiệt độ “NĨNG”.
Từ hình vẽ (2.1) ta thấy logic cổ điển khơng thể hiện được sự khác biệt giữa các

thành viên trong cùng một tập hợp. Giữa hai nhiệt độ 45oC và 55oC, logic này khơng
thể hiện được nhiệt độ nào nóng hơn nhiệt độ nào.
Ngồi ra, logic này cịn có một nhược điểm khác quan trọng hơn đó là nó khơng
thể biểu diễn được các dữ kiện mang tính mơ hồ, khơng chính xác mà trong thực tế lại
có rất nhiều phát biểu bằng ngôn ngữ tự nhiên ở dạng này, chẳng hạn như:
- Lan thì khá cao ⇒ như vậy Lan có thuộc tập hợp những người cao hay
khơng?
- Nam thì rất cao ⇒ như thế nào là rất cao?
Vì vậy, không thể dùng logic cổ điển để suy luận và sinh ra tri thức trong môi
trường “mờ” như vậy.
2.1.1.2. Định nghĩa tập mờ
Trong khái niệm tập hợp kinh điển hàm phụ thuộc 𝜇𝐴 𝑥 của tập A, chỉ có một
trong hai giá trị là “1” nếu x ∈ A hoặc “0” nếu x ∉ A.
Cách biểu diễn hàm phụ thuộc như trên sẽ không phù hợp với những tập được
mô tả “mờ”. Ví dụ khi xét tập B là tập những người trẻ. Trong trường hợp này khơng
có ranh giới rõ ràng để khẳng định một ai đó có thuộc B hay khơng. Ranh giới đó là
mờ. Ta chỉ có thể nói một người nào đó thuộc B ở mức độ bao nhiêu phần trăm. Để trả
lời câu hỏi này, ta phải coi hàm phụ thuộc 𝜇𝐵 𝑥 có giá trị trong đoạn từ 0 đến 1 tức
là: 0 ≤ 𝜇𝐵 𝑥 ≤ 1.

22

Từ phân tích trên ta có định nghĩa: Tập mờ B xác định trên tập cổ điển X là một
tập hợp mà mỗi phần tử của nó được biểu diễn bởi một cặp giá trị 𝑥, 𝜇𝐵 𝑥 . Trong
đó x ∈ X và 𝜇𝐵 𝑥 là ánh xạ xác định bởi:
μB : X→ [0, 1]
Ánh xạ μB được gọi là hàm liên thuộc (hay còn gọi là hàm thành viên) của tập
mờ B và 𝜇𝐵 𝑥 được gọi là độ thuộc của phần tử x vào tập mờ B.
Độ thuộc của phần tử càng lớn thì mức độ phần tử đó thuộc về tập đã cho càng

lớn. Khi độ thuộc bằng 0 thì phần tử đó hồn tồn khơng thuộc về tập đã cho, ngược
lại, khi độ thuộc bằng 1 thì phần tử đó sẽ thuộc tập hợp đã cho với xác suất 100%.
Ví dụ:
Cho các tập mờ: “Trẻ ”, “Trung niên”, “Già”:
Các tập mờ
μ
Trẻ

Trung niên

Già

1
0.6
0.5
0.4
0

23 25

35

40

55

Tuổi

Hình 2.2: Biểu diễn các tập mờ “Trẻ ”, “Trung niên”, “Già”.
Từ hình 2.2, nhận thấy nếu cho biết tuổi của một người, ta có thể xác định mức

độ người đó thuộc về lớp người trẻ, trung niên hay già. Chẳng hạn như:
- An 23 tuổi → 𝜇Tr ẻ (An) = 1, 𝜇Trungni

ên (An)

- Nam 35 tuổi → 𝜇Tr ẻ (Nam) = 0.4, 𝜇Trungni

= 0, 𝜇Gi à (An) = 0;

ên (Nam)

= 0.6, 𝜇Gi à (Nam) = 0.

2.1.2. Các dạng hàm liên thuộc của tập mờ
Có rất nhiều cách khác nhau để biểu diễn hàm liên thuộc của tập mờ.
-

Hàm liên thuộc hình tam giác;
Hàm liên thuộc hình thang;
Hàm liên thuộc dạng Gauss;
Hàm liên thuộc dạng Sign;
Hàm liên thuộc Sigmoidal;
Hàm hình chng.

Trong đó, hàm tam giác và hàm hình thang thường được sử dụng hơn cả.

23

Hàm tam giác (triangle):

Hàm tam giác (xem hình 2.3) được xác định theo cơng thức:
0

𝑥−𝑎

Triangle(x,a,b,c) =

𝑏−𝑎
𝑐−𝑥
𝑐−𝑏

0

𝑥≤𝑎
𝑎≤𝑥≤𝑏
𝑏≤𝑥≤𝑐

1

(2.2)

𝑐≤𝑥

0

a
x
c
b
Hình 2.3:aĐồ thị hàm liên thuộc

hình tam giác.
Hàm hình thang (traperoid):
Hàm hình thang (xem hình 2.4) được xác định theo công thức:
0

𝑥−𝑎
𝑏−𝑎

Triangle(x,a,b,c) =

1
𝑑 −𝑥
𝑑 −𝑐

0

𝑥≤𝑎
𝑎≤𝑥≤𝑏
𝑏≤𝑥≤𝑐
𝑐≤𝑥≤𝑑

1

(2.3)

𝑑≤𝑥

c
x

a b
d
a thuộc
Hình 2.4:a Đồ thị hàm liên
0

hình thang.
2.1.3. Các thơng số đặc trưng cho tập mờ
Các thông số đặc trưng cho tập mờ là độ cao, miền xác định và miền tin cậy.
Độ cao của một tập mờ B (định nghĩa trên cơ sở M) là giá trị lớn nhất trong các
giá trị của hàm liên thuộc:
𝐻 = 𝑆𝑈𝑃𝑥 ∈𝑀 𝜇𝐵 𝑥

(2.4)

Miền xác định của tập mờ B (định nghĩa trên cơ sở M) được ký hiệu bởi S là tập
con của tập M có giá trị hàm liên thuộc khác không:
𝑆 = 𝑥 ∈ 𝑀| 𝜇𝐵 𝑥 > 0

(2.5)

Miền tin cậy của tập mờ B (định nghĩa trên cơ sở M) được ký hiệu bởi T, là tập
con của M có giá trị hàm liên thuộc bằng 1:
𝑇 = 𝑥 ∈ 𝑀| 𝜇𝐵 𝑥 = 1

(2.6)

Tập lát cắt 𝛼 của tập mờ B (định nghĩa trên cơ sở M) được ký hiệu 𝐴𝛼 , là tập con
của M có giá trị hàm liên thuộc lớn hơn hay bằng 𝛼:
𝐴𝛼 = 𝑥 ∈ 𝑀| 𝜇𝐵 𝑥 ≥ 𝛼

(2.7)

(Luận văn thạc sĩ) tiếp cận mờ trong phân cụm dữ liệu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về