Tiếp cận mờ trong phân cụm dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (294.44 KB, 5 trang )

Tiếp cận mờ trong phân cụm dữ liệu

Nguyễn Trung Đức

Khoa Luật Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội
Luận văn ThS. Công nghệ thông tin: 60 48 05
Người hướng dẫn : TS. Hoàng Xuân Huấn
Năm bảo vệ: 2013
62 tr .

Abstract. Trình bày khảo cứu của tác giả về tiếp cận phân cụm mờ dựa trên hai thuật
toán C-means mờ (FCM) và Gustafson – Kessel (GK). Đặc biệt đi sâu vào kỹ thuật
đánh giá số cụm nhờ hàm chỉ số. Trên cơ sở đó, đề xuất một chỉ số đánh giá số cụm
mới cho phân cụm mờ nhờ kết hợp ưu điểm của chỉ độ nén (compactness) và độ chồng
nhau (overlap). Độ nén chỉ ra mức độ tương đồng của các đối tượng dữ liệu trong một
cụm và được tính toán dựa trên giá trị hàm liên thuộc của các đối tượng dữ liệu. Độ
chồng nhau chỉ ra mức độ chồng nhau giữa các cụm mờ và thu được bởi tính toán tỷ lệ
trùng lặp của các đối tượng dữ liệu thuộc ở hai hay nhiều cụm. Ưu điểm nổi trội của
chỉ số mới thể hiện qua kết quả thực nghiệm trên nhiều bộ dữ liệu thực và nhân tạo khi
so sánh với các chỉ số điển hình hiện có, đặc biệt là trong trường hợp các cụm khác
nhau về kích thước và mật độ, cũng như trong trường hợp các cụm chồng nhau
Keywords. Hệ thống thông tin ; Phân cụm dữ liệu; Phân cụm mờ
Content.
Phân cụm dữ liệu là bài toán thuộc vào lĩnh vực học máy không giám sát và đang
được ứng dụng rộng rãi để khai thác thông tin từ dữ liệu. Nó có nhiệm vụ tổ chức một
tập các đối tượng dữ liệu thành các cụm sao cho những đối tượng trong cùng một cụm
thì “tương tự” nhau trong khi các đối tượng trong các cụm khác nhau thì “kém tương
tự” nhau.

Phương pháp phân cụm dữ liệu truyền thống (PCDL rõ) chia một tập dữ liệu ban
đầu thành các cụm dữ liệu và mỗi đối tượng chỉ thuộc về một cụm. Nhưng trong thực
tế ranh giới giữa các cụm thường không rõ ràng, một đối tượng dữ liệu có thể thuộc về
nhiều cụm khác nhau, do đó phương pháp này không mô tả được dữ liệu thực. Để tăng
hiệu quả và tính chính xác cho kết quả phân cụm, người ta đã áp dụng lý thuyết tập mờ
vào việc phân cụm dữ liệu xây dựng lên phương pháp phân cụm dữ liệu mờ.
Hiện nay, phân cụm dữ liệu mờ vẫn là bài toán đang được nhiều người quan tâm
nghiên cứu và ứng dụng thành công trong nhiều lĩnh vực: nghiên cứu thị trường, nhận
dạng, xử lý ảnh, tìm kiếm thông tin… Các thuật toán phân cụm mờ rất đa dạng như: C-
means mờ (FCM), Gustafson-Kessel (GK), Gath-Geva (GG), Fuzzy Possibilistic C-
Means (FPCM), -Insensitive Fuzzy C-means ( FCM), Tuy nhiên, trong các thuật
toán, thường yêu cầu người dùng xác định trước số lượng cụm. Số cụm là một tham số
quan trọng và ảnh hưởng nhiều tới kết quả của quá trình phân cụm, ứng với số lượng
cụm khác nhau sẽ cho ra các kết quả phân cụm khác nhau, thật khó khăn để quyết định
kết quả phân cụm nào là tốt nhất hay số lượng cụm tối ưu là gì?
Luận văn này trình bày khảo cứu của tác giả về tiếp cận phân cụm mờ. Đặc biệt,
đi sâu vào kỹ thuật đánh giá, ước lượng số cụm nhờ hàm chỉ số. Trên cơ sở đó, đề
xuất một chỉ số đánh giá số cụm mới nhờ kết hợp ưu điểm của chỉ độ nén
(compactness) trong [8,16] và độ chồng nhau (overlap) trong [17,29]. Ưu điểm nổi trội
của chỉ số mới thể hiện qua kết quả thực nghiệm trên nhiều bộ dữ liệu thực và nhân tạo
khi so sánh với các chỉ số điển hình hiện có.
Ngoài phần kết luận, cấu trúc nội dung của luận văn bao gồm 4 chương:
Chương 1: Tổng quan về phân cụm dữ liệu
Chương 1 tập trung trình bày tổng quan về PCDL, đây là một hướng tiếp cận
trong Data Mining. Trong đó đi sâu phân tích chi tiết các vấn đề cơ bản: khái niệm
PCDL và ý nghĩa của nó trong thực tiễn; trình bày một số phương pháp PCDL và giải
thuật điển hình của mỗi phương pháp phân cụm.
Chương 2: Phân cụm dữ liệu mờ
Để làm rõ hơn kỹ thuật PCDL mờ, chương 2 trình bày một số khái niệm cơ bản
của lý thuyết tập mờ; phân tích kỹ thuật phân cụm rõ và phân cụm mờ, trình bày hai

thuật toán phân cụm mờ điển hình: C-means mờ (viết tắt là FCM) và mở rộng của nó
là thuật toán Gustafson-Kessel (viết tắt là GK).
Chương 3: Số cụm và chỉ số đánh giá
Trong chương 3, luận văn đặc tả vấn đề ước lượng số cụm trong bài toán phân
cụm. Phân tích một số hàm chỉ số thông dụng để đánh giá chất lượng phân hoạch được
tạo ra bởi các thuật toán phân cụm mờ, nhờ đó xác định số cụm tối ưu cho tập dữ liệu
được xét.
Chương 4: Một chỉ số đánh giá số cụm mới cho phân cụm mờ
Chương 4, luận văn đề xuất một chỉ số đánh giá số cụm mới nhờ kết hợp độ nén
và độ chồng nhau của các cụm. Tiến hành thực nghiệm trên nhiều bộ dữ liệu nhân tạo
và bộ dữ liệu thực đã cho thấy ưu điểm nổi trội của chỉ số mới so với các chỉ số điển
hình hiện có trong quá trình tìm kiếm số cụm tối ưu cho một tập dữ liệu.

TÀI LIỆU THAM KHẢO

Tiếng Việt
[1] Nguyễn Như Hiền, Lại Khắc Lãi (2007), Hệ mờ & nơnon trong kỹ thuật điều
khiển, Nhà xuất bản Khoa học tự nhiên và công nghệ, Hà Nội.
[2] Hoàng Xuân Huấn (2011), Giáo trình Nhận dạng mẫu, Đại học Công nghệ - Đại
học Quốc gia Hà Nội.
[3] Hoàng Xuân Huấn, Nguyễn Trung Thông (2005), Phân cụm nửa giám sát với mô
hình phân cấp, Kỷ yếu hội thảo khoa học quốc gia lần thứ hai: Nghiên cứu cơ
bản và ứng dụng công nghệ thông tin.
[4] Bùi Ngọc Thăng (2007), Một thuật toán phân cụm mờ khi số cụm không xác
định, Đại học Công nghệ - Đại học Quốc gia Hà Nội, luận văn thạc sĩ.
[5] Hà Quang Thụy và cộng sự (2009), Giáo trình khai phá dữ liệu web, Nhà xuất
bản Giáo dục Việt Nam, Hà Nội.
[6] Hoàng Hải Xanh (2005), Về các kỹ thuật phân cụm dữ liệu trong Data mining,
Đại học Công nghệ - Đại học Quốc gia Hà Nội, luận văn thạc sĩ.
[7] Trần Thị Yến (2009), Phân cụm dữ liệu trừ mờ và ứng dụng, Đại học Công nghệ

thông tin và truyền thông - Đại học Thái Nguyên, luận văn thạc sĩ.
Tiếng anh
[8] Chen Duo, Li Xue, Cui Du-Wu (2007), An adaptive cluster validity index for the
Fuzzy C-means, IJCSNS International Journal of Computer Science and Network
Security, Vol.7 No.2, pp. 146-156.
[9] D.W. Kim, K.H. Lee, D. Lee (2004), On cluster validity index for estimation of
the optimal number of fuzzy clusters, Pattern Recognition 37, pp. 2009–2025.
[10] G. Grekousis, H. Thomas (2012), Comparison of two fuzzy algorithms in
geodemographic segmentation analysis: The Fuzzy C-Means and
GustafsoneKessel methods, Applied Geography 34, pp. 125-136
[11] J.C. Bezdek, R. Ehrlich, W. Full (1984), FCM: The fuzzy c-Means clustering
algorithm, Computers & Geosciences Vol. 10, No. 2-3, pp. 191-203.
[12] János Abonyi, Balázs Feil (2007), Cluster Analysis for Data Mining and system
identification, Birkhäuser Basel – Boston – Berlin, pp. 17-28.
[13] Jiawei Han, Micheline Kamber (2006), Data Mining : Concepts and Techniques,
Morgan Kaufmann Publishers, 2
nd
edition.
[14] Jiawei Han, Micheline Kamber, Jian Pei (2011), Data Mining : Concepts and
Techniques, Morgan Kaufmann Publishers, 3
rd
edition.
[15] Jianhua Yang (2002), Algorithmic engineering of clustering and cluster validity
with applications to web usage mining, School of Electrical Engineering and
Computer Science, Australia.
[16] K.L.Wu, M.S.Yang (2005), A cluster validity index for fuzzy clustering, Pattern
Recognition Lett. 26, pp. 1275–1291.
[17] K.R. Zalik (2010), Cluster validity index for estimation of fuzzy clusters of
different sizes and densities, Pattern Recognition. 43, pp. 3374-3390.
[18] M. D. Mahecha, A. Martinez, H.Lange, Markus Reichstein, Erwin Beck (2009),

Identification of characteristic plant co-occurrences in neotropical secondary
montane forests, Journal of Plant Ecology, vol. 2, no. 1, pp. 31-41.
[19] M. Halkidi, Y. Batistakis, M. Vazirgiannis (2001), On clustering validation
techniques, Journal of Intelligent Information Systems, 17:2/3, pp. 107–145.
[20] M. Ramze Rezaee, B.P.F. Lelieveldt, J.H.C. Reiber (1998), A new cluster validity
index for the fuzzy c-mean, Pattern Recognition Letters 19, pp. 237–246.
[21] N. R. Pal, J. C. Bezdek (1995), On cluster valitidy for the fuzzy c-means model,
IEEE Transactions on fuzzy system, vol. 3, no 3, pp. 370-379.
[22] Q. Zhao (2012), Cluster validity in clustering methods, Publications of the
University of Eastern Finland.
[23] Roburt Babuska (2004), Fuzzy and neural control, DISC Course Lecture Notes,
pp. 59-72.
[24] R.N. Dave (1996), Validating fuzzy partition obtained through c-shells
clustering, Pattern Recognition Lett. 17, pp. 613–623.
[25] R.Suganya, R.Shanthi (2012), Fuzzy C-Means Algorithm- A Review, International
Journal of Scientific and Research Publications, Volume 2, pp. 2250 – 3153.
[26] S. Ghosh, S.K. Dubey (2013), Comparative Analysis of K-Means and Fuzzy C-
Means Algorithms, International Journal of Advanced Computer Science and
Applications, Vol. 4, No.4, pp. 35-39.
[27] S.H. Kwon (1998), Cluster validity index for fuzzy clustering, Electron. Lett. 34
(22), pp. 2176–2177.
[28] X.L. Xie, G. Beni (1991), A validity measure for fuzzy clustering, IEEE Trans.
Pattern Anal. Mach. Intell. 13, pp. 841–847.
[29] Y.HUI, Ch. Zuo, Y. Yag, F. Qu (2011), A cluster validity index for fuzzy c-means
clustering, Interational Conference on System Science, Engineering Design and
Manufacturing Informatization, 2011 Int. Conf. (vol.2), pp. 263 – 266.
[30] W. Wang, Y. Zhang (2007), On fuzzy cluster validity indices, ScienceDirect, vol.
158, pp. 2095-2117.
Một số trang web
[31]

[32] />fuzzy-logic.html.
[33]

Tiếp cận mờ trong phân cụm dữ liệu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về