Ứng dụng kỹ thuật đa mục tiêu vào phân cụm dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (200.51 KB, 3 trang )

Ứng dụng kỹ thuật đa mục tiêu vào phân cụm
dữ liệu

Chế Thị Hằng

Trường Đại học Công nghệ
Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 05
Người hướng dẫn: PGS.TS. Hoàng Xuân Huấn
Năm bảo vệ: 2014

Keywords. Dữ liệu; Phân cụm dữ liệu; Kỹ thuật đa mục tiêu; Công nghệ thông tin

Content
Phân cụm dữ liệu là bài toán thuộc vào lĩnh vực học máy không giám sát và đang được ứng
dụng rộng rãi để khai thác thông tin từ dữ liệu. Nó có nhiệm vụ tổ chức một tập các đối tượng dữ
liệu thành các cụm sao cho những đối tượng trong cùng một cụm thì “tương tự” nhau trong khi
các đối tượng trong các cụm khác nhau thì “kém tương tự” nhau.
Trong cuộc sống, một cá nhân, hay một tổ chức thường bị đặt vào tình huống phải lựa chọn
phương án tối ưu để giải quyết một vấn đề nào đó. Khi ấy chúng ta phải tiến hành thu thập, phân
tích và chọn lựa thông tin nhằm tìm ra một giải pháp tốt nhất để hành động. Các phương án đề
xuất ấy có thể giải quyết một hay nhiều vấn đề cùng một lúc tùy thuộc vào tình huống và yêu cầu
đặt ra của chúng ta. Trong toán học có rất nhiều lý thuyết cơ sở làm nền tảng giúp tìm ra một
phương án tối ưu để giải quyết vấn đề như: lý thuyết thống kê, lý thuyết quyết định, lý thuyết tối
ưu, vận trù học,…Do tính ưu việt và hiệu quả, tối ưu hóa nhiều mục tiêu là một trong những lý
thuyết toán học ngày càng được ứng dụng rộng rãi trên nhiều lĩnh vực như: kỹ thuật công nghệ,
hàng không, thiết kế, tài chính,…
Tối ưu hóa nhiều mục tiêu có nghĩa là tìm phương án tốt nhất theo một nghĩa nhất định nào

đó để đạt được (cực đại hay cực tiểu) nhiều mục tiêu cùng một lúc và một phương án như vậy thì
ta gọi là phương án lý tưởng. Trong một bài toán tối ưu nhiều mục tiêu thường thì các mục tiêu
xung đột với nhau nên việc cố gắng làm “tăng” giá trị cực đại hay cực tiểu một mục tiêu có thể
sẽ làm “giảm” gía trị cực đại hay cực tiểu của các mục tiêu khác nên việc tồn tại phương án lý
tưởng là rất hiếm. Vì vậy cách tốt nhất là tìm một phương án nhằm thỏa mãn tất cả các yêu cầu
các mục tiêu trong một mức độ chấp nhận được và phương án như thế gọi là phương án thỏa
hiệp của các hàm mục tiêu.
Có rất nhiều định nghĩa khác nhau đề cập đến phương án/nghiệm tối ưu như: Pareto,
Borwein, Benson, Geoffrion, Kuhn – Tucker,… Các định nghĩa này thường có sự tương quan
với nhau và chúng được biểu hiện cụ thể thông qua các định lý, mệnh đề và tính chất. Như chúng
ta đã biết một trong những cơ sở để định nghĩa về nghiệm tối ưu là quan hệ thứ tự trong không
gian nhất là quan hệ hai ngôi.
Ngoài phần kết luận, cấu trúc nội dung của luận văn bao gồm 4 chương:
Chương 1: Phân cụm dữ liệu
Chương 1 tập trung trình bày tổng quan về PCDL, đây là một hướng tiếp cận trong Data
Mining. Trong đó đi sâu phân tích chi tiết các vấn đề cơ bản: khái niệm PCDL và ý nghĩa của nó
trong thực tiễn; trình bày một số phương pháp PCDL và giải thuật điển hình của mỗi phương
pháp phân cụm.
Chương 2:Phân cụm dữ liệu đa mục tiêu và một số kỹ thuật tối ưu hóa cụm
Để làm rõ hơn kỹ thuật PCDL đa mục tiêu, chương 2 trình bày một số khái niệm cơ bản và
sự khác biệt cơ bản của phân cụm dữ liệu một mục tiêu và phân cụm dữ liệu đa mục tiêu. Và
trình bày một số kỹ thuật tối ưu hóa cụm đặc biệt tìm hiểu về kỹ thuật tối ưu hóa cụm theo kỹ
thuật SA - Thuật toán tối ưu hóa AMOSA theo khoảng cách đối xứng mới.
Chương 3:Thuật toán VAMOSA - Thuật toán phân cụm dựa trên tính đối xứng
Trong chương 3 tìm hiểu rõ kỹ thuật phân cụm đa mục tiêu dựa trên thuật toán VAMOSA
được đề xuất sử dụng thuật toán mô phỏng luyện kim (SA) dựa trên cơ sở phương pháp tối ưu đa
mục tiêu như một chiến lược tối ưu hóa cơ bản. Hai chỉ số đánh giá phân cụm [3.4.3]: Chỉ số XB
- chỉ số dựa trên khoảng cách Euclidean [14]. Chỉ số Sym - chỉ số dựa trên khoảng cách đối xứng
[15, 11]. Hai chỉ số này được tối ưu hóa đồng thời để xác định chính xác số phân cụm trong bộ
dữ liệu. Do vậy, kỹ thuật này có thể phát hiện được số cụm thích hợp và phân vùng phù hợp từ

các bộ dữ liệu.
Chương 4: Kết quả thử nghiệm
Chương 4, tiến hành cài đặt thuật toán và thử nghiệm trên ba bộ dữ liệu trong đó có bộ dữ
liệu thực tế và rút ra được kết quả nhất định. Thuật toán đưa ra kết quả số cụm phù hợp với bộ dữ
liệu đưa vào.
Cuối cùng là kết luận, hướng phát triển, tài liệu tham khảo và phụ lục. Phần kết luận trình bày
tóm tắt kết quả thu được và đề xuất hướng nghiên cứu tiếp theo.

References
Tiếng việt
1.
PGS.TS Hoàng Xuân Huấn (2012), Giáo trình Nhận dạng mẫu, Trường Đại học công
nghệ - Đại Học Quốc Gia Hà Nội.
2.
Đỗ Thị Hòa (2011, Tóm tắt dữ liệu quan hệ sử dụng thuật toán di truyền nửa giám sát
dựa trên kỹ thuật phân cụm, Trường Đại học công nghệ - Đại Học Quốc Gia Hà Nội,
Luận văn thạc sỹ.
Tiếng anh
3.
Anil K.Jain, Richard C.Dubes (1988), Algorithms for Clustering Data.
4.
Jiawei Han, Micheline Kamber and Anthony K. H. Tung, Spatial Clustering Methods In
Data Mining: A Survey, Natural Science and Engineering Research Council of Canada.
5.
Kuo-Lung Wu, Miin-Shen Yang, Alternative c-means clustering algorithms, Pattern
Recognition 35 (2002) 2267–2278.
6.
Sriparna Saha, Sanghamitra Bandyopadhyay, A symmetry based multiobjective clustering

technique for automatic evolution of clusters, Pattern Recognition 43(3): 738-751 (2010)
7.
B. Suman, Study of self-stopping PDMOSA and performance measure in multiobjective
optimization, Computers and Chemical Engineering, vol. 29, no. 5, pp. 1131-1147, 15 April
2005.
8.
K. Smith, R. Everson, and J. Fieldsend, Dominance measures for multi-objective simulated
annealing, in Proceedings of the 2004 IEEE Congress on Evolutionary Computation
(CEC'04), 2004, pp. 23-30.
9.
Garcia Najera, Abel (2010) Multi-Objective evolutionary algorithms for vehicle routing
problems. Ph.D. thesis, University of Birmingham.
10.
Jiawei Han and Micheline Kamber (2001), “Data Mining: Concepts and Techniques”,
Hacours Science and Technology Company, USA.
11.
S. Bandyopadhyay, S. Saha, A point symmetry based clustering technique for
automatic evolution of clusters, IEEE Transactions on Knowledge and Data
Engineering 20 (11) (2008) 1–17.
12.
Handl, J. Knowles, An evolutionary approach to multiobjective clustering,
IEEE Transactions on Evolutionary Computation 11 (1) (2007) 56–76.
13.
K. Deb, Multi-Objective Optimization Using Evolutionary Algorithms, Wiley,
England, 2001.
14.
X.L. Xie, G. Beni, A validity measure for fuzzy clustering, IEEE Transactions on
Pattern Analysis and Machine Intelligence 13 (1991) 841–847.
15.
S. Saha, S. Bandyopadhyay, Application of a new symmetry based cluster validity

index for satellite image segmentation, IEEE Geoscience and Remote Sensing
Letters 5 (2) (2008) 166–170.
16.
S. Bandyopadhyay, S. Saha, GAPS: a clustering method using a new point
symmetry based distance measure, Pattern Recognition 40 (2007) 3430–3451.
17.
S. Bandyopadhyay, S. Saha, U. Maulik, K. Deb, A simulated annealing
based multi-objective optimization algorithm: AMOSA, IEEE Transactions on
Evolutionary Computation 12 (3) (2008) 269–283.
18.
S. Bandyopadhyay, U. Maulik, Genetic clustering for automatic evolution of
clusters and application to image classification, Pattern Recognition 2 (2002)
1197–1208.

Ứng dụng kỹ thuật đa mục tiêu vào phân cụm dữ liệu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về