Tải bản đầy đủ (.pdf) (7 trang)

Phân cụm dữ liệu định danh với số chiều cao

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (295.34 KB, 7 trang )

Phân cụm dữ liệu định danh với số chiều cao


Phan Thị Luân


Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội
Luận văn ThS. Công nghệ thông tin: 60 48 10
Người hướng dẫn : PGS.TS. Hoàng Xuân Huấn
Năm bảo vệ: 2013
91 tr .

Abstract. Giới thiệu về khám phá tri thức và phân cụm dữ liệu. Tìm hiểu cách biểu
diễn dữ liệu trong máy tính nhằm phục vụ cho quá trình phân cụm, giới thiệu độ tương
đồng giữa các đối tượng trong tập dữ liệu, các phương pháp phân cụm dữ liệu. Trình
bày một số thuật toán chính. Tư tưởng của phương pháp phân hoạch là tìm cách phân
chia tập dữ liệu thành các tập không giao nhau, thỏa mãn điều kiện làm tối ưu hàm
đánh giá. Trong mỗi tập con thường có ít nhất một phần tử đại diện, phần tử đại diện
thường là tâm của tập con đó. Mỗi đối tượng trong tập dữ liệu được phân vào cụm có
điểm đại diện gần với đối tượng đó nhất. Quá trình này lặp đi lặp lại cho tới khi hàm
mục tiêu không thay đổi. Phương pháp phân cấp phân tách các tập đối tượng theo hai
cách: Tiếp cận từ dưới lên (Bottom-Up) hoặc trên xuống (Top-Down). Tiếp cận từ
dưới lên bắt đầu với mỗi đối tượng được xem như một nhóm, sau đó gộp các đối
tượng hay các nhóm theo các hàm như hàm khoảng cách giữa các tâm của hai nhóm
và điều này được thực hiện cho tới khi tất cả các nhóm được gộp vào làm một nhóm
hoặc cho tới khi điều kiện kết thúc được thỏa mãn. Tiếp cận theo phương pháp từ trên
xuống bắt đầu với tất cả các đối tượng nằm trong cùng một cụm. Trong mỗi lần lặp,
một cụm được tách ra thành các cụm nhỏ hơn theo một ước lượng nào đó. Điều này
được thực hiện cho tới khi mỗi đối tượng là một cụm, hoặc cho tới khi điều kiện kết
thúc thỏa mãn. Đối với phương pháp được phát triển dựa trên quan niệm về mật độ.
Các cụm tiêu biểu được xét là các vùng có các đối tượng tập trung đậm đặc và được


phân chia bởi các vùng có mật độ thấp (đặc trưng cho nhiễu). Các phương pháp dựa
trên mật độ có thể sử dụng để lọc ra các nhiễu (phần tử ngoại lai), và khám phá ra các
cụm có hình dạng bất kỳ. Cách tiếp cận dựa trên lưới sử dụng cấu trúc lưới của dữ
liệu. Nó lượng tử hóa khoảng cách vào một số hữu hạn các ô là cấu trúc dạng lưới để
tất cả các phép toán phân cụm thực hiện được. Với dữ liệu tồn tại trong tự nhiên là rất
lớn và phong phú. Trong khuôn khổ luận văn quan tâm đến việc phân cụm dữ liệu
định danh. Trình bày một số thuật toán, trong đó đi sâu vào hai thuật toán COOLCAT
và MWKM để phân cụm dữ liệu định danh với nhiều thuộc tính. So sánh được ưu,
nhược điểm của hai thuật toán này thông qua kết quả thực nghiệm ở chương 4. Đưa ra
kết quả thực nghiệm so sánh hai thuật toán COOLCAT và MWKM với 5 bộ dữ liệu
với nhiều thuộc tính: Cơ sở dữ liệu đậu tương, cơ sở dữ liệu nấm, cơ sở dữ liệu ung
thư phổi, CSDL về thuê bao di động phát sinh của thành phố Hà Nội và CSDL điều tra
dân số của Mỹ năm 1990. Các hàm mục tiêu để đánh giá chất lượng phân cụm là CU,
ARI và ER đã được trình bày kỹ trong chương 3
Keywords. Công nghệ thông tin; Công nghệ phần mềm; Dữ liệu định danh
Content.
Phân cụm dữ liệu nhằm chia tập dữ liệu thành nhiều cụm, trong đó các phần tử
trong một cụm giống nhau nhiều hơn các phần tử khác cụm, là một phần quan trọng
trong phân tích thống kê nhiều chiều và học máy không giám sát. Bài toán này có
nhiều ứng dụng trong các lĩnh vực khác nhau như: gian lận tài chính, chẩn đoán trong
y tế, xử lý hình ảnh, tìm kiếm thông tin, tin sinh học.
Những thuật toán phân cụm đầu tiên làm việc với các đặc trưng số như là một
phần của thống kê toán [15]. Cùng với sự phát triển của ứng dụng công nghệ thông tin,
khối lượng dữ liệu tăng nhanh đòi hỏi phát triển các kỹ thuật khám phá tri thức trên
các dạng dữ liệu khác nhau trên dữ liệu lớn với độ phức tạp thấp. Mặt khác các kỹ
thuật khám phá tri thức thường phải làm việc với dữ liệu quan hệ nhiều chiều với các
thuộc tính giá trị định danh [16]. Trong trường hợp đó việc phân dữ liệu thành các
nhóm con có độ tương tự cao trong mỗi nhóm để xử lý sẽ giảm đáng kể thời gian chạy
cho các thuật toán và tăng chất lượng của kỹ thuật khám phá tri thức.
Bài toán phân cụm dữ liệu thuộc loại “thiết lập không đúng đắn” theo nghĩa lời

giải thường không duy nhất và thay đổi nhiều khi dữ liệu thay đổi ít. Vì vậy người ta
có nhiều cách tiếp cận dựa trên quan sát tổng thể tập dữ liệu để áp dụng thuật toán
thích hợp. Khi số chiều cao, ngoài khối lượng tính toán tăng lên, dữ liệu phân bố
“thưa” nên việc quan sát dữ liệu để phân tích đặc điểm hình học cũng rất khó khăn nên
phân cụm khó hiệu quả.
Một cách tiếp cận cho dữ liệu chiều cao là chiếu chúng lên không gian có chiều thấp
hơn, chẳng hạn, các phương pháp: CLIQUE[2], ENCLUS[6], MAFIA[19], Proclus[4],
ORCLUS[5], FINDIT[13], DOC [7], d-clusters[9], HARP[14] và LDR[11] cho dữ liệu
số.
Trong các phương pháp phân cụm, thuật toán k-means do MacQueen (1967 )
đề xuất có độ phức tạp thấp, thích hợp với dữ liệu lớn và có số chiều cao. Ban đầu
thuật toán này được dùng cho dữ liệu số sau đó được phát triển thành thuật toán k-
modes cho các dữ liệu định danh. Tuy nhiên khi dữ liệu nhiều chiều, việc xem đồng
thời các thuộc tính như nhau khi phân cụm ở thuật toán này không thích hợp và người
ta phát triển nhiều thuật toán mới.
Để giải quyết hiệu quả vấn đề này, luận văn đã trình bày một số thuật toán tối
ưu hoá để so sánh phân nhóm dữ liệu phân loại chiều cao.
Trong các thuật toán trình bày, một kỹ thuật trọng số mới phân loại dữ liệu
được đưa ra để tính toán trọng số cho mỗi thuộc tính (hoặc chiều) trong mỗi cụm và sử
dụng các giá trị trọng số để xác định tập hợp con cuả các thuộc tính quan trọng mà
phân loại cụm khác nhau.
Các nghiên cứu thực nghiệm cho thấy rằng các thuật toán đề xuất có hiệu quả
trong nhóm phân loại tập hợp dữ liệu và cũng có khả năng mở rộng dữ liệu lớn với độ
phức tạp là tuyến tính.
Ngoài phần kết luận luận văn được trình bày thành 4 chương với nội dung được
trình bày như sau:
Chương 1: Giới thiệu về khám phá tri thức và phân cụm dữ liệu. Trình bày cách biểu
diễn dữ liệu trong máy tính nhằm phục vụ cho quá trình phân cụm, giới thiệu độ tương
đồng giữa các đối tượng trong tập dữ liệu, các phương pháp phân cụm dữ liệu.
Chương 2: Một số phương pháp phân cụm chính.

Ở chương này với mỗi phương pháp phân cụm sẽ trình bày một số thuật toán
chính. Tư tưởng của phương pháp phân hoạch là tìm cách phân chia tập dữ liệu thành
các tập không giao nhau, thỏa mãn điều kiện làm tối ưu hàm đánh giá. Trong mỗi tập
con thường có ít nhất một phần tử đại diện, phần tử đại diện thường là tâm của tập con
đó. Mỗi đối tượng trong tập dữ liệu được phân vào cụm có điểm đại diện gần với đối
tượng đó nhất. Quá trình này lặp đi lặp lại cho tới khi hàm mục tiêu không thay đổi.
Phương pháp phân cấp phân tách các tập đối tượng theo hai cách: Tiếp cận từ dưới lên
(Bottom-Up) hoặc trên xuống (Top-Down). Tiếp cận từ dưới lên bắt đầu với mỗi đối
tượng được xem như một nhóm, sau đó gộp các đối tượng hay các nhóm theo các hàm
như hàm khoảng cách giữa các tâm của hai nhóm và điều này được thực hiện cho tới
khi tất cả các nhóm được gộp vào làm một nhóm hoặc cho tới khi điều kiện kết thúc
được thỏa mãn. Tiếp cận theo phương pháp từ trên xuống bắt đầu với tất cả các đối
tượng nằm trong cùng một cụm. Trong mỗi lần lặp, một cụm được tách ra thành các
cụm nhỏ hơn theo một ước lượng nào đó. Điều này được thực hiện cho tới khi mỗi đối
tượng là một cụm, hoặc cho tới khi điều kiện kết thúc thỏa mãn. Đối với phương pháp
được phát triển dựa trên quan niệm về mật độ. Các cụm tiêu biểu được xét là các vùng
có các đối tượng tập trung đậm đặc và được phân chia bởi các vùng có mật độ thấp
(đặc trưng cho nhiễu). Các phương pháp dựa trên mật độ có thể sử dụng để lọc ra các
nhiễu (phần tử ngoại lai), và khám phá ra các cụm có hình dạng bất kỳ. Cách tiếp cận
dựa trên lưới sử dụng cấu trúc lưới của dữ liệu. Nó lượng tử hóa khoảng cách vào một
số hữu hạn các ô là cấu trúc dạng lưới để tất cả các phép toán phân cụm thực hiện
được.
Chương 3: Phân cụm dữ liệu với thuộc tính định danh
Với dữ liệu tồn tại trong tự nhiên là rất lớn và phong phú. Trong khuôn khổ
luận văn quan tâm đến việc phân cụm dữ liệu định danh. Ở chương này chúng tôi có
trình bày một số thuật toán, trong đó đi sâu vào hai thuật toán COOLCAT và MWKM
để phân cụm dữ liệu định danh với nhiều thuộc tính. Luận văn cũng đã so sánh được
ưu, nhược điểm của hai thuật toán này thông qua kết quả thực nghiệm ở chương 4.
Chương 4: Kết quả thực nghiệm
Luận văn đã trình bày kết quả thực nghiệm so sánh hai thuật toán COOLCAT

và MWKM với 5 bộ dữ liệu với nhiều thuộc tính: Cơ sở dữ liệu đậu tương, cơ sở dữ
liệu nấm, cơ sở dữ liệu ung thư phổi, CSDL về thuê bao di động phát sinh của thành
phố Hà Nội và CSDL điều tra dân số của Mỹ năm 1990. Các hàm mục tiêu để đánh giá
chất lượng phân cụm là CU, ARI và ER đã được trình bày kỹ trong chương 3.
Cuối cùng là kết luận, hướng phát triển, tài liệu tham khảo và phụ lục. Phần kết luận
trình bày tóm tắt kết quả thu được và đề xuất hướng nghiên cứu tiếp theo.

TÀI LIỆU THAM KHẢO
Tiếng Việt
[1]
PGS.TS Hoàng Xuân Huấn (2012), Giáo trình Nhận dạng mẫu, Trường Đại
học công nghệ - Đại Học Quốc Gia Hà Nội.
Tiếng Anh
[2]
Agrawal, Rakesh, Johannes Gehrke, Dimitrios Gunopulos and Prahhakar Raghavan
(June 1998), “Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications”, Proceedings of the 1998 ACM-SIGMOD International
Conference on Management of Data, Seattle, Washington, pp. 94 - 105
[3]
Anil K.Jain, Richard C.Dubes (1988), Algorithms for Clustering Data.
[4]
C. Aggarwal, C. Procopiuc, J.L. Wolf, P.S. Yu, J.S. Park (1999), “Fast algorithms for
projected clustering”, in: Proceedings of the ACM SIGMOD International
Conference on Management of Data, pp. 61 - 72.
[5]
C.C. Aggarwal, P.S. Yu (2000), “Finding generalized projected clusters in high
dimen-sional spaces”, in: Proceedings of the ACM SIGMOD International
Conference on Management of Data, pp. 70 - 81.
[6]
C.H. Cheng, A.W. Fu, Y. Zhang (1999), “Entropy-based subspace clustering for

mining numerical data”, in: Proceedings of the 5th ACM SIGKDD International
Conference on Knowledge and Data Mining, pp. 84 - 93.
[7]
C.M. Procopiuc, M. Jones, P.K. Agarwal, T.M. Murali (2002), “A Monte Carlo
algorithm for fast projective clustering”, in: Proceedings of the ACM SIGMOD
Conference on Management of Data, pp. 418 - 427.
[8]
Daniel Barbara, Julia Couto, Yi Li (October 1, 2001), “COOLCAT: An entropy-
based algorithm for categorical clustering”, George MasonUniversity Information
and Software Engineering Department Fairfax, VA22030, pp. 582 - 589.
[9]
J. Yang, W. Wang, H. Wang, P. Yu (2002), “D-clusters: capturing subspace
correlation in a large data set”, in: Proceedings of the 18th International Conference
on Data Engineering, pp. 517 - 528.
[10]
Jiawei Han and Micheline Kamber (2001), “Data Mining: Concepts and Techniques”,
Hacours Science and Technology Company, USA.
[11]
K. Chakrabarti, S. Mehrotra (2000), “Local dimensionality reduction: a new approach
to indexing high dimensional spaces”, in: Proceedings of the 26th Interna-tional
Conference on Very Large Data Bases, pp. 89 - 100.
[12]
K.C. Gowda, E. Diday (1991), “Symbolic clustering using a new dissimilarity
measure”, Pattern Recognition 24 (6), pp. 567 - 578.
[13]
K.G. Woo, J.H. Lee (2002), “Find it: a fast and intelligent subspace clustering
algorithm using dimension voting”, Ph.D. Dissertation, Korea Advanced Institute of
Science and Technology, pp. 255 - 271.
[14]
K.Y. Yip, D.W. Cheung, M.K. Ng (2004), “A practical projected clustering

algorithm”, IEEETransactions on Knowledge and Data Engineering 16 (11), pp.1387
- 1397.
[15]
Ka Y ee Y eung, Walter L. Ruzzo (May 3, 2001), Details of the Adjusted Rand index
and Clustering algorithms
Supplement to the paper “An empirical study on Principal Component Analysis for
clustering gene expression data” (To appear in Bioinformatics), pp. 763 - 774.
[16]
L.P. Jing, M.K. Ng, Z.X. Huang (2007), “An entropy weighting k-means algorithm
for subspace clustering of high-dimensional sparse data”, IEEE Transactions on
Knowledge and Data Engineering 19 (8), pp. 1026 - 1041.
[17]
Liang Bai
a, b
, Jiye Liang
a, *
, Chuangyin Dang
b
, Fuyuan Cao
a
(2011), “A novel attribute
weighting algorithm for clustering high-dimensional categorical data”, Pattern
Recognition 44(2011), pp. 2843 - 2861.
[18]
MARIA HALKIDI (2001), “On Clustering Validation Techniques”, Kluwer
Academic Publishers, Holland
[19]
S. Goil, H. Nagesh, A. Choudhary (1999), “Mafia: efficient and scalable subspace
clustering for very large data sets”, Technical Report CPDC-TR-9906-010,
Northwest University, pp. 60208

[20]
Tian Zhang Raghu Ramakrishnan Miron Livny (1996), “BIRCH: An Efficient Data
Clustering Method for Very Large Databases”, SIGMOD ’96 6/96 Montreal, Canada
IQ 1996 ACM 0-89791 -794-4/96/0006, pp. 103 - 114.
[21]
Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth (1996), “From Data
Mining to Knowledge Discovery”: An Overview, Advances in Knowledge Discovery
and Data Mining 1996, pp. 37 - 54.
[22]
Y. Chan, W. Ching, M.K. Ng, Z.X. Huang (2004), “An optimization algorithm for
clustering using weighted dissimilarity measures”, Pattern Recognition 37 (5), pp.
943 - 952.
[23]
ZHEXUE HUANG (1997), “Clustering Large Data Sets With mixed Numeric and
Categorical Values”, Proc. 1
st
Conference of PAKDD, pp. 21-34.
[24]
ZHEXUE HUANG (1998), “Extensions to the k-Means Algorithm for Clustering
Large Data Sets with Categorical Values”, Data Mining and Knowledge Discovery 2,
pp. 283 - 304.

×