Tóm tắt dữ liệu quan hệ sử dụng phương pháp
phân cụm bán giám sát dựa trên giải thuật di
truyền
Đỗ Thị Hòa
Trường Đại học Công nghệ
Luận văn Thạc sĩ ngành: Công nghệ phần mềm; Mã số: 60 48 10
Người hướng dẫn: PGS.TS Hoàng Xuân Huấn
Năm bảo vệ: 2011
Abstract: Tổng quan về phân cụm dữ liệu: Giới thiệu cách biểu diễn dữ liệu trong
máy tính nhằm phục vụ cho quá trình phân cụm, giới thiệu độ tương đồng giữa các đối
tượng trong tập dữ liệu, các phương pháp phân cụm dữ liệu. Với mỗi phương pháp
phân cụm sẽ trình bày một số thuật toán tương ứng. Giải thuật di truyền: Tổng quan về
giải thuật di truyền với các cách biểu diễn dữ liệu, cách xây dựng một giải thuật di
truyền và mô tả các phép toán thực hiện trên đó. Phân tích ứng dụng của giải thuật di
truyền trong bài toán phân cụm. Tóm tắt dữ liệu quan hệ sử dụng phương pháp phân
cụm bán bán giám sát dựa trên giải thuật di truyền. Phân tích khái niệm, cấu trúc quan
hệ các bảng trong cơ sở dữ liệu, cách chuyển đổi dữ liệu. Trình bày thuật toán phân
cụm bán giám sát dựa trên giải thuật di truyền để tóm tắt dữ liệu. Kết quả cài đặt thử
nghiệm thuật toán. Chương này trình bày các kết quả thực nghiệm về phương pháp
tóm tắt dữ liệu quan hệ sử dụng thuật toán phân cụm bán giám sát dựa trên giải thuật
di truyền. Cài đặt thử nghiệm cho thuật toán được thực hiện bằng ngôn ngữ C++ trên
tập dữ liệu thử nghiệm về năng suất lúa. Thông qua các nhận xét về giá trị các độ đo
đánh giá, kết quả thực hiện chương trình là khả quan.
Keywords: Phân cụm dữ liệu; Thuật toán; Giải thuật di truyền; Công nghệ phần mềm
Content
Trong thời đại hiện nay, cuộc cách mạng về khoa học và công nghệ đã có những bước
phát triển vượt bậc, đánh dấu những mốc son đáng tự hào trong nền văn minh của thế giới.
Đóng góp một phần cho sự thay đổi này, không thể kể không kể đến các ngành đã và đang
được xem là mũi nhọn hiện nay như: Công nghệ thông tin, điện tử và truyền thông, công nghệ
sinh học… với những ứng dụng rộng rãi, đem lại những lợi ích to lớn cho các ngành khoa học
khác và các hệ thống phục vụ cho đời sống, kinh tế, xã hội. Cùng với sự phát triển này, một
lượng dữ liệu ngày càng lớn và vô cùng phong phú đã được tạo ra. Với các kho dữ liệu khổng
lồ như vậy, các thông tin yêu cầu từ nó không đơn thuần là các số liệu, mà đòi hỏi thêm ở
mức cao hơn là các tri thức có thể hỗ trợ ra quyết định cho người dùng. Đã có rất nhiều các
công trình nghiên cứu về việc tổ chức các kho dữ liệu, các thuật toán nhận dạng mẫu, và phân
lớp ảnh, các hệ thốn thông tin lớn, các hệ hỗ trợ ra quyết định, …được công bố và ứng dụng.
2
Một khái niệm mới là Data mining ra đời và mở ra những xu hướng mới trong công nghệ
khám phá tri thức hiện nay.
Một trong các hướng nghiên cứu của Data mining là Phân cụm dữ liệu. Bài toán phân
cụm dữ liệu thuộc lĩnh vực học không giám sát, nhằm phân tập dữ liệu thành các tập con, thỏa
mãn điều kiện các đối tượng trong cùng một tập con có độ tương đồng cao, và ngược lại các
đối tượng ở các tập con khác nhau thì có độ tương đồng thấp. Hay nói cách khác, bài toán
phân cụm dữ liệu là bài toán khám phá cấu trúc của tập dữ liệu. Tùy theo đặc điểm cấu trúc
của tập dữ liệu và mục đích sử dụng, có các phương pháp giải quyết khác nhau như: Phân
cụm dựa vào phân hoạch, phân cụm theo phân cấp, phân cụm dựa vào mật độ và phân cụm
dựa vào lưới. Trong đó, phương pháp phân cụm bán giám sát đươc ứng dụng khá phổ biến.
Đây là phương pháp kết hợp giữa học không giám sát và học có giám sát.
Trong việc giải quyết bài toán phân loại trong khai phá dữ liệu quan hệ, các phương
pháp truyền thống thường yêu cầu liên kết dữ liệu được lưu trong nhiều bảng thành một bảng
duy nhất. Khi đó, bảng dữ liệu thu được sẽ có kích thước vô cùng lớn. Để truy vấn, phải sử
dụng các phép toán đại số quan hệ và tối ưu các phép toán này bằng phương pháp tối ưu truy
vấn heuristic tức là tìm cách thực hiện các phép chiếu, phép chọn trước các phép toán 2 ngôi.
Trong một số trường hợp khi nối nhiều bảng sẽ gây mất thông tin hoặc trùng lặp dữ liệu. Do
đó, chuyển đổi dữ liệu trở thành phức tạp và tóm tắt dữ liệu thường kém hiệu quả. Mặt khác,
việc áp dụng các phương pháp tóm tắt dữ liệu trong khai phá dữ liệu được lưu trên nhiều bảng
có quan hệ một-nhiều thường bị hạn chế do sự phức tạp của lược đồ cơ sở dữ liệu.
Để có thể khắc phục được các vấn đề nêu trên, luận văn sẽ nghiên cứu một phương
pháp tiếp cận: Sử dụng kỹ thuật phần cụm bán giám sát dựa trên giải thuật di truyền để tóm tắt
dữ liệu được lưu trong nhiều bảng. Nghiên cứu này dựa trên ý tưởng nghiên cứu của Rayner
Alfred [17]. Kết quả của thuật toán được áp dụng phân cụm cho dữ liệu thử nghiệm năng suất
lúa.
Ngoài phần kết luận và các phụ lục, phần còn lại của luận văn được chia thành 4
chương chính:
Chương I - Tổng quan về phân cụm dữ liệu. Giới thiệu cách biểu diễn dữ liệu trong máy
tính nhằm phục vụ cho quá trình phân cụm, giới thiệu độ tương đồng giữa các đối tượng trong
tập dữ liệu, các phương pháp phân cụm dữ liệu. Với mỗi phương pháp phân cụm sẽ trình bày
một số thuật toán tương ứng.
Chương II – Giải thuật di truyền. Chương này trình bày về giải thuật di truyền với các cách
biểu diễn dữ liệu, cách xây dựng một giải thuật di truyền và mô tả các phép toán thực hiện
trên đó. Tiếp theo là phân tích ứng dụng của giải thuật di truyền trong bài toán phân cụm.
Chương III – Tóm tắt dữ liệu quan hệ sử dụng phương pháp phân cụm bán bán giám
sát dựa trên giải thuật di truyền. Chương này đi sâu phân tích khái niệm, cấu trúc quan hệ
các bảng trong cơ sở dữ liệu, cách chuyển đổi dữ liệu. Thông qua đó luận văn trình bày thuật
toán phân cụm bán giám sát dựa trên giải thuật di truyền để tóm tắt dữ liệu.
3
Chương IV - Kết quả cài đặt thử nghiệm thuật toán. Chương này trình bày các kết quả
thực nghiệm về phương pháp tóm tắt dữ liệu quan hệ sử dụng thuật toán phân cụm bán giám
sát dựa trên giải thuật di truyền. Chương trình cài đặt thử nghiệm cho thuật toán được thực
hiện bằng ngôn ngữ C++ trên tập dữ liệu thử nghiệm về năng suất lúa. Thông qua các nhận
xét về giá trị các độ đo đánh giá, kết quả thực hiện chương trình là khả quan.
Phần Kết luận trình bày tổng hợp các kết quả thực hiện luận văn và phương hướng nghiên
cứu tiếp theo về các nội dung của luận văn. Mặc dù đã có một môi trường làm việc tương đối
đầy đủ và thuận tiện, nhưng luận văn chắc hẳn sẽ không tránh khỏi có nhiều thiếu sót. Rất
mong được sự đóng góp ý kiến, nhận xét để tôi có thể hoàn thiện được kết quả làm việc của
mình.
References
[1]
Basu, B., A. Banerjee and R. Mooney, 2002. Semi-supervised clustering by seeding.
Proceedings of the 19th International Conference on Machine
Learning, July 2002, Morgan Kaufmann Publishers Inc., San Francisco, CA., USA.,
pp: 27-34.
[2]
Blockeel, H. and L. de Raedt, 1998. Top-down induction of first-order logical
decision trees. Artif. Intell.
[3]
Blockeel, H. and M. Sebag, 2003. Scalability and efficiency in multi-relational data
mining. SIGKDD Explorat.
[4]
Breiman, L., J. Friedman, T. Olshen and C. Stone, 1984. Classification and
Regression Trees. 1st Edn., Wadsworth International, California, ISBN:10:
0412048418, pp: 368.
[5]
Davies, D.L. and D.W. Bouldin, 1979. A cluster separation measure. IEEE Trans.
Pattern Anal. Mach. Intel., PAMI, 1: 24-227. DOI: 10.1109/TPAMI.1979.4766909
[6]
Finn, P.W., S. Muggleton, D. Page and A. Srinivasan, 1998. Pharmacophore
discovery using the inductive logic programming system Progol. Mach.Learn., 30:
241-270. DOI: 10.1023/A:1007460424845
[7]
Gautam, G. and B.B. Chaudhuri, 2004. A novel genetic algorithm for automatic
clustering. Patt. Recogn. Lett., 25: 173-187. DOI: 10.1016/j.patrec.2003.09. 012
[8]
Goldberg, D.E., 1989. Genetic Algorithms-in Search,Optimization and Machine
Learning. 1st Edn., Addison-Wesley Publishing Company Inc.
[9]
Holland, J., 1975. Adaptation in Natural and Artificial Systems. 1st Edn., University
of Michigan Press.
[10]
Kirsten, M. and S. Wrobel, 1998. Relational distance-based clustering. Proceeding of
the 8th International Conference on Inductive Logic Programming, July 22-24,
Springer-Verlag, London, UK., pp: 261-270.
4
[11]
Kirsten, M. and S. Wrobel, 2000. Extending K-means clustering to first-order
representations. Proceeding of the 10th International Conference on Inductive
Logic Programming, July 24-27, Springer-Verlag, London, UK., pp: 112-129.
[12]
Krogel, M.A. and S. Wrobel, 2001. Transformation-based learning using
multirelational aggregation. Lecturere Notes Comput. Sci.
[13]
Lachiche, N. and P. Flach, 2000. A First-Order Representation for Knowledge
Discovery and Bayesian Classification on Relational Data. In: Mining, decision
Support, Meta-learning and ILP: Forum for Practical Problem Presentation and
Prospective Solutions, Pavel, B. and J. Alipio(Eds.). Citeseerx, pp: 49-60.
[14]
Laura, E.R. and S. Kilian, 2004. Theoretical comparison between the Gini index and
information gain criteria. Ann. Math. Artif. Intell.,41: 77-93.
[15]
Rayner, A. and K. Dimitar, 2007. Clustering approach to generalized pattern
identification based on multi-instanced objects with DARA. Proceeding of the
Communications of the 11th East-European Conference on Advances in Databases
and Information Systems, Sept 2007, Technical University of Varna, pp: 1-12.
[16]
Rayner, A., 2008. A genetic-based feature construction method for data
summarization. Proceeding of the 4th International Conference on Advanced Data
Mining and Applications, Oct. 8-10, ACM Press, Chengdu, China, pp: 39-50.
[17]
Rayner Alfred-Joural of Computer Science 6(7):775-784,2010. Summarizing
Relational Data Using Semi-Supervised Genetic Algorithm-Based Clustering
Techniques
[18]
Salton, G. and M. Michael, 1984. Introduction to Modern Information Retrieval.
McGraw-Hill, Inc., New York, USA., ISBN: 0070544840.
[19]
Srinivasan, A., S. Muggleton, M.J.E. Sternberg and R.D. King, 1996. Theories for
mutagenicity: Study in first-order and feature-based induction. Artif. Intell.
[20]
Witten, I.H. and E. Frank, 1999. Data Mining: Practical Machine Learning Tools and
Techniques with Java Implementations. 1st Edn., Morgan Kaufmann