Tải bản đầy đủ (.pdf) (3 trang)

Khai phá dữ liệu dựa trên bảng quyết định nhờ lý thuyết tập thô

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (212.5 KB, 3 trang )

Khai phá dữ liệu dựa trên bảng quyết định nhờ
lý thuyết tập thô



Hoàng Thị Kim Oanh


Trường Đại học Công nghệ
Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 01 04
Người hướng dẫn: GS.TS. Vũ Đức Thi
Năm bảo vệ: 2014


Keywords. Hệ thống thông tin; Khai phá dữ liệu; Bảng quyết định; Cơ sở dữ liệu

Content
Lý thuyết tập thô do nhà logic học Balan Zdzislak Pawlak [17] đề xuất vào đầu những năm 80
được xem như là một cách tiếp cận mới để phát hiện tri thức và tạo thành một cơ sở vững chắc
cho các ứng dụng khai phá dữ liệu. Nó rất hữu ích trong việc giải quyết các bài toán phân lớp dữ
liệu, phát hiện luật, … chứa dữ liệu mơ hồ không chắc chắn. Các mối quan hệ trong mô hình này
được biểu diễn qua quan hệ không phân biệt được, còn các dữ liệu được biểu diễn thông qua tập
xấp xỉ trên và xấp xỉ dưới của nó.
Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư thừa để tìm ra các thuộc tính
cốt yếu và cần thiết trong cơ sở dữ liệu. Với bảng quyết định, rút gọn thuộc tính là tìm tập con
nhỏ nhất của tập thuộc tính điều kiện bảo toàn thông tin phân lớp của bảng quyết định.
Với những lý do trên, tập thô đã chứng tỏ là một trong những lý thuyết rất hiệu quả trong lĩnh
vực khai phá dữ liệu. Vì vậy tôi đã chọn đề tài “Khai phá dữ liệu dựa trên bảng quyết định nhờ lý
thuyết tập thô”.
Đối tượng nghiên cứu của luận văn là các bảng quyết định với kích thước trung bình và
kích thước lớn.


Phạm vi nghiên cứu của luận văn tập trung vào bài toán rút gọn thuộc tính ở bước tiền
xử lý số liệu trong quá trình khai phá dữ liệu.
Phương pháp nghiên cứu của luận văn là nghiên cứu lý thuyết và nghiên cứu thực
nghiệm. Về nghiên cứu lý thuyết: các mệnh đề được chứng minh chặt chẽ dựa vào các kiến thức
cơ bản và các kết quả nghiên cứu đã công bố. Về nghiên cứu thực nghiệm: luận văn thực hiện cài
đặt các thuật toán, chạy thử nghiệm thuật toán với các bộ số liệu lấy từ kho dữ liệu UCI


References
Tài liệu tiếng Việt
[1]
Hoàng Thị Lan Giao (2007), “Khía cạnh đại số và lôgic phát hiện luật theo tiếp cận
tập thô”, Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin.
[2]
Nguyễn Đức Thuần (2010), “Phủ tập thô và độ đo đánh giá hiệu năng tập luật quyết
định”, Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin.
[3]
Nguyễn Long Giang (2012), “Nghiên cứu một số phương pháp khai phá dữ liệu
theo tiếp cận lý thuyết tập thô”, Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông
Tin.
[4]
Nguyễn Long Giang, Vũ Đức Thi (2011), “Một phương pháp rút gọn thuộc tính
trong bảng quyết định dựa trên Entropy cải tiến”, Tạp chí Tin học và Điều khiển
học, T.27, S.2, tr. 166-175.
Tài liệu tiếng Anh
[5]
Andrzej Skowron and Rauszer C (1992), “The Discernibility Matrices and
Functions in Information Systems”, Interlligent Decision Support, Handbook of
Applications and Advances of the Rough Sets Theory, Kluwer, Dordrecht, pp. 331-
362.

[6]
Ge H., Li L.S and Yang C.J. (2009), “Improvement to Quick Attribution Reduction
Algorithm”, Journal of Computers, Vol.30, No.2, pp. 308-312.
[7]
Hu X.H. and Cercone N. (1995), “Learning in relational databases: a rough set
approach”, International Journal of computational intelligence, pp. 323-338.
[8]
Hu X.H., Lin T.Y. and Han J.C. (2004), “A new rough sets model based on database
systems”, Fundamenta Informaticae, 59(1), pp. 135-152 .
[9]
Kryszkiewicz M. (1998), “Rough set approach to incomplete information systems”,
Information Science, Vol. 112, pp. 39-49.
[10]
Li J.H. and Shi K.Q. (2006), “A algorithm for attribute reduction based on
knowledge granularity”, Computer Applications, Vol. 26, No. 6, pp. 76-77.
[11]
Li X.H. and Shi K.Q. (2006), “A knowledge granulation-based algorithm for
attribute reduction under incomplete information systems”, Computer Science, Vol.
33, pp. 169-171.
[12]
Liu Y., Xiong R. and Chu J. (2009), “Quick Attribute Reduction Algorithm with
Hash”, Chinese Journal of Computers, Vol.32, No.8, pp. 1493-1499.
[13]

Liang J.Y., Shi Z.Z., Li D.Y. and Wierman M.J. (2006), “The information entropy,
rough entropy and knowledge granulation in incomplete information system”,
International Journal of General Systems 35 (6), pp. 641-654.
[14]
Lv Y.J. and Li J.H. (2007), “A Quick Algorithmfor Reduction of Attribute in
Information Systems”, The First International Symposium on Data, Privacy, and E-

Commerce (ISDPE 2007), pp. 98-100.
[15]
Miao D.Q. and Hu G.R. (1999), “A heuristic algorithm for knowledge reduction”,
Computer Research and Development, Vol. 36, No. 6, pp. 681-684.
[16]
Nguyen S. Hoa, Nguyen H. Son (1996), "Some Efficient Alogrithms for Rough Set
Methods", Proceedings of the sixth International Conference on Information
Processing Management of Uncertainty in Knowledge Based Systems, pp. 1451 -
1456.
[17]
Pawlak Z. (1991), Rough sets: Theoretical Aspects of Reasoning About Data,
Kluwer Aca-demic Publishers.
[18]
Pawlak Z. (1998), “Rough set theory and its applications in data analysis”,
Cybernetics and systems 29, pp. 661-688.
[19]
Qian Y.H., Liang J.Y., Li D.Y., Zhang H.Y. and Dang C.Y. (2008), “Measures of
Evaluating The Decision Performace of a Decision Table in Rough Set Theory”,
Information Sciences, Vol.178, pp.181-202.
[20]
Wang C.R. and OU F.F. (2008), “An Attribute Reduction Algorithm in Rough Set
Theory Based on Information Entropy”, 2008 International Symposium on
Computational Intelligence and Design, IEEE ISCID, pp. 3-6.
[21]
Wang G.Y. (2001), “Algebra view and information view of rough sets theory”, In:
Dasarathy BV,editor. Data mining and knowledge discovery: Theory, tools, and
technology III, Proceedings of SPIE, pp. 200-207.
[22]
Wang G.Y. (2003), “Rough reduction in algebra view and information view”,
International Journal of Intelligent System 18, pp. 679-688.

[23]
Wang G.Y., Yu H. and Yang D.C. (2002), “Decision table reduction based on conditional
information entropy”, Journal of Computers, Vol. 25 No. 7, pp. 759-766.
[24]
Wang G.Y., Yu H., Yang D.C. and Wu Z.F. (2001), “Knowledge Reduction Based on
Rough Set and Information Entropy”, Proc. Of the World Multi-conference on Systemics,
Cybernetics and Informatics, Orlando, Florida, pp. 555-560.
[25]
Wierman M.J. (1999), “Measuring uncertainty in rough set theory”, International
Journal of General Systems, pp. 283-197.
[26]
Xu J.C and Sun L. (2009), “Research of Knowledge Reduction Based on New
Conditional Entropy”, Rough Sets and Knowledge Technology, Lecture Notes in
Computer Science, Volume 5589/2009, pp. 144-151.
[27]
Xu Z.Y., Yang B.R. and Song W. (2006), “Complete attribute reduction algorithm
based on Simplified discernibility matrix”, Computer Engineering and
Applications, Vol. 42, No. 26, pp. 167-169.
[28]


Xu Z.Y., Liu Z.P., Yang B.R. and Song W. (2006), “A quick attribute reduction
algorithm with complexity of
 
 
 
2
,/Max O C U O C U C
”, Journal of
Computers, Vol.29, No.3, pp. 391-399.

[29]
Ye D.Y. and Chen Z.J. (2002), “A new discernibility matrix and computation of a
core”, Acta Electronica Sinica, Vol. 30, No. 7, pp. 1086-1088.
[30]
Zadeh L.A. (1997), “Towards a theory of fuzzy information granulation and its
centrality in human reasoning and fuzzy logic”, Fuzzy Sets and System, 90, pp. 111-
127.
[31]
Zhao M., Luo K. and Qin Z. (2008), “Algorithm for attribute reduction based on
granular computing”, Computer Engineering and Applications, Vol. 44, No. 30, pp.
157-159.
[32]
The UCI machine learning repository, <





×