Rút gọn thuộc tính trên hệ quyết định không đầy đủ theo tiếp cận mô hình tập thô dung sai

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (252.7 KB, 5 trang )

Rút gọn thuộc tính trên hệ quyết định không
đầy đủ theo tiếp cận mô hình tập thô dung sai

Trần Thị Loan

Viện Công nghệ Thông tin
Luận văn ThS Chuyên ngành: Quản lý hệ thống thông tin
Mã số Chuyên ngành đào tạo thí điểm
Người hướng dẫn: TS. Nguyễn Long Giang
Năm bảo vệ: 2015

Keywords. Quản lý hệ thống thông tin; Hệ thông tin đầy đủ; Hệ thông tin không đầy
đủ; Thuộc tính.

Content
MỞ ĐẦU
Lý thuyết tập thô - do Zdzislaw Pawlak [10] đề xuất vào những năm đầu thập niên tám
mươi của thế kỷ hai mươi - được xem là công cụ hữu hiệu để giải quyết các bài toán phân lớp,
phát hiện luật…chứa dữ liệu không đầy đủ, không chắc chắn. Từ khi xuất hiện, lý thuyết tập
thô đã được sử dụng hiệu quả trong các bước của quá trình khai phá dữ liệu và khám phá tri
thức, bao gồm tiền xử lý số liệu, khai phá dữ liệu và đánh giá kết quả thu được. Rút gọn thuộc
tính và trích lọc luật quyết định (luật phân lớp) là hai ứng dụng chính của lý thuyết tập thô
trong khai phá dữ liệu. Rút gọn thuộc tính thuộc giai đoạn tiền xử lý dữ liệu còn trích lọc luật
thuộc giai đoạn khai phá dữ liệu. Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư
thừa nhằm tìm tập con nhỏ nhất của tập thuộc tính điều kiện (tập rút gọn) mà bảo toàn thông
tin phân lớp của bảng quyết định. Dựa trên tập rút gọn thu được, việc sinh luật và phân lớp đạt
hiệu quả cao nhất.
Trong các bài toán thực tế, các bảng quyết định thường thiếu giá trị trên miền giá trị thuộc
tính, gọi là các bảng quyết định không đầy đủ. Trên bảng quyết định không đầy đủ,
Kryszkiewicz [5] đã mở rộng quan hệ tương đương trong lý thuyết tập thô truyền thống thành

quan hệ dung sai và đề xuất mô hình tập thô dung sai nhằm trích lọc luật trực tiếp không qua
bước xử lý giá trị thiếu. Dựa trên mô hình tập thô dung sai, một số công trình công bố trong
mấy năm gần đây đã đề xuất một số độ đo không chắc chắn nhằm giải quyết bài toán rút gọn
thuộc tính và trích lọc luật, đáng chú ý là các công bố được liệt kê trong công trình [8]. Tuy
nhiên, các kết quả nghiên cứu về các phương pháp rút gọn thuộc tính và trích lọc luật trên các
bảng quyết định không đầy đủ còn nhiều hạn chế.

Luận văn đặt ra hai mục tiêu chính:
1) Tổng hợp các công bố mới nhất về các phương pháp rút gọn thuộc tính trong bảng
quyết định không đầy đủ theo tiếp cận mô hình tập thô dung sai, bao gồm: phân nhóm các
phương pháp và nghiên cứu mối liên hệ giữa các nhóm; luật quyết định trong bảng quyết định
không đầy đủ và các độ đo đánh giá hiệu năng tập luật; sự thay đổi các độ đo đánh giá hiệu
năng trên tập luật quyết định và so sánh, đánh giá các phương pháp rút gọn thuộc tính theo
tiêu chuẩn chất lượng phân lớp của tập rút gọn.
2) Xây dựng phương pháp rút gọn thuộc tính sử dụng khoảng cách phân hoạch, bao
gồm: xây dựng độ đo khoảng cách phân hoạch; định nghĩa tập rút gọn và độ quan trọng của
thuộc tính dựa trên khoảng cách phân hoạch; xây dựng thuật toán heuristic tìm một tập rút
gọn tốt nhất sử dụng khoảng cách phân hoạch; phân nhóm và đánh giá phương pháp đề xuất
với các phương pháp đã có và thử nghiệm phương pháp trên các bộ số liệu mẫu từ kho dữ liệu
UCI [13].
Đối tượng nghiên cứu của luận văn là các bảng quyết định không đầy đủ với kích thước
trung bình và kích thước lớn.
Phạm vi nghiên cứu của luận văn tập trung vào bài toán rút gọn thuộc tính ở bước tiền
xử lý số liệu trong quá trình khai phá dữ liệu.
Phương pháp nghiên cứu của luận văn là nghiên cứu lý thuyết và nghiên cứu thực
nghiệm. Về nghiên cứu lý thuyết: các mệnh đề được chứng minh chặt chẽ dựa vào các kiến
thức cơ bản và các kết quả nghiên cứu đã công bố. Về nghiên cứu thực nghiệm: luận văn thực
hiện cài đặt các thuật toán, chạy thử nghiệm thuật toán với các bộ số liệu lấy từ kho dữ liệu
UCI [13], so sánh và đánh giá kết quả thực nghiệm so với kết quả nghiên cứu lý thuyết, từ đó
kết luận tính đúng đắn của kết quả nghiên cứu.

Bố cục của luận văn gồm phần mở đầu và hai chương nội dung, phần kết luận và danh
mục các tài liệu tham khảo.
Chương 1 trình bày các khái niệm cơ bản về lý thuyết tập thô của Pawlak [10] và mô hình
tập thô mở rộng dựa trên quan hệ dung sai, gọi tắt là mô hình tập thô dung sai [5] trong hệ thông
tin không đầy đủ được sử dụng trong chương 2 và chương 3.
Chương 2 trình bày hai nội dung chính, thứ nhất là tổng kết các công bố mới nhất về các
phương pháp rút gọn thuộc tính, mối liên hệ, phân nhóm các phương pháp, các độ đo đánh giá
hiệu năng tập luật quyết định và sự thay đổi các độ đo trên các tập rút gọn của các phương pháp.
Thứ hai là đề xuất phương pháp rút gọn thuộc tính sử dụng khoảng cách phân hoạch, bao
gồm xây dựng phương pháp và cài đặt, thử nghiệm, đánh giá phương pháp trên các bộ số
liệu mẫu từ kho dữ liệu UCI [13].
Chương 3 trình bày kết quả thử nghiệm và đánh giá phương pháp đề xuất trên các
bộ số liệu mẫu từ kho dữ liệu UCI [13] nhằm sáng tỏ các kết quả nghiên cứu về lý thuyết.
Cuối cùng, phần kết luận nêu những đóng góp của luận văn, hướng phát triển tiếp theo.

Reference
Tài liệu tham khảo

Tài liệu tiếng Việt

[1]
Nguyễn Long Giang (2012), Nghiên cứu các phương pháp khai phá dữ liệu theo
tiếp cận lý thuyết tập thô, Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin,
Viện Hàn lâm Khoa học và Công nghệ Việt Nam.
[2]
Nguyễn Thanh Tùng (2010), “Về một metric trên họ các phân hoạch của một tập
hợp hữu hạn”, Tạp chí Tin học và Điều khiển học, T.26, S.1, tr. 73-85.
[3]
Nguyễn Long Giang, Vũ Văn Định, “Nghiên cứu sự thay đổi giá trị các độ đo
đánh giá hiệu năng tập luật quyết định trên các tập rút gọn của bảng quyết định

không đầy đủ”, Kỷ yếu Hội nghị khoa học Công nghệ Quốc gia lần thứ VI -
Nghiên cứu cơ bản và ứng dụng CNTT - FAIR6, Huế, 20-21/06/2013, Tr. 394-
402.

Tài liệu tiếng Anh
[4]
Huang B., Li H. X. and Zhou X. Z. (2005), “Attribute Reduction Based on
Information Quantity under Incomplete Information Systems”, Systems
Application Theory & Practice, Vol. 34, pp. 55-60.
[5]
Kryszkiewicz M. (1998), “Rough set approach to incomplete information
systems”, Information Science, Vol. 112, pp. 39-49.
[6]
Long Giang Nguyen, “Metric Based Attribute Reduction in Decision Tables”,
Federated Conference on Computer Science and Information System
(FEDCSIS), Wroclaw, Poland, IEEE, 2012, pp. 311-316.
[7]
Long Giang Nguyen, Hung Son Nguyen, “Metric Based Attribute Reduction in
Incomplete Decision Tables”, Proceedings of 14th International Conference,
Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing, RSFDGrC

2013, Halifax, NS, Canada, Lecture Notes in Computer Science, SpingerLink,
Vol. 8170, 2013, pp. 99-110.

[8]
Nguyen Long Giang, Vu Van Dinh (2013), “Relationships Among the Concepts
of Reduct in Incomplete Decision Tables”, Frontiers in Artificial Intelligence
and Applications, Volume 252: Advanced Methods and Technologies for Agent
and Multi-Agent Systems, IOS Press, pp. 417-426.

[9]
Pawlak Z. (1982), “Rough sets”, International Journal of Computer and
Information Sciences, 11(5): 341-356.
[10]
Pawlak Z. (1991), Rough sets: Theoretical Aspects of Reasoning About Data,
Kluwer Aca-demic Publishers.
[11]
Qian Y. H. , Dang C. Y., Liang J. Y., Zhang H. Y., Ma J. M., “On the evaluation
of the decision performance of an incomplete decision table”, Data &
Knowledge Engineering 65, 2008, pp. 373–400.
[12]

Yao Y.Y., Zhao Y. and Wang J. (2006), “On reduct construction algorithms”,
Proceedings of International Conference on Rough Sets and Knowledge
Technology, pp. 297-304.

[13]
The UCI machine learning repository, <
[14]
Vu Van Dinh, Nguyen Long Giang, Duc Thi Vu, “Generalized Discernibility
Function based Attribute Reduction in Incomplete Decision Systems”, Serdica

Journal of Computing 7 (2013), No 4, pp. 375-388.

Rút gọn thuộc tính trên hệ quyết định không đầy đủ theo tiếp cận mô hình tập thô dung sai

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về