ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ HỒNG HẠNH
NGHIÊN CỨU CÁC TẬP RÚT GỌN VÀ LUẬT TRONG BẢNG
QUYẾT ĐỊNH THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ
LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN
Hà Nội - 2015
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ HỒNG HẠNH
NGHIÊN CỨU CÁC TẬP RÚT GỌN VÀ LUẬT TRONG BẢNG
QUYẾT ĐỊNH THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.05
LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN
Người hướng dẫn: TS. Nguyễn Long Giang
Hà Nội - 2015
1
MỤC LỤC
MỤC LỤC............................................................................................................................................................. 1
Danh mục các thuật ngữ...................................................................................................................................... 3
Danh sách bảng ..................................................................................................................................................... 4
MỞ ĐẦU ............................................................................................................................................................... 5
Chương 1. TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ........................................................................ 8
1.1. Hệ thông tin ..................................................................................................................... 8
1.2. Mô hình tập thô .......................................................... Error! Bookmark not defined.
1.3. Bảng quyết định ......................................................... Error! Bookmark not defined.
1.4. Tập rút gọn và tập lõi ................................................. Error! Bookmark not defined.
1.5. Ma trận phân biệt và hàm phân biệt ......................... Error! Bookmark not defined.
Chương 2. RÚT GỌN THUỘC TÍNH VÀ TRÍCH LỌC LUẬT TRONG BẢNG
QUYẾT ĐỊNH THEO TIẾP CẬN TẬP THÔ ................. Error! Bookmark not defined.
2.1. Rút gọn thuộc tính và trích lọc luật trong bảng quyết định... Error! Bookmark not
defined.
2.1.1. Tổng kết, phân nhóm các phương pháp rút gọn thuộc tính .. Error! Bookmark
not defined.
2.1.2. Luật quyết định và các độ đo đánh giá hiệu năng ...........Error! Bookmark not
defined.
2.1.3. Lựa chọn, so sánh, đánh giá các phương pháp rút gọn thuộc tính ........... Error!
Bookmark not defined.
2.2. Xây dựng phương pháp rút gọn thuộc tính trong bảng quyết định sử dụng khoảng
cách Error! Bookmark not defined.
2.2.1. Độ đo khoảng cách .......................................... Error! Bookmark not defined.
2.2.2. Xây dựng khoảng cách giữa hai tri thức và các tính chất ..... Error! Bookmark
not defined.
2.2.3. Phương pháp rút gọn thuộc tính sử dụng khoảng cách ...Error! Bookmark not
defined.
2.2.4. Phân nhóm phương pháp rút gọn thuộc tính sử dụng khoảng cách ......... Error!
Bookmark not defined.
2
Chương 3. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ Error! Bookmark not defined.
3.1. Bài toán ....................................................................... Error! Bookmark not defined.
3.2. Phân tích, lựa chọn công cụ ...................................... Error! Bookmark not defined.
3.2.1. Thuật toán tìm tập rút gọn sử dụng entropy Liang .........Error! Bookmark not
defined.
3.2.2. Lựa chọn công cụ và cài đặt ............................ Error! Bookmark not defined.
3.3. Một số kết quả thử nghiệm........................................ Error! Bookmark not defined.
3.3.1. Kết quả thử nghiệm thuật toán tìm tập rút gọn sử dụng khoảng cách ..... Error!
Bookmark not defined.
3.3.2. Kết quả thử nghiệm về trích lọc luật theo tiếp cận tập thô ... Error! Bookmark
not defined.
KẾT LUẬN.................................................................................................Error! Bookmark not defined.
Tài liệu tham khảo ................................................................................................................................................ 9
Phụ lục ...........................................................................................................Error! Bookmark not defined.
3
Danh mục các thuật ngữ
Thuật ngữ tiếng Việt
Thuật ngữ tiếng Anh
Tập thô
Rough Set
Hệ thông tin
Information System
Bảng quyết định
Decision Table
Quan hệ không phân biệt được
Indiscernibility Relation
Xấp xỉ dưới
Lower Approximation
Xấp xỉ trên
Upper Approximation
Rút gọn thuộc tính
Attribute Reduction
Tập rút gọn
Reduct
Tập lõi
Core
Luật quyết định
Decision Rule
Khoảng cách
Distance
4
Danh sách bảng
Bảng 1.1. Bảng thông tin về bệnh cúm ............................... Error! Bookmark not defined.
Bảng 1.2. Bảng quyết định về bệnh cúm ............................. Error! Bookmark not defined.
Bảng 2.1. Các phương pháp rút gọn thuộc tính trong tài liệu [1]Error! Bookmark not
defined.
Bảng 2.2. Bảng quyết định về các xe hơi ............................ Error! Bookmark not defined.
Bảng 2.1. Bảng quyết định minh họa thuật toán tìm tập rút gọnError!
Bookmark
not
defined.
Bảng 3.1. Kết quả thực hiện Thuật toán ELBAR và Thuật toán DBARError!
Bookmark
not defined.
Bảng 3.2. Tập rút gọn của Thuật toán ELBAR và Thuật toán DBARError! Bookmark not
defined.
Bảng 3.3. Kết quả thực hiện Thuật toán ELBAK và Thuật toán DBAKError!
Bookmark
not defined.
trên các bộ số liệu lớn .......................................................... Error! Bookmark not defined.
Bảng 3.7. Tập rút gọn tốt nhất của bộ số liệu Soybean-smallError!
Bookmark
not
defined.
Bảng 3.8. Các luật phân lớp trên bảng quyết định rút gọn sử dụng tập thô ................Error!
Bookmark not defined.
5
MỞ ĐẦU
Lý thuyết tập thô - do Zdzislaw Pawlak [7] đề xuất vào những năm đầu thập
niên tám mươi của thế kỷ hai mươi - được xem là công cụ hữu hiệu để giải quyết
các bài toán phân lớp, phát hiện luật…chứa dữ liệu không đầy đủ, không chắc chắn.
Từ khi xuất hiện, lý thuyết tập thô đã được sử dụng hiệu quả trong các bước của quá
trình khai phá dữ liệu và khám phá tri thức, bao gồm tiền xử lý số liệu, khai phá dữ
liệu và đánh giá kết quả thu được. Rút gọn thuộc tính và trích lọc luật quyết định
(luật phân lớp) là hai ứng dụng chính của lý thuyết tập thô trong khai phá dữ liệu.
Rút gọn thuộc tính thuộc giai đoạn tiền xử lý dữ liệu còn trích lọc luật thuộc giai
đoạn khai phá dữ liệu. Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư
thừa nhằm tìm tập con nhỏ nhất của tập thuộc tính điều kiện (tập rút gọn) mà bảo
toàn thông tin phân lớp của bảng quyết định. Dựa trên tập rút gọn thu được, việc
sinh luật và phân lớp đạt hiệu quả cao nhất.
Trong hai thập kỷ trở lại đây, chủ đề nghiên cứu về rút gọn thuộc tính
trong bảng quyết định theo tiếp cận lý thuyết tập thô đã thu hút đông đảo cộng
đồng nghiên cứu về tập thô tham gia [1]. Có rất nhiều phương pháp rút gọn
thuộc tính khác nhau đã được đề xuất sử dụng các độ đo khác nhau. Các
phương pháp điển hình được tổng kết trong tài liệu [1] là: phương pháp dựa
trên miền dương, phương pháp dựa trên ma trận phân biệt, các phương pháp
sử dụng độ đo entropy trong lý thuyết thông tin, các phương pháp sử dụng độ
đo trong tính toán hạt, các phương pháp sử dụng độ đo khoảng cách…
Với mong muốn tổng hợp các kết quả nghiên cứu về các phương pháp
rút gọn thuộc tính trong bảng quyết định theo tiếp cận tập thô, trên cơ sở đó
xây dựng phương pháp sử dụng một độ đo mới (độ đo khoảng cách), luận văn
đặt ra hai mục tiêu chính sau đây:
6
1) Tổng hợp các phương pháp rút gọn thuộc tính và trích lọc luật trong bảng
quyết định theo tiếp cận lý thuyết tập thô trong tài liệu [1, 2], bao gồm:
- Phân nhóm các phương pháp rút gọn thuộc tính và mối liên hệ giữa các
phương pháp dựa vào định nghĩa tập rút gọn.
- Trích lọc luật trong bảng quyết định, bao gồm: luật quyết định và các độ đo
đánh giá hiệu năng, sự thay đổi các độ đo đánh giá hiệu năng trên các tập rút gọn và
đánh giá các phương pháp dựa trên tiêu chuẩn chất lượng phân lớp (độ hỗ trợ) của
tập luật.
2) Xây dựng và thử nghiệm phương pháp rút gọn thuộc tính sử dụng độ đo
khoảng cách, bao gồm: đề xuất độ đo khoảng cách và xây dựng công thức tính
khoảng cách giữa hai tập thuộc tính; định nghĩa tập rút gọn và độ quan trọng của
thuộc tính dựa trên khoảng cách; xây dựng thuật toán heuristic tìm một tập rút gọn
tốt nhất sử dụng khoảng cách; phân nhóm và đánh giá phương pháp sử dụng khoảng
cách với các phương pháp đã có và thử nghiệm phương pháp trên các bộ số liệu
mẫu từ kho dữ liệu UCI [12].
Đối tượng nghiên cứu của luận văn là các bảng quyết định với kích thước
trung bình và kích thước lớn.
Phạm vi nghiên cứu của luận văn tập trung vào bài toán rút gọn thuộc tính ở
bước tiền xử lý số liệu và trích lọc luật ở bước khai phá dữ liệu trong quá trình khai
phá dữ liệu và khám phá tri thức.
Phương pháp nghiên cứu của luận văn là nghiên cứu lý thuyết và nghiên cứu
thực nghiệm. Về nghiên cứu lý thuyết: các mệnh đề được chứng minh chặt chẽ dựa
vào các kiến thức cơ bản và các kết quả nghiên cứu đã công bố. Về nghiên cứu thực
nghiệm: luận văn thực hiện cài đặt các thuật toán, chạy thử nghiệm thuật toán với
các bộ số liệu lấy từ kho dữ liệu UCI [12], so sánh và đánh giá kết quả thực nghiệm
so với kết quả nghiên cứu lý thuyết, từ đó kết luận tính đúng đắn của kết quả nghiên
cứu.
7
Bố cục của luận văn gồm phần mở đầu và ba chương nội dung, phần kết luận
và danh mục các tài liệu tham khảo.
Chương 1 trình bày các khái niệm cơ bản về lý thuyết tập thô của Pawlak [8]
được sử dụng trong chương 2 và chương 3.
Chương 2 trình bày hai nội dung chính, thứ nhất là tổng kết các công bố về các
phương pháp rút gọn thuộc tính và trích lọc luật, bao gồm phân nhóm các phương
pháp rút gọn thuộc tính, luật quyết định và các độ đo đánh giá hiệu năng, sự thay đổi
các độ đo đánh giá hiệu năng trên các tập rút gọn của các phương pháp, đánh giá các
phương pháp dựa vào chất lượng phân lớp (độ hỗ trợ) của tập luật. Thứ hai là xây
dựng phương pháp rút gọn thuộc tính sử dụng khoảng cách, bao gồm xây dựng
độ đo khoảng cách, định nghĩa tập rút gọn và độ quan trọng của thuộc tính dựa
trên khoảng cách, xây dựng thuật toán heuristic tìm một tập rút gọn tốt nhất sử
dụng khoảng cách; phân nhóm và đánh giá phương pháp sử dụng khoảng cách với
các phương pháp đã có.
Chương 3 trình bày kết quả thử nghiệm và đánh giá phương pháp sử dụng
khoảng cách trên các bộ số liệu mẫu từ kho dữ liệu UCI [12] nhằm sáng tỏ các
kết quả nghiên cứu về lý thuyết.
Cuối cùng, phần kết luận nêu những đóng góp của luận văn, hướng phát triển
tiếp theo.
8
Chương 1. TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ
Chương này trình bày các khái niệm cơ bản về lý thuyết tập thô do Pawlak [8]
đề xuất. Các khái niệm cơ bản này là kiến thức nền tảng để sử dụng cho các chương
sau của luận văn.
1.1. Hệ thông tin
Hệ thông tin là công cụ biểu diễn tri thức dưới dạng một bảng dữ liệu gồm p
cột ứng với p thuộc tính và n hàng ứng với n đối tượng. Một cách hình thức, hệ
thông tin được định nghĩa như sau.
Định nghĩa 1.1. Hệ thông tin là IS U , A trong đó U là tập hữu hạn, khác rỗng các
đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính.
Với mọi u U , a A , ta ký hiệu giá trị thuộc tính a tại đối tượng u là a u
thay vì f u, a . Nếu B b1 , b2 ,..., bk A là một tập con các thuộc tính thì ta ký
hiệu bộ các giá trị bi u bởi B u . Như vậy, nếu u và v là hai đối tượng, thì ta viết
B u B v nếu bi u bi v với mọi i 1,..., k .
Xét hệ thông tin IS U , A . Mỗi tập con các thuộc tính P A xác định một
quan hệ hai ngôi trên U, ký hiệu là IND P , xác định bởi
IND P u, v U U a P, a u a v .
IND P là quan hệ P-không phân biệt được. Dễ thấy rằng IND P là một quan hệ
tương đương trên U. Nếu u, v IND P thì hai đối tượng u và v không phân biệt được
bởi các thuộc tính trong P. Quan hệ tương đương IND P xác định một phân hoạch trên
U, ký hiệu là U / IND P hay U / P . Ký hiệu lớp tương đương trong phân hoạch
U / P chứa đối tượng u là u P , khi đó u P v U u, v IND P .
9
Tài liệu tham khảo
Tài liệu tiếng Việt
[1]
Nguyễn Long Giang, “Khai phá dữ liệu theo tiếp cận lý thuyết tập thô”,
Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin, 2012.
[2]
Nguyễn Long Giang, Phạm Hoàng Tuyên, Nghiên cứu sự thay đổi giá trị các
độ đo đánh giá hiệu năng tập luật quyết định trên các tập rút gọn, Kỷ yếu Hội
thảo Quốc gia lần thứ XV “Một số vấn đề chọn lọc của Công nghệ thông tin
và truyền thông”, Hà Nội 11/2012, 2013, Tr. 295-301.
Tài liệu tiếng Anh
[3]
Andrzej Skowron and Rauszer C (1992), “The Discernibility Matrices and
Functions
in Information Systems”, Interlligent Decision Support,
Handbook of Applications and Advances of the Rough Sets Theory, Kluwer,
Dordrecht, pp. 331-362.
[4]
Deza M. M. and Deza E., “Encyclopedia of Distances”, Springer, 2009.
[5]
Liang J.Y, Chin K.S., Dang C.Y. and Richard C.M.YAM, “New
method for measuring uncertainty and fuzziness in rough set theory”,
International Journal of General Systems 31, 2002, pp. 331-342.
[6]
Long Giang Nguyen, “Metric Based Attribute Reduction in Decision
Tables”, The 2012 International Workshop on Rough Sets
Applications (RSA’2012), FedCSIS Proceedings, IEEE, 2012, pp. 333338.
[7]
Pawlak Z. (1982), “Rough sets”, International Journal of Computer
and Information Sciences, 11(5): 341-356.
[8]
Pawlak Z., Rough sets: Theoretical Aspects of Reasoning About Data,
10
Kluwer Aca-demic Publishers, 1991.
[9]
Qian Y.H., Liang J.Y., Li D.Y., Zhang H.Y. and Dang C.Y. (2008),
“Measures for Evaluating The Decision Performace of a Decision Table in
Rough Set Theory”, Information Sciences, Vol.178, pp.181-202.
[10]
Wang F., Liang J. Y, Qian Y. H., “Attribute reduction: A dimension
incremental strategy”, Knowledge-Based Systems, Volume 39, 2013,
pp. 95–108
[11]
Z. Y. Xu, Z. P. Liu, B. R. Yang, W. Song., “A quick attribute
reduction algorithm with complexity of max(O(|C||U|), O(|C|2|U/C|))”,
Journal of Computer, Vol. 29, no. 3, pp. 391-398, 2006.
[12]
The UCI machine learning repository,
< />