Tải bản đầy đủ (.pdf) (14 trang)

DSpace at VNU: Một số vấn đề liên quan đến lý thuyết tập thô

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (245.58 KB, 14 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Đỗ Thị Mai Hƣờng

MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN LÝ THUYẾT
TẬP THÔ

Chuyên ngành: Công nghệ thông tin
Mã số: 1.01.10

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS VŨ ĐỨC THI

Hà nội – 2007


LỜI CẢM ƠN
Để có thể hoàn thành tốt luận văn này, em đã có sự động viên, giúp đỡ của
rất nhiều người. Trước tiên, em xin bày tỏ lòng kính trọng và sự biết ơn sâu sắc tới
PGS.TS Vũ Đức Thi, người đã hướng dẫn, giúp đỡ và tạo điều kiện cho em trong
suốt quá trình làm luận văn. Em xin cảm ơn TS Hà Quang Thụy đã cho em những
lời khuyên quý báu trong giai đoạn đầu của quá trình làm luận văn. Em xin chân
thành cảm ơn các Thầy trong Khoa Công nghệ thông tin - Đại học Công nghệ Đại học Quốc gia Hà nội, các Thầy trong Viện Công nghệ thông tin đã giảng dạy,
truyền đạt kiến thức cho em trong suốt quá trình học tập và nghiên cứu tại trường.
Cuối cùng, xin cảm ơn gia đình, bạn bè cùng các đồng nghiệp trong Khoa Công
nghệ thông tin, Học viện Kỹ thuật Quân sự đã động viện, tạo điều kiện để tôi có thể
hoàn thành quá trình học tập và hoàn thành tốt luận văn này.

Hà Nội, tháng 01 năm 2007


NGƯỜI THỰC HIỆN

Đỗ Thị Mai Hường


MỤC LỤC
BẢNG CÁC KÍ HIỆU VIẾT TẮT .......................................................................... 5
DANH SÁCH CÁC BẢNG ...................................................................................... 6
DANH SÁCH CÁC HÌNH VẼ ................................................................................ 7
MỞ ĐẦU .................................................................................................................... 8
CHƯƠNG 1 TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ LÝ THUYẾT TẬP
THÔ ......................................................................... Error! Bookmark not defined.
1.1 . Khám phá tri thức ......................................... Error! Bookmark not defined.
1.1.1. Định nghĩa khám phá tri thức .................. Error! Bookmark not defined.
1.1.2. Các bước chính trong quá trình khám phá tri thức .Error! Bookmark not
defined.
1.1.3. Khai phá dữ liệu ....................................... Error! Bookmark not defined.
1.1.4. Các bài toán chính trong khai phá dữ liệu ...... Error! Bookmark not defined.
1.1.5. Một số kỹ thuật khai phá dữ liệu .............. Error! Bookmark not defined.
1.2 . Lý thuyết tập thô ........................................... Error! Bookmark not defined.
1.2.1. Hệ thông tin .............................................. Error! Bookmark not defined.
1.2.2. Hệ quyết định ............................................ Error! Bookmark not defined.
1.2.3. Quan hệ không phân biệt được trong hệ thông tin ..Error! Bookmark not
defined.
1.2.4. Tập xấp xỉ trên, xấp xỉ dưới và miền biên Error! Bookmark not defined.
1.2.5. Tập thuộc tính rút gọn và tập thuộc tính nhânError! Bookmark not defined.
1.2.6. Ma trận phân biệt và hàm phân biệt ........ Error! Bookmark not defined.
1.2.7. Hàm thành viên thô .................................. Error! Bookmark not defined.
1.2.8. Sự phụ thuộc thuộc tính ............................ Error! Bookmark not defined.
1.3 . Kết luận chƣơng 1 ........................................ Error! Bookmark not defined.

CHƯƠNG 2 QUÁ TRÌNH KHÁM PHÁ TRI THỨC THEO CÁCH TIẾP CẬN TẬP
THÔ ......................................................................... Error! Bookmark not defined.
2.1 Sự rời rạc hoá dựa trên tập thô và lập luận logicError! Bookmark not defined.
2.1.1 Khái niệm tập các nhát cắt, nhát cắt trong bảng quyết định ....... Error!
Bookmark not defined.


2.1.2

Vấn đề rời rạc hóa .................................. Error! Bookmark not defined.

2.2 Lựa chọn thuộc tính dựa trên tập thô với phƣơng pháp đánh giá kinh nghiệm ……
Error! Bookmark not defined.
2.3 Một số phƣơng pháp khác xây dựng tập thuộc tính rút gọn Error! Bookmark not
defined.
2.3.1 Loại trừ thuộc tính không liên quan từ một rút gọnError! Bookmark not
defined.
2.3.2 Chiến lược Xóa ....................................... Error! Bookmark not defined.
2.3.3 Chiến lược Thêm-Xóa ............................. Error! Bookmark not defined.
2.3.4
2.3.5

Chiến lược Thêm .................................... Error! Bookmark not defined.
Các thuật toán tính rút gọn dựa trên các cặp đối tượng phân biệtError!

Bookmark not defined.
2.3.6 Rút gọn nửa tối thiểu ............................. Error! Bookmark not defined.
2.3.7 Chiến lược ngẫu nhiên ........................... Error! Bookmark not defined.
2.4 Quá trình khám phá luật trong bảng quyết định Error! Bookmark not defined.
2.4.1

2.4.2

Luật trong bảng quyết định .................... Error! Bookmark not defined.
Hai đặc trưng của luật: Độ mạnh và độ nhiễu của luậtError! Bookmark not

defined.
2.4.3 Khám phá luật bởi bảng phân bố tổng quát dựa trên tập thô ....... Error!
Bookmark not defined.
2.4.4 Thuật toán tối ưu hoá các luật ............... Error! Bookmark not defined.
2.4.5 Thuật toán giải pháp gần tối ưu các luật Error! Bookmark not defined.
2.4.6 Tiêu chuẩn lựa chọn luật trong tập thô .. Error! Bookmark not defined.
2.4.7 Một số thuật toán sinh luật khác ............ Error! Bookmark not defined.
2.5 Khám phá mẫu trong hệ thông tin ................ Error! Bookmark not defined.
2.6 Kết luận chƣơng 2 ........................................ Error! Bookmark not defined.
CHƢƠNG 3 ỨNG DỤNG LÝ THUYẾT TẬP THÔ TRONG BÀI TOÁN TƢ VẤN
THI ĐẠI HỌC .......................................................... Error! Bookmark not defined.
3.1 Bộ công cụ Rosetta ...................................... Error! Bookmark not defined.
3.1.1 Giới thiệu ................................................ Error! Bookmark not defined.
3.1.2 Các đặc trưng của Rosetta ..................... Error! Bookmark not defined.


3.2 Ứng dụng lý thuyết tập thô trong bài toán Tƣ vấn thi đại họcError! Bookmark
not defined.
3.2.1 Mô tả bài toán ........................................ Error! Bookmark not defined.
3.2.2 Tập thô trong bài toán Tư vấn thi đại họcError! Bookmark not defined.
3.2.3 Quá trình phát hiện luật ......................... Error! Bookmark not defined.
3.3 Kết luận chƣơng 3 ........................................ Error! Bookmark not defined.
KẾT LUẬN .............................................................. Error! Bookmark not defined.
TÀI LIỆU THAM KHẢO ........................................................................................ 11



BẢNG CÁC KÍ HIỆU VIẾT TẮT
Ký hiệu, viết tắt
KDD

Giải thích ý nghĩa
Khám phá tri thức

RS

Tập thô

A

Hệ thông tin hay bảng quyết định

A, B
D
a

Tập các thuộc tính trong hệ thông tin
Tập thuộc tính quyết định trong hệ thông tin
Một thuộc tính điều kiện trong tập thuộc tính điều kiện của hệ
thông tin

Va

Tập giá trị của thuộc tính điều kiện

U


Tập đối tƣợng (tập tổng thể) trong hệ thông tin

Pa

Tập các nhát cắt trên tập Va

RED
CORE
card (X) hay ||X||

Tập rút gọn
Tập nhân
Số lƣợng phần tử có trong X


DANH SÁCH CÁC BẢNG
Bảng1.1: Ví dụ học cho khái niệm chơi tennis

16

Bảng 1.2: Một ví dụ về hệ thông tin

19

Bảng 1.3: Ví dụ về bảng quyết định TuyenSinh

21

Bảng 2.1: Bảng thông tin A* xây dựng từ A


47

Bảng 2.2: Bảng thông tin mô tả các đối tượng

50

Bảng 2.3: Trạng thái khởi tạo

51

Bảng 2.4: Các bảng thông tin tương ứng với việc chọn thuộc tính a, c, d

51

Bảng 3.1: Tiêu chí căn cứ chọn trường thi đại học

76

Bảng 3.2: Danh mục môn thi các khối thi đại học

77

Bảng 3.3: Dữ liệu về các nhát cắt

82

Bảng 3.4: Dữ liệu sau khi rời rạc hóa

83


Bảng 3.5: Dữ liệu thu được sau khi sinh luật

84

Bảng 3.6: Dữ liệu luật sau khi xử lý

85


DANH SÁCH CÁC HÌNH VẼ

Hình 1.1: Mô hình mô tả quá trình khám phá tri thức

11

Hình 1.2: Mô tả cây quyết định cho khái niệm chơi tennis

17

Hình 1.3 : Xấp xỉ tập thí sinh cần xem xét khi thi đại học

24

Hình 2.1: Một họ phân hoạch định nghĩa bởi tập các nhát cắt

37

Hình 2.2: Quá trình rời rạc hóa


41

Hình 2.3 : Giá trị của các đối tượng biểu diễn bởi đồ thị

42

Hình 2.4: Các nhát cắt trên đồ thị

43

Hình 2.5: Các điểm cắt trên thuộc tính a

44

Hình 2.6: Tập các nhát cắt tối thiểu

46

Hình 3.1: Sơ đồ quá trình sinh luật

80

Hình 3.2 : Sơ đồ thuật toán sinh dữ liệu ngẫu nhiên

81

Hình 3.3: Mô hình quan hệ trong cơ sở dữ liệu TuyenSinh

86


Hình 3.4: Giao diện nhập thông tin dự đoán kết quả

87

Hình 3.5: Giao diện hiển thị kết quả dự đoán cho một trường đại học

87

Hình 3.6: Giao diện hiển thị kết quả dự đoán cho nhiều trường đại học

88


MỞ ĐẦU
Cùng với sự phát triển của Công nghệ thông tin, khám phá tri thức trong các cơ sở
dƣ liệu lớn là một trong những lĩnh vực đƣợc rất nhiều nhà nguyên cứu và ứng dụng tin
học đặc biệt quan tâm. Khám phá tri thức trong cơ sở dữ liệu là một quá trình có thể tìm
ra những thông tin mới, những thông tin hữu ích, và tiềm ẩn trong cơ sở dữ liệu. Quá
trình phát hiện tri thức gồm nhiều giai đoạn, trong đó giai đoạn khai phá dữ liệu là quan
trọng nhất. Đây là giai đoạn chính tìm ra những thông tin mới trong cơ sở dữ liệu. Quá
trình phát hiện tri thức là sự tiếp thu, sử dụng và phát triển các thành tựu của nhiều lĩnh
vực nghiên cứu ứng dụng tin học trƣớc đó nhƣ: lý thuyết nhận dạng, hệ chuyên gia, trí
tuệ nhân tạo, thống kê, v.v..
Khám phá tri thức có thể sử dụng nhiều thuật toán khám phá tri thức nhƣ: Sử dụng
cây quyết định, phƣơng pháp thống kê, các mạng neural, thuật toán di truyền, lý thuyết
tập thô...Trong những thập niên gần đây, lý thuyết tập thô đã liên tục phát triển, thu hút
ngày càng nhiều các nhóm nghiên cứu và những ngƣời quan tâm đến phƣơng pháp luận
này. Lý thuyết tập thô đƣợc bắt nguồn bởi Zdzislaw Pawlak nhƣ là một kết quả của quá
trình nghiên cứu lâu dài trên các thuộc tính logic của các hệ thông tin. Lý thuyết tập thô
đƣợc xây dựng trên nền tảng toán học vững chắc giúp cung cấp những công cụ hữu ích

để giải quyết những bài toán phân lớp dữ liệu và khai phá luật,...Với đặc tính có thể xử lý
đƣợc những dữ liệu mơ hồ, không chắc chắn tập thô tỏ ra rất hữu ích trong việc giải quyết
những bài toán thực tế. Cụ thể, trong lý thuyết tập thô dữ liệu đƣợc biểu diễn thông qua
hệ thông tin, hay bảng quyết định; ý tƣởng chính trong việc phân tích dữ liệu theo tiếp
cận tập thô xuất phát từ những khái niệm về sự xấp xỉ tập, về quan hệ không phân biệt
đƣợc. Từ những bảng dữ liệu lớn với dữ liệu dƣ thừa, không hoàn hảo, dữ liệu liên tục,
hay dữ liệu biểu diễn dƣới dạng ký hiệu, lý thuyết tập thô cho phép khám phá tri thức từ
những loại dữ liệu nhƣ vậy nhằm phát hiện ra những quy luật tiềm ẩn từ khối dữ liệu này.
Tri thức đƣợc biểu diễn dƣới dạng các luật, mẫu mô tả mối quan hệ bị che dấu trong dữ
liệu. Trong lý thuyết tập thô, chất lƣợng của thông tin đƣợc đo bằng cách sử dụng khái


niệm tập xấp xỉ trên và xấp xỉ duới. Ngƣời ta có thể tìm đƣợc tập các thuộc tính nhỏ nhất
nhằm loại bỏ những thông tin dƣ thừa, không cần thiết mà vẫn giữ đƣợc ý nghĩa. Sau đó,
dựa vào tập thuộc tính nhỏ nhất này ngƣời ta có thể tìm ra các quy luật chung nhất hoặc
các mẫu để biểu diễn dữ liệu.
Lý thuyết tập thô đóng vai trò hết sức quan trọng trong trí tuệ nhân tạo và các
ngành khoa học khác liên quan đến nhận thức, đặc biệt là lĩnh vực máy học, thu nhận tri
thức, phân tích quyết định, phát hiện và khám phá tri thức từ cơ sở dữ liệu, các hệ chuyên
gia, hệ hỗ trợ quyết định, lập luận dựa trên quy nạp và nhận dạng.
Một số ứng dụng cụ thể của lý thuyết tập thô đã đƣợc phát triển trong vài năm gần
đây trong các lĩnh vực nhƣ y học, dƣợc học, ngân hàng, tài chính, phân tích thị trƣờng.
Tiếp cận tập thô cũng đóng vai trò quan trọng đối với nhiều ứng dụng kỹ thuật nhƣ máy
chuẩn đoán, khoa học vật liệu,… Sự công bố của lý thuyết này tạo điều kiện phát triển
nhiều ứng dụng mới [19,21]. Một trong số các ứng dụng chính của tập thô trong trí tuệ
nhân tạo là phân tích và khám phá tri thức từ dữ liệu [25].
Với những ƣu điểm nhƣ vậy của lý thuyết tập thô, tôi đã dành thời gian để nghiên
cứu và tìm hiểu về phƣơng pháp luận này. Luận văn đi sâu vào tìm hiểu ý tƣởng và cơ sở
toán học của lý thuyết tập thô. Thông qua tìm hiểu và khai thác bộ công cụ ROSETTA
(đƣợc xây dựng bởi Aleksander Ohrn và cộng sự thuộc nhóm nghiên cứu tri thức thuộc

khoa Khoa học máy tính và thông tin của trƣờng Đại học Norwegian, Trondheim, Na-uy
cùng nhóm Logic thuộc ĐHTH Warsaw, Ba-lan), luận văn cũng đƣa ra một số đề xuất
ứng dụng thử nghiệm lý thuyết tập thô vào việc hỗ trợ quyết định chọn trƣờng thi phù
hợp với khả năng cho các em học sinh trƣớc kỳ thi tuyển sinh đại học.
Luận văn đƣợc trình bày gồm có ba chƣơng:
 Chƣơng 1: Giới thiệu tổng quan về khám phá tri thức, các bài toán khai phá dữ liệu và
các kỹ thuật khai phá dữ liệu. Giới thiệu về các khái niệm cơ bản trong lý thuyết tập
thô nhƣ: hệ thông tin, bảng quyết định, khái niệm không phân biệt đƣợc, tập xỉ trên,
tập xỉ dƣới và miền biên, ma trận phân biệt, rút gọn, .v.v. Nội dung của chƣơng này
đƣợc tổng hợp từ các tài liệu [5,6,7,8,9,10,15,12,18]


 Chƣơng 2: Trình bày quá trình khám phá tri thức theo cách tiếp cận tập thô và các
phƣơng pháp sử dụng trong quá trình khai phá dữ liệu. Chẳng hạn nhƣ rời rạc hóa dữ
liệu theo phƣơng pháp lập luận logic, rút gọn thuộc tính theo phƣơng pháp Heuristic,
.v.v. Nội dung chƣơng này đƣợc tổng hợp từ các tài liệu [6,7,10,15,12,18,19,24]
 Chƣơng 3: Từ kết quả nghiên cứu trình bày trong chƣơng một và chƣơng hai, thông
qua công cụ ROSETTA [11], đề xuất ứng dụng của lý thuyết tập thô vào thực tế trong
bài toán tƣ vấn thi đại học.


TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Việt Anh, Lƣơng Nga (2005), “Hơn 500.000 thí sinh dự thi đại học đợt 1”, Báo
điện tử, VnExpress />[2] Kiều Oanh (2006), “Tuyển sinh 2007: 3 điểm mới”, Báo điện tử VietNamNet
/>[3] TS Lê Đình Tƣ (2005), “Vì sao tỉ lệ thi trƣợt ở Việt nam cao nhất thế giới”, Tạp
chí Tri thức trẻ.
[4] Trung tâm tin học Bộ Giáo dục và Đào tạo (2006), Thống kê kết quả thi đại học
năm 2006, />Tiếng Anh
[5] Alan Rea (1995), Data Mining-An Introduction, The Parallel Computer Centre,

The Queen’s University of Belfast.
[6] Andrzej Skowron, Ning Zong (2000). Rough Sets in KDD. Tutorial Notes.
[7] Andrzej Skowron (2000) , “Rough sets and Boolean Reasoning”
[8] C.J.Matheus and P.K.Chan and G.Piatetsky-Shapiro (1993), System for
knowledge discovery in database, Ieee Trans. On Knowledge and Data
Engineering, vol 5, pp 903-913, 1993
[9] Jiawei Han and Micheline Kamber (2001): Data mining: Concepts and
Techniques. Academic Press 2001.
[10] Jan Komorowski, Lech Polkowski, Andrzej Skowron (2000). Rough sets: A
tutorial
[11] Jan Komorowski, Aleksander Ohrn, Andrzej Skowron (2003). A Software System
for Rough Data Analysis.
[12] Jerzy W. Grzymala-Busse (2004). Three Approaches to Missing Attribute ValuesA Rough Set Perspective. Department of Electrical Engineering and Computer
Science University of Kansas, Lawrence, KS 66045, USA and Institute of


Computer Science Polish Academy of Sciences, 01-237 Warsaw, Poland,
November 1-4, 2004.
[13] Ho Tu Bao, Introduction to Knowledge Discovery and Data Mining, National
Center for Natural Science and Technology
[14] Mehmed Kantardzic (2003), Data Mining: Concepts, Models, Methods, and
Algorithms, John Wiley & Sons, Copyright 2003 The Institute of Electrical and
Electronics Engineers, Inc.
[15] Ning Zhong, Juzhen Dong (2001), “Using Rough Sets with Heuristics for Feature
Selection”, Journal of Intelligent Information Systems, 16, 199–214, Kluwer
Academic Publishers. Manufactured in The Netherlands.
[16] Nguyen Sinh Hoa, Nguyen Hung Son (1996), “Some Efficent Algorithms For
Rough Set Methods”", Proceedings IPMU’96 (Information Processing and
Management under Uncertainty), Granada, Spain, 1451–1456.
[17] Nguyen, S. H., (2003), "On The Decision Table With Maximal Number Of

Reducts", Electronic Notes in Theoretical Computer Science 82 (No.4).
[18] Pawlak, Z., (2000), "Rough Sets And Their Applications", Computational
Intelligence In Theory And Practice, Springer-Verlag, 73-91.
[19] Pawlak, Z. (1991), Rough Sets: Theoretical Aspects of Reasoning About
Data. Kluwer Academic Publishers, Dordrecht.
[20] Son H.Nguyen & Andrzej Skowron (1997), “Quantization of Real Value
attributes”
[21] Slowinski, R. (ed 1992.) Intelligent Decision Support: Handbook of
Applications and Advances of the Rough Sets Theory. Kluwer Academic
Publishers, Dordrecht.
[22] W.J. Frawley and G.Piatetsky-Shapiro and C.J.Matheus (1992), Knowledge
discovery in databases – an overview, Ai Magazine, vol 13, 1992
[23] Wojciech P. Ziarko (Ed., 1994). Rough Sets, Fuzzy Sets and Knowledge
Discovery. Proceedings of the International Workshop on Rough Sets and


Knowledge Discovery (RSKD'93), Banff, Alberta, Canada, 12-15 October 1993.
Springer-Verlag.
[24] Yiyu Yao, Yan Zhao, Jue Wang (2005) “On Reduct Construction Algorithms”
[25] Ziarko, W. (1991), The Discovery, Analysis and Representation of Data
Dependencies in Databases. In Piatesky-Shapiro, G. and
Frawley, W.J. (eds.) Knowledge Discovery in Databases, AAAI
Press/MIT Press, 1991, pp. 177-195.



×