Tải bản đầy đủ (.pdf) (21 trang)

Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG lý thuyết tập thô trong khai phá dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (890.95 KB, 21 trang )


ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN


BÀI THU HOẠCH
CÔNG NGHỆ TRI THỨC
&
ỨNG DỤNG


GVHD: GS. TSKH. HOÀNG VĂN KIẾM
HVTH: ĐOÀN VĂN HUYÊN CH1301091



TP HCM, tháng 10 năm 2014
Ứng dụng lý thuyết tập thô trong khai phá dữ liệu


CH1301091 – Đoàn Văn Huyên 2
NHẬN XÉT CỦA GIẢNG VIÊN























Ứng dụng lý thuyết tập thô trong khai phá dữ liệu


CH1301091 – Đoàn Văn Huyên 3
MỤC LỤC
Lời mở đầu trang 4
I. LÝ THUYẾT TẬP THÔ trang 5
1. Giới thiệu trang 5
2. Các khái niệm cơ bản trang 6
2.1. Hệ thông tin trang 6
2.2. Bảng quyết định trang 7
2.3. Phân lớp tương đương trang 7
2.4. Không gian xấp xỉ trang 8
2.5. Sự phụ thuộc các thuộc tính trang 10
2.6. Rút gọn các thuộc tính trang 11
3. Ứng dụng của tập thô trong khai phá dữ liệu trang 13
II. ỨNG DỤNG TÌM LUẬT SUY DIỄN TĂNG GIẢM CHỈ SỐ VN-INDEX trang 13

1. Công cụ triển khai trang 13
2. VN-Index là gì? trang 14
3. Giới thiệu ứng dụng trang 14
4. Bảng quyết định thử nghiệm trang 14
5. Kết quả thử nghiệm trang 17
6. Kiểm chứng trang 18
7. Kết luận trang 19
III. KẾT LUẬN, HƯỚNG PHÁT TRIỂN trang 20
Tài liệu tham khảo trang 21

Ứng dụng lý thuyết tập thô trong khai phá dữ liệu


CH1301091 – Đoàn Văn Huyên 4
LỜI MỞ ĐẦU
Ngày nay, sự phát triển vượt bậc của công nghệ thông tin. Mọi vấn đề khó khăn
dường như đơn giản hóa khi có sự hỗ trợ từ máy tính. Sự bùng nổ của internet, đã mang lại
nhiều thuận lợi cho việc thu thập thông tin và dữ liệu. Nhưng song song đó vẫn có nhiều
thách thức, nhất là trong việc sử dụng nguồn thông tin, dữ liệu tìm được đó.
Khai phá dữ liệu trở thành một ngành rất được quan tâm. Nó giúp con người lấy
được thông tin từ nguồn dữ liệu khổng lồ, vô tận. Không có khai phá dữ liệu thì nguồn dữ
liệu vô tận ấy cũng không có ý nghĩa.
Các công cụ toán học bắt đầu phát huy thế mạnh trong khai phá dữ liệu. Bằng những
công cụ được xây dựng trên những nền tảng lý thuyết vững chắc, toán học tạo tiền đề giải
quyết các vấn đề về khai phá dữ liệu. Trong số đó, lý thuyết tập thô đóng góp một phần các
công cụ hỗ trợ cho vấn đề khai phá dữ liệu, khai phá tri thức.

Ứng dụng lý thuyết tập thô trong khai phá dữ liệu



CH1301091 – Đoàn Văn Huyên 5
I. LÝ THUYẾT TẬP THÔ
1. Giới thiệu
- Lý thuyết tập thô (Rough Set Theory) do Zdzisaw Pawlak (1926-2006) đề
xuất vào năm 1982 đã được ứng dụng ngày càng rộng rãi trong lĩnh vực khoa
học máy tính.
- Lý thuyết tập thô được phát triển trên một nền tảng toán học vững chắc, cung
cấp các công cụ hữu ích để giải quyết các bài toán phân tích dữ liệu, phát hiện
luật, nhận dạng…
- Đặc biệt thích hợp với các bài toán phân tích trên khối lượng dữ liệu lớn,
chứa đựng thông tin mơ hồ, không chắc chắn, không đầy đủ. Lý thuyết tập
thô có nhiều công cụ toán học khác nhau được dùng để xử lý tri thức không
đầy đủ.
- Các phương pháp của lý thuyết tập thô tỏ ra hết sức quan trọng đối với lĩnh
vực Trí tuệ nhân tạo và các ngành khoa học liên quan đến nhận thức (máy
học, các hệ chuyên gia, các hệ hỗ trợ quyết định, lập luận dựa trên quy nạp
và nhận dạng,…).
- Triết lý của tập thô dựa trên nhận định rằng mọi đối tượng trong vũ trụ đều
gắn với môt loại thông tin nào đó (dữ liệu, tri thức, ). Ví dụ nếu các đối
tượng là các bệnh nhân bị một căn bệnh nào đó, thì các triệu chứng của bệnh
tạo nên thông tin về bệnh nhân.
- Các phép toán cơ bản của lý thuyết tập thô được sử dụng để phát hiện các
mẫu cơ sở (fundamental pattern) trong dữ liệu. Do đó, với một ý nghĩa nhất
định phương pháp lập luận thô cũng chính là máy học (machine learning),
phát hiện tri thức (knowledge discovery), suy diễn thống kê (statistic
inference) và suy diễn quy nạp(inductive inference).
- Lý thuyết tập thô ngày càng được ứng dụng nhiều, nhất là trong khai phá dữ
liệu, tìm luật, dự báo, dự đoán,…





-->

×