Tải bản đầy đủ (.pdf) (4 trang)

Luận văn thạc sĩ VNU UET một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định luận văn ths công nghệ thông tin 1 01 10

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (350.36 KB, 4 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Bùi Quang Huy

MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN
KHAI PHÁ DỮ LIỆU
BẰNG CÂY QUYẾT ĐỊNH

LUẬN VĂN THẠC SĨ

Hà Nội – 2006

LUAN VAN CHAT LUONG download : add


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Bùi Quang Huy

MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN
KHAI PHÁ DỮ LIỆU
BẰNG CÂY QUYẾT ĐỊNH

Ngành: Công nghệ thông tin
Mã số: 1.01.10
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC:

PGS TS Vũ Đức Thi



Hà Nội - 2006

LUAN VAN CHAT LUONG download : add


2

Mục lục
Mục lục .................................................................................................................................. 2
Mở đầu................................................................................................................................... 4
Chương 1
1.1

Công nghệ khai phá tri thức và khai phá dữ liệu............................................................ 5

1.1.1
1.1.2
1.1.3

1.2

Tổng quan về công nghệ khai phá tri thức và kho dữ liệu ......................... 5
Khai phá tri thức và khai phá dữ liệu. ...................................................................................... 5
Quá trình khai phá tri thức ....................................................................................................... 6
Nhiệm vụ khai phá dữ liệu ....................................................................................................... 7

Kho dữ liệu ....................................................................................................................... 13

1.2.1

1.2.2
1.2.3

Chương 2

Kho dữ liệu và một số đặc điểm ............................................................................................. 13
Sự khác nhau giữa kho dữ liệu và cơ sở dữ liệu tác nghiệp ................................................... 15
Kiến trúc chung của kho dữ liệu ............................................................................................ 19

Tiền xử lý dữ liệu, một công đoạn quan trọng trong quá trình KDD ......... 25

2.1

Giới thiệu .......................................................................................................................... 25

2.2

Làm sạch dữ liệu .............................................................................................................. 26

2.2.1
2.2.2
2.2.3

2.3

Tích hợp và chuyển đổi dữ liệu ....................................................................................... 29

2.3.1
2.3.2


2.4

Chương 3

Một số phương pháp xây dựng cây quyết định trong khai phá dữ liệu. ..... 43
Phân lớp và dự báo. ................................................................................................................ 43
Chuẩn bị dữ liệu cho phân lớp và dự báo ............................................................................... 46
So sánh các phương pháp phân lớp ........................................................................................ 47

Phân lớp bằng quy nạp cây quyết định .......................................................................... 47

3.2.1
3.2.2
3.2.3
3.2.4
3.2.5
3.2.6

3.3

Tổng quát hóa và rời rạc hóa bậc khái niệm cho dữ liệu kiểu số ........................................... 37
Tổng quát hóa mức khái niệm cho dữ liệu kiểu xác định ...................................................... 40

Phân lớp và dự báo .......................................................................................................... 43

3.1.1
3.1.2
3.1.3

3.2


Kết hợp khối dữ liệu. ............................................................................................................. 32
Thu gọn các chiều .................................................................................................................. 34
Nén dữ liệu ............................................................................................................................. 36
Giảm bớt số lượng.................................................................................................................. 36

Rời rạc hóa và tổng qt hóa bậc khái niệm. ................................................................ 37

2.5.1
2.5.2

3.1

Tích hợp dữ liệu ..................................................................................................................... 29
Chuyển đổi dữ liệu ................................................................................................................. 31

Thu gọn dữ liệu ................................................................................................................ 32

2.4.1
2.4.2
2.4.3
2.4.4

2.5

Giá trị bị mất .......................................................................................................................... 26
Dữ liệu bị nhiễu ..................................................................................................................... 27
Dữ liệu không nhất quán ........................................................................................................ 29

Quy nạp cây quyết định ......................................................................................................... 48

Thu gọn cây ........................................................................................................................... 53
Rút ra quy tắc phân lớp từ cây quyết định ............................................................................. 54
Cải tiến quy nạp cây quyết định cơ bản. ................................................................................ 55
Quy nạp cây quyết định và khả cỡ. ........................................................................................ 56
Tích hợp quy nạp cây quyết định với cơng nghệ kho dữ liệu. ............................................... 59

Xây dựng cây quyết định bằng phụ thuộc hàm............................................................. 60

3.3.1
3.3.2
3.3.3
3.3.4
3.3.5

Định nghĩa vấn đề .................................................................................................................. 62
Hàm và xấp xỉ phụ thuộc. ...................................................................................................... 62
Phương pháp phân lớp ........................................................................................................... 63
Ưu điểm của việc sử dụng lớp phụ thuộc hàm (CFDs). ......................................................... 64
Đánh giá ................................................................................................................................. 65

LUAN VAN CHAT LUONG download : add


3
Chương 4

Khai phá dữ liệu trong CSDL ORACLE 10G. ............................................. 66

4.1


Giới thiệu công cụ khai phá dữ liệu Oracle ................................................................... 66

4.2

Quá trình khai phá dữ liệu của Oracle .......................................................................... 68

4.3

Một số thuật toán của ODM ........................................................................................... 69

4.3.1
4.3.2

Chương 5

Các thuật toán học có giám sát ............................................................................................... 69
Các thuật tốn học khơng giám sát ........................................................................................ 73

Bài toán khai phá dữ liệu khách vi phạm quy chế xuất nhập cảnh ........... 78

5.1

Lựa chọn phương pháp phân lớp. .................................................................................. 78

5.2

Mô tả dữ liệu nghiệp vụ. .................................................................................................. 79

5.2.1
5.2.2


Chuẩn bị dữ liệu cho ứng dụng .............................................................................................. 79
Lựa chọn dữ liệu cho ứng dụng ............................................................................................. 80

5.3

Các tham số xây dựng mơ hình cho thuật tốn cây quyết định ................................... 82

5.4

Xây dựng mơ hình ............................................................................................................ 83

5.4.1
5.4.2

Xây dựng và kiểm thử mơ hình .............................................................................................. 83
Nhận xét ................................................................................................................................. 88

Kết luận ............................................................................................................................... 89
1. Kết quả đạt được của luận văn ............................................................................................ 89
2. Phương hướng nghiên cứu tiếp theo ................................................................................... 89

Tài liệu tham khảo .............................................................................................................. 91

LUAN VAN CHAT LUONG download : add



×