Tải bản đầy đủ (.pdf) (48 trang)

Ứng dụng khai phá dữ liệu trong dự báo, lựa chọn chuyên ngành khoa hệ thống thông tin kinh tế, trường đại học kinh tế đại học huế

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.64 MB, 48 trang )

ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KINH TẾ
KHOA HỆ THỐNG THÔNG TIN KINH TẾ
------

H

U



KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

TẾ

ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG DỰ BÁO

N
H

LỰA CHỌN CHUYÊN NGÀNH, KHOA HỆ THỐNG

TR

Ư



N

G



Đ

ẠI

H


C

KI

THÔNG TIN KINH TẾ, TRƯỜNG ĐẠI HỌC KINH TẾ HUẾ

Giảng viên hướng dẫn

Sinh viên thực hiện:
Nguyễn Ngọc Tri

ThS. Mai Thu Giang

Lớp: K48A Tin học Kinh tế
Niên khóa: 2014-2018

Huế, 05/2018


Lời Cảm Ơn

Lời đầu tiên em xin được chân thành cảm ơn ThS. Mai Thu Giang đã tận tình

hướng dẫn, giúp đỡ em trong cả quá trình thu thập số liệu và chỉ bảo em trong suốt
thời gian thực hiện khóa luận này.
Em xin được cảm ơn các quý thầy cô trong khoa Hệ thống thông tin Kinh tế - Đại
học Kinh tế Huế đã giúp đỡ và cung cấp nhiều kiến thức quý báu cho em trong suốt 4
năm học đại học tại trường.

U



Tôi cũng xin được gửi lời cảm ơn đến gia đình, bạn bè và những người thân luôn

TẾ

H

ở bên cạnh và giúp đỡ tôi trong suốt q trình làm khóa luận.

Do kiến thức và thời gian có hạn nên bài khóa luận chắc chắn sẽ khơng tránh

TR

Ư



N

G


Đ

ẠI

H


C

KI

N
H

khỏi được những sai sót, kính mong sự góp ý quý báu của quý thầy cô.
Huế, ngày 03 tháng 5 năm 2018
Sinh viên thực hiện
Nguyễn Ngọc Tri


MỤC LỤC
LỜI CẢM ƠN
DANH MỤC CÁC TỪ VIẾT TẮT
PHẦN I: ĐẶT VẤN ĐỀ.................................................................................................. 1
1. Lý do chọn đề tài ................................................................................................... 1
2. Mục tiêu nghiên cứu .............................................................................................. 1
3. Phương pháp nghiên cứu ....................................................................................... 2
4. Ý nghĩa của đề tài .................................................................................................. 2
Ý nghĩa khoa học ............................................................................................ 2


4.2.

Ý nghĩa thực tiễn ............................................................................................ 2

U



4.1.

H

PHẦN II: NỘI DUNG ..................................................................................................... 3

TẾ

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT................................................................................ 3

N
H

1. Khai phá dữ liệu giáo dục...................................................................................... 3
Định nghĩa khai phá dữ liệu giáo dục ............................................................. 3

1.2.

Mơ hình hóa các mục tiêu chung của EDM ................................................... 4

KI


1.1.


C

2. Các giai đoạn trong khai phá dữ liệu..................................................................... 4

H

3. Các loại dữ liệu sử dụng ........................................................................................ 6
Cơ sở dữ liệu quan hệ ..................................................................................... 6

3.2.

Kho dữ liệu ..................................................................................................... 6

3.3.

Cơ sở dữ liệu không gian ................................................................................ 6

3.4.

Cơ sở dữ liệu văn bản ..................................................................................... 6

3.5.

Dữ liệu web .................................................................................................... 6

TR


Ư



N

G

Đ

ẠI

3.1.

4. Phân lớp trong khai phá dữ liệu ............................................................................ 7
4.1.

Phân lớp .......................................................................................................... 7

4.2.

Khai phá dữ liệu sử dụng luật kết hợp .......................................................... 12

5. Kỹ thuật khai phá dữ liệu sử dụng cây quyết định .............................................. 14
5.1.

Giới thiệu kỹ thuật khai phá dữ liệu sử dụng cây quyết định ....................... 14

5.2.


Các vấn đề trong khai phá dữ liệu sử dụng cây quyết định .......................... 14

5.3.

Tránh “quá khớp” dữ liệu ............................................................................. 14

5.4.

Thao tác với thuộc tính liên tục .................................................................... 15

5.5.

Đánh giá cây quyết định trong lĩnh vực KPDL ............................................ 15

5.6.

Xây dựng cây quyết định .............................................................................. 17

5.7.

Đánh giá độ chính xác của mơ hình phân lớp .............................................. 18


6. Giới thiệu phần mềm WEKA .............................................................................. 19
6.1.

Giới thiệu chung ........................................................................................... 19

6.2.


Khái quát một số chức năng ở môi trường Explorer trong WEKA.............. 20

CHƯƠNG 2: ỨNG DỤNG WEKA TRONG VIỆC DỰ BÁO LỰA CHỌN CHUYÊN
NGÀNH CHO SINH VIÊN KHOA HỆ THỐNG THÔNG TIN KINH TẾ - ĐẠI HỌC
KINH TẾ HUẾ .............................................................................................................. 21
1. Không gian mẫu .................................................................................................. 21
2. Tiền xử lý dữ liệu ................................................................................................ 21
2.1.

Chuẩn bị dữ liệu để huấn luyện (training set) và kiểm thử (testing set) ...... 22

2.2.

Trích chọn thuộc tính cho dữ liệu huấn luyện .............................................. 23

3. Chạy phần mềm WEKA với dữ liệu huấn luyện................................................. 24
Khi chưa trích chọn dữ liệu .......................................................................... 24

3.2.

Sau khi trích chọn dữ liệu ............................................................................. 31

3.3.

Phân tích kết quả đạt được............................................................................ 36

3.4.

Ứng dụng mơ hình ........................................................................................ 37


N
H

TẾ

H

U



3.1.

PHẦN III: KẾT LUẬN ................................................................................................. 40

KI

1. Kết quả đạt được từ khóa luận ............................................................................ 40


C

2. Hạn chế ................................................................................................................ 40

H

3. Hướng phát triển của đề tài ................................................................................. 40

TR


Ư



N

G

Đ

ẠI

TÀI LIỆU THAM KHẢO ............................................................................................. 42


DANH MỤC CÁC TỪ VIẾT TẮT
Chữ viết tắt

Tiếng Anh

Tiếng Việt

THPT

Trung học phổ thông

KPDL

Khai phá dữ liệu


EDM

Education Data Mining

Khai phá dữ liệu trong giáo dục
Cơ sở dữ liệu

CSDL
NB

Naïve Bayes

Giải thuật Naïve Bayes
Hệ thống thông tin kinh tế

TR

Ư



N

G

Đ

ẠI

H



C

KI

N
H

TẾ

H

U



HTTTKT


DANH MỤC HÌNH
Hình 1.1: Các bước trong q trình khai phá dữ liệu [6] ................................................ 5
Hình 1.2 (a). Bước học/huấn luyện trong quá trình phân lớp 2 bước. [9] ....................... 7
Hình 1.2 (b). Bước phân lớp trong quá trình phân lớp 2 bước [9] .................................. 7
Hình 1.3. ví dụ về cây quyết định .................................................................................... 9
Hình 1.4: Mơ hình ứng dụng luật .................................................................................. 13
Hình 1.5: k-fold cross – validation [9] .......................................................................... 19
Hình 1.6: Giao diện cửa sổ phần mềm WEKA ............................................................. 19




Hình 2.1: Dữ liệu điểm gốc của sinh viên ..................................................................... 21

TR

Ư



N

G

Đ

ẠI

H


C

KI

N
H

TẾ

H


U

Hình 2.2: Dữ liệu sau khi đã được tổng hợp và xử lý ................................................... 22


Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

PHẦN I: ĐẶT VẤN ĐỀ
1. Lý do chọn đề tài
Việc chọn đúng ngành nghề là vơ cùng quan trọng, vì điều đó giúp sinh viên đi
con đường phù hợp với khả năng và sở thích của bản thân, qua đó tăng hiệu suất làm
việc hay trước đó là hiệu suất, niềm đam mê học tập ở giảng đường, tránh sự vội vàng
trong việc chọn ngành nghề để rồi bỏ lỡ rất nhiều cơ hội đáng ra có thể thành cơng nếu
chọn đúng ngành nghề phù hợp. Với việc chọn chuyên ngành cho cả ngành mình đã
đắn đo lựa chọn, nó càng làm thêm vấn đề này trở nên phức tạp hơn.

U



Đối với bản thân sinh viên, việc chọn chuyên ngành không phù hợp với khả

H

năng, sở thích dẫn đến việc lãng phí thời gian và tài chính. Nên việc chọn đúng ngành

TẾ


nghề là rất cần thiết cho tình hình chung của sinh viên hiện nay.

N
H

Thực tế, tại trường Đại học Kinh Tế Huế vào năm thứ 2 của đại học, sinh viên

KI

một số ngành đặc thù lại đứng trước một sự lựa chọn nữa đó là lựa chọn chun ngành


C

theo học. Điển hình như khoa Hệ thống Thông tin Kinh tế sẽ chia ra 2 chuyên ngành

H

học là Tin học Kinh tế và Thống kê Kinh doanh. Nó trở thành vấn đề vì sinh viên lại

ẠI

phải tiến hành lựa chọn tương lai công việc của mình thêm một lần nữa.Việc chia

Đ

chuyên ngành học cũng là một vấn đề được quan tâm của nhà quản lý khi không thể

N


G

nắm bắt được số lượng sinh viên sẽ đăng kí theo học chuyên ngành nào để có thể đặt

Ư



ra chỉ tiêu số lượng phù hợp cho từng chuyên ngành để tăng cường chất lượng đào tạo

TR

lên mức tối đa. Nên để giải quyết vấn đề này, cần có biện pháp để giúp định hướng
giúp cho sinh viên có thể chọn chuyên ngành nào phù hợp với bản thân, trên hết là
giúp cho nhà quản lý sinh viên có thể dự đốn được số lượng sinh viên sẽ theo học
chuyên ngành nào, giúp cho nhà quản lý đặt ra chỉ tiêu phù hợp cho từng chuyên
ngành, nâng cao chất lượng đào tạo. Đó là lý do tơi chọn đề tài “Ứng dụng khai phá
dữ liệu trong dự báo, lựa chọn chuyên ngành khoa Hệ thống thông tin kinh tế,
trường Đại học Kinh Tế - Đại học Huế” để giải quyết vấn đề trên.

2. Mục tiêu nghiên cứu
- Tìm hiểu rõ hơn và cung cấp tri thức về Khai phá dữ liệu trong giáo dục
(Education Data Minning).

SVTH: Nguyễn Ngọc Tri

1



Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

- Tìm hiểu để ứng dụng các kỹ thuật, phương pháp khai phá dữ liệu trong phân
tích số liệu, tư vấn chọn ngành học cho sinh viên dựa trên kết quả thông tin thu thập
được.
- Sử dụng công cụ khai phá dữ liệu WEKA để dự báo, lựa chọn chuyên ngành
khoa Hệ thống thông tin kinh tế, trường Đại học Kinh tế Huế

3. Phương pháp nghiên cứu
- Thu thập thơng tin, phân tích số liệu: thu thập số liệu điểm của các sinh viên
năm nhất, qua đó dự báo chuyên ngành học cho sinh viên.
- Phương pháp nghiên cứu thực nghiệm: áp dụng phần mềm WEKA để phân tích

U



số liệu thu thập được nhằm đưa ra những dự đoán cho khả năng chọn ngành của sinh

H

viên.

TẾ

- Kỹ thuật áp dụng: Phân lớp bằng phương pháp cây quyết định.

Ý nghĩa khoa học


KI

4.1.

N
H

4. Ý nghĩa của đề tài


C

Áp dụng các thuật toán KPDL trên dữ liệu điểm có sẵn để lựa chọn chuyên

Ý nghĩa thực tiễn

ẠI

4.2.

H

ngành học.

G

Đ

Đề tài ứng dụng khai phá dữ liệu chọn chuyên ngành cho sinh viên khoa Hệ


N

thống thông tin kinh tế góp phần như là một cơng cụ trợ giúp cho các nhà quản lý giáo

Ư



dục, cụ thể ở đây là các thầy cơ trong khoa HTTTKT có được dự báo về số lượng sinh

TR

viên đăng kí chuyên ngành nào để đưa ra được chỉ tiêu chuyên ngành. Về phần sinh
viên, đề tài có thể phần nào giúp đỡ sinh viên có sự lựa chọn về chuyên ngành phù hợp
với bản thân mình hơn.

SVTH: Nguyễn Ngọc Tri

2


Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

PHẦN II: NỘI DUNG
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT
1. Khai phá dữ liệu giáo dục
1.1.


Định nghĩa khai phá dữ liệu giáo dục

Khai phá dữ liệu giáo dục (EDM) [1][8] là một lĩnh vực mới đang được nghiên
cứu và phát triển, được hiểu là sử dụng các kỹ thuật khai thác dữ liệu trên dữ liệu thô
từ các hệ thống giáo dục, đồng thời phát hiện ra các thông tin ẩn sau dữ liệu này.
Trong những năm gần đây, lĩnh vực này đã tăng cường một lượng lớn các cơng trình



nghiên cứu để xác định và tìm ra sự đóng góp của kỹ thuật khai thác dữ liệu trong các

H

U

hệ thống giáo dục. Thực tế, việc khai thác và hiểu được dữ liệu thô được thu thập từ

TẾ

các hệ thống giáo dục chính là “mỏ vàng” để giúp nhà thiết kế và người sử dụng cải

N
H

thiện hiệu quả hoạt động của họ và thu thập được thơng tin hữu ích về hành vi của sinh

KI

viên trong quá trình học tập.



C

Việc sử dụng khai thác dữ liệu trong giáo dục có thể giúp ích rất nhiều trong việc giải
quyết các vấn đề học tập. Sử dụng EDM để trả lời các câu hỏi như: Dự đốn điều gì tạo nên

ẠI

H

sự thành cơng của sinh viên? Chuỗi kịch bản nào có thể hiệu quả hơn cho một sinh viên cụ

Đ

thể? Các hành động của sinh viên cho thấy sự tiến bộ trong học tập là gì? Những đặc điểm

G

của một môi trường học tập cho phép học tập tốt hơn? ... Mục tiêu của chương trình này là



N

thiết lập một đánh giá mới trong khai thác dữ liệu đó là áp dụng trong giáo dục để xác định

Ư

các khía cạnh được phân tích: dữ liệu, mục tiêu của các nghiên cứu, kỹ thuật được sử dụng


TR

và sự đóng góp của việc áp dụng các kĩ thuật này trong lĩnh vực giáo dục. Và không chỉ là
liệt kê các cơng việc hiện tại mà cịn để tạo điều kiện thuận lợi cho việc sử dụng và hiểu biết
về các kỹ thuật khai thác dữ liệu để giúp các chuyên gia trong lĩnh vực giáo dục phản hồi và
xác định khu vực nghiên cứu.
Theo Romero và Ventura thì EDM là “ứng dụng các kỹ thuật khai thác dữ liệu để
xác định loại dữ liệu đến từ môi trường giáo dục để giải quyết câu hỏi giáo dục quan
trọng”, định nghĩa này nhấn mạnh đến việc khám phá kiến thức dựa trên dữ liệu giáo
dục để cải tiến hệ thống giáo dục. EDM thường bị nhầm lẫn với “Phân tích học tập” là:
đo lường, thu thập, phân tích và báo cáo dữ liệu về người học và bối cảnh của chúng,
nhằm mục đích hiểu và tối ưu hóa việc học và mơi trường mà nó xảy ra. Tuy nhiên,

SVTH: Nguyễn Ngọc Tri

3


Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

EDM và “phân tích học tập” lại là 2 khái niệm riêng biệt và khác nhau. EDM có thể
được rút ra là sự kết hợp của 3 lĩnh vực chính: khoa học máy tính, giáo dục và thống kê.
EDM sử dụng các phương pháp và áp dụng các kỹ thuật từ thống kê, học máy, khai thác
dữ liệu, thu hồi thông tin, hệ thống tư vấn, tâm lý học, tâm lý học nhận thức, v..v.. Lựa
chọn kỹ thuật hoặc phương pháp nào tùy thuộc vào yêu cầu giải quyết vấn đề giáo dục.

1.2.


Mô hình hóa các mục tiêu chung của EDM

- Mơ hình hóa sinh viên [2][3]: mơ hình hóa người dùng trong lĩnh vực giáo dục
kết hợp với các thông tin chi tiết như đặc điểm hoặc trạng thái của sinh viên như kiến
thức, kỹ năng, động lực, sự hài lòng, siêu nhận thức, thái độ, kinh nghiệm và tiến bộ



học tập hoặc một số loại vấn đề ảnh hưởng tiêu cực đến kết quả học tập. Mục tiêu ở

H

U

đây là tạo ra hoặc cải tiến mơ hình sinh viên từ thơng tin đã sử dụng.

TẾ

- Dự đoán kết quả học tập và kết quả học tập của sinh viên. Mục tiêu là để dự

N
H

đoán kết quả cuối cùng của sinh viên hoặc các loại kết quả học tập khác dựa trên dữ

KI

liệu từ các hoạt động của khóa học.



C

- Tạo đề xuất: mục tiêu là để giới thiệu cho sinh viên nội dung nào phù hợp nhất
với họ hiện tại.

ẠI

H

- Phân tích hành vi người học: được sử dụng để nhóm sinh viên theo hướng dẫn

Đ

của họ cho mục đích thích ứng và cá nhân hóa.

G

- Giao tiếp với các bên liên quan [4]: mục tiêu là để giúp các nhà quản lý và nhà

Ư

khóa học.



N

giáo dục trong việc phân tích hoạt động của sinh viên và thông tin sử dụng trong các


TR

- Phân tích cấu trúc miền: mục tiêu là xác định cấu trúc miền và cải tiến các mô hình
miền mơ tả nội dung cần học và các trình tự giảng dạy tối ưu, sử dụng khả năng dự đoán
hiệu suất của sinh viên như một thước đo chất lượng của mơ hình cấu trúc miền.
- Nghiên cứu các tác động của các loại hình hỗ trợ sư phạm có thể được cung cấp
bằng cách dùng phần mềm.
- Nâng cao kiến thức khoa học về học tập và người học thông qua việc xây dựng,
khám phá hoặc cải tiến mơ hình sinh viên, lĩnh vực và hỗ trợ sư phạm.

2. Các giai đoạn trong khai phá dữ liệu
Giai đoạn 1: Hình thành, xác định và định nghĩa bài tốn. Là việc tìm hiểu lĩnh
vực ứng dụng từ đó hình thành bài toán, xác định các nhiệm vụ cần phải hoàn thành.
SVTH: Nguyễn Ngọc Tri

4


Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

Bước này sẽ quyết định cho việc rút ra được các tri thức hữu ích và cho phép chọn các
phương pháp khai phá dữ liệu thích hợp với mục đích ứng dụng cùng với bản chất của
dữ liệu.
Giai đoạn 2: Thu thập và tiền xử lý ( xử lý thơ). Bước này cịn được gọi là tiền
xử lý dữ liệu nhằm loại bỏ nhiễu (dữ liệu dư thừa), làm sạch dữ liệu, xử lý và khắc
phục vấn đề thiếu hoặc thừa dữ liệu, biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết.
Bước này thường chiếm nhiều thời gian nhất (bước quan trọng) trong tồn bộ quy trình
phát hiện tri thức.

Giai đoạn 3: Biến đổi dữ liệu, chọn lựa một số phương pháp. Phân loại



(Classification), hồi quy (Regression), phân nhóm (Clustering), quy nạp, tổng hợp kết

N

G

Đ

ẠI

H


C

KI

N
H

TẾ

H

U


quả (Summarization).

Ư



Hình 1.1: Các bước trong quá trình khai phá dữ liệu [6]

TR

Giai đoạn 4: Khai phá dữ liệu, hay nói cách khác là trích chọn, chiết xuất ra các
mẫu hay các mơ hình tiềm ẩn dưới các dữ liệu có ý nghĩa, hiểu được. Giai đoạn này rất
quan trọng, bao gồm các công đoạn như: chức năng, nhiệm vụ và mục đích khai phá
dữ liệu, dùng phương pháp khai phá nào là thích hợp?.
Giai đoạn 5: Giải thích kết quả và đánh giá các mẫu hay mơ hình. Các mẫu và
mơ hình này là kết quả của giai đoạn 3 trong quy trình. Đây là cơng đoạn khơng thể
thiếu trong q trình khai phá tri thức.
Giai đoạn 6: Hiểu và sử dụng tri thức đã tìm được, đặc biệt là làm sáng tỏ các mơ
tả và dự đốn. Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể
được lấy trên tất cả các lần thực hiện.

SVTH: Nguyễn Ngọc Tri

5


Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang


3. Các loại dữ liệu sử dụng
3.1.

Cơ sở dữ liệu quan hệ

Các CSDL quan hệ là một trong những kho chứa phổ biến nhiều thông tin nhất
và là dạng dữ liệu chủ yếu để nghiên cứu khai phá dữ liệu.

3.2.

Kho dữ liệu

Kho dữ liệu (Data Warehouse) chứa thông tin thu thập từ nhiều nguồn, được lưu
trữ trong một lược đồ hợp nhất. Kho dữ liệu được tổ chức theo các chủ đề và cung cấp
tính lịch sử, tổng hợp cao với cấu trúc vật lý là CSDL quan hệ hoặc khối dữ liệu nhiều
chiều. Kho dữ liệu là môi trường tốt nhất cho khai phá dữ liệu hoạt động hiệu quả.

3.3.

Cơ sở dữ liệu không gian

U



CSDL không gian [9] chứa các thông tin có quan hệ về mặt khơng gian như

H

CSDL địa lý, CSDL ảnh vệ tinh và y học…Dữ liệu được biểu diễn theo dạng mã vạch,


TẾ

chứa bản đồ bit n- chiều hoặc bản đồ các điểm pixel. Bản đồ có thể được biểu diễn

N
H

thành dạng vectơ trong đó đường phố, cầu, tồ nhà, hồ…Khai phá dữ liệu có thể phát

KI

hiện mẫu bằng cách mô tả đặc trưng của ngôi nhà gần một vị trí nào đó như hồ chẳng
phân cấp.

Cơ sở dữ liệu văn bản

ẠI

3.4.

H


C

hạn. Nói chung, các khối dữ liệu khơng gian có thể tổ chức thành cáu trúc đa chiều và

Đ


CSDL văn bản chứa các mô tả từ như các câu, đoạn. Có nhiều CSDL văn bản có

N

G

tính phi cấu trúc như các trang Web hoặc nửa cấu trúc như các message mail, trang



XML…Để phát hiện các đặc tả chung của các lớp đối tượng, từ khoá, nội dung liên

Ư

quan, đối tượng văn bản…các phương pháp khai phá dữ liệu cần tích hợp với các kỹ

TR

thuật lấy thơng tin và xây dựng từ điển, từ điển đồng nghĩa…

3.5.

Dữ liệu web

Dữ liệu Word Wide Web cung cấp các dịch vụ thơng tin trực tuyến tồn cầu là cơ
hội phong phú với nhiều thách thức mới cho khai phá dữ liệu. Khai phá dữ liệu Web
với các mục đích như:
Khai phá nội dung Web để phát hiện ra các tri thức từ nội dung các trang Web
Khai phá cấu trúc Web: phát hiện mơ hình nền tảng cấu trúc liên kết.
Khai phá sử dụng Web: phát hiện thông tin từ các phiên làm việc truy nhập của

người dùng. Khi nắm bắt được các mẫu tra cứu trang có thể sắp xếp lại các liên kết và
đưa các quảng cáo vào những trang mà người dùng thường quan tâm.

SVTH: Nguyễn Ngọc Tri

6


Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

4. Phân lớp trong khai phá dữ liệu
4.1.

Phân lớp

Phân lớp dữ liệu là một quá trình gồm hai bước: một bước học (trong đó xây
dựng nên một mơ hình phân lớp) và một bước phân lớp (trong đó mơ hình vừa xây
dựng được sử dụng để dự đoán các nhãn lớp cho những dữ liệu nào đó).
Hình 1.2 minh họa q trình này cho trường hợp dữ liệu xin vay tiền. Dữ liệu ấy
đã được đơn giản hóa để dễ minh họa. Trong thực tế, có thể ta cần xem xét nhiều thuộc

G

Đ

ẠI

H



C

KI

N
H

TẾ

H

U



tính hơn.

TR

Ư



N

Hình 1.2 (a). Bước học/huấn luyện trong quá trình phân lớp 2 bước. [9]

Hình 1.2 (b). Bước phân lớp trong quá trình phân lớp 2 bước [9]


SVTH: Nguyễn Ngọc Tri

7


Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

Ở bước thứ nhất, ta xây dựng một mơ hình phân lớp mơ tả một bộ xác định trước
các lớp dữ liệu hay khái niệm. Đây là bước học (hay giai đoạn huấn luyện), ở đó một
thuật tốn phân lớp xây dựng nên mơ hình phân lớp bằng cách phân tích hoặc “học hỏi
từ” một tập huấn luyện hình thành từ các bản ghi trong CSDL và các nhãn lớp liên kết
với chúng. Mỗi bản ghi X được biểu diễn bởi một vector thuộc tính gồm n-chiều, X =
(x1, x2, …, xn), mơ tả n giá trị đo đã thực hiện trên bản ghi đó từ n thuộc tính tương
ứng của CSDL A1, A2, …, An. Mỗi bản ghi X được giả định là thuộc về một lớp được
quy định trước, như được xác định bởi một thuộc tính khác của CSDL gọi là thuộc tính
nhãn lớp.



Trong các tài liệu về máy học, các bản ghi huấn luyện thường được gọi là mẫu

H

U

huấn luyện hoặc ví dụ huấn luyện.


TẾ

Ở bước thứ hai (Hình 1.2 (b)), mơ hình tìm được ở bước thứ nhất sẽ được dùng

N
H

cho việc phân loại những dữ liệu mới. Trước hết, ta đánh giá độ chính xác dự đốn
(predictive accuracy) của mơ hình phân loại ấy. Nếu như ta dùng tập huấn luyện để

KI

đánh giá độ chính xác của mơ hình phân lớp thì việc đánh giá này nhiều khả năng là


C

q lạc quan, bởi vì mơ hình ấy có khuynh hướng quá khớp dữ liệu (tức là trong q

H

trình học, nó có thể sáp nhập ln một số trường hợp bất thường của dữ liệu huấn

Đ

ẠI

luyện, vốn không hiện diện trong tổng thể tập dữ liệu nói chung). Vì thế, ta dùng một

G


tập kiểm tra, bao gồm các bản ghi kiểm tra và các nhãn lớp liên kết với chúng, để thực



N

hiện việc đánh giá này. Các bản ghi kiểm tra này độc lập với các bản ghi huấn luyện,

Ư

nghĩa là chúng không được dùng để xây dựng mơ hình phân lớp.

TR

Độ chính xác của một mơ hình phân lớp trên một tập kiểm tra xác định là tỷ lệ
các bản ghi của tập kiểm tra được phân loại đúng đắn bởi mơ hình phân lớp ấy. Nhãn
lớp liên kết của mỗi bản ghi kiểm tra được so sánh với sự dự đốn lớp của mơ hình
phân lớp học ứng với bản ghi đó.
Ví dụ, các luật phân lớp học được trong Hình 1.2 (a) từ việc phân tích dữ liệu của
những đơn xin vay tiền lúc trước, nếu có độ chính xác cao khi phân lớp tập kiểm tra,
thì có thể được dùng để chuẩn thuận hoặc bác những đơn xin vay tiền mới hoặc sẽ có
trong tương lai, như được minh họa trong Hình 1.2 (b).

SVTH: Nguyễn Ngọc Tri

8


Khóa luận tốt nghiệp


GVHD: Th.S Mai Thu Giang

4.1.1. Phân lớp bằng phương pháp cây quyết định
Quy nạp cây quyết định (decision tree induction) [5] [10] là việc tìm kiếm các
cây quyết định từ những bản ghi huấn luyện đã có nhãn lớp. Mỗi cây quyết định
(decision tree) là một cấu trúc cây kiểu lưu đồ, trong đó mỗi nút trong biểu thị một sự
kiểm tra trên một thuộc tính nào đó, mỗi nhánh biểu diễn một kết quả của sự kiểm tra
đó, cịn mỗi nút lá chứa một nhãn lớp. Nút ở trên cùng của cây là nút gốc, chứa tên của
thuộc tính cần kiểm tra. Hình 1.3 cho thấy một cây quyết định tiêu biểu. Các nút trong
được biểu diễn bằng các hình chữ nhật, cịn các nút lá được biểu diễn bằng các hình
bầu dục. Một số thuật toán cây quyết định chỉ sinh ra các cây nhị phân (trong đó mỗi



nút trong rẽ nhánh đến hai nút khác), trong khi những thuật tốn cây quyết định khác

H

U

có thể sinh ra những cây không nhị phân.

TẾ

Các cây quyết định được dùng cho phân lớp như thế nào? Cho một bản ghi X nào

N
H


đó mà ta chưa biết nhãn lớp liên kết với nó, các giá trị thuộc tính của bản ghi đó được

KI

kiểm tra so với cây quyết định. Dựa theo những cuộc kiểm tra đó, ta lần ra một đường


C

đi từ gốc đến một nút lá chứa kết quả dự đoán lớp dành cho bản ghi ấy. Các cây quyết
định có thể dễ dàng được chuyển đổi thành các luật phân lớp, tức hình thức phân loại

TR

Ư



N

G

Đ

ẠI

H

đơn giản và dễ hiểu nhất đối với con người.


Hình 1.3. ví dụ về cây quyết định

4.1.2. Phân lớp dữ liệu bằng giải thuật học ILA
- Thuật giải ILA [8] [10]được dùng để xác định các luật phân loại cho tập hợp
các mẫu học. Thuật giải này thực hiện theo cơ chế lặp, để tìm luật riêng đại diện cho
tập mẫu của từng lớp. Sau khi xác định được luật, thuật giải sẽ loại bỏ các mẫu mà luật

SVTH: Nguyễn Ngọc Tri

9


Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

này bao hàm, đồng thời thêm luật mới này vào tập luật. Kết quả có được là một danh
sách có thứ tự các luật.
- Mô tả thuật giải ILA:
+ Bước 1: Chia bảng con có chứa m mẫu thành n bảng con. Một bảng con ứng
với một giá trị của thuộc tính phân lớp (Lặp lại từ bước 2 đến bước 8 cho mỗi bảng con).
+ Bước 2: Khởi tạo số lượng thuộc tính kết hợp j với j = 1.
+ Bước 3: Với mỗi bảng con đang xét, phân chia các thuộc tính của nó thành
một danh sách các thuộc tính kết hợp, mỗi thành phần của danh sách có j thuộc tính
phân biệt.



+ Bước 4: Với mỗi kết hợp các thuộc tính trong danh sách trên, đếm số lần


H

U

xuất hiện các giá trị cho các thuộc tính trong kết hợp đó ở các dịng chưa bị khóa của

TẾ

bảng đang xét nhưng nó khơng được xuất hiện cùng giá trị ở những bảng con khác.

N
H

Chọn ra một kết hợp trong danh sách sao cho nó có giá trị tương ứng xuất hiện nhiều
nhất và được gọi là Max_combination.

KI

+ Bước 5: Nếu Max_combination = 0 thì j = j+1 quay lại bước 3.


C

+ Bước 6: Khóa các dịng ở bảng con đang xét mà tại đó giá trị bằng với giá trị

H

tạo ra Max_combination.

Đ


ẠI

+ Bước 7: Thêm vào R luật mới với giả thuyết là các giá trị tạo ra

G

Max_combination kết nối các bộ này bằng phép AND, kết luận là giá trị của thuộc tính



N

quyết định trong bảng con đang xét.

Ư

+ Bước 8: Nếu tất cả các dịng đều khóa:

TR

Nếu cịn bảng con thì qua bảng con tiếp theo và quay lại bước 2.
Ngược lại chấm dứt thuật toán.
Ngược lại quay lại bước 4.

4.1.3. Phân lớp dữ liệu bằng mạng Naïve Bayes
Các mơ hình phân lớp dựa theo Bayes (Bayesian classifier) [9] là loại mơ hình
phân lớp theo lý thuyết thống kê. Chúng có thể dự đốn xác suất của các thành viên
lớp, chẳng hạn xác suất để một bản ghi nhất định thuộc về một lớp cụ thể nào đó. Phân
lớp dựa theo Bayes căn cứ vào nền tảng lý thuyết là định lý Bayes (được đặt theo tên

của Thomas Bayes, nhà toán học Anh vào thế kỷ 18).

SVTH: Nguyễn Ngọc Tri

10


Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

Thuật tốn phân lớp Naïve Bayes (NB) giả định rằng ảnh hưởng của một giá trị
thuộc tính nào đó trên một lớp nhất định là độc lập với các giá trị của các thuộc tính
khác. Giả định này được gọi là sự độc lập theo điều kiện lớp (class-conditional
independence).
- Ưu điểm
+ Về thời gian học (tức thời gian xây dựng mơ hình): ít hơn so với phương
pháp quy nạp cây quyết định, và ít hơn rất nhiều so với mạng nơ-rôn, nhất là đối với
dữ liệu rời rạc.
+ Hiệu năng phân lớp (độ chính xác và tốc độ) cao khi dùng với CSDL lớn.



+ Thuật toán dễ hiểu và dễ hiện thực.

H

U

- Nhược điểm


TẾ

+ Do NB giả định là các thuộc tính độc lập với nhau, nên khi các thuộc tính có

N
H

sự phụ thuộc lẫn nhau (ví dụ, trong giáo dục có một số mơn học có ý nghĩa tiên quyết
đối với một số mơn học khác) thì phương pháp NB trở nên thiếu chính xác.

KI

+ NB khơng sinh ra được những mơ hình phân lớp dễ hiểu đối với người dùng


C

khơng chun về KPDL.

ẠI

H

4.1.4. Phân lớp dữ liệu bằng Neural Network

Đ

Lĩnh vực học bằng các mạng nơ-rôn nhân tạo (artificial neural network – ANN)


G

[8] [10], lúc đầu được khởi xướng bởi các nhà tâm lý học và các nhà sinh học thần



N

kinh muốn tìm cách xây dựng và kiểm tra những mơ hình tính tốn tương tự với mạng

Ư

lưới các tế bào thần kinh (neuron) của con người. Một mạng nơ-rôn nhân tạo, hay chỉ

TR

vắn tắt là mạng nơ-rơn, đơi khi cịn được gọi là multilayer perceptron (MLP), là một
tập hợp các nút xuất/nhập nối kết với nhau, trong đó mỗi đường nối kết có một trọng
số liên kết với nó. Trong giai đoạn học, mạng này học bằng cách điều chỉnh các trọng
số để dự đoán được nhãn lớp đúng đắn của các bản ghi nhập vào.
- Ưu điểm
+ Các mô hình học được từ mạng nơ rơn có khả năng chịu đựng đối với dữ
liệu nhiễu cao cũng như khả năng phân lớp được những mẫu hình mà chúng chưa từng
được huấn luyện.
+ Chúng rất thích hợp đối với dữ liệu nhập và xuất có trị liên tục.

SVTH: Nguyễn Ngọc Tri

11



Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

+ Các thuật tốn mạng nơ-rơn vốn có sẵn tính song song; có thể dùng các kỹ
thuật song song hóa để tăng tốc q trình tính tốn.
+ Ngồi ra, gần đây đã có nhiều kỹ thuật được xây dựng để rút trích ra các luật
phân lớp dễ hiểu từ các mạng nơ-rôn học được.
- Nhược điểm
+ Học bằng mạng nơ rơn địi hỏi thời gian huấn luyện phải dài, vì thế thích
hợp hơn với các ứng dụng nào chấp nhận điều này.
+ Thuật tốn xây dựng mạng nơ rơn cần một số tham số mà thường thì chỉ
được xác định tốt nhất thơng qua thí nghiệm, như cấu trúc.



+ Các mơ hình học bằng mạng nơ rơn đã bị chỉ trích vì tính khó hiểu của

H

U

chúng; con người khó diễn giải được ý nghĩa biểu tượng đằng sau các trọng số học và

Khai phá dữ liệu sử dụng luật kết hợp

N
H


4.2.

TẾ

ý nghĩa của các “đơn vị ẩn” trong mạng.

KI

4.2.1. Luật kết hợp trong CSDL


C

Gọi I = {I1, I2… Im} là tập m thuộc tính riêng biệt, mỗi thuộc tính gọi là một mục.
Gọi D là một CSDL, trong đó mỗi bản ghi t là một giao dịch và chứa các tập
⸦ I.

ẠI

H

ục, t

m

Đ

Định nghĩa 1: Một luật kết hợp là một biểu thức có dạng X => Y, trong đó X, Y

N



mệnh đề kết quả.

G

⸦ I là các tập mục gọi là các itemset, và X∩Y= Ø. Ở đây, X được gọi là tiền đề, Y là

TR

Ư

Hai thông số quan trọng của luật kết hợp là độ hỗ trợ (s) và độ tin cậy (c).
Định nghĩa 2: Độ hỗ trợ của luật kết hợp X => Y là tỷ lệ phần trăm các bản ghi X
U Y với tổng số các giao dịch có trong CSDL.
Định nghĩa 3: Đối với một số giao dịch được đưa ra, độ tin cậy là tỷ lệ của số
giao dịch có chứa X U Y với số giao dịch có chứa X. Đơn vị tính %.
Việc khai thác các luật kết hợp từ CSDL chính là việc tìm tất cả các luật có độ hỗ
trợ và độ tin cậy lớn hơn ngưỡng của độ hỗ trợ và độ tin cậy do người sử dụng xác
định trước. Các ngưỡng của độ hỗ trợ và độ tin cậy được ký hiệu là minsup và
minconf.
Việc khai thác các luật kết hợp có thể được phân tích thành hai vấn đề sau đây:
- Tìm tất cả các tập phổ biến có độ hỗ trợ lớn hơn hoặc bằng minsup.
SVTH: Nguyễn Ngọc Tri

12


Khóa luận tốt nghiệp


GVHD: Th.S Mai Thu Giang

- Tạo ra các luật mong muốn sử dụng các tập phổ biến có độ tin cậy lớn hơn hoặc
bằng minconf.

4.2.2. Tính ứng dụng
Luật kết hợp có ứng dụng trong nhiều lĩnh vực khác nhau của đời sống như: khoa
học, hoạt động kinh doanh, tiếp thị, thương mại, phân tích thị trường chứng khốn, tài
chính và đầu tư, ... Ứng dụng luật kết hợp phải chỉ rõ các đặc điểm về: nguồn gốc, điều
kiện áp dụng, phạm vi ứng dụng, mục đích ứng dụng. Những đặc điểm này được thể
hiện bằng mơ hình sau:
Tham chiếu

Lựa chọn

dụng

đến tập luật R

luật

Ứng dụng

U



Yêu cầu sử

TẾ


H

Hình 1.4: Mơ hình ứng dụng luật
Trong đó:

N
H

- u cầu sử dụng: là phạm vi tính ứng dụng của tập luật ví dụ như về khoa học,

KI

kinh doanh, tiếp thị, thương mại, phân tích thị trường chứng khốn, …


C

- Tham chiếu đến tập luật R: ở giai đoạn này các tập luật được tham chiếu tại đây

H

là các tập luật được sinh ra từ CSDL chứa tác nhân yêu cầu sử dụng.

G

cho phạm vi sử dụng.

Đ


ẠI

- Lựa chọn luật: ở bước này chúng ta tiến hành lọc các luật hữu ích nhất phục vụ



N

- Ứng dụng: đây là kết quả mong đợi nhất từ khi bắt đầu khai thác cho đến khi thi

Ư

hành luật.

TR

Mơ hình ứng dụng luật đã làm sáng tỏ tính ứng dụng của việc khai thác luật kết
hợp trong CSDL.

Thực tế, ứng dụng của khai thác luật kết hợp trong CSDL giáo dục là một phạm
trù của KPDL nên ứng dụng của nó rất rộng lớn, nhất là trong sự phát triển của xã hội
hiện nay. Ngoài ra, một tập hợp con đặc biệt của luật kết hợp gọi là luật kết hợp lớp
(Class Association rules –CARs) dùng để tích hợp phân loại và khai phá luật kết hợp.
Tóm lại, tính ứng dụng của khai thác luật kết hợp trong CSDL giáo dục là việc
ứng dụng các tập luật tìm thấy trong đó nhằm vào những mục đích cụ thể và đạt được
kết quả tốt.

SVTH: Nguyễn Ngọc Tri

13



Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

5. Kỹ thuật khai phá dữ liệu sử dụng cây quyết định
5.1.

Giới thiệu kỹ thuật khai phá dữ liệu sử dụng cây quyết định

Trong những năm qua, nhiều mơ hình phân lớp dữ liệu đã được các nhà khoa học
trong nhiều lĩnh vực khác nhau đề xuất như mạng nơ rơn, mơ hình thống kê tuyến tính
bậc 2, cây quyết định, di truyền, …. Trong số những mơ hình đó, cây quyết định với
những ưu điểm của mình được đánh giá là một cơng cụ mạnh, phổ biến và đặc biệt
thích hợp cho KPDL nói chung và phân lớp dữ liệu nói riêng.
Có thể kể ra những ưu điểm của cây quyết định như: xây dựng tương đối nhanh;
đơn giản, dễ hiểu. Hơn nữa các cây có thể dễ dàng được chuyển đổi sang các câu lệnh



SQL để có thể được sử dụng để truy nhập CSDL một cách hiệu quả. Cuối cùng, việc

H

U

phân lớp dựa trên cây quyết định đạt được sự tương tự và đơi khi là chính xác hơn so

Các vấn đề trong khai phá dữ liệu sử dụng cây quyết định


N
H

5.2.

TẾ

với các phương pháp phân lớp khác.

KI

Các vấn đề đặc thù trong khi học hay phân lớp dữ liệu bằng cây quyết định gồm:


C

xác định độ sâu để phát triển cây quyết định, xử lý với những thuộc tính liên tục, chọn

H

phép đo lựa chọn thuộc tính thích hợp, sử dụng tập dữ liệu huấn luyện với những giá

ẠI

trị thuộc tính bị thiếu, sử dụng các thuộc tính với những chi phí khác nhau, và cải thiện

G

Tránh “quá khớp” dữ liệu


N

5.3.

Đ

hiệu năng tính tốn.

Ư



Thế nào là “q khớp” [8][10] dữ liệu? Có thể hiểu đây là hiện tượng cây quyết định

TR

chứa một số đặc trưng riêng của tập dữ liệu huấn luyện, nếu lấy chính tập dữ liệu huấn
luyện để kiểm tra lại mơ hình phân lớp thì độ chính xác sẽ rất cao, trong khi đối với những
dữ liệu tương lai khác nếu sử dụng cây đó lại khơng đạt được độ chính xác cao.
Q khớp dữ liệu là một khó khăn đáng kể đối với học bằng cây quyết định và
những phương pháp học khác. Đặc biệt khi số lượng mẫu trong tập dữ liệu huấn luyện
quá ít, hay có nhiễu trong dữ liệu.
Có hai phương pháp tránh “quá khớp” dữ liệu trong cây quyết định:
- Dừng phát triển cây sớm hơn bình thường, trước khi đạt tới điểm phân lớp hoàn
hảo tập dữ liệu huấn luyện. Với phương pháp này, một thách thức đặt ra là phải ước
lượng chính xác thời điểm dừng phát triển cây.
- Cho phép cây có thể “quá khớp” dữ liệu, sau đó sẽ cắt, tỉa cây.
SVTH: Nguyễn Ngọc Tri


14


Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

Mặc dù phương pháp thứ nhất có vẻ trực tiếp hơn, nhưng với phương pháp thứ hai
thì cây quyết định được sinh ra được thực nghiệm chứng minh là thành công hơn trong
thực tế. Hơn nữa việc cắt tỉa cây quyết định còn giúp tổng qt hóa, và cải thiện độ chính
xác của mơ hình phân lớp. Dù thực hiện phương pháp nào thì vấn đề mấu chốt ở đây là
tiêu chuẩn nào được sử dụng để xác định kích thước hợp lý của cây cuối cùng.

5.4.

Thao tác với thuộc tính liên tục

Việc thao tác với thuộc tính liên tục [9] trên cây quyết định hồn tồn khơng đơn
giản như với thuộc tính rời rạc.
Thuộc tính rời rạc có tập giá trị (domain) xác định từ trước và là tập hợp các giá



trị rời rạc. Ví dụ loại ơ tơ là một thuộc tính rời rạc với tập giá trị là: {xe tải, xe khách,

H

U

xe con, taxi}.Việc phân chia dữ liệu dựa vào phép kiểm tra giá trị của thuộc tính rời


TẾ

rạc được chọn tại một ví dụ cụ thể có thuộc tập giá trị của thuộc tính đó hay khơng:

N
H

value (A) ∈ X với X ⊂ domain (A). Đây là phép kiểm tra logic đơn giản, khơng tốn

KI

nhiều tài ngun tính tốn. Trong khi đó, với thuộc tính liên tục (thuộc tính dạng số)


C

thì tập giá trị là khơng xác định trước. Chính vì vậy, trong q trình phát triển cây, cần
sử dụng kiểm tra dạng nhị phân: value (A) ≤ θ. Với θ là hằng số ngưỡng (threshold)

ẠI

H

được lần lượt xác định dựa trên từng giá trị riêng biệt hay từng cặp giá trị liền nhau

Đ

(theo thứ tự đã sắp xếp) của thuộc tính liên tục đang xem xét trong tập dữ liệu huấn


G

luyện. Điều đó có nghĩa là nếu thuộc tính liên tục A trong tập dữ liệu huấn luyện có d



N

giá trị phân biệt thì cần thực hiện d-1 lần kiểm tra value (A) ≤ θi với i = 1..d-1 để tìm

TR

Ư

ra ngưỡng θbest tốt nhất tương ứng với thuộc tính đó. Việc xác định giá trị của θ và
tiêu chuẩn tìm θ tốt nhất tùy vào chiến lược của từng thuật toán.

5.5.

Đánh giá cây quyết định trong lĩnh vực KPDL

5.5.1. Ưu điểm của cây quyết định
- Khả năng sinh ra các luật dễ hiểu
Cây quyết định có khả năng sinh ra các luật có thể chuyển đổi được sang dạng
tiếng Anh, hoặc các câu lệnh SQL, đây là ưu điểm nổi bật của kỹ thuật này. Thậm chí
với những tập dữ liệu lớn khiến cho hình dáng cây quyết định lớn và phức tạp, việc đi
theo bất cứ đường nào trên cây là dễ dàng theo nghĩa phổ biến và rõ ràng. Do vậy sự
giải thích cho bất cứ một sự phân lớp hay dự đoán nào đều tương đối minh bạch.
- Khả năng thực thi trong những lĩnh vực hướng sử dụng luật:
SVTH: Nguyễn Ngọc Tri


15


Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

Luật quy nạp nói chung và cây quyết định nói riêng là lựa chọn hồn hảo cho
những lĩnh vực mang tính quy tắc. Rất nhiều lĩnh vực từ di truyền tới các quá trình
cơng nghiệp thực sự chứa các quy tắc ẩn, khơng rõ ràng (underlying rules) do khá
phức tạp và tối nghĩa bởi những dữ liệu lỗi, nhiễu.
Cây quyết định là một sự lựa chọn tự nhiên khi chúng ta nghi ngờ sự tồn tại của
các quy tắc ẩn, không rõ ràng.
- Dễ dàng tính tốn trong khi phân lớp:
Mặc dù như chúng ta đã biết, cây quyết định có thể chứa nhiều định dạng, nhưng
trong thực tế, các thuật toán sử dụng để tạo ra cây quyết định thường tạo ra những cây



với số phân nhánh thấp và các test đơn giản tại từng node. Những test điển hình là: so

H

U

sánh số, xem xét phần tử của một tập hợp, và các phép nối đơn giản. Khi thực thi trên

TẾ


máy tính, những test này chuyển thành các toán hàm logic và số ngun là những tốn

N
H

hạng thực thi nhanh và khơng đắt. Đây là một ưu điểm quan trọng bởi trong mơi
trường thương mại, các mơ hình dự đốn thường được sử dụng để phân lớp hàng triệu

KI

thậm trí hàng tỉ bản ghi.


C

- Khả năng xử lý với cả thuộc tính liên tục và thuộc tính rời rạc:

H

Cây quyết định xử lý “tốt” như nhau với thuộc tính liên tục và thuộc tính rời rạc.

Đ

ẠI

Tuy rằng với thuộc tính liên tục cần nhiều tài ngun tính tốn hơn. Những thuộc tính

G

rời rạc đã từng gây ra những vấn đề với mạng neural và các kỹ thuật thống kê lại thực




N

sự dễ dàng thao tác với các tiêu chuẩn phân chia (splitting criteria) trên cây quyết định:

Ư

mỗi nhánh tương ứng với từng phân tách tập dữ liệu theo giá trị của thuộc tính được

TR

chọn để phát triển tại node đó. Các thuộc tính liên tục cũng dễ dàng phân chia bằng
việc chọn ra một số gọi là ngưỡng trong tập các giá trị đã sắp xếp của thuộc tính đó.
Sau khi chọn được ngưỡng tốt nhất, tập dữ liệu phân chia theo test nhị phân của
ngưỡng đó.
- Thể hiện rõ ràng những thuộc tính tốt nhất:
Các thuật tốn xây dựng cây quyết định đưa ra thuộc tính mà phân chia tốt nhất
tập dữ liệu đào tạo bắt đầu từ node gốc của cây. Từ đó có thể thấy những thuộc tính
nào là quan trọng nhất cho việc dự đoán hay phân lớp.

SVTH: Nguyễn Ngọc Tri

16


Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang


5.5.2. Nhược điểm của cây quyết định
Dù có những sức mạnh nổi bật trên, cây quyết định vẫn khơng tránh khỏi có những
nhược điểm. Đó là cây quyết định khơng thích hợp lắm với những bài toán với mục tiêu là
dự đoán giá trị của thuộc tính liên tục như thu nhập, huyết áp hay lãi suất ngân hàng…
Cây quyết định cũng khó giải quyết với những dữ liệu thời gian liên tục nếu không bỏ ra
nhiều công sức cho việc đặt ra sự biểu diễn dữ liệu theo các mẫu liên tục.
- Dễ xảy ra lỗi khi có quá nhiều lớp
Một số cây quyết định chỉ thao tác với những lớp giá trị nhị phân dạng yes/no
hay accept/reject. Số khác lại có thể chỉ định các bản ghi vào một số lớp bất kỳ, nhưng



dễ xảy ra lỗi khi số ví dụ huấn luyện ứng với một lớp là nhỏ. Điều này xảy ra càng

H

U

nhanh hơn với cây mà có nhiều tầng hay có nhiều nhánh trên một node.

TẾ

- Chi phí tính tốn đắt để huấn luyện

N
H

Điều này nghe có vẻ mâu thuẫn với khẳng định ưu điểm của cây quyết định ở


KI

trên. Nhưng quá trình phát triển cây quyết định đắt về mặt tính tốn. Vì cây quyết định


C

có rất nhiều node trong trước khi đi đến lá cuối cùng. Tại từng node, cần tính một độ
đo (hay tiêu chuẩn phân chia) trên từng thuộc tính, với thuộc tính liên tục phải thêm

ẠI

H

thao tác sắp xếp lại tập dữ liệu theo thứ tự giá trị của thuộc tính đó. Sau đó mới có thể

Đ

chọn được một thuộc tính phát triển và tương ứng là một phân chia tốt nhất.

G

Một vài thuật tốn sử dụng tổ hợp các thuộc tính kết hợp với nhau có trọng số để



N

phát triển cây quyết định. Quá trình cắt tỉa cây cũng “đắt” vì nhiều cây con ứng cử


Ư

phải được tạo ra và so sánh.

Xây dựng cây quyết định

TR

5.6.

Quá trình xây dựng cây quyết định [8][10] gồm hai giai đoạn:
- Giai đoạn thứ nhất: phát triển cây quyết định. Giai đoạn này phát triển bắt đầu
từ gốc, đến từng nhánh và phát triển quy nạp theo cách thức chia để trị cho tới khi đạt
được cây quyết định với tất cả các lá được gán nhãn lớp.
- Giai đoạn thứ hai: cắt, tỉa bớt các nhánh trên cây quyết định. Giai đoạn này
nhằm mục đích đơn giản hóa và khái quát hóa từ đó làm tăng độ chính xác của cây
quyết định bằng cách loại bỏ sự phụ thuộc vào mức độ nhiễu, lỗi của dữ liệu huấn
luyện mang tính chất thống kê, hay những sự biến đổi mà có thể là đặc tính riêng biệt
của dữ liệu huấn luyện. Giai đoạn này chỉ truy cập dữ liệu trên cây quyết định đã được
SVTH: Nguyễn Ngọc Tri

17


Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

phát triển trong giai đoạn trước và quá trình thực nghiệm cho thấy giai đoạn này khơng
tốn nhiều tài ngun tính tốn, như với phần lớn các thuật toán, giai đoạn này chiếm

khoảng dưới 1% tổng thời gian xây dựng mơ hình phân lớp.
Do vậy, ở đây chỉ tập trung vào nghiên cứu giai đoạn phát triển cây quyết định.
Dưới đây là khung công việc của giai đoạn này:
- Bước 1: Chọn thuộc tính “tốt” nhất bằng một độ đo đã định trước.
- Bước 2: Phát triển cây bằng việc thêm các nhánh tương ứng với từng giá trị của
thuộc tính đã chọn.
- Bước 3: Sắp xếp, phân chia tập dữ liệu huấn luyện tới node con.



- Bước 4: Nếu các ví dụ được phân lớp rõ ràng thì dừng. Ngược lại: lặp lại bước

H

Đánh giá độ chính xác của mơ hình phân lớp

TẾ

5.7.

U

1 tới bước 4 cho từng node con.

N
H

Ước lượng độ chính xác của bộ phân lớp là quan trọng ở chỗ nó cho phép dự
đốn được độ chính xác của các kết quả phân lớp những dữ liệu tương lai. Độ chính



C

KI

xác cịn giúp so sánh các mơ hình phân lớp khác nhau.
Cross-validation là một phương pháp thống kê đánh giá và so sánh các thuật toán

ẠI

H

học bằng cách chia dữ liệu thành hai phân đoạn: một phân đoạn sử dụng để huấn luyện

Đ

một mơ hình và phân đoạn khác được sử dụng để xác thực mơ hình đó.

G

Cross-validation dùng để ước tính hiệu suất của mơ hình học được từ dữ liệu có



N

sẵn bằng cách sử dụng một thuật tốn. Nói cách khác, để đánh giá tổng qt một thuật

Ư


tốn. Cross-validation cịn dùng để so sánh hiệu suất của hai hoặc nhiều hơn các thuật

TR

toán khác nhau và đưa ra thuật tốn tốt nhất cho các dữ liệu có sẵn, hoặc cách khác để
so sánh hiệu suất của hai hoặc nhiều hơn các biến thể của một mơ hình tham số.
Phương pháp k-fold cross-validation: Tập dữ liệu ban đầu được chia ngẫu nhiên
thành k tập con (fold) có kích thước xấp xỉ nhau S1, S2…, Sk. Quá trình học và test
được thực hiện k lần. Tại lần lặp thứ i, Si là tập dữ liệu kiểm tra, các tập cịn lại hợp
thành tập dữ liệu huấn luyện. Có nghĩa là, đầu tiên việc dạy được thực hiện trên các
tập S2, S3,…, Sk, sau đó test trên tập S1; tiếp tục quá trình dạy được thực hiện trên tập
S1, S3, S4,…, Sk, sau đó test trên tập S2; và cứ thế tiếp tục cho các tập cịn lại.
Độ chính xác là toàn bộ số phân lớp đúng từ k lần lặp chia cho tổng số mẫu của
tập dữ liệu ban đầu.

SVTH: Nguyễn Ngọc Tri

18


Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

Learning
Algorithm

SPLIT

Classifier

DATASET

ESTIMATE

Hình 1.5: k-fold cross – validation [9]

6. Giới thiệu phần mềm WEKA



Giới thiệu chung

U

6.1.

H

- WEKA (Waitako Environment for Knowledge Analysis) là một phần mềm học

TẾ

máy được đại học Waitako, New Zealand phát triển bằng Java, phục vụ cho lĩnh vực

N
H

học máy và khai thác dữ liệu.

KI


- Các tính năng chính:


C

+ Một tập các công cụ tiền xử lý dữ liệu, các giải thuật học máy, khai phá dữ

ẠI

+ Giao diện đồ họa

H

liệu, và các phương pháp thí nghiệm đánh giá.

Đ

+ Mơi trường cho phép so sánh các giải thuật học máy và khai thác dữ liệu.

TR

Ư



N

G


- Có thể tải về từ đường dẫn: />
Hình 1.6: Giao diện cửa sổ phần mềm WEKA
SVTH: Nguyễn Ngọc Tri

19


×