Ứng dụng khai phá dữ liệu để dự báo điểm chuyên ngành của sinh viên chuyên ngành tin học kinh tế trường đại học kinh tế huế

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.33 MB, 71 trang )

ĐẠI HỌC HUẾ
ĐẠI HỌC KINH TẾ HUẾ
KHOA HỆ THỐNG THÔNG TIN KINH TẾ

TẾ

H

U

Ế

----------

KI

N
H

KHÓA LUẬN TỐT NGHIỆP
Ọ
C

Ứng dụng khai phá dữ liệu để dự báo điểm chuyên ngành

ẠI

H

của sinh viên chuyên ngành Tin học Kinh tế

TR

Ư

Ờ

N

G

Đ

Trường Đại học Kinh tế Huế

TRƯƠNG VĂN QUỐC ANH

KHÓA HỌC: 2014-2018

ĐẠI HỌC HUẾ
ĐẠI HỌC KINH TẾ HUẾ
KHOA HỆ THỐNG THÔNG TIN KINH TẾ

N
H

TẾ

H

U

Ế

----------

Ọ
C

KI

KHÓA LUẬN TỐT NGHIỆP
H

Ứng dụng khai phá dữ liệu để dự báo điểm chuyên ngành

Đ

ẠI

của sinh viên chuyên ngành Tin học Kinh tế

TR

Ư

Ờ

N

G

Trường Đại học Kinh tế Huế

Sinh viên thực hiện:

Giảng viên hướng dẫn:

Trương Văn Quốc Anh

Th.S Mai Thu Giang

Lớp: K48B THKT
Niên khóa: 2010-2014

Huế, 2018
i

Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

Lời Cảm Ơn

Lời đầu tiên, em xin gửi lời cảm ơn sâu sắc đến quý thầy cô giáo trường
Đại học Kinh tế Huế và đặc biệt là quý thầy cô Khoa Hệ thống Thông tin Kinh tế
đã truyền dạy cho em nhiều kiến thức và kinh nghiệm quý báu trong suốt quá
trình học tập tại trường cũng như tạo điều kiện và hỗ trợ cho em hoàn thành đề
tài.

H

U

Ế

Em xin gửi lời cảm ơn chân thành đến thạc sĩ Mai Thu Giang, cô đã tận
tình truyền dạy kinh nghiệm cũng như kiến thức quý báu và hỗ trợ em hết mình
trong suốt quá trình thực hiện đề tài. Cô đã giúp đỡ em rất nhiều từ việc lên ý
tưởng đề tài ban đầu cho đến hướng dẫn thực hiện đề tài và sau đó góp ý để đề tài
hoàn thành tốt nhất có thể.

N
H

TẾ

Em cũng xin gửi lời cảm ơn đến phòng Đào tạo Đại học đã cung cấp cơ sở
dữ liệu ban đầu cũng như các điều kiện thuận lợi khác để em hoàn thành tốt đề
tài.

H

Ọ
C

KI

Cuối cùng em xin gửi lời cảm ơn chân thành đến bố mẹ, người thân và bạn

bè đã khích lệ động viên em trong suốt thời gian qua để em có thể hoàn thành tốt
đề tài.

N

G

Đ

ẠI

Mặc dù đã có nhiều cố gắng, nhưng do thời gian, kĩ năng bản thân còn
nhiều hạn chế nên không thể tránh khỏi những sai sót, mong quý thầy, cô và các
bạn đóng góp, chỉ bảo để đề tài có thể hoàn thiện hơn.

TR

Ư

Ờ

Em xin chân thành cảm ơn!
Huế, 4 năm 2018
Sinh viên

i

Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang
MỤC LỤC

LỜI CẢM ƠN...................................................................................................................i
MỤC LỤC ..................................................................................................................... ii
DANH MỤC HÌNH VẼ ................................................................................................ iv
DANH MỤC BẢNG BIỂU ........................................................................................... vi
PHẦN I. ĐẶT VẤN ĐỀ.................................................................................................1
1. Lí do chọn đề tài ..........................................................................................................1
2. Mục tiêu nghiên cứu....................................................................................................1

Ế

3. Đối tượng nghiên cứu..................................................................................................1

U

4. Phạm vi nghiên cứu .....................................................................................................2

TẾ

H

5. Phương pháp nghiên cứu.............................................................................................2
6. Cấu trúc khóa luận ......................................................................................................2

N
H

PHẦN II. NỘI DUNG VÀ KẾT QUẢ NGHIÊN CỨU ..............................................4

KI

CHƯƠNG 1 CƠ SỞ LÝ LUẬN....................................................................................4

Ọ
C

1.1 Tổng quan về khai phá dữ liệu ..................................................................................4

H

1.1.1 Khái niệm ................................................................................................................4

Đ

ẠI

1.1.2 Quá trình khai phá dữ liệu ......................................................................................4

G

1.2 Khai phá dữ liệu giáo dục .........................................................................................5

N

1.3 Các phương pháp khai phá dữ liệu ...........................................................................5

Ư

Ờ

1.3.1 Mạng nơ ron (neural) ..............................................................................................5

TR

1.3.2 Cây quyết định (J48) .............................................................................................10
1.3.3 K - lân cận .............................................................................................................14
1.3.4 Support Vector Machine .......................................................................................16
1.3.5 Naïve Bayes ..........................................................................................................17
1.4 Đánh giá độ chính xác của mô hình phân lớp bằng phương pháp K-fold cross
validation .......................................................................................................................18
1.5 Trích chọn thuộc tính trong khai phá dữ liệu ..........................................................19
1.6 Phương pháp đánh giá.............................................................................................20
1.6.1 Độ chính xác (Accuracy) ......................................................................................20
1.6.2 Precision và Recall................................................................................................21

ii

Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

1.6.3 Gain – Lift chart....................................................................................................22
1.6.4 Root Means Square Error .....................................................................................22
1.6.5 Receiver Operator Characteristic (ROC) ..............................................................23
1.7 Giới thiệu phần mềm Weka ...................................................................................24
1.7.1 Giới thiệu chung ...................................................................................................24
1.7.2 Môi trường Explorer .............................................................................................25

CHƯƠNG 2. TỔNG QUAN KHAI PHÁ DỮ LIỆU GIÁO DỤC VÀ ĐỀ XUẤT
MÔ HÌNH NGHIÊN CỨU ĐỐI VỚI TRƯỜNG ĐẠI HỌC KINH TẾ HUẾ .......27
2.1 Các nghiên cứu liên quan ........................................................................................27

U

Ế

2.2 Mô tả bài toán .........................................................................................................37

H

2.3 Quy trình nghiên cứu ..............................................................................................40

TẾ

CHƯƠNG 3. ỨNG DỤNG WEKA TRONG DỰ BÁO ĐIỂM CHUYÊN NGÀNH

N
H

TIN HỌC KINH TẾ ....................................................................................................41

KI

3.1 Mô tả thí nghiệm .....................................................................................................41

Ọ
C

3.2 Kết quả thí nghiệm ..................................................................................................47

H

3.3 Lưu và sử dụng mô hình dự báo .............................................................................56

Đ

ẠI

PHẦN III. KẾT LUẬN VÀ ĐỀ XUẤT......................................................................60

G

1. Kết luận .....................................................................................................................60

Ờ

N

2. Đề xuất phát triển ......................................................................................................61

TR

Ư

DANH MỤC TÀI LIỆU THAM KHẢO ...................................................................62

iii

Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

DANH MỤC HÌNH VẼ
Hình 1 . 1 Cấu trúc một nơ ron (neural) ................................................................ 6
Hình 1 . 2 Mô hình mạng nơ ron truyền thẳng...................................................... 7
Hình 1 . 3 Mô hình mạng nơ ron hồi quy.............................................................. 7
Hình 1 . 4 Kiến trúc hai chiều của mạng Kohonen ............................................. 10
Hình 1 . 5 Mô hình cây quyết định...................................................................... 11
Hình 1 . 6 Thuật toán K-NN................................................................................ 15

Ế

Hình 1 . 7 Mặt phân tách phi tuyến tính trong không gian giả thuyết có thể trở
thành một siêu phẳng trong không gian đặc trưng .............................................. 17

H

U

Hình 1 . 8 Cross-validation với 5-fold ................................................................ 19

TẾ

Hình 1 . 9 Precision và Recall ............................................................................. 21

N
H

Hình 1 . 10 Biểu đồ Lift-chart ............................................................................. 22

KI

Hình 1 . 11 Biểu đồ Root Means Square Error ................................................... 23

Ọ
C

Hình 1 . 12 Đồ thị ROC....................................................................................... 24

H

Hình 1 . 13 Cửa sổ chính của Weka .................................................................... 25

ẠI

Hình 1 . 14 Môi trường Explorer ........................................................................ 26

Đ

Hình 2 . 1 Trường Đại học Kinh tế Huế.............................................................. 38

N

G

Hình 2 . 2 Chương trình đào tạo chuyên ngành Tin học Kinh tế. ....................... 39

Ư

Ờ

Hình 2 . 3 Sơ đồ quy trình nghiên cứu ................................................................ 40

TR

Hình 3 . 1 Dữ liệu thô ban đầu ............................................................................ 41
Hình 3 . 2 Giá trị trống được đánh dấu ............................................................... 42
Hình 3 . 3 Dữ liệu sau quá trình tiền xử lý .......................................................... 42
Hình 3 . 4 Dữ liệu sau khi tải lên weka ............................................................... 44
Hình 3 . 5 Loại bỏ những trường dữ liệu dư thừa ............................................... 44
Hình 3 . 6 Thiết lập trích chọn thuộc tính quan trọng ......................................... 45
Hình 3 . 7 Các thuộc tính quan trọng được chọn ra ............................................ 46
Hình 3 . 8 Huấn luyện mô hình mạng nơ ron...................................................... 46
Hình 3 . 9 Kết quả huấn luyện mô hình .............................................................. 47
Hình 3 . 10 Lưu mô hình dự báo ......................................................................... 47
iv

Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

Hình 3 . 11 Lưu mô hình vào tập tin ................................................................... 56
Hình 3 . 12 Tải mô hình vào bộ nhớ ................................................................... 56
Hình 3 . 13 Chọn tập dữ liệu cần dự báo ............................................................ 57
Hình 3 . 14 Thiết lập thông số ............................................................................. 58
Hình 3 . 15 Sử dụng mô hình để dự báo cho bộ dữ liệu mới .............................. 58

TR

Ư

Ờ

N

G

Đ

ẠI

H

Ọ
C

KI

N
H

TẾ

H

U

Ế

Hình 3 . 16 Kết quả dự báo điểm học phần với mô hình cây quyết định ........... 58

v

Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

DANH MỤC BẢNG BIỂU
Bảng 1 Các thuộc tính được trích chọn ............................................................... 47
Bảng 2 Kết quả huấn luyện bằng mô hình mạng nơ ron..................................... 52

TR

Ư

Ờ

N

G

Đ

ẠI

H

Ọ
C

KI

N
H

TẾ

H

U

Ế

Bảng 3 Kết quả huấn luyện bằng mô hình cây quyết định. ................................ 54

vi

Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

PHẦN I. ĐẶT VẤN ĐỀ
1. Lí do chọn đề tài
Xã hội ngày càng phát triển, nhu cầu học tập cũng tăng lên, kéo theo đó là số

lượng sinh viên cũng tăng theo, tạo nên một khối lượng dữ liệu lớn cần phải xử lý. Bên
cạnh đó hầu hết các trường đại học, cao đẳng đã chuyển sang đào tạo theo cơ chế tín
chỉ, tạo điều kiện cho mỗi sinh viên tự đưa ra kế hoạch học tập phù hợp cho bản thân
để đạt được kết quả cao nhất, cũng như phù hợp với xu thế phát triển. Tuy nhiên, cơ
chế đào tạo tín chỉ chỉ mang lại hiệu quả cao khi sinh viên lựa chọn cho mình đúng

Ế

phương pháp, hế hoạch học tập phù hợp với năng lực của bản thân, ngược lại sẽ làm

H

U

cho sinh viên có kết quả học tập không đạt mong đợi. Đây là khó khăn cho cả sinh

TẾ

viên và nhà trường.

N
H

Trên thế giới, đã có rất nhiều trường đại học đã áp dụng khai phá dữ liệu vào
lĩnh vực giáo dục và không thể phủ nhận được lợi ích mà nó mang lại. Nhưng tại Việt

KI

Nam thì khai phá dữ liệu là một khái niệm còn khá mới và chưa thực sự được áp dụng

Ọ
C

nhiều, nhất là đối với lĩnh vực giáo dục. Thiết nghĩ, đây là một công cụ có tính thực

H

tiễn và khoa học cao cần được áp dụng vào lĩnh vực giáo dục để từng bước cải thiện

Đ

ẠI

chất lượng giáo dục và đào tạo nước nhà. Trường Đại học Kinh tế, Đại học Huế cũng

G

không nằm ngoài xu thế đó. Với bề dày hơn 45 năm xây dựng và phát triển, trường

Ờ

N

Đại học Kinh tế, Đại học Huế đã đào tạo ra nguồn lực lao động chất lượng cao dồi

Ư

dào, phục vụ xây dựng và phát triển nước nhà.

TR

Trước thực tế đó, tôi đề xuất đề tài nghiên cứu cho khóa luận tốt nghiệp: “Ứng
dụng khai phá dữ liệu để dự báo điểm chuyên ngành của sinh viên chuyên ngành Tin
học Kinh tế, Trường Đại học Kinh tế Huế”.

2. Mục tiêu nghiên cứu
Tìm hiểu các kỹ thuật khai phá dữ liệu, áp dụng các kỹ thuật khai phá dữ liệu
trong phân tích số liệu, xây dựng mô hình dự đoán đưa ra các dự báo về kết quả học
tập các học phần chuyên ngành cho sinh viên chuyên ngành Tin học Kinh tế.

3. Đối tượng nghiên cứu
Các phương pháp khai phá dữ liệu.

SVTH: Trương Văn Quốc Anh

1

Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

Đối tượng điều tra là điểm của sinh viên chuyên ngành Tin học Kinh tế thuộc
khoa Hệ thống Thông tin Kinh tế Trường Đại học Kinh tế Huế, từ khóa K43 đến K47.
Cơ sở dữ liệu điểm này được thu thập từ cơ sở dữ liệu được quản lý bởi Phòng
Đào tạo trường Đại học Kinh tế Huế với số mẫu ban đầu là 253 bản ghi.
Đề tài sử dụng dữ liệu điểm của 8 học phần đại cương bao gồm Toán cao cấp 1,
Toán cao cấp 2, Những nguyên lý cơ bản của chủ nghĩa Mác-Lenin 1, Những nguyên
lý cơ bản của chủ nghĩa Mác-Lenin 2, Lý thuyết xác xuất thống kê toán, Kinh tế vi mô,
Pháp luật đại cương, Tin học đại cương để dự báo cho 11 học phần của chuyên ngành

Tin học Kinh tế bao gồm Cơ sở dữ liệu, Cơ sở lập trình, Cấu trúc dữ liệu giải thuật,

U

Ế

Hoạch định nguồn lực doanh nghiệp ERP, Hệ thống thông tin quản lý, Kiến trúc máy

TẾ

H

tính và hệ điều hành, Lập trình hướng đối tượng, Lập trình ứng dụng trong quản lý,
Mạng và truyền thông, Phát triển hệ thống thông tin kinh tế và Toán rời rạc.

N
H

4. Phạm vi nghiên cứu

KI

Thời gian: đề tài được thực hiện trong khoảng thời gian 1/2018 đến 4/2018.

Ọ
C

Không gian: tại trường Đại học Kinh tế Huế.

H

Công cụ thực hiện: phần mềm khai phá dữ liệu Weka.

Đ

ẠI

5. Phương pháp nghiên cứu

G

Đề tài sử dụng cơ sở dữ liệu điểm của sinh viên, tiến hành quá trình tiền xử lý,

Ờ

N

chuẩn hóa dữ liệu. Tìm hiểu công cụ trích chọn thuộc tính của Weka và áp dụng nó

Ư

vào dữ liệu điểm đã được chuẩn hóa. Từ đó nghiên cứu và áp dụng kỹ thuật phân lớp

TR

mạng nơ ron và cây quyết định để xây dựng mô hình dự báo kết quả học tập của sinh
viên dựa trên cơ sở dữ liệu điểm đã chuẩn hóa. Tiến hành so sánh các kết quả và đưa
ra kết luận.

6. Cấu trúc khóa luận

Khóa luận bao gồm các phần sau:
Phần I. Đặt vấn đề
Phần II. Nội dung và kết quả nghiên cứu
Chương 1: Cơ sở lý luận
Trình bày kiến thức tổng quan về khai phá dữ liệu, định nghĩa, quá trình khai phá
dữ liệu, khái quát các kĩ thuật được áp dụng để khai phá dữ liệu, các phương pháp

SVTH: Trương Văn Quốc Anh

2

Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

đánh giá độ chính xác cũng như cải thiện độ chính xác của mô hình. Giới thiệu tổng
quan về phần mềm và các môi trường của Weka.
Chương 2: Tổng quan nghiên cứu khai phá dữ liệu giáo dục và đề xuất mô hình
đối với Trường Đại học Kinh tế Huế
Trình bày khái quát các nghiên cứu liên quan đến đề tài. Mô tả bài toán cần giải
quyết và quy trình nghiên cứu bài toán.
Chương 3: Ứng dụng Weka trong dự báo điểm chuyên ngành Tin học Kinh tế
Mô tả các bước tiến hành thí nghiệm. Chuẩn hóa nguồn dữ liệu thô ban đầu và sử
dụng nguồn dữ liệu điểm đã chuẩn hóa đó để tiến hành trích chọn thuộc tính và huấn

TR

Ư

Ờ

N

G

Đ

ẠI

H

Ọ
C

KI

N
H

TẾ

Phần III. Kết luận và đề xuất

H

kết quả đạt được, so sánh kết quả và đưa ra nhận xét.

U

Ế

luyện mô hình, tìm ra mô hình dự báo có độ dự báo chính xác cao nhất. Trình bày các

SVTH: Trương Văn Quốc Anh

3

Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

PHẦN II. NỘI DUNG VÀ KẾT QUẢ NGHIÊN CỨU
CHƯƠNG 1 CƠ SỞ LÝ LUẬN
1.1 Tổng quan về khai phá dữ liệu
1.1.1 Khái niệm
Khai phá dữ liệu được hiểu là quá trình khám phá tri thức từ một nguồn dữ liệu
hoặc là quá trình rút ra các mẫu hay các tri thức quan trọng từ một nguồn dữ liệu từ
nhỏ đến rất lớn. [1]

1.1.2 Quá trình khai phá dữ liệu

U

Ế

Nghiên cứu lĩnh vực: đây là bước khá quan trọng vì khi đã nghiên cứu rõ lĩnh

H

vực mà ta muốn khai phá thì chúng ta có thể chắc lọc ra những tri thức mà chúng ta

TẾ

mong muốn từ đó có thể tránh được việc mất thời gian cho những thao tác không cần

N
H

thiết.

KI

Xây dựng dữ liệu đầu vào: thu thập và xây dựng nguồn dữ liệu ban đầu để chuẩn

Ọ
C

bị cho quá trình khai phá.

H

Tiền xử lý, mã hóa, làm sạch dữ liệu: trong bước này ta tiến hành bỏ đi những dữ

Đ

dữ liệu và mã hóa chúng.

ẠI

liệu dư thừa hay không cần thiết cho việc khai phá tri thức cũng như chỉnh sửa cấu trúc

N

G

Rút gọn số chiều: nếu một tập dữ liệu có lượng chiều lớn thì nó sẽ sinh ra một

Ờ

khối lượng dữ liệu lớn, gây khó khăn để rút ra được những tri thức có ích. Chúng ta có

TR

Ư

thể sử dụng công cụ Rough set để giảm bớt số chiều không cần thiết.
Chọn các tác vụ khai phá dữ liệu: để có được những tri thức mà ta cần từ dữ liệu
thì cần phải chọn tác vụ sao cho phù hợp. Một số tác vụ khai phá tri thức: đặc trưng
(feature), phân biệt (discrimination), luật kết hợp (association), phân lớp
(classification), phân cụm (clusterity), xu thế (trend analysis), phân tích độ lệch, phân
tích hiếm.
Chọn các giải thuật khai phá dữ liệu.
Tiến hành khai phá dữ liệu từ nguồn dữ liệu đã chuẩn bị: sau khi thực hiện các
bước trên ta tiến hành khai phá tri thức từ nguồn dữ liệu đã chuẩn bị.

SVTH: Trương Văn Quốc Anh

4

Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

Đánh giá các mẫu tìm được: sau khi khai phá dữ liệu thì ta cần đánh giá, xem xét
lại những tri thức thu được, những tri thức nào có thể dùng, những tri thức nào dư
thừa, không cần thiết.
Biểu diễn tri thức: biểu diễn những tri thức đó bằng hình thức nào đó cụ thể, dễ
hiểu sao cho người dùng có thể dễ dàng sử dụng được.
Sử dụng các tri thức vừa khai phá được. [2]

1.2 Khai phá dữ liệu giáo dục
Khai phá dữ liệu đã được áp dụng ở hầu hết mọi lĩnh vực trong cuộc sống như:
kinh tế, y tế, giáo dục. Khai phá dữ liệu trong lĩnh vực giáo dục có tính thực tiễn khá

U

Ế

cao tuy nhiên vẫn chưa được quan tâm, chú trọng đúng mức. Đây là một công cụ có

H

tính khoa học và thực tế cao cho phép chúng ta sử dụng nguồn dữ liệu từ nhà trường

TẾ

hay các cơ sở giáo dục để nâng cao chất lượng giáo dục, cụ thể là đưa ra các dự đoán

N
H

phục vụ cho việc ra kế hoạch, phương hướng đào tạo phù hợp cho học sinh, sinh viên.

KI

Đồng thời khai phá dữ liệu trong giáo dục còn là một công cụ hỗ trợ đắc lực cho giáo

Ọ
C

viên cố vấn đưa ra những tư vấn, lời khuyên kịp thời đến học sinh, sinh viên, từ đó

H

điều chỉnh lộ trình, phương pháp học tập để đạt được kết quả học tập cao nhất.

Đ

ẠI

1.3 Các kỹ thuật phân lớp trong khai phá dữ liệu

G

1.3.1 Mạng nơ ron (neural)

Ờ

N

Khái niệm mạng nơ ron nhân tạo

Ư

Mạng nơ ron được giới thiệu năm 1943 bởi Warren McCulloch và Walter Pits.

TR

Mạng nơ ron được hiểu là một sự mô phỏng quá trình xử lý thông tin, được nghiên cứu
từ hệ thống thần kinh của sinh vật, giống như não bộ người để xử lý thông tin. Một
mạng nơ ron sẽ bao gồm một lượng lớn các mối gắn kết cao cấp để xử lý các yếu tố
làm việc trong mối liên hệ giải quyết công việc. Cơ chế hoạt động của mạng nơ ron
tương đối giống con người, học hỏi và rút ra kinh nghiệm sau đó lưu giữ lại những
kinh nghiệm đó để sử dụng cho lần sau. [3]
Trong một mạng nơ ron sẽ bao gồm nhiều nơ ron nhân tạo riêng biệt làm cơ sở
đối với hoạt động của cả một mạng nơ ron. Một tập các kết nối đầu vào khác nhau xi ,

SVTH: Trương Văn Quốc Anh

5

Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

mỗi đầu vào sẽ được đánh một trọng số wki. Chỉ số đầu tiên chỉ tới nơ ron đang được

nói đến, chỉ số thứ hai chỉ tới đầu vào của tiếp hợp mà chỉ số đó có liên quan.
Sẽ có một bộ cộng thực hiện tính toán các tín hiệu đầu vào xi và tính bằng cường
độ tiếp hợp tương đối wi. Việc tính toán này sẽ tạo ra một tổ hợp tuyến tính, một hàm
hoạt động f sẽ thực hiện nhiệm vụ giới hạn biên độ đầu ra yk của một nơ ron.
Thêm vào một độ nghiêng áp dụng bên ngoài định nghĩa là b. Độ nghiêng này có
chức năng làm tăng lên hay giảm xuống đầu vào mạng của hàm hoạt động, phụ thuộc

Ọ
C

KI

N
H

TẾ

H

U

Ế

vào giá trị của nó là âm hay dương.

H

Hình 1 . 1 Cấu trúc một nơ ron (neural)

Đ

G

xi: các tín hiệu input

ẠI

Với

N

wkp: trọng số của từng input

Ư

Ờ

f(.): hàm hoạt động

TR

yk: kết xuất của Neural
b: thông số ảnh hưởng đến ngưỡng ra của output

Cấu trúc của mạng nơ ron nhân tạo
Cấu trúc của một mạng nơ ron nhân tạo phụ thuộc vào đặc điểm của mỗi nơ ron
(nút) và đặc điểm kết nối giữa các nút đó với nhau tạo thành một mạng như thế nào.
Kiến trúc mạng sẽ được xác định bằng số đầu vào và đầu ra của mạng, toàn bộ
các nút cơ sở thường bằng các phần tử xử lý cho mạng, hình thức tổ chức hay sự kết
nối của chúng. Nhìn chung, mạng nơ ron được chia thành hai loại là: mạng truyền

thẳng và mạng hồi quy.

SVTH: Trương Văn Quốc Anh

6

Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

Hình 1 . 2 Mô hình mạng nơ ron truyền thẳng
Một mạng nơ ron được gọi là truyền thẳng nếu các kết nối từ đầu vào cho đến

U

Ế

đầu ra đi theo một hướng thống nhất, không có liên kết lặp lại hoặc ngược lại.

H

Mạng nơ ron được gọi là hồi quy trong trường hợp các thông tin được đưa vào

TẾ

mạng, các chuỗi đầu ra có ý nghĩa quan trọng và chúng ta cần mạng nơ ron lưu trữ lưu

N
H

giữ lại một bản ghi của các thông tin đầu vào sau đó khuếch đại chúng lên với dữ liệu

TR

Ư

Ờ

N

G

Đ

ẠI

H

Ọ
C

KI

hiện thời để sinh ra kết quả.

Hình 1 . 3 Mô hình mạng nơ ron hồi quy
Ngoài hai mô hình mạng nơ ron nói trên còn có rất nhiều mô hình mạng nơ ron
khác nữa nhưng nhìn chung, mô hình mạng nơ ron truyền thẳng và hồi quy là hai mô
hình được biết đến và sử dụng rộng rãi nhất.

SVTH: Trương Văn Quốc Anh

7

Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

Huấn luyện mạng nơ ron
Phương pháp học: cơ chế hoạt động của mạng nơ ron là phỏng theo cơ chế xử
lý thông tin của não bộ người, do đó đặc trưng của phương pháp này là nó có khả năng
học, khả năng vận dụng những hình ảnh, thông tin đã học. Khi ở trạng thái học, thông
tin sẽ được lan truyền theo hai chiều với nhiều lần để học các trọng số. Mạng nơ ron
có 3 phương thức học chính, mỗi phương thức phương thức lại có mỗi đặc trưng riêng.
Đó là học có giám sát, học không không giám sát và học củng cố.
Học có giám sát: trong phương thức học này không thể thiếu một “người thầy”.
Người thầy này có các tri thức về môi trường bên ngoài và được thể hiện bằng một tập

U

Ế

hợp các cặp đầu vào, đầu ra đã biết trước. Mạng nơ ron sẽ tự tìm cách để thay đổi các

H

trọng số hay các ngưỡng của mình để tạo nên một ánh xạ có khả năng ánh xạ đầu vào

N
H

kết quả đầu ra thực sự và đầu ra mong muốn.

TẾ

thành đầu ra mong muốn. Quá trình thay đổi này được thực hiện dựa vào việc so sánh

KI

Học không giám sát: đối với học không có giám sát thì ta sẽ được cung cấp

Ọ
C

trước một số dữ liệu x và hàm chi phí cần cực tiểu hóa, nó có thể là một hàm bất kỳ

H

nào đó của dữ liệu x và đầu ra của mạng, f là hàm chi phí được quyết định bởi bài

G

thống kê, phân cụm, nén.

Đ

ẠI

toán. Các ứng dụng nằm trong ứng dụng của bài toán ước lượng như mô hình hóa

N

Học củng cố: học cũng cố cũng là một dạng học có giám sát, vì mạng vẫn nhận

Ư

Ờ

một số tín hiệu từ môi trường bên ngoài, nhưng tín hiệu phản hồi chỉ mang tính chất

TR

đánh giá hơn là mạng có tính chất chỉ dẫn. Nó cho biết mức độ tốt xấu của một đầu ra.
Tín hiệu củng cố ở môi trường bên ngoài sẽ được xử lý bằng máy phát tín hiệu để tạo
ra thêm một số thông tin tín hiệu đánh giá và sẽ được dùng để điều chỉnh các trọng số
với mục đích cuối cùng là đưa ra các tín hiệu đánh giá tốt hơn. Các bài toán khi được
giải quyết bằng việc học củng cố thì thường là các bài toán điều khiển hay các nhiệm
vụ quyết định tuần tự. [4]

Tiến trình học và nội dung học
Tiến trình học là tiến trình quan trọng đối với con người, nhờ học mà bộ não con
người tích lũy được kinh nghiệm để thích nghi và phản ứng với môi trường bên ngoài.
Mạng nơ ron cũng vậy, nhiệm vụ chính của nó là phải học một mô hình của môi

SVTH: Trương Văn Quốc Anh

8

Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

trường bên ngoài mà ở đó nó được nhúng vào và duy trì cho mô hình đó sao cho phù
hợp với thế giới bên ngoài để thu được kết quả xác định của ứng dụng liên quan.
Mạng nơ ron sử dụng các thông tin, mẫu dữ liệu từ môi trường bên ngoài hệ
thống để tiến hành học, được gọi là giá trị đầu vào. Khi giá trị đầu vào được đưa vào
mạng thì nó sẽ được đưa theo dòng chảy trong mạng để tạo thành giá trị đầu ra.
Ở giai đoạn tiếp theo sẽ diễn ra quá trình so sánh giữa các giá trị được tạo ra bởi
mạng nơ ron với giá trị đầu ra mà ta mong muốn. Sau khi so sánh, nếu hai giá trị này
giống nhau thì sẽ không có gì thay đổi, ngược lại nếu có một sai lệch nào đó giữa hai

U

từ đầu ra về đầu vào để tiến hành thay đổi một số kết nối.

Ế

giá trị này mà vượt quá giá trị sai số cho phép thì dòng chảy trong mạng sẽ quay ngược

H

Quá trình học này lặp đi lặp lặp lại một cách liên tục và sẽ không dừng lại cho tới

TẾ

khi tìm được các giá trị w sao cho các giá trị đầu ra tạo bởi mạng nơ ron bằng đúng

N
H

đầu ra mong muốn. Trong thực tế, người ta sẽ tạo một tiêu chuẩn sai số cho phép giữa

KI

hai giá trị này hay chỉ học dựa trên một số lần lặp cố định. [4]

Ọ
C

Một số kiểu mạng nơ ron nhân tạo

H

Mạng tổ chức (Kohonen feature maps): đây là một mạng nơ ron truyền thẳng

ẠI

sử dụng phương thức học giám sát bằng quá trình tự tổ chức, cấu hình các thông tin

G

Đ

đầu ra thành một sơ đồ hình học hoặc không gian. Mạng tổ chức được biểu diễn dưới

N

dạng “sơ đồ tự tổ chức” (SOM – Self organized maps). Nhiệm vụ của SOM là biến đổi

Ư

Ờ

các đầu vào có số chiều lớn, phức tạp thành sơ đồ có số chiều và độ phức tạp thấp hơn,

TR

thích hợp với việc phân tích theo cụm. Mạng SOM sẽ cấu trúc các nút đầu ra thành
cụm các nút, các nút ở gần nhau sẽ có độ tương thích cao hơn các nút ở xa.
Quan sát hình 1 . 4 có thể thấy quá trình học mang tính chất cạnh tranh giữa các
nút, các nút đầu ra cạnh tranh nhau để được chọn là nút hoạt hóa bởi sự quan sát đầu
vào đặc biệt.

SVTH: Trương Văn Quốc Anh

9

GVHD: Th.S Mai Thu Giang

U

Ế

Khóa luận tốt nghiệp

H

Hình 1 . 4 Kiến trúc hai chiều của mạng Kohonen

TẾ

Mạng nơ ron truyền thẳng đa tầng (Multilayer Perceptron): mạng nơ ron

N
H

truyển thẳng đa tầng là một trong những lớp quan trọng và được biết đến rộng rãi nhất

KI

trong các ứng dụng của mạng nơ ron. Mạng nơ ron này bao gồm một tập đầu vào tạo

Ọ
C

nên tầng đầu vào của mạng cũng với một tập các tầng ẩn chưa các nút xử lý và cuối

H

cùng là tầng đầu ra của các nút xử lý. Mạng nơ ron truyền thẳng đa tầng được ứng

ẠI

dụng để giải quyết nhiều bài toán khó thông qua việc huấn luyện bằng phương thức

Đ

học có giám sát.

N

G

1.3.2 Cây quyết định (J48)

Ư

Ờ

Khái niệm cây quyết định

TR

Cây quyết định được hiểu là một kiểu mô hình dự báo, nghĩa là một ánh xạ về
một sự vât hiện tượng tới kết luận về giá trị mục tiêu của sự vật hiện tượng. Mỗi nốt
trong cây quyết định tương ứng cho một biến, đường nối nó với nút con thể hiện giá trị
cụ thể của biến đó. Mỗi nút lá tượng trưng cho một giá trị dự đoán của biến mục tiêu,
được xác định bằng đường đi từ gốc tới nút lá đó. [5]
Học bằng cây quyết định là một phương pháp phổ biến trong khai phá dữ liệu.
Cây quyết định là kết quả của quá trình huấn luyện một tập dữ liệu với các bản ghi đã
có thuộc tính và được mô tả bằng cấu trúc dạng cây, mỗi nút lá đại diện cho cho các
phân loại và các cành liên kết sẽ đại diện cho các kết hợp thuộc tính để dẫn tới phân
loại đó.

SVTH: Trương Văn Quốc Anh

10

Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

Rút ra các tập luật từ cây quyết định
Dựa vào mô hình cây quyết định ta có thể rút ra các tập luật tương ứng bằng mô
hình dạng luật (IF…THEN…) hay chuyển đổi ngược lại giữa hai mô hình này vì

TẾ

H

U

Ế

chúng tương đương nhau.

N
H

Hình 1 - 5 Mô hình cây quyết định

Ọ
C

KI

Hình 1 . 5 Mô hình cây quyết định
Quan sát hình 1 . 5 ta có thể rút ra các tập luật sau.

ẠI

H

IF outlook = sunny AND humidity = high THEN playball = no

Đ

IF outlook = rain AND humidity = high THEN playball = no

N

G

IF outlook = rain AND wind = strong THEN playball = yes

Ờ

IF outlook = overcast THEN playball = yes

Ư

IF outlook = rain AND wind = weak THEN playball = yes

TR

Ưu điểm của cây quyết định
So với các phương pháp khai phá dữ liệu thì cây quyết định có một số ưu điểm
sau:
- Kết quả huấn luyện sẽ được biểu diễn dưới dạng cây tương đối dễ hiểu và dễ
dàng chuyển đổi thành các tập luật.
- Không đòi hỏi kiến thức chuyên sâu, dữ liệu cần khai phá chỉ cần xử lý ở mức
đơn giản, cây quyết định có thể xử lý ở cả dữ liệu rời rạc và dữ liệu liên tục.
- Cây quyết định nhìn chung cho ra tỉ lệ chính xác khá cao và có thể tiến hành và
có thể thẩm định lại bằng kiểm tra thống kê.

SVTH: Trương Văn Quốc Anh

11

Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

Cách thức hoạt động của cây quyết định
Đầu vào: tập D chứa dữ liệu huấn luyện.
Đầu ra: cây quyết định.
Đầu tiên giải thuật sẽ tạo ra một nút N để diễn tả tập dữ liệu D, trong trường
hợp D có toàn bộ dữ liệu có chung một nhãn lớp thì khi đó N sẽ thay thế là nút là có
nhãn là nhãn chung của các phần tử dữ liệu, thuật toán dừng lại. Hoặc nó sẽ dùng hàm
attribute_selection_method() tìm ra thuộc tính tốt nhất phân chia bộ dữ liệu D thành
các phần Di khi đó nút N sẽ được gán nhãn là thuộc tính tìm được.
Độ phức tạp của thuật toán được xác đinh bằng công thức 𝑂(𝑛. |𝐷|. log(|𝐷|)),

U

Ế

với n số lượng thuộc tính mô tả D. |D| là số các phần tử thuộc D. Nếu có một giá trị

Phương pháp xây dựng cây quyết định

TẾ

H

nào đó không phải là rời rạc thì khi đó phương pháp rời rạc được áp dụng.

N
H

Quá trình xây dựng cây quyết định bao gồm hai giai đoạn: tạo cây và tỉa cây.

KI

Để tạo cây thì ở thời điểm bắt đầu tất cả những ví dụ huấn luyện sẽ là ở gốc sau

Ọ
C

đó phân chia ví dụ huấn luyện theo phương pháp đệ qui dựa trên những thuộc tính

H

được chọn.

Đ

ẠI

Việc tỉa cây là xác định và xóa đi các nhánh chứa các phần tử hỗn loạn hoặc

G

nằm ngoài vì không thể phân vào một lớp nào.

Ờ

N

Quá trình xây dựng cây quyết định có nhiều biến thể, tuy nhiên chúng vẫn đi

Ư

theo các bước sau:

TR

- Cây quyết định được xây dựng từ trên xuống theo cách thức chia để trị.
- Ở thời điểm bắt đầu các ví dụ huấn luyện sẽ nằm ở nút gốc.
- Các thuộc tính được tiến hành phân loại.
- Chọn ra một thuộc tính để phân chia các nhánh dựa trên độ đo thống kê hoặc
heuristic.
- Tiếp tục lặp lại quá trình này để xây dựng các nhánh cho cây cho đến khi các
mẫu cùng rơi vào một nút thuộc cùng một nút lá hoặc không còn thuộc tính nào để

phân chia nữa.

Thuật toán phân lớp cây quyết định ID3
SVTH: Trương Văn Quốc Anh

12

Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

Thuật toán quy nạp ID3 là một thuật toán đơn giản nhưng khá phổ biến và được
áp dụng rộng rãi ở rất nhiều lĩnh vực. [6]
Thuật toán ID3 biểu diễn các khái niệm ở dạng cây quyết định, cho phép chúng
ta xác định phân loại của một số đối tượng bằng cách kiểm tra giá trị của nó trên một
số thuộc tính nào đó.
Nhiệm vụ của ID3 là học cây quyết định trên tập các dữ liệu huấn luyện và gồm
có:
- Đầu vào: bao gồm một tập các ví dụ, với mỗi ví dụ sẽ có các thuộc tính mô tả
tình huống và một giá trị phân loại của nó

U

Ế

- Đầu ra: cây quyết định có khả năng phân loại khá chính xác các ví dụ trong dữ

H

liệu huấn luyện và hy vọng có thể dự báo đúng cho các ví dụ tương lai.

TẾ

ID3 xây dựng cây quyết định theo giải thuật sau:

N
H

Function induce_tree(tập_ví_dụ, tập_thuộc_tính)

KI

begin

Ọ
C

if mọi ví dụ trong tập_ví_dụ đều nằm trong cùng một lớp then

H

return một nút lá được gán nhãn bởi lớp đó

ẠI

else if tập_thuộc_tính là rỗng then

G

Đ

return nút lá được gán nhãn bởi tuyển của tất cả các lớp trong tập_ví_dụ

Ư

begin

Ờ

N

else

TR

chọn một thuộc tính P, lấy nó làm gốc cho cây hiện tại;
xóa P ra khỏi tập_thuộc_tính;
với mỗi giá trị V của P
begin
tạo một nhánh của cây gán nhãn V;
Đặt vào phân_vùngV các ví dụ trong tập_ví_dụ có giá trị V tại thuộc tính P;
Gọi induce_tree(phân_vùngV, tập_thuộc_tính), gắn kết quả vào nhánh V
end
end
end

SVTH: Trương Văn Quốc Anh

13

Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

Thuật toán C4.5
Thuật toán C4.5 là thuật toán phân lớp cây quyết định được cải tiến từ thuật toán
CLD và ID3 bởi J.Ross.Quinlan. Đây là một thuật toán đơn giản và dễ sử dụng bởi nó
được biểu diễn dưới dạng câu lệnh IF THEN. [7]
Mã giả của thuât toán C4.5
Function C45_builder(tập_A, tập_thuộc_tính)
if (mọi record trong tập_A đều nằm trong cùng một lớp)

U

Ế

return một nút lá được gán nhãn bởi lớp đó

H

else

TẾ

if (tập_thuộc_tính là rỗng )

N
H

return nút lá được gán nhãn bởi tuy ển của tất cả các

KI

lớp trong tập_A;

Ọ
C

else

H

Chọn một thuộc tính P, lấy nó làm gốc cho cây hiện tại;

ẠI

Xóa P ra khỏi tập_thuộc_tính;

G

Đ

For each (giá trị V của P)

N

Tạo một nhánh của cây gán nhãn V;

Ư

Ờ

Đặt vào phân_vùng V các ví dụ trong tập_A có

TR

giá trị V tại thuộc tính P;
Gọi C45_builder (phân_vùng V, tập_thuộc_tính),
gắn kết quả vào nhánh V;

1.3.3 K - lân cận

Cơ sở lý thuyết.
K - lân cận hay k – nearest neighbours (K-NN) là một thuật toán Supervisedlearning đơn giản trong Machines Learning, phương pháp này hoạt động chủ yếu dựa
trên các phần tử lân cận của bộ dữ liệu huấn luyện. [8]

SVTH: Trương Văn Quốc Anh

14

Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

Đối với tập dữ liệu chưa gán nhãn, K-NN sẽ tìm kiếm những tập dữ liệu gần nhất
với bộ dữ liệu chưa được gán nhãn đó.
Những tập dữ liệu K-NN này sẽ được tính bằng độ đo khoảng cách Euclide như

sau:
(1.1)

𝑛

𝑑𝑖𝑠𝑡(𝑋1 , 𝑋2 ) = ��(𝑥1𝑖 − 𝑥2𝑖 )2
𝑖=1

Cách thức hoạt động.

Ế

Xây dựng mô hình K-NN bao gồm việc lưu trữ dữ liệu huấn luyện (train set) và

H

U

để dự đoán một tập dữ liệu mới thì thuật toán K-NN sẽ tìm ra các lân cận hay láng

TR

Ư

Ờ

N

G

Đ

ẠI

H

Ọ
C

KI

N
H

TẾ

giềng trong tập dữ liệu huấn luyện gần với nó nhất.

Hình 1 . 6 Thuật toán K-NN

SVTH: Trương Văn Quốc Anh

15

Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

1.3.4 Support Vector Machine

Cơ sở lý thuyết.
Thuật toán phân lớp Support vector machines - SVM là thuật toán thuộc lớp giải
thuật, nó được áp dụng để xử lý dữ liệu tuyến tính và cả dữ liệu phi tuyến tính. [9]
Thuật toán SVM sử dụng một siêu phẳng để chẻ đôi dữ liệu. Nếu dữ liệu không
phải là dữ liệu tuyến tính thì nó sẽ tiến hành dùng một hàm nhân (kernel function) để
chuyển tập dữ liệu đó qua một không gian khác có nhiều chiều hơn để xử lý.
Đặc trưng của thuật toán này là tuy có thời gian xử lý khá dài nhưng nó lại cho ra

Ế

độ chính xác khá cao.

H

U

Cách thức hoạt động.

TẾ

Ta có một tập dữ liệu D có dạng (X1, y1), (X2, y2), …, (X|D|, y|D|), trong đó Xi là

N
H

tập các phần tử dữ liệu huấn luyện tương ứng với các nhãn yi của nó, yi có thể nhận giá
trị là -1 hoặc +1.

KI

Trong một bài toán thì sẽ có vô số đường phân tách các tập dữ liệu khác nhãn,

Ọ
C

nhưng để giải quyết bài toán thì chúng ta cần tìm phân tách tối ưu. SVM sẽ giải quyết

ẠI

H

bài toán này bằng cách tìm siêu phẳng viền tối đa. Siêu phẳng phân tách được biểu đạt

Đ

bằng công thức sau:

N

G

𝑊. 𝑋 + 𝑏 = 0

(1.2)

Ư
TR

là độ lệch.

Ờ

W là vector trọng số với W = {w1, w2, …, wn} và n là số lượng các thuộc tính, b
𝑤1 . 𝑥1 + ⋯ + 𝑤𝑛 . 𝑥𝑛 + 𝑏 > 0 ℎ𝑎𝑦 𝑤1 . 𝑥1 + ⋯ + 𝑤𝑛 . 𝑥𝑛 + 𝑏 > 0

(1.3)

Phương trình toán học sau cho phép phân chia dữ liệu bằng cách xác định dấu âm
hay dương đối với từng giá trị cụ thể của bộ dữ liệu.

SVTH: Trương Văn Quốc Anh

16

Khóa luận tốt nghiệp

GVHD: Th.S Mai Thu Giang

Đối với các dữ liệu phi tuyến tính thì chúng ta không thể vẽ đường phân tách

H

U

Ế

được, SVM sẽ tìm ra các siêu phẳng phi tuyến để phân tách các dữ liệu đó.

N
H

TẾ

Hình 1 . 7 Mặt phân tách phi tuyến tính trong không gian giả
thuyết có thể trở thành một siêu phẳng trong không gian đặc
trưng

KI

1.3.5 Naïve Bayes

Ọ
C

Cơ sở lý thuyết.

H

Naïve Bayes là bộ phân lớp dựa trên định lý Bayes và có thể được hiểu ngắn gọn

Đ

ẠI

như sau: [10]

G

Giả sử ta gọi X là một bộ dữ liệu hay một chứng cứ được đo trên các thuộc tính

Ờ

N

khác nhau và H là một giả thuyết nào đó. Khi đó để giải quyết bài toán phân lớp thì

Ư

chúng ta luôn muốn xác định xác định xác xuất để giả thuyết H xảy ra khi bộ dữ liệu

TR

hay chứng cứ X đã xảy ra, nghĩa là xác định giá trị P(H |X) hay còn được gọi là xác
xuất hậu nghiệm và được tính theo công thức:
𝑃(𝐻|𝑋) =

Cách thức hoạt động.

𝑃(𝑋|𝐻)𝑃(𝐻)
𝑃(𝑋)

(1.4)

Ta gọi D là một tập dữ liệu huấn luyện (train set) cùng với các nhãn lớp tương
ứng. Khi đó bộ dữ liệu X sẽ được mô tả dưới dạng vector gồm n thuộc tính và được
khái quát như sau: X = {x1, x2, …, xn}.

SVTH: Trương Văn Quốc Anh

Ứng dụng khai phá dữ liệu để dự báo điểm chuyên ngành của sinh viên chuyên ngành tin học kinh tế trường đại học kinh tế huế

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về