Tải bản đầy đủ (.pdf) (43 trang)

Đề tài ứng dụng kỹ thuật khai phá dữ liệu trong dự báo kết quả họctập của sinh viên

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.06 MB, 43 trang )

Đề tài : Ứng dụng kỹ thuật khai phá dữ liệu trong dự báo kết quả học
tập của sinh viên

Lời nói đầu
 Giới thiệu đề tài
 

Mục lục
Đề tài : Ứng dụng kỹ thuật khai phá dữ liệu trong dự báo kết quả học tập của sinh viên
........................................................................................................................................1
Mục lục...........................................................................................................................2
Lời nói đầu......................................................................................................................3
Chương 1: Giới thiệu bài toán........................................................................................4
1.1: Khai phá dữ liệu trong giáo dục...........................................................................4
1.1.1: Data mining giáo dục là gì?...........................................................................4
1.1.2. Các cách tiếp cận Data mining trong dữ liệu giáo dục..................................5
1.2. các bài toán trong trường đại học.........................................................................6
1.3: phát biểu bài toán.................................................................................................8
1.3.1: Phạm vi đề tài................................................................................................8
1.3.2: Lý do chọn đề tài...........................................................................................8
1.3.3: Mục tiêu của đề tài.........................................................................................9
Chương 2: Cơ sở lí thuyết...............................................................................................9
2.1: Tổng quan khai phá dữ liệu................................................................................10
2.1.1: Sơ lược về khai phá dữ liệu.........................................................................10
2.1.2: Các bài toán liên quan đến khai phá dữ liệu................................................13
2.2: Các kỹ thuật thường sử dụng.............................................................................15
2.2.1: Hồi Quy tuyến tính ( Linear regression)......................................................15
2.2.2. Mạng nơ ron nhân tạo (ANN).....................................................................19
2.3. Các tiêu chí đánh giá độ chính xác.....................................................................23
2.3.1. Hệ số tương quan R bình phương ( r square ) (r2).......................................23
2.3.2. Mean Squared Error ( MSE)........................................................................24


1



2.3.3. Mean Absolute Error ( MAE)......................................................................24
Chương 3. Thực nghiệm và đánh giá kết quả...............................................................25
3.1: Thu thập và xử lý dữ liệu...................................................................................25
3.1.1: Thu thập dữ liệu...........................................................................................25
3.1.2: Xử lí dữ liệu.................................................................................................29
3.2. Áp dụng các kỹ thuật vào mẫu dữ liệu..............................................................38
3.2.1. Áp dụng Linear regression...........................................................................38
3.2.2. Áp dụng ANN..............................................................................................39
3.3. Kết quả thực nghiệm..........................................................................................39
3.3.1. Kết quả khi dùng Linear regression.............................................................39
3.3.2. Kết quả khi dùng ANN................................................................................42
3.4. Đánh giá và so sánh............................................................................................42
Kết luận.........................................................................................................................42

Lời nói đầu
 Ngày nay, các trường Đại học và Cao đẳng đã chuyển sang đào tạo theo học chế tín chỉ. Việc
tư vấn học tập nhằm đạt được kết quả học tập cao nhất cho mỗi sinh viên được đặc biệt quan
tâm. Đó là một khó khăn chung cho các cấp quản lý. Bằng cảm tính hoặc suy luận thủ cơng từ
khối dữ liệu khổng lồ, việc đưa ra những tư vấn tốt cho mỗi sinh viên trong q trình học
khơng phải là khả thi. Tại Việt Nam, việc nghiên cứu khai phá dữ liệu trong lĩnh vực giáo dục
đào tạo đang được các nhà quản lý quan tâm nhưng còn nhiều hạn chế và chưa toàn diện.
Phần lớn các trường sử dụng Excel hoặc các phần mềm quản lý đào tạo theo khuyến cáo của
Bộ như Edusoft để quản lý Sinh viên, quản lý kết quả học tập của Sinh viên. Việc các nhà
quản lý muốn có cái nhìn tồn cảnh để thống kê kết quả học tập nhằm đưa ra những phương
hướng, đường lối, chính sách đối với chương trình đào tạo, phương pháp giảng dạy v.v… gặp
rất nhiều khó khăn.Việc khai thác hiệu quả các thông tin liên quan đến sinh viên để giúp kết

quả học tập tốt hơn thì chưa được chú ý nhiều. Thông thường việc theo dõi chỉ sử dụng vào
mục đích xem kết quả đó và hồn tồn làm excel thủ công để thống kê.
Trường Đại học Giao Thông Vận Tải với bề dày nhiều năm, đã đào tạo số lượng lớn cho đội
ngũ Kỹ sư chất lượng. Hàng năm, Phòng Đào tạo cũng tư vấn và thay đổi chương trình đào
tạo cho phù hợp với thực tế. Nhưng việc thay đổi cũng chỉ mang tính chất chủ quan, cảm tính.
Dữ liệu đào tạo được lưu trữ và sử dụng với mục đích tra cứu, và các báo cáo đơn giản. Các

2


dữ liệu khai thác từ phần mềm quản lý sinh viên chưa được ứng dụng cho mục đích dự báo
kết quả học tập hay là các bài toán về khai thác dữ liệu đó là chưa được ứng dụng.
Vì vậy, đề tài “Ứng dụng kỹ thuật khai phá dữ liệu trong dự báo kết quả học tập của sinh
viên” đi sâu vào việc tiến hành khai thác dữ liệu điểm nhằm đưa ra được các báo cáo đa chiều,
và dự đoán được kết quả học tập của Sinh viên dựa trên các điểm môn học của các học kỳ
trước. Đề tài tiến hành nghiên cứu các kỹ thuật phân lớp trong khai phá dữ liệu, kỹ thuật phân
loại hay dự báo để ứng dụng các kỹ thuật đó để xây dựng các mơ hình dự đốn kết quả học
tập của Sinh viên. Từ đó, đánh giá và lựa chọn mơ hình cũng như kỹ thuật cho kết quả dự
đốn tốt nhất để ứng dụng dự báo kết quả học tập cho mỗi Sinh viên.

Chương 1: Giới thiệu bài toán
1.1: Khai phá dữ liệu trong giáo dục
 Những ngày này, nhiều nghiên cứu khác nhau đang được tiến hành trong lĩnh vực Data
mining. Data mining giáo dục là một lĩnh vực nghiên cứu quan trọng được gọi là
EDM. Nó sử dụng nhiều thuật toán để cải thiện kết quả giáo dục và giải thích các quy
trình giáo dục để đưa ra quyết định sau này.
Ở đây, chúng ta sẽ thảo luận về một số thuật toán Data mining được áp dụng cho lĩnh
vực liên quan đến giáo dục. Các thuật toán này được sử dụng để khai thác kiến thức từ
dữ liệu giáo dục và nghiên cứu các thuộc tính có thể thêm vào để tăng hiệu suất. Việc
học ban đầu bắt đầu trong lớp học và dựa trên các mơ hình hành vi, tâm lý và xây

dựng. Mơ hình hành vi phụ thuộc vào những thay đổi có thể quan sát được trong hành
vi của học sinh để xác định kết quả học tập. Các mơ hình tâm lý dựa trên sự tham gia
hiệu quả của giáo viên vào quá trình học tập. Trong các mơ hình xây dựng, học sinh
cần tự học từ các nguồn sẵn có khác nhau.
3


Theo Siemens, học tập khơng cịn là một hoạt động nội bộ, cơ lập. Nó được xem như
một cuộc biểu tình trong một mạng lưới các nút giúp cải thiện trải nghiệm học tập của
sinh viên và giảm bớt yêu cầu về việc ngay lập tức được đưa vào giảng dạy của một
giáo sư. Môi trường học tập thông thường đã dần thay đổi thành các điều kiện học tập
dựa vào cộng đồng.

1.1.1: Data mining giáo dục là gì?
EDM là viết tắt của Data mining giáo dục. Nó có thể được định nghĩa là kỹ thuật tìm
kiếm các loại dữ liệu cụ thể đến từ hệ thống giáo dục và thực hiện các kỹ thuật đó để
hiểu học sinh và hệ thống tốt hơn. EDM là quá trình chuyển đổi dữ liệu thô thu được
từ các hệ thống giáo dục thành dữ liệu hữu ích có thể được sử dụng để đưa ra các
quyết định theo hướng dữ liệu. Sự phát triển của khai thác và phân tích dữ liệu trong
lĩnh vực giáo dục là tương đối muộn so với các lĩnh vực khác. Tuy nhiên, việc Data
mining giáo dục qua web là một thách thức vì các tính năng cụ thể của nó trên dữ liệu.
Trong khi nhiều loại dữ liệu có các khía cạnh tuần tự, việc phân phối thơng tin giáo
dục theo thời gian có các thuộc tính đặc biệt.
Các kỹ thuật Data mining giáo dục đã rất hiệu quả và tạo ra một loạt các hiện tượng
liên quan đến việc học tập của học sinh trên nền tảng trực tuyến và đạt được độ chính
xác tốt hơn một cách nhất qn. Có những khía cạnh quan trọng cần được xem xét để
 biện minh cho sự tiến bộ phi thường của dữ liệu giáo dục, vốn đang phát triển sự thừa
nhận rằng không phải tất cả dữ liệu quan trọng đều được lưu trữ trong một luồng dữ
liệu.
 Nghiên cứu trong giáo dục đã dẫn đến một số cải tiến giáo dục mới. Những đổi mới

dựa trên máy tính đã thay đổi cách chúng ta sống và học tập. Ngày  nay, việc sử dụng
thông tin thu thập được thơng qua những tiến bộ này đang hỗ trợ vịng chuyển đổi thứ
hai trong tất cả các lĩnh vực và học tập với nhiều thành tựu khác nhau. Khai phá dữ
liệu là kỹ thuật mạnh mẽ nhất với tiềm năng đáng kinh ngạc để giúp các trường học và
đại học tập trung vào thông tin quan trọng nhất trong bộ dữ liệu mà họ đã thu thập về
hành vi của sinh viên và những người học tiềm năng.
Data mining sử dụng các cơng cụ của nó để tìm các mẫu và mối quan hệ chưa biết
trước đây trong các tập dữ liệu khổng lồ. Các cơng cụ này có thể kết hợp các mơ hình
thống kê, thuật tốn tốn học và kỹ thuật máy học. Các kỹ thuật này có thể tìm thấy
thơng tin trong dữ liệu mà các truy vấn và báo cáo không thể tiết lộ một cách hiệu quả.

1.1.2. Các cách tiếp cận Data mining trong dữ liệu giáo dục
4


Data mining là một nhánh của khoa học máy tính nhằm mục đích khám phá các yếu tố
và mẫu khác nhau để giúp đưa ra quyết định. Mơ hình trong hình đã cho nhằm mục
đích thiết kế Data mining giáo dục. Data mining có thể khuyến khích bộ nhớ thể chế.
Khai phá dữ liệu, còn được gọi là KDD (Khám phá tri thức trong cơ sở dữ liệu), đề cập
đến “Khai thác” hoặc trích xuất dữ liệu có kiến thức từ các tập dữ liệu khổng lồ. Một
hệ thống giáo dục thường có một cơ sở dữ liệu giáo dục khổng lồ. Dữ liệu này có thể
 bao gồm dữ liệu của giáo viên, dữ liệu tài khoản, dữ liệu của học sinh, dữ liệu của cựu
sinh viên, v.v. Data mining giáo dục tập trung vào các kỹ thuật phát triển để khám phá
các loại dữ liệu đặc biệt bắt nguồn từ bối cảnh giáo dục. Những dữ liệu này bắt nguồn
từ nhiều nguồn khác nhau, bao gồm dữ liệu từ môi trường lớp học trực diện truyền
thống, phần mềm giáo dục trực tuyến, phần mềm giáo dục, v.v.

Hình 1.1: Tổng quan khai phá dữ liệu trong giáo dục.
Các phương pháp Data mining được sử dụng để vận hành trên các tập dữ liệu khổng lồ
nhằm tìm ra các mẫu và mối quan hệ ẩn, điều này rất hữu ích cho nhiều tổ chức trong

việc đưa ra các quyết định dựa trên dữ liệu. Các kỹ thuật và thuật toán khác nhau như
Phân cụm, Phân loại, Hồi quy, Mạng thần kinh, Trí tuệ nhân tạo, Quy tắc kết hợp,
Thuật tốn di truyền, Cây quyết định, v.v. được sử dụng để khám phá kiến thức từ cơ 
sở dữ liệu.

1.2. các bài toán trong trường đại học

5


Hiện nay ta thấy rất nhiều bài toán liên quan đến ứng dụng dữ liệu học tập của
sinh viên :
Phân tích thống kê: Bài tốn này liên quan đến việc phân tích và tóm tắt
thơng tin từ dữ liệu điểm của sinh viên. Các thống kê có thể bao điểm trung
 bình, phương sai, độ lệch chuẩn và phân phối điểm của sinh viên. Bằng cách áp
dụng các phương pháp thống kê, bạn có thể hiểu rõ hơn về hiệu suất học tập của
sinh viên và phân tích sự khác biệt giữa các nhóm sinh viên.
Phân tích chuỗi thời gian: Nếu bạn có dữ liệu điểm theo chuỗi thời gian ,
 bạn có thể áp dụng phân tích chuỗi thời gian để phát hiện xu hướng, mơ hình và
dự đốn điểm của sinh viên trong tương lai. Các phương pháp phổ biến bao gồm
 phân tích dịng chuỗi thời gian , mơ hình hoá ARIMA ( Autoregressive
Intergrated Moving Average), hoặc sử dụng mạng nơ-ron hồi qui (RNN) như
LSTM ( Long short-term memory) để dự báo điểm.
Phân loại và dự báo: Bài toán này liên quan đến việc xây dựng mơ hình
để phân loại sinh viên vào các nhóm dưaj trên điểm số và các biến liên quan
khác. Có thể sự dụng các thuật tốn như học máy ( ví dụ: cây quyết định, máy
vector hỗ trợ (SVM)) để xây dựng mơ hình dự báo kết quả học tập của sinh viên.
Phân tích định hướng: Bài tốn này nhằm phát hiện và phân tích các mơ
hình, qui tắc hoặc xu hướng trong dự liệu điểm của sinh viên. Có thể áp dụng
khai phá dữ liệu và khai phá tri thức để tìm ra các quy tắc tiềm ẩn, các nhóm

sinh viên có đặc điểm tương đồng, hoặc các yếu tố ảnh hưởng đến kết quả học
tập.
-

Phân tích nhóm và phân tích cụm: Bạn có thể áp dụng phân tích nhóm và phân
tích cụm để phân loại sinh viên vào các nhóm có đặc điểm tương tự nhau dựa trên
điểm số. Các phương pháp như phân tích thành phần chính (PCA) hoặc phân tích cụm
(clustering) như K-means hoặc Hierarchical Clustering có thể được sử dụng để phân
nhóm dữ liệu điểm của sinh viên.
Dự báo rớt và thành cơng: Bài tốn này liên quan đến việc dự đốn xác suất rớt
hoặc thành cơng của sinh viên dựa trên dữ liệu điểm. Bằng cách xây dựng mô hình dự
đốn, bạn có thể xác định các yếu tố quan trọng ảnh hưởng đến kết quả học tập và
cung cấp gợi ý cho các biện pháp can thiệp và hỗ trợ đối với sinh viên có nguy cơ rớt.
-

6


1.3: phát biểu bài toán

Ứng dụng kỹ thuật khai phá dữ liệu trong dự báo kết quả học tập thì ngày càng
 phổ biến ở các trường cấp cũng như các trường đại học.
Để có thể cảnh báo hay tư vấn thật tốt cho học sinh, sinh viên của mình thì tri
thức khai phá được từ dữ liệu điểm của học sinh, sinh viên là vô cùng quan
trọng. Từ việc chạy các thuật tốn hay mơ hình AI để dự báo trước kết quả học
tập của sinh viên, từ đó có thể cảnh báo trước về tình trạng học tập cho sinh đó
cũng như gia đình để có cách cải thiện kết quả. Khai phá dữ liệu nói chung và
khai phá dữ liệu trong giáo dục nói riêng thì đều là q trình ta tìm tịi tri thức từ
những thơng tin và dữ liệu thô.
1.3.1: Phạm vi đề tài

Ở đây chúng ta sẽ nghiên cứu phạm vi là khoa công nghệ thông trong trường đại
học Giao Thông Vận Tải. Ta sẽ thu thập dữ liệu điểm của toàn bộ sinh viên khoa
cơng nghệ thơng tin từ khố 56 đến khố 60 của trường đại học Giao Thông Vận
Tải.
1.3.2: Lý do chọn đề tài
Với mục đích là tư vấn và cảnh báo cho học sinh về kết quả học tập cũng như
 phân loại, thống kê và đánh giá được tỉ lệ về kết quả học tập tốt của sinh viên để
có các phương án dạy học cũng như tư vấn tuyển sinh khách quan cho các lần
tuyển sinh tiếp theo.
7


1.3.3: Mục tiêu của đề tài

Với dữ liệu thu thập được cũng như phạm vi và lí do thì ta đặt ra mục
tiêu sau cho đề tài:
Dựa vào các kết quả năm 1,2,3 dự báo kết quả của năm 4
Phân loại tốt nghiệp
Đánh giá các môn học ảnh hưởng nhất đến quả học tập
Thống kê và so sánh kết quả giữa các khố mà khác lộ trình đào
tạo thì kết quả học tập sẽ như thế nào.

Chương 2: Cơ sở lí thuyết

8


2.1: Tổng quan khai phá dữ liệu
2.1.1: Sơ lược về khai phá dữ liệu


 Data mining là một trong số các lĩnh vực quan trọng nhất trong cơng nghệ hiện nay.
 Đóng vai trị đặc biệt quan trọng trong việc phân tích và quản lý dữ liệu. Trong thời
buổi công nghệ ngày càng phát triển như hiện nay, việc áp dụng các cơng nghệ thơng
tin vào q trình xử lý và phân tích dữ liệu là điều vơ cùng cần thiết.
2.1.1.1: Data Mining là gì?
Data mining hay được hiểu là khai phá dữ liệu. Đây là quá trình phân loại, sắp xếp các
tập hợp dữ liệu lớn nhằm xác định các mẫu và thiết lập mối quan hệ giúp giải quyết
các vấn đề nhờ q trình phân tích dữ liệu.
Các MCU khai phá dữ liệu cho phép các doanh nghiệp có khả năng dự đốn được các
xu hướng trong tương lai.
Q trình khai phá dữ liệu là một quá trình phức tạp, bao gồm kho dữ liệu chuyên sâu
và các công nghệ tính tốn. Hơn hết, Data mining khơng chỉ bị giới hạn trong việc
trích xuất các dữ liệu, mà cịn được ứng dụng để chuyển đổi, làm sạch, tích hợp dữ liệu
và phân tích mẫu.

9


Bên cạnh đó, trong Data mining cịn tích hợp nhiều tham số quan trọng khác: quy tắc
kết hợp, phân loại, phân cụm, dự báo… Một số tính năng chính của Data mining phải
kế để như:
 – Dự đoán các mẫu dựa trên xu hướng trong dữ liệu
 – Tính tốn, dự đốn kết quả
 – Tạo thơng tin phản hồi để phân tích
– Tập trung vào cơ sở dữ liệu lớn hơn

 – Phân cụm dữ liệu trực quan
2.1.1.2: Lịch sử Data Mining 
Quá trình Data mining khám phá ra các kết nối ẩn và dự đốn xu hướng trong lương
lại có một lịch sử phát triển lâu dài. Bạn có nghĩ rằng khái niệm Data mining đã tồn tại

trước khi máy tính ra đời?
Trước đây, Data mining còn được biết đến với tên gọi khác là “Khám phá tri thức
trong cơ sở dữ liệu”. Thuật ngữ “Khai thác dữ liệu” chưa được sử dụng cho đến những
năm 1990. Tuy nhiên, nền tảng của Data mining vẫn bao gồm 3 ngành khoa học đan
xen là thống kê, trí tuệ nhân tạo và máy học (Machine learning).
Trong nhiều thập kỷ qua, với sự phát triển mạnh mẽ của Data mining và cùng với
những tiến bộ về khả năng xử lý và tốc độ đã giúp con người vượt ra khỏi những thực
tiến thủ công. Giúp tiết kiệm thời gian để phân tích dữ liệu một cách nhanh chóng và
dễ dàng hơn.
Các bộ dữ liệu đã được thu thập ngày càng phức tạp, tinh vi và có nhiều tiềm năng để
khám phá ra những kiến thức mới hơn.
Vào năm 2003, một cuốn sách là Moneyball đã giới thiệu về Data mining cho nhiều
đối tượng hơn thông qua các câu chuyện về cách tiếp cận dựa trên phân tích cách xây
dựng một đội hình bóng chày chun nghiệp.
Và ngày nay, việc sử dụng data mining trong nhiều tình huống ngày càng tăng. Data
mining đóng một vai trị quan trọng trong nhiều ngành công nghiệp, nhiều lĩnh vực.

10


2.1.1.3: Sự khác biệt giữa Data Mining và Machine Learning 

 – Data Mining là quá trình tìm kiếm các mẫu trong dữ liệu. Cái hay của Data mining
chính là giúp trả lời các câu hỏi mà chúng ta không biết bằng cách chủ động xác định
các mẫu dữ liệu không trực quan thơng qua các thuật tốn.
 – Tuy nhiên việc giải thích những hiểu biết sâu sắc này và ứng dụng chúng vào các
quyết định kinh doanh vẫn cần tới sự tham gia của con người.
 – Trong khi đó, Machine Learning là q trình dạy máy tính học như con người. Với
Machine Learning, máy tính học được cách xác định xác suất và đưa ra dự đốn dựa
trên phân tích dữ liệu của chúng.

 – Mặc dù trong quá trình làm và học , Machine Learning đôi khi sử dụng khai thác dữ
liệu như một quy trình, nhưng đều khơng cần đến sự tham gia thường xuyên của con
người. Ví dụ như: tô tô tự lái dựa vào khai thác dữ liệu để xác định nơi dừng, tăng tốc,
nơi rẽ…
2.1.1.4: Các bước trong Data Mining 
Trong Data mining bao gồm các bước quan trọng như:
 – Bước 1: Làm sạch dữ liệu – Đây là bước làm sạch giúp cho dữ liệu khơng có tạp âm,
hoặc các bất thường khác trong dữ liệu.
 – Bước 2: Tích hợp các dữ liệu – Khi tiến hành tích hợp dữ liệu, nhiều nguồn dữ liệu
sẽ được kết hợp tạo thành một dữ liệu chung.
 – Bước 3: Lựa chọn dữ liệu – Trong bước này, dữ liệu sẽ được trích xuất từ cơ sở dữ
liệu.

11


 – Bước 4: Chuyển đổi dữ liệu – Khi chuyển đổi dữ liệu, dữ liệu sẽ được chuyển đổi để
thực hiện q trình phân tích, tóm tắt hay các hoạt động tổng hợp khác.
Các bước trong Data Mining

 – Bước 5: Khai phá dữ liệu – Trong khi khai phá dữ liệu, dữ liệu hữu ích sẽ được trích
xuất từ nhóm dữ liệu hiện có.
 – Bước 6: Đánh giá mẫu – Trong bước này sẽ tiến hành phân tích một số mẫu có trong
dữ liệu.
 – Bước 7: Trình bày thơng tin – Trong bước cuối cùng này, thông tin sẽ được thể hiện
dưới dạng cây, bảng, biểu đồ và ma trận.

2.1.2: Các bài toán liên quan đến khai phá dữ liệu
2.1.2.1: Phân cụm
Phân cụm đề cập đến quá trình xác định và phân loại các đối tượng thành các nhóm khác

nhau, việc phân đoạn một tập dữ liệu thành các tập con (cụm) để dữ liệu trong mỗi tập con có
chung một số đặc điểm của các lớp đối tượng tương tự.

2.1.2.2: Phân Loại
Phân loại đề cập đến q trình mơ tả các mối quan hệ dữ liệu và thể hiện các giá trị để quan
sát trong tương lai. Phân loại là nhiệm vụ của việc học một hàm mục tiêu ánh xạ mỗi tập
thuộc tính A đến một trong các cấp độ lớp được xác định trước B. Có nhiều kỹ thuật phân loại
khác nhau, đó là Phương pháp dựa trên cây quyết định, Suy luận dựa trên bộ nhớ, Phương
 pháp dựa trên quy tắc, Nạve Bayes và Mạng tín ngưỡng Bayes, Mạng thần kinh. Trong phân
loại, dữ liệu thử nghiệm được sử dụng để ước tính độ chắc chắn của các quy tắc phân loại.

12


 Nếu độ chắc chắn là chấp nhận được, các quy tắc có thể được áp dụng cho các bộ dữ liệu mới.
Thuật tốn đào tạo trình phân loại sử dụng các ví dụ đã được phân loại trước này để xác định
cách sắp xếp các tham số cần thiết để phân biệt thích hợp.

2.1.2.3: Sự dự đốn ( prediction)
Các kỹ thuật hồi quy có thể được điều chỉnh để dự đốn. Nó có thể được sử dụng để
chứng minh mối liên hệ giữa một hoặc nhiều biến độc lập và phụ thuộc. Trong Data
mining, các biến độc lập là các thuộc tính đã được biết trước và các yếu tố phản hồi là
những gì chúng ta cần dự đốn. Thật không may, nhiều vấn đề hàng ngày trong thế
giới thực khơng dễ dự đốn. Do đó, các kỹ thuật tiên tiến hơn như hồi quy logistic,
lưới thần kinh và cây quyết định có thể rất quan trọng để dự báo các giá trị trong tương
lai.

13



2.2: Các kỹ thuật thường sử dụng
2.2.1: Hồi Quy tuyến tính ( Linear regression)
2.2.1.1: Hồi quy tuyến tính là gì?

Hồi quy tuyến tính là một kỹ thuật phân tích dữ liệu dự đốn giá trị của dữ liệu
khơng xác định bằng cách sử dụng một giá trị dữ liệu liên quan và đã biết khác.
 Nó mơ hình tốn học biến không xác định hoặc phụ thuộc và biến đã biết hoặc
độc lập như một phương trình tuyến tính. Ví dụ, giả sử rằng bạn có dữ liệu về
chi phí và thu nhập của bạn trong năm ngoái. Kỹ thuật hồi quy tuyến tính phân
tích dữ liệu này và xác định rằng chi phí của bạn là một nửa thu nhập của bạn.
Sau đó, họ tính tốn một chi phí trong tương lai không rõ bằng cách giảm một
nửa thu nhập được biết đến trong tương lai.

2.2.1.2: Tại sao hồi quy tuyến tính lại quan trọng?

14


Các mơ hình hồi quy tuyến tính tương đối đơn giản và cung cấp một cơng thức
tốn học dễ giải thích để đưa ra các dự đốn. Hồi quy tuyến tính là một kỹ thuật
thống kê được sử dụng từ lâu và áp dụng dễ dàng cho phần mềm và tính tốn.
Các doanh nghiệp sử dụng nó để chuyển đổi dữ liệu thơ một cách đáng tin cậy
và có thể dự đốn được thành nghiệp vụ thơng minh và thơng tin chuyên sâu
hữu ích. Các nhà khoa học trong nhiều lĩnh vực, bao gồm sinh học và các ngành
khoa học hành vi, môi trường, và xã hội, sử dụng hồi quy tuyến tính để tiến hành
 phân tích dữ liệu sơ bộ và dự đoán các xu hướng tương lai. Nhiều phương pháp
khoa học dữ liệu, chẳng hạn như máy học và trí tuệ nhân tạo, sử dụng hồi quy
tuyến tính để giải quyết các bài toán phức tạp.

2.2.1.3: Hồi quy tuyến tính hoạt động như thế nào?

Về bản chất, một kỹ thuật hồi quy tuyến tính đơn giản cố gắng vẽ một đồ thị
đường giữa hai biến dữ liệu, x và y. Là biến độc lập, x được vẽ dọc theo trục
hồnh. Các biến độc lập cịn được gọi là biến giải thích hoặc biến dự báo. Biến
 phụ thuộc, y, được vẽ trên trục tung. Bạn cũng có thể tham chiếu các giá trị y
như các biến phản hồi hoặc các biến dự báo.

Các bước trong hồi quy tuyến tính:  
Để có cái nhìn tổng quan, hãy xem xét dạng đơn giản nhất của phương trình đồ
thị đường giữa y và x; y=c*x+m, trong đó c và m là hằng số cho tất cả các giá trị
có thể có của x và y. Vì vậy, chẳng hạn giả sử rằng tập dữ liệu đầu vào cho (x,y)
là (1,5), (2,8), và (3,11). Để xác định phương pháp hồi quy tuyến tính, bạn sẽ
thực hiện các bước sau:
1.
2.
3.
4.

Vẽ một đường thẳng và đo lường mối tương quan giữa 1 và 5.
Tiếp tục thay đổi hướng của đường thẳng cho các giá trị mới (2,8) và
(3,11) cho đến khi tất cả các giá trị đều phù hợp.
Xác định phương trình hồi quy tuyến tính là y=3*x+2.
 Ngoại suy hoặc dự đoán y là 14 khi x là 4.

2.2.1.4: Hồi quy tuyến tính trong máy học là gì?

15


Trong máy học, các chương trình máy tính gọi là thuật tốn phân tích các tập dữ
liệu lớn và làm việc ngược từ dữ liệu đó để tính tốn phương trình hồi quy tuyến

tính. Các nhà khoa học dữ liệu đầu tiên sẽ đào tạo thuật toán trên các tập dữ liệu
đã biết hoặc được dán nhãn và sau đó sử dụng thuật toán để dự đoán các giá trị
chưa biết. Dữ liệu thực tế phức tạp hơn so với ví dụ trước. Đó là lý do tại sao
 phân tích hồi quy tuyến tính phải sửa đổi hoặc biến đổi các giá trị dữ liệu về mặt
toán học để đáp ứng bốn giả định sau đây.
Mối quan hệ tuyến tính:

Mối quan hệ tuyến tính phải tồn tại giữa các biến độc lập và phụ thuộc. Để xác
định mối quan hệ này, các nhà khoa học dữ liệu tạo ra một biểu đồ phân tán – 
một tập hợp ngẫu nhiên các giá trị x và y – để xem liệu chúng có nằm trên một
đường thẳng hay khơng. Nếu khơng, bạn có thể áp dụng các hàm phi tuyến tính
như căn bậc hai hoặc log để tạo ra mối quan hệ tuyến tính giữa hai biến về mặt
tốn học.
Phần dư độc lập:

Các nhà khoa học dữ liệu sử dụng phần dư để đo lường độ chính xác dự đốn.
Phần dư là chênh lệch giữa dữ liệu quan sát được và giá trị dự đốn. Phần dư
khơng được có một mơ hình nhận dạng được giữa chúng. Ví dụ: bạn khơng
muốn phần dư tăng lên theo thời gian. Bạn có thể sử dụng các bài kiểm tra toán
học khác nhau, như kiểm tra Durbin-Watson, để xác định phần dư độc lập. Bạn
có thể sử dụng dữ liệu giả để thay thế bất kỳ dữ liệu biến thiên nào, chẳng hạn
như dữ liệu theo mùa.
Tính chuẩn:

Các kỹ thuật vẽ đồ thị như các biểu đồ Q-Q xác định xem các phần dư có phân
 bố bình thường hay khơng. Các phần dư sẽ nằm dọc theo một đường chéo ở 
trung tâm của đồ thị. Nếu phần dư khơng được chuẩn hóa, bạn có thể kiểm tra
dữ liệu cho các điểm ngoại lai ngẫu nhiên hoặc các giá trị khơng phải là điển
hình. Loại bỏ các điểm ngoại lai hoặc thực hiện phép biến đổi phi tuyến tính có
thể khắc phục sự cố.

Phương sai khơng đổi

Phương sai khơng đổi giả định rằng phần dư có phương sai cố định hoặc độ lệch
chuẩn so với trung bình cho mọi giá trị của x. Nếu khơng, kết quả phân tích có
thể khơng chính xác. Nếu giả định này chưa được đáp ứng, bạn có thể phải thay
đổi biến phụ thuộc. Bởi vì phương sai xuất hiện tự nhiên trong các tập dữ liệu
16


lớn, giải thích được lý do phải thay đổi quy mơ của biến phụ thuộc. Ví dụ: thay
vì sử dụng quy mơ dân số để dự đốn số trạm cứu hỏa trong một thành phố, có
thể sử dụng kích thước dân số để dự đoán số trạm cứu hỏa trên mỗi người.

2.2.1.5: Có những loại hồi quy tuyến tính nào?
Một số loại phân tích hồi quy phù hợp để xử lý các tập dữ liệu phức tạp hơn các
loại khác. Sau đây là một số ví dụ.
Hồi quy tuyến tính đơn giản:

Hồi quy tuyến tính đơn giản được định nghĩa bằng hàm tuyến tính:
Y= β0*X + β1 + ε
β0 và β1 là hai hằng số chưa biết đại diện cho độ dốc hồi quy, trong khi ε
(epsilon) là thuật ngữ sai số.
Bạn có thể sử dụng hồi quy tuyến tính đơn giản để lập mơ hình mối quan hệ
giữa hai biến, chẳng hạn như sau:



Lượng mưa và sản lượng cây trồng
Tuổi và chiều cao ở trẻ em
 Nhiệt độ và sự giãn nở của thủy ngân kim loại trong nhiệt kế



Hồi quy tuyến tính bội

Trong phân tích hồi quy tuyến tính bội, tập dữ liệu chứa một biến phụ thuộc và
nhiều biến độc lập. Hàm đường hồi quy tuyến tính thay đổi để bao gồm nhiều
yếu tố như sau:
Y= β0*X0 + β1X1 + β2X2+…… βnXn+ ε
Khi số lượng biến dự báo tăng lên, các hằng số β cũng tăng lên tương ứng.
 Hồi quy tuyến tính bội lập mơ hình nhiều biến và tác động của chúng lên một
kết quả:



Lượng mưa, nhiệt độ và mức độ sử dụng phân bón đối với sản lượng cây
trồng
Chế độ ăn uống và tập thể dục đối với bệnh tim
Tăng trưởng tiền lương và lạm phát trên lãi suất cho vay gia đình


Hồi quy logistic

17


Các nhà khoa học dữ liệu sử dụng hồi quy logistic để đo lường xác suất xảy ra
một sự kiện. Dự đoán là một giá trị giữa 0 và 1, trong đó 0 thể hiện một sự kiện
khó xảy ra, và 1 thể hiện khả năng tối đa rằng sự việc đó sẽ xảy ra. Các phương
trình logistic sử dụng các hàm logarit để tính tốn đường hồi quy.
Sau đây là một số ví dụ:





Xác suất thắng hoặc thua trong một trận đấu thể thao
Xác suất đỗ hoặc trượt một bài kiểm tra
Xác suất một hình ảnh là trái cây hoặc con vật

2.2.2. Mạng nơ ron nhân tạo (ANN)
2.2.2.1. Thế nào là mạng nơ ron nhân tạo ?
Mạng nơ ron nhân tạo ( artificial neural networks ) viết tắt là ANN là một
 phần của học máy. Tên và mà cấu trúc của mạng được lấy cảm hứng từ các
tế bào não bộ của con người, bắt trước cách các tế bào thân kinh sinh học
truyền tín hiệu cho nhau.
Mạng ANN bao gồm 1 lớp nút, chứa lớp đầu vào, một hoặc nhiều lớp ẩn và
lớp đầu ra. Mỗi nút, hoặc nơ ron nhân tạo , kết nối với nút khác và có trọng
số và ngưỡng liên quan. Nếu đầu ra của bất kì nút riêng lẻ nào cao hơn giá
trị ngưỡng đã định, nút đó sẽ được kích hoạt, gửi dữ liệu đến lớp tiếp theo
của mạng. Mặt khác , khơng có dữ liệu nào được chuyển sang lớp kế tiếp
theo của mạng.
Mạng nơ ron dựa vào dữ liệu đào tạo để tìm hiểu và cải thiện độ chính xác
của chúng theo thời gian. Sauk hi các thuật toán học tập này được tinh chỉnh
để đạt được độ chính xác , chúng sẽ là những công cũ mạnh mẽ trong các
 bài toán phân loại , dự đoán hay nhận dạng và gợi ý. Một trong những mạng
nơ ron nổi tiếng là thuật tốn tìm kiếm của Google.

18


2.2.2.2. Cấu trúc của mạng


Hình . cấu trúc mơ phỏng từ tế bào sinh học sang nhân tạo

Hình: Cấu trúc hoạt động của các tầng trong mạng

+ Lớp đầu vào ( Input layer):
Lớp đầu vào nhận dữ liệu đầu vào và truyền nó qua mạng
Số lượng nút nơ ron đầu vào phụ thuộc vào số chiều của dữ liệu đầu vào.
+ Lớp ẩn ( Hidden layer):
Lớp ẩn là lớp giữa lớp đầu vào và lớp đầu ra





19


Mạng ANN có thể có 1 hoặc nhiều lớp ẩn tùy thuộc vào độ phức tạp của
vấn đề
+ Lớp đầu ra ( Output layer):
Lớp đầu ra là lớp cuối cùng của mạng và đưa ra kết quả dự đoán.
Số lượng nút này phụ thuộc vào loại vấn đề ( phân loại, dự đốn, hoặc
hồi qui, ….)





2.2.2.3. Hàm kích hoạt ( Activation function) :

Hàm kích hoạt cho nút ẩn :
 Hàm kích hoạt thường được áp dụng sau khi tính trọng số
đầu vào của nút nơ ron.
 Các hàm kích hoạt phổ biến như: sigmoid, tanh, ReLU,
Leaky ReLU
o Hàm Sigmoid :
- Công thức : f(x) = 1/(1+exp(-x))
- Phạm vi đầu ra : (0,1)
- Đặc điểm: hàm sigmoid chuyển đổi giá trị
đầu vào thành một giá trị xác suất trong
khoảng 0 đến 1 . Nó thường được sử dụng
trong các tác vụ phân loại nhị phân.
o Hàm ReLU ( Rectified Linear Unit):
- Công thức: f(x) = max ( O, x)
- Phạm vi đầu ra : [O, + ∞ ]


-



Đặc điểm: hàm ReLU loại bỏ các giá trị âm và
giữu lại các giá trị không âm. Nó là một hàm
kích hoạt phi tuyến tính và thường được sủ
dụng trong các mạng nơ ron sâu vì tính kháng
nhiễu và khả năng học tốt.

Hàm kích hoạt cho nơ ron đầu ra :
 Hàm này phụ thuộc vào loại vấn đề là bài toán phân loại
hay dự báo hay các vấn đề khác thì các hàm cũng sẽ khác.

 Một số hàm phổ biến như sigmoid, Softmax, Linear, …
o Hàm Softmax:
- Công thức: f(x) = exp(x) / sum(exp(x))
- Phạm vi đầu ra: ( 0,1) và tổng các đầu ra
 bằng 1
- Đặc điểm: hàm Softmax được sử dụng chủ
yếu trong các tác vụ phân loại đa lớp. Nó
chuyển đổi các giá trị đầu vào thành các xác
20


suất phân phối trên các lớp khác nhau, giúp
xác định lớp.
2.2.2.4. Quá trình học
Hàm mất mát ( Loss function):
Hàm mất mát đánh giá sai số giữa đầu ra thực tế và đầu ra dự
đoán của mạng.
Mục tiêu là giảm thiểu các giá trị hàm mất mát thông qua điêu
chỉnh các trọng số của mạng
Một số loss function phổ biến:
 Hàm mất mát bình phương trung bình ( Mean Squared
Error – MSE): Đây là hàm mất mát phổ biến trong bài tốn
hổi quy, trong đó đánh giá sự chênh lệch bình phương giữa
các giá trị dự đoán và giá teij thực.









o

MSE = 1/n * Σ(y_pred - y_true)^2

Trong đó, y_pred là giá trị dự đoán, y_true là giá trị thực tế và
n là số lượng mẫu


Hàm mất mát trung bình tuyệt đối (Mean Absolute Error MAE): Hàm này cũng được sử dụng trong bài toán hồi quy
và tính tốn sai số tuyệt đối trung bình giữa giá trị dự đoán
và giá trị thực tế.
MAE = 1/n * Σ|y_pred - y_true|



Hàm mất mát Cross-Entropy: Đây là hàm mất mát phổ
 biến trong bài toán phân loại. Trong đó, sử dụng hàm
softmax để chuyển đổi đầu ra của mơ hình thành các xác
suất dự đốn cho từng lớp, và sau đó tính tốn mất mát dựa
trên sự chênh lệch giữa xác suất dự đoán và nhãn thực tế.
Cross-Entropy = -Σ(y_true * log(y_pred))



Hàm mất mát binary cross-entropy: Đây là hàm mất
mát phổ biến trong bài tốn phân loại nhị phân,
trong đó chỉ có hai lớp. Hàm này tính tốn mất mát
dựa trên sự chênh lệch giữa xác suất dự đoán và nhãn

thực tế.

Binary Cross-Entropy = -(y_true * log(y_pred) + (1 
- y_true) * log(1 - y_pred))



Thuật toán lan truyền ngược
21


Quá trình lan truyền ngược được sử dụng để cập nhật các
trọng số liên kết trong mạng đẻ giảm thiếu mất mát.
Giá trị sai số được lan truyền ngược từ lớp đầu ra qua mạng để
tính tốn đạo hàm riêng của hàm mất mát theo trọng số.
Các trọng số được cập nhật bằng cách sử dụng một thuật toán
tối ưu hóa như gradient descent hoặc biến thể của nó.
 Epoch và tốc độ học ( Epoch và Learning rate):
Quá trình học diễn ra qua nhiều vòng lặp gọi là epoch
Mỗi epoch bao gồm quá trình feedforward và backpropagation
để cập nhật trọng số.
Tốc độ học (learning rate) xác định mức độ điều chỉnh trọng
số trong mỗi bước cập nhật
2.2.2.5. Ứng dụng của Mạng nơ ron nhân tạo (ANN):
 Nhân dạng và phân loại: ANN được sử dụng rộng rãi trong các ứng dụng
nhận dạng khuôn mặt, phân loại ảnh, văn bản, giọng nói , ….
Dự đơán và dự báo: ANN có thể ứng dụng trong các dự đoán kết quả
trong các lĩnh vực tài chính, thị trường, thời tiết, giáo dục , ….
Xử lí ngơn ngữ tự nhiên : dich máy, phân tích ý kiến, tổng hợp giọng
nói, …

2.2.2.6. Ưu nhược điểm của ANN 
Ưu điểm:
Khả năng tự học tập và tự thích nghi từ dữ liệu
Xử lí các tác vụ phức tạp và phi tuyến tính
Xử lí đa dạng các loại ngơn ngữ
 Nhược điểm:
Cần nhiều dữ liệu để được kết quả tốt
Cần nhiều tài ngun cho tính tốn và thời gian huấn luyện
Khó hiểu và giải thích quyết của mạng.






























22


2.3. Các tiêu chí đánh giá độ chính xác
2.3.1. Hệ số tương quan R bình phương ( r square ) (r2)
-

khái niệm r bình phương ?

R bình phương là một thước đo được sử dụng trong thống kê và nó cho chúng
ta biết mức độ phù hợp của hình nghiên cứu với ý nghĩa là các nhân tố ( các biến).
Đồng thới hệ số này giải thích nhân tố phụ thuộc đó đạt bao nhiêu phần tram trong q
trình nghiên cứu.
- Cơng thức tính :
Cơng thức tính hệ số tương
  quan r2  đang được sử dụng như sau:

 
Trong đó:









-

ESS là viết tắt của Residual Sum of Squares, tứ c là tổ ng các
độ lệch bình phương củ a phầ n dư .
TSS là viết tắt của Total Sum of Squares, tứ c là tổ ng độ lệ ch
bình phương của tồn bộ các nhân tố nghiên cứ u.
  Có thể thấ y R sẽ trong khoả ng từ 0 đế n 1. Trong khi tính
ESS ta cũng cần lưu ý multiple r. Vậ y multiple r là gì 
?
Multiple r là viết tắt của multiple regression. Đ ây là hệ số
tương quan hồi quy nhiều lầ n gắ n liề n mậ t thiế t vớ i r square.
Chỉ số này cho phép bạn kiể m tra xem việ c đư a thêm mộ t
biến vào mơ hình có cịn đượ c hay khơng; đồ ng thờ i nó cịn
có khả năng loại trừ ảnh hưở ng củ a mộ t số biế n.

Ý ngh ĩ a:


R bình phương cho biết mơ hình đó hợ p vớ i dữ liệ u ở mứ c bao
nhiêu %.
Ví dụ: r bình phương = 0,65. Vậy mơ hình hồ i quy tuyế n tính đang
được thống kê sẽ phù hợ p vớ i dữ liệ u (hoặ c biế n) ở mứ c 65%.




R bình phương cũng cho biế t độ phù hợ p củ a mơ hình, ngườ i ta
nghiên cứu đượ c rằng, vớ i r bình phươ ng > 50% thì mộ t mơ hình
được đánh giá là phù hợ p.

23


Tất nhiên, khơng phải tất cả các mơ hình đề u phả i có r bình
phương > 50%, ta có thể loại trừ mộ t số mơ hình có sự biế n độ ng
lớn như giá vàng hay giá cổ phiế u…


 Đặc biệt, giá trị r2 càng cao thì mối quan hệ giữ a nhân tố độ c lậ p
(biến độc lập) và nhân tố phụ thuộ c càng chặ t chẽ . Vì thế mà r
bình phương cịn được biết tớ i vớ i cái tên  hệ số tươ ng quan r
bình phương.

2.3.2. Mean Squared Error ( MSE)
-

Khái niệm:

MSE là một chỉ số đo lường sự chênh lệch bình phương trung bình giữa giá trị
dự đốn và giá trị thực trong bài tốn. Nó sẽ tính tốn bình phương sai số trung bình
giữa các điểm dữ liệu và đường hồi quy được dự đốn bởi mơ hình
- Cơng thức:

 
trong đó n là số điểm dữ liệu, yᵢ là giá trị quan sát và ŷ ᵢ là giá trị dự
đoán.

- Ý nghĩa:
Khi giá trị MSE càng nhỏ thì càng tốt, đồng nghĩa với việc mơ hình dự đốn
gần với giá trị thực tế nhất.

2.3.3. Mean Absolute Error ( MAE)
- Khái niệm:
MAE là một chỉ số đo lường sự chênh lệch tuyệt đối trung bình giữa giá trị dự
đốn và giá trị thực tế trong bài tốn hồi quy. Nó sẽ tính tốn trung bình cộng
của các giá trị tuyệt đối của sai số.
- Công thức:
24


×