Tải bản đầy đủ (.docx) (43 trang)

Báo cáo bài tập lớn Xác suất thống kê Mô hình hồi quy tuyến tính

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.48 MB, 43 trang )

1


MỤC LỤC
TÓM TẮT CÂU HỎI.......................................................................................................3
CƠ SỞ LÝ THUYẾT........................................................................................................4
Hồi quy..........................................................................................................................4
1. Giới thiệu mơ hình hồi quy tuyến tính bội..............................................................4
2. Ước lượng các tham số của mơ hình hồi quy tuyến tính bội..................................5
I. PHẦN CHUNG...........................................................................................................13
1. Đọc dữ liệu (Import Data)........................................................................................13
2. Làm sạch dữ liệu (Data cleaning)............................................................................13
3. Làm rõ dữ liệu (Data visualization).........................................................................17
4. Xây dựng các mơ hình hồi quy tuyến tính (Fitting linear regression models)........22
5. Dự đoán (Prediction)............................................................................................29
II. PHẦN RIÊNG............................................................................................................32
1. Đọc dữ liệu (Import data).....................................................................................32
2. Làm sạch dữ liệu (Data cleaning).........................................................................33
3. Làm rõ dữ liệu (Data visualization)......................................................................33
4. Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models)...............39
5. Dự báo (Prediction)..............................................................................................41
TÀI LIỆU THAM KHẢO...............................................................................................42

2


TÓM TẮT CÂU HỎI
I. Phần chung:
Đề tài: Tập tin "diem_so.csv" chứa thơng tin về điểm tốn của các em học sinh trung
học thuộc hai trường học ở Bồ Đào Nha. Các thuộc tính dữ liệu bao gồm điểm học
sinh, nơi cư trú, và một số hoạt động xã hội khác. Dữ liệu được thu thập bằng cách sử


dụng báo cáo của các trường và các kết quả khảo sát sinh viên. Dữ liệu gốc được cung
cấp tại:
/>1.Đọc dữ liệu (Import Data)
2.Làm sạch dữ liệu (Data Cleaning)
3.Làm rõ dữ liệu (Data visualization):
4.Xây dựng các mơ hình hồi quy tuyến tính (Fitting linear regression models):
5.Dự đốn (Prediction):
II. Phần riêng:
Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình. Khuyến khích sinh viên
sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án ... trong chun ngành của
mình. Ngồi ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo
trong kho dữ liệu cung cấp trong tập tin “kho_du_lieu_BTL_xstk.xlsx”
Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu
của mình, nhưng phải đảm bảo 2 phần: làm rõ dữ liệu (data visualization) và mơ hình dữ
liệu (model fitting). Trong ngành xây dựng hiện nay, trong các cơng trình xây dựng thì bê
tơng đóng vai trị quan trọng trong việc cấu thành một cơng trình, để có được loại bê tơng
tốt thì bê tơng đó cần có những thành phần cấu tạo nên nó để đạt được sức nén chịu lực tối
ưu nhất. Vì vậy các nhà nghiên cứu đã tiến hành thực nghiệm về thành phần cấu tạo nên bê
tông để có sức nén tối ưu. Nhóm đã sử dụng phần thực nghiệm
Concrete_Data.xls trong kho dữ liệu XSTK.
Các biến chính trong bộ dữ liệu:
• Cement: Xi măng (Kg trong hỗn hợp 1m3).
• BF: Xỉ lị cao – Blast Furnsce Slag (Kg trong hỗn hợp 1m3).
• WT: Nước – Water (Kg trong hỗn hợp 1m3).
• Super: Phụ gia siêu dẻo – Superplasticizer (Kg trong hỗn hợp 1m3).
• CA: Cốt liệu thơ – Coarse Aggregate (Kg trong hỗn hợp 1m3).
• FA.1: Cốt liệu mịn – Fine Aggregate (Kg trong hỗn hợp 1m3).
• Age: Tuổi – Age (ngày).
• CCS: Cường độ nén bê tông – Concrete Compressive Strength (MPa)
3



CƠ SỞ LÝ THUYẾT
Hồi quy
Hồi quy chính là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến
phụ thuộc và một nhóm tập hợp các biến độc lập. Mơ hình với một biến phụ thuộc với hai
hoặc nhiều biến độc lập được gọi là hồi quy bội (hay cịn gọi là hồi quy đa biến).
Ví dụ: Chi tiêu của hộ gia đình về thực phẩm phụ thuộc vào quy mơ hộ gia đình, thu
nhập, vị trí địa lý,…; Tỷ lệ tử vong trẻ em của một quốc gia phụ thuộc vào thu nhập bình
quân đầu người, trình độ giáo dục,…; Lương của một người phụ thuộc vào chức vụ, kinh
nghiệm, độ tuổi,…

1. Giới thiệu mơ hình hồi quy tuyến tính bội
Mơ hình hồi quy tuyến tính bội có dạng tổng quát như sau:
Y = β1 + β2X2 + β3X3 + … + βkXk + u
Trong đó: + Y: biến phụ thuộc
+ Xi: biến độc lập
+ β1: hệ số tự do (hệ số chặn)
+ βi: hệ số hồi quy riêng.
βi đo lường tác động riêng phần của biến Xi lên Y với điều kiện các biến số khác
trong mơ hình khơng đổi. Cụ thể hơn, nếu các biến khác trong mơ hình khơng đổi, giá trị
kỳ vọng của Y sẽ tăng βi đơn vị nếu Xi tăng 1 đơn vị u: sai số ngẫu nhiên.
Như vậy, "Hồi quy tuyến tính" là một phương pháp để dự đốn giá trị biến phụ thuộc
(Y) dựa trên giá trị của biến độc lập (X). Thuật ngữ tuyến tính dùng để chỉ rằng bản chất
của các thông số của tổng thể β1 và βi là tuyến tính (bậc nhất). Nó có thể được sử dụng cho
các trường hợp chúng ta muốn dự đoán một số lượng liên tục.

4



Ví dụ: dự đốn thời gian người dùng dừng lại một trang nào đó hoặc số người đã truy
cập vào một website nào đó v.v... Bằng dữ liệu thu thập được, ta đi ước lượng hàm hồi
quy của tổng thể, đó là ước lượng các tham số của tổng thể: β1, β2,…, βk

2. Ước lượng các tham số của mô hình hồi quy tuyến tính bội
2.1. Hàm hồi quy tổng thể (PRF – Population Regression Function)
Với Y là biến phụ thuộc, X2, X3,…, Xk là biến độc lập, Y là ngẫu nhiên và có một
phân phối xác suất nào đó.
Suy ra: Tồn tại E(Y|X2, X3,…, Xk) = giá trị xác định.
Do vậy, F(X2, X3,…, Xk)= E(Y|X2, X3,…, Xk) là hàm hồi quy tổng thể của Y theo X 2,
X3,…, Xk.
Với một cá thể i, tồn tại (X2,i, X3,i, …, Xk,i, Yi)
Ta có: Yi ≠ F(X2, X3,…, Xk) ⇒ ui = Yi – F
Do vậy: Yi = E(Y|X2, X3,…, Xk) + ui
Hồi quy tổng thể PRF:
 Y = E(Y|X) + U
 E(Y|X) = F(X)
2.2. Hàm hồi quy mẫu (SRF – Sample Regression Function)
Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của biến
phụ thuộc là đúng ở mức độ nào. Do vậy chúng ta phải dựa vào dữ liệu mẫu để ước
lượng. Trên một mẫu có n cá thể, gọi Ŷ = F̂(X2, X3,…, Xk) là hồi quy mẫu. Với một cá
thể mẫu Yi ≠ F̂(X2,i, X3,i,…, Xk,i) sinh ra ei = Yi – F̂ (X2, X3,…, Xk); ei gọi là phần dư SRF.
Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau:
ŷi = β̂1 + β̂2x2,i + β̂3x3,i + … + β̂kxk,i
Phần dư sinh ra: ei = yi – ŷi
5


Ký hiệu: β̂m là ước lượng của βm. Chúng ta trông đợi β̂m là ước lượng không chệch
của βm, hơn nữa phải là một ước lượng hiệu quả.

Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của F qua
việc tìm các tham số của F̂ và lấy giá trị quan sát của các tham số này làm giá trị xấp xỉ
cho tham số của F.
2.3. Phương pháp bình phương nhỏ nhất (Ordinary Least Squares)
Phương pháp bình phương nhỏ nhất được đưa ra bởi nhà Toán học Đức Carl
Friedrich Gauss. Tư tưởng của phương pháp này là cực tiểu tổng bình phương của các
phần dư. Do đó có thể nói để có được hồi quy thích hợp nhất, chúng ta chọn các ước
lượng có tung độ gốc và độ dốc sao cho phần dư là nhỏ.
2.3.1. Các giả thiết của phương pháp bình phương nhỏ nhất cho mơ hình hồi quy tuyến tính
bội
Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong
việc ước lượng các tham số của mơ hình, tuy nhiên mơ hình ước lượng phải thỏa mãn 7
giả thiết. Khi thỏa mãn các giả thiết, ước lượng bình phương nhỏ nhất (OLS) là ước
lượng tuyến tính khơng chệch có hiệu quả nhất trong các ước lượng. Vì thế phương pháp
OLS đưa ra ước lượng khơng chệch tuyến tính tốt nhất (BLUE).
Kết quả này được gọi là Định lý Gauss – Markov, theo lý thuyết này ước lượng
OLS là BLUE, nghĩa là trong tất cả các tổ hợp tuyến tính khơng chệch của Y, ước lượng
OLS có phương sai bé nhất. Các giả thiết như sau:
1) Hàm hồi quy là tuyến tính theo các hệ số.
Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi
mối quan hệ dưới dạng:
y = β1 + β2x2 + β3x3 + β4x4 + … + βkxk + u
hoặc mối quan hệ thực tế có thể được viết lại ví dụ như dưới dạng lấy loga cả hai vế.

6


2) E(ui) = 0 : Kỳ vọng của các yếu tố ngẫu nhiên ui bằng 0.
Trung bình tổng thể sai số là bằng 0. Điều này có nghĩa là có một số giá trị sai số
mang dấu dương và một số sai số mang dấu âm. Do hàm xem như là đường trung

bình nên có thể giả định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức
trung bình, trong tổng thể.
3) Var(ui) = σ2 : Phương sai bằng nhau và thuần nhất với mọi ui.
Tất cả giá trị u được phân phối giống nhau với cùng phương sai σ2, sao cho:
Var(ui) = E(ui2) = σ2.
4) ui phân phối chuẩn.
Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả
thuyết trong những phạm vi mẫu là nhỏ. Nhưng phạm vi mẫu lớn hơn, điều này trở
nên không mấy quan trọng.
5) Giữa các ui thì độc lập với nhau.
2.3.2. Ước lượng
Ta đặt: yi ký hiệu giá trị thực của biến y tại quan sát i
ŷi ký hiệu giá trị của hàm hồi quy mẫu
ei ký hiệu phần dư yi – ŷi

7


Hình 1. Đồ thị hồi quy tuyến tính

Do đó cực tiểu hóa Σ(yi – ŷi)2 sẽ tương đương với cực tiểu Σei2 từ đó tìm ra β̂0, β̂1,…,
β̂k
Ta có:
Σei2 = Σ(yi – (β̂1 + β̂2x2,i + β̂3x3,i + β̂4x4,i + … + β̂kxk,i))2
Chúng ta có thiết lập các điều kiện bậc nhất cho phép tính tối thiểu này như sau:


∂β̂k

= -2Σ (yi-(β̂1+ β̂2x2i+ β̂3x3i+…+β̂kxki )) xki = 0


Hệ phương trình mà chúng ta có được gọi là hệ phương trình chuẩn của hồi quy
mẫu. Chúng ta có thể giải k phương trình chuẩn này để tìm k hệ số β̂ chưa biết. β̂1, β̂2,…,
β̂k được gọi là các ước lượng bình phương nhỏ nhất.
2.4. Độ phù hợp của mơ hình

8


Để có thể biết mơ hình giải thích được như thế nào hay bao nhiêu % biến động của
biến phụ thuộc, người ta sử dụng R2
Σ(yi – ӯ))2 = Σ[(yi – ŷi) + (ŷi – ӯ))]2 = Σ[ei +

Ta có:

(ŷi – ӯ))]2 = Σei2 + 2Σei(ŷi – ӯ)) + Σ(ŷi – ӯ))2
Đặt:


Σ(yi – ӯ))2 : TSS – Total Sum of Squares



Σ(ŷi – ӯ))2 : ESS – Explained Sum of Squares



Σei2 : RSS – Residual Sum of Squares

Do Σei(ŷi – ӯ)) = 0 ⇐ (Σeiŷi = 0; Σeiӯ) = 0)

Ta có thể viết: TSS = ESS + RSS
Ý nghĩa của các thành phần:


TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y i và

giá trị trung bình.


ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ

thuộc Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng. Phần này đo độ
chính xác của hàm hồi quy.


RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và

các giá trị nhận được từ hàm hồi quy.


TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra.

Từ TTS = ESS + RSS, ta chia cả hai vế cho TSS, ta có:
1 = ESS + RSS = Σ(ŷi – ӯ))2 +
2

e

Σ 2i 2 TSS TSS Σ(yi- y̅) Σ(yi- y̅)
2


9


R2 = ESSTSS =1 - RSSTSS = (Σ((Σy(i-yy̅i)- 2y̅))((Σy(i-y y̅î-) y̅))̂ 2)

Tỷ số giữa tổng biến thiên được giải thích bởi mơ hình cho tổng bình phương cần
được giải thích được gọi là hệ số xác định, hay là trị thống kê “good of fit”. Từ định nghĩa
R2 chúng ta thấy R2 đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị trung bình được
giải thích bằng mơ hình. Khi đó người ta sử dụng R2 để đo sự phù hợp của hàm hồi quy:
0 ≤ R2 ≤ 1


R2 cao nghĩa là mơ hình ước lượng được giải thích được một mức độ cao biến

động của biến phụ thuộc.


Nếu R2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y.



Nếu R2 = 0, nghĩa là mơ hình khơng đưa ra thơng tin nào về sự thay đổi của

biến phụ thuộc y.
Trong mơ hình hồi quy đa biến tỷ lệ của tồn bộ sự khác biệt của biến y do tất cả các
biến x2 và x3 gây ra được gọi là hệ số xác định bội, ký hiệu là R2
R2 = β̂2Σ(yi- y̅)(x2i- x̅2)+β̂3Σ2(yi- y̅)(x3i- x̅3) = 1- Σe2i 2
Σ(yi- y̅)


Σ(yi- y̅)

2.5. Khoảng tin cậy và kiểm định các hệ số hồi quy
2.5.1. Ước lượng khoảng tin cậy đối với các hệ số hồi quy
Mục đích của phân tích hồi quy khơng phải chỉ suy đoán về β 1, β2,…, βk mà còn
phải kiểm tra bản chất sự phụ thuộc. Do vậy cần phải biết phân bố xác suất của β 1, β2,…,
βk. Các phân bố này phụ thuộc vào phân bố của các ui.
Với các giả thiết OLS, ui có phân phối N (0, σ2). Các hệ số ước lượng tuân theo phân phối
chuẩn:

10


β̂j ~ N(βj, Se(β̂j))
β̂j -βj
~ T(n − k)
Se(β̂j)
Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu. Trong đó
k là số hệ số có trong phương trình hồi quy đa biến:
Σe2
σ̂2=

i

n-k


Ước lượng 2 phía, ta tìm được t (n-3)=1- α thỏa mãn:
P(


2

̂j)

P( t (n-3))

Se(β



Khoảng tin cậy 1 - α của βj là:
[ β̂j − t (n-3)Se(β̂j)] ; [ β̂j + t (n-3)Se(β̂j)]

2.5.2. Kiểm định giả thiết đối với βj
Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay khơng: kiểm định
rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay khơng. Nói cách khác là
hệ số hồi quy có ý nghĩa thống kê hay khơng.
Có thể đưa ra giả thiết nào đó đối với βj, chẳng hạn βj = βj*. Nếu giả thiết này đúng thì:
T=

β̂Sej -(ββ̂jj)

Ta có bảng sau:

11

~ T(n − k)


Kiểm định βj:




H0: βj = 0 ⇔ xj không tác động
H1: βj ≠ 0 ⇔ xj có tác động
βj < 0 ⇔ xj có tác động ngược

βj > 0 ⇔ xj có

tác động thuận
2.5.3. Kiểm định ý nghĩa của mơ hình
Trong mơ hình hồi quy đa biến, giả thuyết “khơng” cho rằng mơ hình khơng có ý
nghĩa được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0.
Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể như
sau:


Bước 1: Giả thuyết “không” là H0: β2 = β3 = … = βk = 0.

Giả thuyết đối là H1: “có ít nhất một trong những giá trị β khác không”.


Bước 2: Trước tiên hồi quy Y theo một số hạng không đổi và X 2, X3, …, Xk, sau
đó tính tổng bình phương sai số RSS U, RSSR. Phân phối F là tỷ số của hai biến
ngẫu nhiên phân phối khi bình phương độc lập. Điều này cho ta trị thống kê:
Fc = [RSSR − RSSU ]/(k−m) ~ F(α, k – m, n – k) RSSU
/(n−k)

Vì H0: β2 = β3 = … = βk = 0, nhận thấy rằng trị thống kê kiểm định đối với giả thuyết này
sẽ là: Fc = ESS/(k−1) ~ F(α, k – 1, n – k)

RSS/(n−k)



Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k – 1) cho tử số và (n

12


k) cho mẫu số, và với mức ý nghĩa α cho trước.
 Bước 4: Bác bỏ giả thuyết H0 ở mức ý nghĩa α nếu F c > F(α, k-1, n-k). Đối với
phương pháp giá trị p, tính giá trị p = P(F>Fc|H0) và bác bỏ giả thuyết H0 nếu p < α.

I. PHẦN CHUNG
Đề tài: Tập tin "diem_so.csv" chứa thơng tin về điểm tốn của các em học sinh trung học
thuộc hai trường học ở Bồ Đào Nha. Các thuộc tính dữ liệu bao gồm điểm học sinh, nơi
cư trú, và một số hoạt động xã hội khác. Dữ liệu được thu thập bằng cách sử dụng báo cáo
của các trường và các kết quả khảo sát sinh viên. Dữ liệu gốc được cung cấp tại:
Các
biến chính trong bộ dữ liệu:

G1: Điểm thi học kì 1.

G2: Điểm thi học kì 2.

G3: Điểm cuối khố.

studytime: Thời gian tự học trên tuần(1 – ít hơn 2 giờ, 2 – từ 2 đến 5 giờ, 3 – từ 5
đến 10 giờ, or 4 – lớn hơn 10 giờ).


failures: số lần khơng qua môn (1,2,3, hoặc 4 chỉ nhiều hơn hoặc bằng 4 lần). 
absences: số lần nghỉ học.

paid: Có tham gia các lớp học thêm mơn Tốn ngồi trường (có/khơng).

sex: Giới tính cıa học sinh. (Nam/nữ)

1. Đọc dữ liệu (Import Data)
-Input:
diem_so <- read_csv("Zalo Received Files/diem_so.csv")
+Giải thích: Lấy dữ liệu từ Excel sang R và lưu dữ liệu với tên là “diem_so”
head(diem_so,10)
+Giải thích: Đọc 10 dịng đầu tên tệp “diem_so”.
-Output:

13


2. Làm sạch dữ liệu (Data cleaning)
Trích ra một dữ liệu con đặt tên là new_DF chỉ bao gồm các biến cần quan tâm là G1,
G2,
G3, studytime, failures, absences, sex, paid.
-Input:
names(diem_so)
+Giải thích: liệt kê các biến có trong dữ liệu diem_so Output:

-Input:
new_DF=data.frame(diem_so[,c(32,33,34,15,16,31,19,3)])
head(new_DF,10)
+Giải thích: Trích ra dữ liệu con đặt tên là new_DF bao gồm các biến G1, G2, G3,

studytime, failures, absences, sex, paid.
-Output:

14


a) Kiểm tra các dữ liệu bị khuyết trong tập tin.
Dữ liệu khuyết (missing data): Dữ liệu bị thiếu (missing values) đóng một vai trị quan
trọng trong thống kê và phân tích dữ liệu. Thơng thường, missing values khơng nên bị bỏ
qua mà cần được nghiên cứu cẩn thận để xem xét xem điều gì khiến cho các missing
values này bị thiếu. Trong R, NA được sử dụng để thể hiện các giá trị không tồn tại (not
available) hay bị thiếu (missing) theo nghĩa thống kê. Cách xác định các dữ liệu bị
khuyết trong tập tin: -Input:
apply(is.na(new_DF),2,which)
+Giải thích: Kiểm tra và xuất ra các giá trị bị khuyết của các biến trong tập tin
new_DF
-Output:
$G1
integer(0)
$G2
[1] 2 6 9
80 100
$G3
integer(0)
$studytime
integer(0)
$failures
integer(0)
$absences integer(0)
$paid integer(0)

$sex integer(0)
-Kết luận: Ta thấy có các giá trị khuyết tại biến G2.
b) Xử lí các giá trị bị khuyết
Phương pháp 1
Phương pháp này giúp điền vào các giá trị còn thiếu vào các giá
Mean/Mode/Median trị ước tính.
Imputation
Mục tiêu là sử dụng các mối quan hệ đã biết có thể được xác
định trong các giá trị hợp lệ của tập dữ liệu để hỗ trợ ước tính
cho các giá trị cịn thiếu. Phương pháp này được sử dụng thường
xuyên.
15


Phương pháp 2
Prediction Model
(Mơ hình dự đốn)

Phương pháp 3
Deletion

Phương pháp 4
KNN Imputation
Phương pháp được
sử dụng

Cách sử dụng:
• Generalized Imputation: Trong trường hợp này, ta tính
giá trị trung bình hoặc trung vị cho tất cả các giá trị
không bị thiếu của biến đó sau đó thay thế giá trị bị thiếu

bằng giá trị trung bình hoặc trung vị.
• Similar case Imputation: trong trường hợp này, ta cũng
tính các giá trị trung bình nhưng các giá trị này sẽ được
tính riêng lẻ theo từng đối tượng của các giá trị không bị
thiếu , sau đó thay các giá trị trung bình đã được tính theo
từng đối tượng trước đó.
Tạo mơ hình dự đốn để ước tính các giá trị sẽ thay thế dữ liệu
bị thiếu. Trong trường hợp này, chia tập dữ liệu của mình thành
hai tập: Một tập khơng có giá trị bị thiếu cho biến và một tập
khác có giá trị bị thiếu. Tập dữ liệu đầu tiên trở thành tập dữ liệu
h́n luyện của mơ hình trong khi tập dữ liệu thứ hai có giá trị bị
thiếu là tập dữ liệu thử nghiệm và biến có giá trị bị thiếu được
coi là biến mục tiêu. Tiếp theo, chúng tôi tạo một mơ hình để dự
đốn biến mục tiêu dựa trên các thuộc tính khác của tập dữ liệu
huấn luyện và điền các giá trị còn thiếu của tập dữ liệu thử
nghiệm.
Phương pháp này được dùng khi khi xác suất thiếu biến là như
nhau cho tất cả các quan sát. Phương pháp này được thực hiện
bởi 2 cách: List Wise Deletion and Pair Wise Deletion.
 List wise deletion: xóa các quan sát mà bất kỳ biến nào bị
thiếu, nhưng phương pháp này có một lỗ hỗng bởi việc xố quan
sát cua bất cứ biến nào bị thiếu này sẽ làm giảm sức mạnh của
mơ hình vì nó xóa tồn bộ hàng quan sát trong đó dữ liệu bị
thiếu
 Pair Wise Deletion: chúng ta sẽ thực hiện phân tích với tất cả
các trường hợp có các biến quan tâm. Ưu điểm của phương pháp
này là, nó giữ được nhiều trường hợp có sẵn để phân tích. Một
trong những nhược điểm của phương pháp này, nó sử dụng cỡ
mẫu khác nhau cho các biến khác nhau.
Trong phương pháp này gán giá trị , các giá trị bị thiếu của một

thuộc tính được gán bằng cách sử dụng một số thuộc tính đã cho
giống nhất với thuộc tính có giá trị bị thiếu. Sự giống nhau của
hai thuộc tính được xác định bằng cách sử dụng hàm khoảng
cách.
Xóa các quan sát mà bất kỳ biến nào bị thiếu
16


Phương pháp
được sử dụng
Input
Output

Xóa các quan sát mà bất kỳ biến nào bị thiếu
new_DF=na.omit(new_DF)
Giải thích: xóa các quan sát khi có các biến bị thiếu

3. Làm rõ dữ liệu (Data visualization)
a) Tạo bảng dữ liệu cho các biến liên tục.
Các biến liên tục trong bộ dữ liệu là: G1, G2, G3, absences tương ứng với cột thứ 1, 2, 3,
6 trong dữ liệu. -Input:
mean=apply(new_DF[,c(1,2,3,6)],2,mean)
+Giải thích: Tính trung bình của các biến liên tục (G1, G2, G3, absences) và lưu
vào biến có tên là mean.
median=apply(new_DF[,c(1,2,3,6)],2,median)
+Giải thích: Tính trung vị của các biến liên tục (G1, G2, G3, absences) và lưu vào
biến có tên là median.
sd=apply(new_DF[,c(1,2,3,6)],2,sd)
+Giải thích: Tính độ lệch chuẩn của các biến liên tục (G1, G2, G3, absences) và lưu
vào biến có tên là sd.

max=apply(new_DF[,c(1,2,3,6)],2,max)

17


+Giải thích: Tính giá trị lớn nhất của các biến liên tục (G1, G2, G3, absences) và
lưu vào biến có tên là max.
min=apply(new_DF[,c(1,2,3,6)],2,min)
+Giải thích: Tính giá trị nhỏ nhất của các biến liên tục (G1, G2, G3, absences) và
lưu vào biến có tên là min.
des=data.frame(mean,median,sd,max,min)
t(des)
+Giải thích: Tạo bảng dữ liệu thể hiện các giá trị thống kê mô tả cho các biến liên
tục, lưu với tên là descriptive_statistics.
-Output:

b) Lập bảng thống kê số lượng cho biến phân loại
-Input:
table(new_DF$failures)
table(new_DF$studytime)
table(new_DF$paid)
table(new_DF$sex)
+Giải thích: tạo bảng thống kê số lượng cho biến failures, studytime, paid, sex.
-Output:

c) Vẽ đồ thị phân phối tần số của biến G3

18



-Input: hist(new_DF$G3,xlab= "G3",main= "Histogram of G3",label=T, ylim=c(0,100))
+Giải thích: Vẽ biểu đồ historgram cho biến G3 -Output:
Nhận xét:

Quan sát đồ thị, ta thấy được mức điểm cuối khóa của sinh viên tập trung hầu ở
mức từ 6-16 điểm, cao nhất ở khoảng 8-10 điểm (84 sinh viên), có 1 sinh viên có
mức điểm thấp từ 2-4 điểm. Đặc biệt có đến 38 sinh viên có điểm cuối khóa là 0
điểm.
d) Vẽ phân phối của biến G3 theo từng nhóm phân loại -Input:
boxplot(G3~studytime,main="Boxplot of G3 for each categogy of studytime",
data = new_DF)
boxplot(G3~failures,main="Boxplot of G3 for each categogy of failures", data =
new_DF)
boxplot(G3~paid,main="Boxplot of G3 for each categogy of paid", data=new_DF)
boxplot(G3~sex,main="Boxplot of G3 for each categogy of sex", data=new_DF)
+ Giải thích: vẽ biểu đồ Boxplot của biến G3 cho từng nhóm phân loại cảu biến
studytime, failures, paid, sex.
-Output:

19


e) Vẽ các phân phối của biến G3 theo từng biến định lượng Input:
pairs(G3~G1,data=new_DF ,pch=20,main="pairs of G3 for G1")
+Giải thích: Vẽ các phân phối của biến G3 theo biến G1.
-Output:

20




×