Báo cáo bài tập lớn Xác suất thống kê Mô hình hồi quy tuyến tính

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.48 MB, 43 trang )

1

MỤC LỤC
TÓM TẮT CÂU HỎI.......................................................................................................3
CƠ SỞ LÝ THUYẾT........................................................................................................4
Hồi quy..........................................................................................................................4
1. Giới thiệu mơ hình hồi quy tuyến tính bội..............................................................4
2. Ước lượng các tham số của mơ hình hồi quy tuyến tính bội..................................5
I. PHẦN CHUNG...........................................................................................................13
1. Đọc dữ liệu (Import Data)........................................................................................13
2. Làm sạch dữ liệu (Data cleaning)............................................................................13
3. Làm rõ dữ liệu (Data visualization).........................................................................17
4. Xây dựng các mơ hình hồi quy tuyến tính (Fitting linear regression models)........22
5. Dự đoán (Prediction)............................................................................................29
II. PHẦN RIÊNG............................................................................................................32
1. Đọc dữ liệu (Import data).....................................................................................32
2. Làm sạch dữ liệu (Data cleaning).........................................................................33
3. Làm rõ dữ liệu (Data visualization)......................................................................33
4. Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models)...............39
5. Dự báo (Prediction)..............................................................................................41
TÀI LIỆU THAM KHẢO...............................................................................................42

2

TÓM TẮT CÂU HỎI
I. Phần chung:
Đề tài: Tập tin "diem_so.csv" chứa thơng tin về điểm tốn của các em học sinh trung
học thuộc hai trường học ở Bồ Đào Nha. Các thuộc tính dữ liệu bao gồm điểm học
sinh, nơi cư trú, và một số hoạt động xã hội khác. Dữ liệu được thu thập bằng cách sử

dụng báo cáo của các trường và các kết quả khảo sát sinh viên. Dữ liệu gốc được cung
cấp tại:
/>1.Đọc dữ liệu (Import Data)
2.Làm sạch dữ liệu (Data Cleaning)
3.Làm rõ dữ liệu (Data visualization):
4.Xây dựng các mơ hình hồi quy tuyến tính (Fitting linear regression models):
5.Dự đốn (Prediction):
II. Phần riêng:
Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình. Khuyến khích sinh viên
sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án ... trong chun ngành của
mình. Ngồi ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo
trong kho dữ liệu cung cấp trong tập tin “kho_du_lieu_BTL_xstk.xlsx”
Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu
của mình, nhưng phải đảm bảo 2 phần: làm rõ dữ liệu (data visualization) và mơ hình dữ
liệu (model fitting). Trong ngành xây dựng hiện nay, trong các cơng trình xây dựng thì bê
tơng đóng vai trị quan trọng trong việc cấu thành một cơng trình, để có được loại bê tơng
tốt thì bê tơng đó cần có những thành phần cấu tạo nên nó để đạt được sức nén chịu lực tối
ưu nhất. Vì vậy các nhà nghiên cứu đã tiến hành thực nghiệm về thành phần cấu tạo nên bê
tông để có sức nén tối ưu. Nhóm đã sử dụng phần thực nghiệm
Concrete_Data.xls trong kho dữ liệu XSTK.
Các biến chính trong bộ dữ liệu:
• Cement: Xi măng (Kg trong hỗn hợp 1m3).
• BF: Xỉ lị cao – Blast Furnsce Slag (Kg trong hỗn hợp 1m3).
• WT: Nước – Water (Kg trong hỗn hợp 1m3).
• Super: Phụ gia siêu dẻo – Superplasticizer (Kg trong hỗn hợp 1m3).
• CA: Cốt liệu thơ – Coarse Aggregate (Kg trong hỗn hợp 1m3).
• FA.1: Cốt liệu mịn – Fine Aggregate (Kg trong hỗn hợp 1m3).
• Age: Tuổi – Age (ngày).
• CCS: Cường độ nén bê tông – Concrete Compressive Strength (MPa)
3

CƠ SỞ LÝ THUYẾT
Hồi quy
Hồi quy chính là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến
phụ thuộc và một nhóm tập hợp các biến độc lập. Mơ hình với một biến phụ thuộc với hai
hoặc nhiều biến độc lập được gọi là hồi quy bội (hay cịn gọi là hồi quy đa biến).
Ví dụ: Chi tiêu của hộ gia đình về thực phẩm phụ thuộc vào quy mơ hộ gia đình, thu
nhập, vị trí địa lý,…; Tỷ lệ tử vong trẻ em của một quốc gia phụ thuộc vào thu nhập bình
quân đầu người, trình độ giáo dục,…; Lương của một người phụ thuộc vào chức vụ, kinh
nghiệm, độ tuổi,…

1. Giới thiệu mơ hình hồi quy tuyến tính bội
Mơ hình hồi quy tuyến tính bội có dạng tổng quát như sau:
Y = β1 + β2X2 + β3X3 + … + βkXk + u
Trong đó: + Y: biến phụ thuộc
+ Xi: biến độc lập
+ β1: hệ số tự do (hệ số chặn)
+ βi: hệ số hồi quy riêng.
βi đo lường tác động riêng phần của biến Xi lên Y với điều kiện các biến số khác
trong mơ hình khơng đổi. Cụ thể hơn, nếu các biến khác trong mơ hình khơng đổi, giá trị
kỳ vọng của Y sẽ tăng βi đơn vị nếu Xi tăng 1 đơn vị u: sai số ngẫu nhiên.
Như vậy, "Hồi quy tuyến tính" là một phương pháp để dự đốn giá trị biến phụ thuộc
(Y) dựa trên giá trị của biến độc lập (X). Thuật ngữ tuyến tính dùng để chỉ rằng bản chất
của các thông số của tổng thể β1 và βi là tuyến tính (bậc nhất). Nó có thể được sử dụng cho
các trường hợp chúng ta muốn dự đoán một số lượng liên tục.

4

Ví dụ: dự đốn thời gian người dùng dừng lại một trang nào đó hoặc số người đã truy
cập vào một website nào đó v.v... Bằng dữ liệu thu thập được, ta đi ước lượng hàm hồi
quy của tổng thể, đó là ước lượng các tham số của tổng thể: β1, β2,…, βk

2. Ước lượng các tham số của mô hình hồi quy tuyến tính bội
2.1. Hàm hồi quy tổng thể (PRF – Population Regression Function)
Với Y là biến phụ thuộc, X2, X3,…, Xk là biến độc lập, Y là ngẫu nhiên và có một
phân phối xác suất nào đó.
Suy ra: Tồn tại E(Y|X2, X3,…, Xk) = giá trị xác định.
Do vậy, F(X2, X3,…, Xk)= E(Y|X2, X3,…, Xk) là hàm hồi quy tổng thể của Y theo X 2,
X3,…, Xk.
Với một cá thể i, tồn tại (X2,i, X3,i, …, Xk,i, Yi)
Ta có: Yi ≠ F(X2, X3,…, Xk) ⇒ ui = Yi – F
Do vậy: Yi = E(Y|X2, X3,…, Xk) + ui
Hồi quy tổng thể PRF:
 Y = E(Y|X) + U
 E(Y|X) = F(X)
2.2. Hàm hồi quy mẫu (SRF – Sample Regression Function)
Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của biến
phụ thuộc là đúng ở mức độ nào. Do vậy chúng ta phải dựa vào dữ liệu mẫu để ước
lượng. Trên một mẫu có n cá thể, gọi Ŷ = F̂(X2, X3,…, Xk) là hồi quy mẫu. Với một cá
thể mẫu Yi ≠ F̂(X2,i, X3,i,…, Xk,i) sinh ra ei = Yi – F̂ (X2, X3,…, Xk); ei gọi là phần dư SRF.
Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau:
ŷi = β̂1 + β̂2x2,i + β̂3x3,i + … + β̂kxk,i
Phần dư sinh ra: ei = yi – ŷi
5

Ký hiệu: β̂m là ước lượng của βm. Chúng ta trông đợi β̂m là ước lượng không chệch
của βm, hơn nữa phải là một ước lượng hiệu quả.

Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của F qua
việc tìm các tham số của F̂ và lấy giá trị quan sát của các tham số này làm giá trị xấp xỉ
cho tham số của F.
2.3. Phương pháp bình phương nhỏ nhất (Ordinary Least Squares)
Phương pháp bình phương nhỏ nhất được đưa ra bởi nhà Toán học Đức Carl
Friedrich Gauss. Tư tưởng của phương pháp này là cực tiểu tổng bình phương của các
phần dư. Do đó có thể nói để có được hồi quy thích hợp nhất, chúng ta chọn các ước
lượng có tung độ gốc và độ dốc sao cho phần dư là nhỏ.
2.3.1. Các giả thiết của phương pháp bình phương nhỏ nhất cho mơ hình hồi quy tuyến tính
bội
Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong
việc ước lượng các tham số của mơ hình, tuy nhiên mơ hình ước lượng phải thỏa mãn 7
giả thiết. Khi thỏa mãn các giả thiết, ước lượng bình phương nhỏ nhất (OLS) là ước
lượng tuyến tính khơng chệch có hiệu quả nhất trong các ước lượng. Vì thế phương pháp
OLS đưa ra ước lượng khơng chệch tuyến tính tốt nhất (BLUE).
Kết quả này được gọi là Định lý Gauss – Markov, theo lý thuyết này ước lượng
OLS là BLUE, nghĩa là trong tất cả các tổ hợp tuyến tính khơng chệch của Y, ước lượng
OLS có phương sai bé nhất. Các giả thiết như sau:
1) Hàm hồi quy là tuyến tính theo các hệ số.
Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi
mối quan hệ dưới dạng:
y = β1 + β2x2 + β3x3 + β4x4 + … + βkxk + u
hoặc mối quan hệ thực tế có thể được viết lại ví dụ như dưới dạng lấy loga cả hai vế.

6

2) E(ui) = 0 : Kỳ vọng của các yếu tố ngẫu nhiên ui bằng 0.
Trung bình tổng thể sai số là bằng 0. Điều này có nghĩa là có một số giá trị sai số
mang dấu dương và một số sai số mang dấu âm. Do hàm xem như là đường trung

bình nên có thể giả định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức
trung bình, trong tổng thể.
3) Var(ui) = σ2 : Phương sai bằng nhau và thuần nhất với mọi ui.
Tất cả giá trị u được phân phối giống nhau với cùng phương sai σ2, sao cho:
Var(ui) = E(ui2) = σ2.
4) ui phân phối chuẩn.
Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả
thuyết trong những phạm vi mẫu là nhỏ. Nhưng phạm vi mẫu lớn hơn, điều này trở
nên không mấy quan trọng.
5) Giữa các ui thì độc lập với nhau.
2.3.2. Ước lượng
Ta đặt: yi ký hiệu giá trị thực của biến y tại quan sát i
ŷi ký hiệu giá trị của hàm hồi quy mẫu
ei ký hiệu phần dư yi – ŷi

7

Hình 1. Đồ thị hồi quy tuyến tính

Do đó cực tiểu hóa Σ(yi – ŷi)2 sẽ tương đương với cực tiểu Σei2 từ đó tìm ra β̂0, β̂1,…,
β̂k
Ta có:
Σei2 = Σ(yi – (β̂1 + β̂2x2,i + β̂3x3,i + β̂4x4,i + … + β̂kxk,i))2
Chúng ta có thiết lập các điều kiện bậc nhất cho phép tính tối thiểu này như sau:

…
∂β̂k

= -2Σ (yi-(β̂1+ β̂2x2i+ β̂3x3i+…+β̂kxki )) xki = 0

Hệ phương trình mà chúng ta có được gọi là hệ phương trình chuẩn của hồi quy
mẫu. Chúng ta có thể giải k phương trình chuẩn này để tìm k hệ số β̂ chưa biết. β̂1, β̂2,…,
β̂k được gọi là các ước lượng bình phương nhỏ nhất.
2.4. Độ phù hợp của mơ hình

8

Để có thể biết mơ hình giải thích được như thế nào hay bao nhiêu % biến động của
biến phụ thuộc, người ta sử dụng R2
Σ(yi – ӯ))2 = Σ[(yi – ŷi) + (ŷi – ӯ))]2 = Σ[ei +

Ta có:

(ŷi – ӯ))]2 = Σei2 + 2Σei(ŷi – ӯ)) + Σ(ŷi – ӯ))2
Đặt:


Σ(yi – ӯ))2 : TSS – Total Sum of Squares



Σ(ŷi – ӯ))2 : ESS – Explained Sum of Squares



Σei2 : RSS – Residual Sum of Squares

Do Σei(ŷi – ӯ)) = 0 ⇐ (Σeiŷi = 0; Σeiӯ) = 0)

Ta có thể viết: TSS = ESS + RSS
Ý nghĩa của các thành phần:


TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y i và

giá trị trung bình.


ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ

thuộc Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng. Phần này đo độ
chính xác của hàm hồi quy.


RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và

các giá trị nhận được từ hàm hồi quy.


TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra.

Từ TTS = ESS + RSS, ta chia cả hai vế cho TSS, ta có:
1 = ESS + RSS = Σ(ŷi – ӯ))2 +
2

e

Σ 2i 2 TSS TSS Σ(yi- y̅) Σ(yi- y̅)
2

9

R2 = ESSTSS =1 - RSSTSS = (Σ((Σy(i-yy̅i)- 2y̅))((Σy(i-y y̅î-) y̅))̂ 2)

Tỷ số giữa tổng biến thiên được giải thích bởi mơ hình cho tổng bình phương cần
được giải thích được gọi là hệ số xác định, hay là trị thống kê “good of fit”. Từ định nghĩa
R2 chúng ta thấy R2 đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị trung bình được
giải thích bằng mơ hình. Khi đó người ta sử dụng R2 để đo sự phù hợp của hàm hồi quy:
0 ≤ R2 ≤ 1


R2 cao nghĩa là mơ hình ước lượng được giải thích được một mức độ cao biến

động của biến phụ thuộc.


Nếu R2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y.



Nếu R2 = 0, nghĩa là mơ hình khơng đưa ra thơng tin nào về sự thay đổi của

biến phụ thuộc y.
Trong mơ hình hồi quy đa biến tỷ lệ của tồn bộ sự khác biệt của biến y do tất cả các
biến x2 và x3 gây ra được gọi là hệ số xác định bội, ký hiệu là R2
R2 = β̂2Σ(yi- y̅)(x2i- x̅2)+β̂3Σ2(yi- y̅)(x3i- x̅3) = 1- Σe2i 2
Σ(yi- y̅)

Σ(yi- y̅)

2.5. Khoảng tin cậy và kiểm định các hệ số hồi quy
2.5.1. Ước lượng khoảng tin cậy đối với các hệ số hồi quy
Mục đích của phân tích hồi quy khơng phải chỉ suy đoán về β 1, β2,…, βk mà còn
phải kiểm tra bản chất sự phụ thuộc. Do vậy cần phải biết phân bố xác suất của β 1, β2,…,
βk. Các phân bố này phụ thuộc vào phân bố của các ui.
Với các giả thiết OLS, ui có phân phối N (0, σ2). Các hệ số ước lượng tuân theo phân phối
chuẩn:

10

β̂j ~ N(βj, Se(β̂j))
β̂j -βj
~ T(n − k)
Se(β̂j)
Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu. Trong đó
k là số hệ số có trong phương trình hồi quy đa biến:
Σe2
σ̂2=

i

n-k


Ước lượng 2 phía, ta tìm được t (n-3)=1- α thỏa mãn:
P(

2

̂j)

P( t (n-3))

Se(β



Khoảng tin cậy 1 - α của βj là:
[ β̂j − t (n-3)Se(β̂j)] ; [ β̂j + t (n-3)Se(β̂j)]

2.5.2. Kiểm định giả thiết đối với βj
Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay khơng: kiểm định
rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay khơng. Nói cách khác là
hệ số hồi quy có ý nghĩa thống kê hay khơng.
Có thể đưa ra giả thiết nào đó đối với βj, chẳng hạn βj = βj*. Nếu giả thiết này đúng thì:
T=

β̂Sej -(ββ̂jj)

Ta có bảng sau:

11

~ T(n − k)

Kiểm định βj:




H0: βj = 0 ⇔ xj không tác động
H1: βj ≠ 0 ⇔ xj có tác động
βj < 0 ⇔ xj có tác động ngược

βj > 0 ⇔ xj có

tác động thuận
2.5.3. Kiểm định ý nghĩa của mơ hình
Trong mơ hình hồi quy đa biến, giả thuyết “khơng” cho rằng mơ hình khơng có ý
nghĩa được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0.
Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể như
sau:


Bước 1: Giả thuyết “không” là H0: β2 = β3 = … = βk = 0.

Giả thuyết đối là H1: “có ít nhất một trong những giá trị β khác không”.


Bước 2: Trước tiên hồi quy Y theo một số hạng không đổi và X 2, X3, …, Xk, sau
đó tính tổng bình phương sai số RSS U, RSSR. Phân phối F là tỷ số của hai biến
ngẫu nhiên phân phối khi bình phương độc lập. Điều này cho ta trị thống kê:
Fc = [RSSR − RSSU ]/(k−m) ~ F(α, k – m, n – k) RSSU
/(n−k)

Vì H0: β2 = β3 = … = βk = 0, nhận thấy rằng trị thống kê kiểm định đối với giả thuyết này
sẽ là: Fc = ESS/(k−1) ~ F(α, k – 1, n – k)

RSS/(n−k)



Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k – 1) cho tử số và (n
–
12

k) cho mẫu số, và với mức ý nghĩa α cho trước.
 Bước 4: Bác bỏ giả thuyết H0 ở mức ý nghĩa α nếu F c > F(α, k-1, n-k). Đối với
phương pháp giá trị p, tính giá trị p = P(F>Fc|H0) và bác bỏ giả thuyết H0 nếu p < α.

I. PHẦN CHUNG
Đề tài: Tập tin "diem_so.csv" chứa thơng tin về điểm tốn của các em học sinh trung học
thuộc hai trường học ở Bồ Đào Nha. Các thuộc tính dữ liệu bao gồm điểm học sinh, nơi
cư trú, và một số hoạt động xã hội khác. Dữ liệu được thu thập bằng cách sử dụng báo cáo
của các trường và các kết quả khảo sát sinh viên. Dữ liệu gốc được cung cấp tại:
Các
biến chính trong bộ dữ liệu:
•
G1: Điểm thi học kì 1.
•
G2: Điểm thi học kì 2.
•
G3: Điểm cuối khố.
•
studytime: Thời gian tự học trên tuần(1 – ít hơn 2 giờ, 2 – từ 2 đến 5 giờ, 3 – từ 5
đến 10 giờ, or 4 – lớn hơn 10 giờ).
•

failures: số lần khơng qua môn (1,2,3, hoặc 4 chỉ nhiều hơn hoặc bằng 4 lần). 
absences: số lần nghỉ học.
•
paid: Có tham gia các lớp học thêm mơn Tốn ngồi trường (có/khơng).
•
sex: Giới tính cıa học sinh. (Nam/nữ)

1. Đọc dữ liệu (Import Data)
-Input:
diem_so <- read_csv("Zalo Received Files/diem_so.csv")
+Giải thích: Lấy dữ liệu từ Excel sang R và lưu dữ liệu với tên là “diem_so”
head(diem_so,10)
+Giải thích: Đọc 10 dịng đầu tên tệp “diem_so”.
-Output:

13

2. Làm sạch dữ liệu (Data cleaning)
Trích ra một dữ liệu con đặt tên là new_DF chỉ bao gồm các biến cần quan tâm là G1,
G2,
G3, studytime, failures, absences, sex, paid.
-Input:
names(diem_so)
+Giải thích: liệt kê các biến có trong dữ liệu diem_so Output:

-Input:
new_DF=data.frame(diem_so[,c(32,33,34,15,16,31,19,3)])
head(new_DF,10)
+Giải thích: Trích ra dữ liệu con đặt tên là new_DF bao gồm các biến G1, G2, G3,

studytime, failures, absences, sex, paid.
-Output:

14

a) Kiểm tra các dữ liệu bị khuyết trong tập tin.
Dữ liệu khuyết (missing data): Dữ liệu bị thiếu (missing values) đóng một vai trị quan
trọng trong thống kê và phân tích dữ liệu. Thơng thường, missing values khơng nên bị bỏ
qua mà cần được nghiên cứu cẩn thận để xem xét xem điều gì khiến cho các missing
values này bị thiếu. Trong R, NA được sử dụng để thể hiện các giá trị không tồn tại (not
available) hay bị thiếu (missing) theo nghĩa thống kê. Cách xác định các dữ liệu bị
khuyết trong tập tin: -Input:
apply(is.na(new_DF),2,which)
+Giải thích: Kiểm tra và xuất ra các giá trị bị khuyết của các biến trong tập tin
new_DF
-Output:
$G1
integer(0)
$G2
[1] 2 6 9
80 100
$G3
integer(0)
$studytime
integer(0)
$failures
integer(0)
$absences integer(0)
$paid integer(0)

$sex integer(0)
-Kết luận: Ta thấy có các giá trị khuyết tại biến G2.
b) Xử lí các giá trị bị khuyết
Phương pháp 1
Phương pháp này giúp điền vào các giá trị còn thiếu vào các giá
Mean/Mode/Median trị ước tính.
Imputation
Mục tiêu là sử dụng các mối quan hệ đã biết có thể được xác
định trong các giá trị hợp lệ của tập dữ liệu để hỗ trợ ước tính
cho các giá trị cịn thiếu. Phương pháp này được sử dụng thường
xuyên.
15

Phương pháp 2
Prediction Model
(Mơ hình dự đốn)

Phương pháp 3
Deletion

Phương pháp 4
KNN Imputation
Phương pháp được
sử dụng

Cách sử dụng:
• Generalized Imputation: Trong trường hợp này, ta tính
giá trị trung bình hoặc trung vị cho tất cả các giá trị
không bị thiếu của biến đó sau đó thay thế giá trị bị thiếu

bằng giá trị trung bình hoặc trung vị.
• Similar case Imputation: trong trường hợp này, ta cũng
tính các giá trị trung bình nhưng các giá trị này sẽ được
tính riêng lẻ theo từng đối tượng của các giá trị không bị
thiếu , sau đó thay các giá trị trung bình đã được tính theo
từng đối tượng trước đó.
Tạo mơ hình dự đốn để ước tính các giá trị sẽ thay thế dữ liệu
bị thiếu. Trong trường hợp này, chia tập dữ liệu của mình thành
hai tập: Một tập khơng có giá trị bị thiếu cho biến và một tập
khác có giá trị bị thiếu. Tập dữ liệu đầu tiên trở thành tập dữ liệu
h́n luyện của mơ hình trong khi tập dữ liệu thứ hai có giá trị bị
thiếu là tập dữ liệu thử nghiệm và biến có giá trị bị thiếu được
coi là biến mục tiêu. Tiếp theo, chúng tôi tạo một mơ hình để dự
đốn biến mục tiêu dựa trên các thuộc tính khác của tập dữ liệu
huấn luyện và điền các giá trị còn thiếu của tập dữ liệu thử
nghiệm.
Phương pháp này được dùng khi khi xác suất thiếu biến là như
nhau cho tất cả các quan sát. Phương pháp này được thực hiện
bởi 2 cách: List Wise Deletion and Pair Wise Deletion.
 List wise deletion: xóa các quan sát mà bất kỳ biến nào bị
thiếu, nhưng phương pháp này có một lỗ hỗng bởi việc xố quan
sát cua bất cứ biến nào bị thiếu này sẽ làm giảm sức mạnh của
mơ hình vì nó xóa tồn bộ hàng quan sát trong đó dữ liệu bị
thiếu
 Pair Wise Deletion: chúng ta sẽ thực hiện phân tích với tất cả
các trường hợp có các biến quan tâm. Ưu điểm của phương pháp
này là, nó giữ được nhiều trường hợp có sẵn để phân tích. Một
trong những nhược điểm của phương pháp này, nó sử dụng cỡ
mẫu khác nhau cho các biến khác nhau.
Trong phương pháp này gán giá trị , các giá trị bị thiếu của một

thuộc tính được gán bằng cách sử dụng một số thuộc tính đã cho
giống nhất với thuộc tính có giá trị bị thiếu. Sự giống nhau của
hai thuộc tính được xác định bằng cách sử dụng hàm khoảng
cách.
Xóa các quan sát mà bất kỳ biến nào bị thiếu
16

Phương pháp
được sử dụng
Input
Output

Xóa các quan sát mà bất kỳ biến nào bị thiếu
new_DF=na.omit(new_DF)
Giải thích: xóa các quan sát khi có các biến bị thiếu

3. Làm rõ dữ liệu (Data visualization)
a) Tạo bảng dữ liệu cho các biến liên tục.
Các biến liên tục trong bộ dữ liệu là: G1, G2, G3, absences tương ứng với cột thứ 1, 2, 3,
6 trong dữ liệu. -Input:
mean=apply(new_DF[,c(1,2,3,6)],2,mean)
+Giải thích: Tính trung bình của các biến liên tục (G1, G2, G3, absences) và lưu
vào biến có tên là mean.
median=apply(new_DF[,c(1,2,3,6)],2,median)
+Giải thích: Tính trung vị của các biến liên tục (G1, G2, G3, absences) và lưu vào
biến có tên là median.
sd=apply(new_DF[,c(1,2,3,6)],2,sd)
+Giải thích: Tính độ lệch chuẩn của các biến liên tục (G1, G2, G3, absences) và lưu
vào biến có tên là sd.

max=apply(new_DF[,c(1,2,3,6)],2,max)

17

+Giải thích: Tính giá trị lớn nhất của các biến liên tục (G1, G2, G3, absences) và
lưu vào biến có tên là max.
min=apply(new_DF[,c(1,2,3,6)],2,min)
+Giải thích: Tính giá trị nhỏ nhất của các biến liên tục (G1, G2, G3, absences) và
lưu vào biến có tên là min.
des=data.frame(mean,median,sd,max,min)
t(des)
+Giải thích: Tạo bảng dữ liệu thể hiện các giá trị thống kê mô tả cho các biến liên
tục, lưu với tên là descriptive_statistics.
-Output:

b) Lập bảng thống kê số lượng cho biến phân loại
-Input:
table(new_DF$failures)
table(new_DF$studytime)
table(new_DF$paid)
table(new_DF$sex)
+Giải thích: tạo bảng thống kê số lượng cho biến failures, studytime, paid, sex.
-Output:

c) Vẽ đồ thị phân phối tần số của biến G3

18

-Input: hist(new_DF$G3,xlab= "G3",main= "Histogram of G3",label=T, ylim=c(0,100))
+Giải thích: Vẽ biểu đồ historgram cho biến G3 -Output:
Nhận xét:

Quan sát đồ thị, ta thấy được mức điểm cuối khóa của sinh viên tập trung hầu ở
mức từ 6-16 điểm, cao nhất ở khoảng 8-10 điểm (84 sinh viên), có 1 sinh viên có
mức điểm thấp từ 2-4 điểm. Đặc biệt có đến 38 sinh viên có điểm cuối khóa là 0
điểm.
d) Vẽ phân phối của biến G3 theo từng nhóm phân loại -Input:
boxplot(G3~studytime,main="Boxplot of G3 for each categogy of studytime",
data = new_DF)
boxplot(G3~failures,main="Boxplot of G3 for each categogy of failures", data =
new_DF)
boxplot(G3~paid,main="Boxplot of G3 for each categogy of paid", data=new_DF)
boxplot(G3~sex,main="Boxplot of G3 for each categogy of sex", data=new_DF)
+ Giải thích: vẽ biểu đồ Boxplot của biến G3 cho từng nhóm phân loại cảu biến
studytime, failures, paid, sex.
-Output:

19

e) Vẽ các phân phối của biến G3 theo từng biến định lượng Input:
pairs(G3~G1,data=new_DF ,pch=20,main="pairs of G3 for G1")
+Giải thích: Vẽ các phân phối của biến G3 theo biến G1.
-Output:

20

Báo cáo bài tập lớn Xác suất thống kê Mô hình hồi quy tuyến tính

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về