Bài tập lớn môn học xác suất và thống kê (mt2013)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.96 MB, 61 trang )

Trang 1<div class="page_container" data-page="1">

ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA

</div>Trang 3<div class="page_container" data-page="3">

MỤC LỤC

PHẦN ĐỀ BÀI ... 4

Hoạt động 1 (phần chung) ... 4

Hoạt động 2 (Khoa cơ khí): ... 5

NỘI DUNG BÁO CÁO ... 6

1. Cơ sở lí thuyết ... 6

1.1. Giới thiệu mơ hình hồi quy tuyến tính bội ... 6

1.2. Ước lượng các tham số của mơ hình hồi quy tuyến tính bội ... 7

1.2.1. Hàm hồi quy tổng thể (PRF – Population Regression Function) ... 7

1.2.2. Hàm hồi quy mẫu (SRF – Sample Regression Function): ... 7

1.2.3. Phương pháp bình phương nhỏ nhất (Ordinary Least Squares) ... 8

1.2.3.1. Các giả thiết của phương pháp bình phương nhỏ nhất cho mơ hình hồi quy tuyến tính bội ... 8

1.2.3.2. Ước lượng ... 9

1.2.4. Độ phù hợp của mơ hình ... 10

1.2.5. Khoảng tin cậy và kiểm định các hệ số hồi quy ... 11

1.2.5.1. Ước lượng khoảng tin cậy đối với các hệ số hồi quy ... 11

1.2.5.2. Kiểm định giả thiết đối với βj ... 11

1.2.6. Kiểm định ý nghĩa của mơ hình ... 12

1.3. Sơ lược về P (P-value) ... 13

2. Hoạt động 1 ... 14

2.1. Nhập và làm sạch dữ liệu: ... 14

2.1.1. Nhập dữ liệu: ... 14

2.1.2. Làm sạch dữ liệu: ... 15

2.1.2.1. Kiểm tra và xử lí dữ liệu khuyết : ... 15

2.2. Thống kê mô tả cho các biến: ... 19

2.3. Chia bộ dữ liệu làm hai phần: ... 23

2.4. Chọn mơ hình để giải thích cho biến “mpg” ... 24

2.5. Kiểm tra các giả định (giả thiết) của mơ hình: ... 28

2.5.1. Nhắc lại các giả định: ... 28

2.5.2. Kiểm tra các giả định: ... 29

2.6. Ý nghĩa của mơ hình đã chọn: ... 32

2.7. Thực hiện dự báo (Prediction): ... 33

2.8. So sánh kết quả dự báo “predict_mpg” với giá trị thực tế của “mpg”: ... 34

</div>Trang 4<div class="page_container" data-page="4">

3.1.2. Làm sạch dữ liệu: ... 36

3.1.2.1. Kiểm tra và xử lí dữ liệu khuyết : ... 36

3.1.2.2. Tìm và xử lí dữ liệu ngoại lai: ... 37

3.2. Thống kê mô tả cho các biến ... 39

3.3. Chọn mơ hình để giải thích cho biến “windmill_generated_power” ... 43

3.4. Kiểm tra các giả định (giả thiết) của mơ hình: ... 46

3.4.1. Nhắc lại các giả định: ... 46

3.4.2. Kiểm tra các giả định: ... 46

3.5. Ý nghĩa của mơ hình đã chọn: ... 49

3.6. Thực hiện dự báo (Prediction) ... 50

3.6.1. Xây dựng thuộc tính X1, X2: ... 50

3.7. Mơ hình ANOVA ... 51

3.7.1. Thực hiện kiểm tra giả định phân phối chuẩn: ... 51

3.7.2. Thực hiện kiểm tra giả định tính đồng nhất của phương sai ... 56

TÀI LIỆU THAM KHẢO ... 60

</div>Trang 5<div class="page_container" data-page="5">

PHẦN ĐỀ BÀI Hoạt động 1 (phần chung)

Dữ liệu được cho trong file “auto-mpg.csv” là bộ dữ liệu tiêu thụ nhiên liệu của xe trong thành phố. Dữ liệu được lấy từ UCI Machine Learning Repository

( Bộ dữ liệu gồm 398 quan trắc trên 9 biến sau:

 “mpg”: (continuous) mức tiêu thụ nhiên liệu tính theo dặm trên galon

(miles/gallon);

 “cylinder”: (multi-valued discrete) số xy lanh;

 “displacement”: (continuous) kích thước động cơ;

 “horsepower”: (continuous) công suất động cơ;

 “weight”: (continuous) khối lượng;

 “acceleration”: (continuous) gia tốc xe;

 “model_year”: (multi-valued discrete) năm sản xuất model (2 số cuối);

 “origin”: (multi-valued discrete) nơi sản xuất: 1-North American, 2-Europe,

3-Asia;

 “car name”: (multi-valued discrete) tên xe; Yêu cầu:

1. Nhập và “làm sạch” dữ liệu (lưu ý, biến “horsepower” có 6 quan trắc thiếu dữ

liệu; xét xem có dữ liệu ngoại lai không?), thực hiện các thống kê mô tả. (chú ý các cột của file “auto-mpg.csv” được phân tách bởi dấu “;”, khi đọc file dữ liệu dùng lệnh “read.csv” cần thêm sep = “;”)

2. Chia bộ dữ liệu làm 2 phần: mẫu huấn luyện (training dataset) gồm 200 quan trắc đặt tên “auto_mpg1” và mẫu kiểm tra (validation dataset) gồm các quan trắc còn lại trong bộ dữ liệu ban đầu đã “làm sạch”, đặt tên “auto_mpg2”

3. Chọn mơ hình tốt nhất giải thích cho biến phụ thuộc “mpg” thông qua việc chọn lựa các biến độc lập phụ hợp trong 8 biến độc lập còn lại từ mẫu huấn luyện

</div>Trang 6<div class="page_container" data-page="6">

5. Nêu ý nghĩa của mơ hình đã chọn.

6. Dự báo (Prediction): Sử dụng mẫu kiểm tra (validation dataset) “auto_mpg2” và dựa vào mô hình tốt nhất được chọn trên đưa số liệu dự báo cho biến phụ thuộc “mpg”. Gọi kết quả dự báo này là biến “predict_mpg”.

7. So sánh kết quả dự báo “predict_mpg” với giá trị thực tế của “mpg”. Rút ra nhận xét?

Hoạt động 2 (Khoa cơ khí):

Tệp tin train_data chứa các thơng số về điều kiện môi trường, cấu tạo và năng

lượng tạo ra từ các máy xoay gió. Dữ liệu được cung cấp tại trang web:

Các biến chính trong bộ dữ liệu:

 wind_speed: Tốc độ gió

 area_temperature: Nhiệt độ môi trường

 motor_torque: Công suất động cơ

 blade_breadth: chiều rộng cánh quạt

 turbine_status: Loại turbine

 could_level: Cấp độ mây

 windmill_generated_power: Năng lượng tạo ra từ cối xây gió

Yêu cầu:

1. Đọc dữ liệu (Import data):

2. Làm sạch dữ liệu (Data cleaning):

3. Làm rõ dữ liệu (Data visualization): Thống kê mô tả, dùng thống kê mẫu và dùng đồ thị.

4. Mơ hình hồi quy tuyến tính: phân tích các nhân tố ảnh hưởng đến năng lượng tạo ra từ cối xây gió.

5. Dự báo: Thực hiện dự báo cho năng lượng gió tạo ra ở hai thuộc tính:

</div>Trang 7<div class="page_container" data-page="7">

6. Mơ hình anova: so sánh năng lượng gió trung bình tạo ra từ cối xây gió ở các điều kiện cấp độ mây. Từ đó chỉ ra điều kiện cấp độ mây như thế nào có thể tạo ra lượng gió tốt nhất.

NỘI DUNG BÁO CÁO

1. Cơ sở lí thuyết

Hồi quy chính là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến phụ thuộc và một nhóm tập hợp các biến độc lập. Mơ hình với một biến phụ thuộc với hai hoặc nhiều biến độc lập được gọi là hồi quy bội (hay còn gọi là hồi quy đa biến).

Ví dụ: Chi tiêu của hộ gia đình về thực phẩm phụ thuộc vào quy mơ hộ gia đình, thu nhập, vị trí địa lý,…; Tỷ lệ tử vong trẻ em của một quốc gia phụ thuộc vào thu nhập bình quân đầu người, trình độ giáo dục,…; Lương của một người phụ thuộc vào chức vụ, kinh nghiệm, độ tuổi,…

1.1. Giới thiệu mơ hình hồi quy tuyến tính bội

Mơ hình hồi quy tuyến tính bội có dạng tổng quát như sau: Y = β1 + β2X2 + β3X3 + … + βkXk + u

Trong đó:Y: biến phụ thuộc Xi: biến độc lập β1: hệ số tự do

βi: hệ số hồi quy riêng. βi đo lường tác động riêng phần của biến Xi lên Y với điều kiện các biến số khác trong mơ hình khơng đổi. Cụ thể hơn, nếu các biến khác trong mô hình khơng đổi, giá trị kỳ vọng của Y sẽ tăng βi đơn vị nếu Xi tăng 1 đơn vị u: sai số ngẫu nhiên.

</div>Trang 8<div class="page_container" data-page="8">

sử dụng cho các trường hợp chúng ta muốn dự đốn một số lượng liên tục. Ví dụ: dự đoán thời gian người dùng dừng lại một trang nào đó hoặc số người đã truy cập vào một website nào đó v.v... Bằng dữ liệu thu thập được, ta đi ước lượng hàm hồi quy của tổng thể, đó là ước lượng các tham số của tổng thể: β1, β2,…, βk

1.2. Ước lượng các tham số của mơ hình hồi quy tuyến tính bội

1.2.1. Hàm hồi quy tổng thể (PRF – Population Regression Function)

Với Y là biến phụ thuộc, X2, X3,…, Xk là biến độc lập, Y là ngẫu nhiên và có một phân phối xác suất nào đó. Suy ra: Tồn tại E(Y|X2, X3,…, Xk) = giá trị xác định. Do vậy, F(X2, X3,…, Xk) = E(Y|X2, X3,…, Xk) là hàm hồi quy tổng thể của Y theo X2,

1.2.2. Hàm hồi quy mẫu (SRF – Sample Regression Function):

Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của biến phụ thuộc là đúng ở mức độ nào. Do vậy chúng ta phải dựa vào dữ liệu mẫu để ước lượng.

Trên một mẫu có n cá thể, gọi Ŷ = F̂(X2, X3,…, Xk) làhồi quy mẫu.

Với một cá thể mẫu Yi ≠ F̂(X2,i, X3,i,…, Xk,i) sinh ra ei = Yi – F̂(X2, X3,…, Xk); ei

gọi là phần dư SRF.

Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau: ŷi = β̂1 + β̂2x2,i + β̂3x3,i + … + β̂kxk,i

Phần dư sinh ra: ei = yi – ŷi

Ký hiệu: β̂m là ước lượng của βm. Chúng ta trông đợi β̂m là ước lượng không chệch của βm, hơn nữa phải là một ước lượng hiệu quả.

</div>Trang 9<div class="page_container" data-page="9">

Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của F qua việc tìm các tham số của F̂ và lấy giá trị quan sát của các tham số này làm giá trị xấp xỉ cho tham số của F.

1.2.3. Phương pháp bình phương nhỏ nhất (Ordinary Least Squares)

Phương pháp bình phương nhỏ nhất được đưa ra bởi nhà Toán học Đức Carl Friedrich Gauss. Tư tưởng của phương pháp này là cực tiểu tổng bình phương của các phần dư. Do đó có thể nói để có được hồi quy thích hợp nhất, chúng ta chọn các ước lượng có tung độ gốc và độ dốc sao cho phần dư là nhỏ.

1.2.3.1. Các giả thiết của phương pháp bình phương nhỏ nhất cho mơ hình hồi quy tuyến tính bội

Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong việc ước lượng các tham số của mơ hình, tuy nhiên mơ hình ước lượng phải thỏa mãn 7 giả thiết. Khi thỏa mãn các giả thiết, ước lượng bình phương nhỏ nhất (OLS) là ước lượng tuyến tính khơng chệch có hiệu quả nhất trong các ước lượng. Vì thế phương pháp OLS đưa ra ước lượng khơng chệch tuyến tính tốt nhất (BLUE).

Kết quả này được gọi là Định lý Gauss – Markov, theo lý thuyết này ước lượng OLS là BLUE, nghĩa là trong tất cả các tổ hợp tuyến tính khơng chệch của Y, ước lượng OLS có phương sai bé nhất. Các giả thiết như sau:

1/ Hàm hồi quy là tuyến tính theo các hệ số

Điều này có nghĩa là q trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan hệ dưới dạng:

y = β1 + β2x2 + β3x3 + β4x4 + … + βkxk + u

hoặc mối quan hệ thực tế có thể được viết lại ví dụ như dưới dạng lấy loga cả hai vế.

2/ E(ui) = 0 : Kỳ vọng của các yếu tố ngẫu nhiên ui bằng 0

Trung bình tổng thể sai số là bằng 0. Điều này có nghĩa là có một số giá trị sai số mang dấu dương và một số sai số mang dấu âm. Do hàm xem như là đường trung bình nên có thể giả định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức trung bình, trong tổng thể.

3/ Var(ui) = σ2 : Phương sai bằng nhau và thuần nhất với mọi ui

Tất cả giá trị u được phân phối giống nhau với cùng phương sai σ2, sao cho:

</div>Trang 10<div class="page_container" data-page="10">

thuyết trong những phạm vi mẫu là nhỏ. Nhưng phạm vi mẫu lớn hơn, điều này trở nên không mấy quan trọng.

5/ Giữa các ui thì độc lập với nhau

1.2.3.2. Ước lượng

Ta đặt: yi ký hiệu giá trị thực của biến y tại quan sát i ŷi ký hiệu giá trị của hàm hồi quy mẫu

ei ký hiệu phần dư yi – ŷi

Do đó cực tiểu hóa Σ(yi – ŷi)2 sẽ tương đương với cực tiểu Σei2 từ đó tìm ra β̂0, β̂1,…, β̂k

Ta có:

Σei2 = Σ(yi – (β̂1 + β̂2x2,i + β̂3x3,i + β̂4x4,i + … + β̂kxk,i))2

Chúng ta có thiết lập các điều kiện bậc nhất cho phép tính tối thiểu này như sau:

∂β̂k = -2(yi – (β̂1 + β̂2x2,i + β̂3x3,i + β̂4x4,i + … + β̂kxk,i)) xki = 0

Hệ phương trình mà chúng ta có được gọi là hệ phương trình chuẩn của hồi quy mẫu. Chúng ta có thể giải k phương trình chuẩn này để tìm k hệ số β" chưa biết. β̂1, β̂2,…, β̂k được gọi là các ước lượng bình phương nhỏ nhất.

</div>Trang 11<div class="page_container" data-page="11">

1.2.4. Độ phù hợp của mơ hình

Để có thể biết mơ hình giải thích được như thế nào hay bao nhiêu % biến động của biến phụ thuộc, người ta sử dụng R2

Ta có: Σ(yi – ӯ)2 = Σ[(yi – ŷi) + (ŷi – ӯ)]2 = Σ[ei + (ŷi – ӯ)]2

= Σei2 + 2Σei(ŷi – ӯ) + Σ(ŷi – ӯ)2

Đặt:

 Σ(yi – ӯ)2 : TSS – Total Sum of Squares

 Σ(ŷi – ӯ)2 : ESS – Explained Sum of Squares

 Σei2 : RSS – Residual Sum of Squares

Do Σei(ŷi – ӯ) = 0 ⇐ (Σeiŷi = 0; Σeiӯ = 0) Ta có thể viết: TSS = ESS + RSS Ý nghĩa của các thành phần:

 TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị trung bình.

 ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng. Phần này đo độ chính xác của hàm hồi quy.

 RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi quy.

 TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra. Từ TTS = ESS + RSS, ta chia cả hai vế cho TSS, ta có:

(Σ(yi − ӯ)(yi − ŷ ))2 (Σ(yi − ӯ)2)(Σ(yi− ŷ )2)

Tỷ số giữa tổng biến thiên được giải thích bởi mơ hình cho tổng bình phương cần được giải thích được gọi là hệ số xác định, hay là trị thống kê “good of fit”. Từ định nghĩa R2 chúng ta thấy R2 đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị trung bình được giải thích bằng mơ hình. Khi đó người ta sử dụng R2 để đo sự phù hợp của hàm hồi quy:

0 ≤ R2 ≤ 1.

</div>Trang 12<div class="page_container" data-page="12">

 Nếu R2 = 0, nghĩa là mơ hình khơng đưa ra thông tin nào về sự thay đổi của biến phụ thuộc y. rong mơ hình hồi quy đa biến tỷ lệ của toàn bộ sự khác biệt của biến y do tất cả các biến x2 và x3 gây ra được gọi là hệ số xác định bội, ký

1.2.5. Khoảng tin cậy và kiểm định các hệ số hồi quy

1.2.5.1. Ước lượng khoảng tin cậy đối với các hệ số hồi quy

Mục đích của phân tích hồi quy khơng phải chỉ suy đốn về β1, β2,…, βk mà còn phải kiểm tra bản chất sự phụ thuộc. Do vậy cần phải biết phân bố xác suất của β1, β2,…, βk. Các phân bố này phụ thuộc vào phân bố của các ui.

Với các giả thiết OLS, ui có phân phối N (0, σ2). Các hệ số ước lượng tuân theo phân phối chuẩn:

β̂j ~ N(βj, Se(β̂j)) β̂j − βj

Se(β̂j) ~ T(n − k)

Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu. Trong đó k là số hệ số có trong phương trình hồi quy đa biến:

</div>Trang 13<div class="page_container" data-page="13">

Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không: kiểm định rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay khơng. Nói cách khác là hệ số hồi quy có ý nghĩa thống kê hay khơng.

Có thể đưa ra giả thiết nào đó đối với βj, chẳng hạn βj = βj*. Nếu giả thiết này

1.2.6. Kiểm định ý nghĩa của mơ hình

Trong mơ hình hồi quy đa biến, giả thuyết “khơng” cho rằng mơ hình khơng có ý nghĩa được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0.

Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể như sau:

 Bước 1: Giả thuyết “không” là H0: β2 = β3 = … = βk = 0.

Giả thuyết đối là H1: “có ít nhất một trong những giá trị β khác không”.

 Bước 2: Trước tiên hồi quy Y theo một số hạng không đổi và X2, X3, …, Xk, sau đó tính tổng bình phương sai số RSSU, RSSR. Phân phối F là tỷ số của hai biến ngẫu nhiên phân phối khi bình phương độc lập. Điều này cho ta trị thống kê:

Fc = ~ F(α, k – m, n – k)

</div>Trang 14<div class="page_container" data-page="14">

 Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k – 1) cho tử số và (n-k) cho mẫu số, và với mức ý nghĩa α cho trước.

 Bước 4: Bác bỏ giả thuyết H0 ở mức ý nghĩa α nếu Fc > F(α, k-1, n-k). Đối với

phương pháp giá trị p, tính giá trị p = P(F>Fc|H0) và bác bỏ giả thuyết H0 nếu p < α.

1.3. Sơ lược về P (P-value)

Chúng ta nhìn lại bài tốn kiểm định 2 phía: H0: a= a0 ; H1: a ≠ a0 với trường hợp n ≥ 30 và chưa biết phương sai tổng thể. Giả sử mức ý nghĩa đang được xem xét là α1=0,05 thì zα1 = 1,96 và miền bác bỏ tương ứng là Wα1 =(-∞; -1,96) ∪ (1,96; +∞).

Nếu từ một mẫu cụ thể ta tính được zqsA = 2,0 ∈ Wα1 thì giả thiết H0 tương ứng bị bác bỏ. Giả thiết từ một mẫu cụ thể khác ta tính được zqsB = 10 chẳng hạn thì giả thiết H0 cũng bị bác bỏ. Ta nhận thấy việc bác bỏ H0 trong trường hợp mẫu sau có vẻ “thuyết phục” hơn.

Mặt khác, nếu thay đổi mức ý nghĩa đang được xem xét thành α2=0,02 thì zα2=2,33 và miền bác bỏ tương ứng là Wα2 =(-∞; -2,33) ∪ (2,33; +∞). Lúc này ta vẫn bác bỏ H0 nếu zqsB= 10 nhưng lại phải chấp nhận H0 nếu dùng zqsA = 2,0.

Qua đó ta thấy việc bác bỏ H0 với zqsB= 10 khá thuyết phục nhưng việc bác bỏ H0

với zqsB = 2,0 lại ít thuyết phục hơn.

Quá trình kiểm định như trên được gọi là kiểm định theo cách tiếp cận cổ điển. Bây giờ ta tìm hiểu một cách tiếp cận khác bài tốn kiểm định. Thay vì kiểm định giả thiết với một mức ý nghĩa α định trước thì người ta cho rằng sau khi định rõ các giả thiết kiểm định H0 và giả thiết đối H1, ta thu thập các số liệu mẫu và xác định mức độ khẳng định việc bác bỏ giả thiết H0. Mức độ khẳng định này thường được gọi là giá trị xác suất P hay P-value.

Ta nói rằng mức ý nghĩa nhỏ nhất tại đó giả thiết H0 bị bác bỏ được gọi là giá trị P kết hợp với mẫu quan sát được. Người ta còn gọi giá trị P là mức ý nghĩa quan sát,

</div>Trang 15<div class="page_container" data-page="15">

nó cho biết xác suất mắc sai lầm loại I tối đa khi bác bỏ giả thiết H0 với một mẫu quan sát cụ thể.

Các phần mềm thống kê hiện nay đều đưa ra P-value cho mỗi bài toán kiểm định để độc giả tự đánh giá kết quả. Ý tưởng chủ đạo là P-value càng nhỏ thì càng bác bỏ giả thiết mạnh, P-value càng lớn thì càng chấp nhận giả thiết mạnh.

Thông thường người ta tiến hành kiểm định theo nguyên tắc:

 Nếu 0,1 ≤ P-value: ta thường thừa nhận H0.

 Nếu 0,05 ≤ P-value < 0,1: cân nhắc cẩn thận trước khi bác bỏ H0.Nếu 0,01 ≤ P-value

 < 0,05: nghiêng về hướng bác bỏ H0 nhiều hơn.

 Nếu 0,001 ≤ P-value < 0,01: có thể ít băn khoăn khi bác bỏ H0.

 Nếu P-value < 0,001: có thể hồn tồn yên tâm khi bác bỏ H0.

2. Hoạt động 1

2.1. Nhập và làm sạch dữ liệu: 2.1.1. Nhập dữ liệu:

Vào session / set working directory / choose directory / “ đường dẫn thư mục chứa file auto_mpg.csv”

Sau đó nhập lệnh sau để thực hiện nhập dữ liệu:

Kết quả:

</div>Trang 16<div class="page_container" data-page="16">

2.1.2. Làm sạch dữ liệu:

2.1.2.1. Kiểm tra và xử lí dữ liệu khuyết :

 Thay kí hiệu “?” của các dữ liệu bị khuyết bằng “NA”

</div>Trang 17<div class="page_container" data-page="17">

Theo quan sát ta thấy có 6 vị trí dữ liệu nằm ở cột horsepower đó là các quan trắc thứ: 33, 127, 331, 337, 355 và 375 và chiếm tỉ lệ khoảng 1,51%, do tỉ lệ dữ liệu

khuyết rất bé so với bộ dữ liệu đang xét nên ta xử lí bằng cách xóa các quan trắc chứa dữ liệu khuyết.

Tiến hành xóa và kiểm tra lại dữ liệu khuyết:

Ta được kết quả:

Vậy các dữ liệu khuyết đã bị xóa khỏi tập dữ liệu.

2.1.3. Tìm và xử lí dữ liệu ngoại lai:

Trước tiên ta được cột horsepower về dạng dữ liệu số bằng lệnh:

Tiếp theo, ta kiểm tra biến horsepower có dữ liệu ngoại lai hay khơng

Vẽ boxplot cho các biến mpg, cylinders, horsepower, weight, acceleration,

model_year:

</div>Trang 18<div class="page_container" data-page="18">

Ta được boxplot sau:

</div>Trang 19<div class="page_container" data-page="19">

18

</div>Trang 20<div class="page_container" data-page="20">

Dựa vào boxplot ta thấy biến horsepower và acceleration có các giá trị ngoại

lai, để xem cụ thể đó là những giá trị nào, ta nhập lệnh:

Và thu được các giá trị ngoại lai:

Ta sẽ xử lí bằng cách xóa các giá trị này ra khỏi tập dữ liệu, thực hiện như sau: Trước hết ta thay các giá trị ngoại lai thành “NA”

Và xóa các quan trắc chứa “NA” để hồn thành xóa các giá trị ngoại lai:

Kết quả:

Vậy là các giá trị ngoại lai đã được xử lí

2.2. Thống kê mơ tả cho các biến:

Ta thực hiện thống kê mô tả cho các biến định lượng, ta xuất các giá trị thống kê

</div>Trang 21<div class="page_container" data-page="21">

Thực hiện code sau:

Và được kết quả như sau:

Ta vẽ biểu đồ boxplot đối với biến phân loại và biểu đồ phân tán (plot) để nắm

rõ sự phân phối của biến “mpg” theo 8 biến còn lại.

Các boxplot:

</div>Trang 22<div class="page_container" data-page="22">

Các plot:

</div>Trang 23<div class="page_container" data-page="23">

22

</div>Trang 24<div class="page_container" data-page="24">

Nhận xét: Dựa trên các đồ thị phân tán, ta thấy mpg mối quan hệ gần như tuyến

tính nghịch với các biến horsepower, displacement, weight và khơng có quan hệ tuyến tính với biến acceleration (các điểm phân tán khá rộng và ngẫu nhiên). Ta dự đoán rằng: các yếu tố horsepower, displacement, weight ít nhiều có ảnh hưởng đến mức tiêu thụ nhiên liệu cịn acceleration thì có thể không ảnh hưởng.

2.3. Chia bộ dữ liệu làm hai phần:

Để chia ngẫu nhiên bộ dữ liệu thành 2 phần, ta thực hiện nhập lệnh sau:

Kết quả thu được:

“auto_mpg1” (training dataset)

</div>Trang 25<div class="page_container" data-page="25">

“auto_mpg2” (validation dataset)

2.4. Chọn mơ hình để giải thích cho biến “mpg”

Để đánh giá sự ảnh hưởng các nhân tố lên biến phụ thuộc “mpg”, ta xem xét các

biến trong dữ liệu. Ở đây ta thấy các biến độc lập trong dữ liệu là các biến định lượng và một số biến phân loại. Và ngoài ra ở đây ta có nhiều nhân tố độc lập để xem xét đưa vào mơ hình. Do đó nhóm chọn phương án phân tích ở đây là xây dựng mơ hình hồi quy tuyến tính bội.

Ở mơ hình hồi quy tuyến tính ta sẽ khơng đưa biến car_name vào chương trình

vì đây là biến phân loại với rất nhiều giá trị, khi đưa vào sẽ làm cho mơ hình phức tạp hơn. Ngồi ra, ta có thể nhận thấy tên xe có thể khơng ảnh hưởng đến mức tiêu thụ

nhiên của xe. Do đó, ta xây dựng mơ hình hồi quy hqtt_1 gồm biến phụ thuộc mpg và các biến độc lập là các biến (cylinders, displacement, horsepower, weight,

acceleration, model_year, origin) từ mẫu huấn luyện auto_mpg1.

Mơ hình được biểu diễn như sau:

</div>Trang 26<div class="page_container" data-page="26">

Từ kết quả phân tích ta được:

Ta thấy rằng P-value tương ứng với thống kê F bé hơn 2,2e – 16 là có ý nghĩa rất cao. Điều này chỉ ra rằng, ít nhất một biến dự báo trong mơ hình có ý nghĩa giải thích

rất cao cho biến mpg.

Giả thiết:

</div>Trang 27<div class="page_container" data-page="27">

H0: “Hệ số βi khơng có ý nghĩa thống kê đối với mơ hình” H1: “Hệ số βi có ý nghĩa thống kê đối với mơ hình”

Vì P-value ứng với các biến cylinders, displacement và acceleration lớn hơn

0,05 nên ta chưa bác bỏ được giả thiết H0 cho nên ta tạm chấp nhận rằng các biến

cylinders, displacement và acceleration khơng có ý nghĩa đối với mơ hình hồi quy ta

vừa xây dựng, do đó ta có thể loại bỏ các biến này ra khỏi mơ hình hồi quy.

Ta tiếp tục xây dựng các mơ hình thơng qua việc loại lần lượt từng biến:

 hqtt_2 bằng cách bỏ đi biến cylinders

 hqtt_3 bằng cách bỏ đi biến displacement từ hqtt_2

</div>Trang 28<div class="page_container" data-page="28">

Ta sẽ so sánh các mơ hình hqtt_1, hqtt_2, hqtt_3 và hqtt_4 với nhau để chọn ra mơ hình tốt nhất giải thích cho biến mpg:

Giả thuyết Ho: Hai mơ hình hqtt_i và hqtt_j hiệu quả giống nhau

Đối thuyết H1: Hai mơ hình hqtt_i và hqtt_j hiệu quả khác nhau

Với i,j = 1, 2, 3, 4 và i ≠ j trong từng cặp so sánh Ta thực hiện lệnh:

Kết quả so sánh:

 hqtt_1 với hqtt_2:

Nhận xét: ta thấy P-value = 0.6576 > 0,1 nên theo phần lí thuyết về P ta thừa

nhận giả thuyết H0 vì vậy ta kết luận rằng hiệu quả của hai mơ hình hqtt_1 và hqtt_2

là giống nhau.

</div>Trang 29<div class="page_container" data-page="29">

 hqtt_2 với hqtt_3:

Nhận xét: ta thấy P-value = 0,3319 > 0,1 nên theo phần lí thuyết về P ta thừa

nhận giả thuyết H0 vì vậy ta kết luận rằng hiệu quả của hai mơ hình hqtt_2 và hqtt_3

là giống nhau.

 hqtt_3 với hqtt_4:

Nhận xét: ta thấy p-value = 0,5889 > 0,1 nên theo phần lí thuyết về P ta thừa

nhận giả thuyết H0 vì vậy ta kết luận rằng hiệu quả của hai mơ hình hqtt_3 và hqtt_4

là giống nhau.

Từ các so sánh trên ta nhận thấy hiệu quả của 4 mơ hình là như nhau. Vậy ta sẽ

chọn mơ hình dựa vào hệ số R2 hiệu chỉnh, xét thấy R2 hiệu chỉnh = 0,8481 ở mơ

hình hqtt_4 là cao nhất.. Vậy để phù hợp nhất ta chọn mơ hình hqtt_4.

2.5. Kiểm tra các giả định (giả thiết) của mơ hình: 2.5.1. Nhắc lại các giả định:

Nhắc lại các giả định của mơ hình hồi quy: Yi = β0+ β1. X1+. . . +βiXi + ϵi, i = 1,..n.

+ Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được giả sử là tuyến tính.

+ Sai số có phân phối chuẩn

+ Phương sai của các sai số là hằng số: ϵi~N(0, σ2) + Các sai số ϵ1, … ϵn thì độc lập với nhau.

</div>Trang 30<div class="page_container" data-page="30">

Đồ thị biểu diễn sai số của mơ hình hồi quy tương ứng với các giá trị dự báo, để kiểm tra các giả định về tính tuyến tính của dữ liệu, kỳ vọng của sai số bằng 0 và phương sai các sai số là hằng số:

</div>

Bài tập lớn môn học xác suất và thống kê (mt2013)

<b>MỤC LỤC </b>

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về