Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.96 MB, 61 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<b>ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA </b>
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3"><b>PHẦN ĐỀ BÀI ... 4 </b>
Hoạt động 1 (phần chung) ... 4
Hoạt động 2 (Khoa cơ khí): ... 5
<b>NỘI DUNG BÁO CÁO ... 6 </b>
1. Cơ sở lí thuyết ... 6
1.1. Giới thiệu mơ hình hồi quy tuyến tính bội ... 6
1.2. Ước lượng các tham số của mơ hình hồi quy tuyến tính bội ... 7
1.2.1. Hàm hồi quy tổng thể (PRF – Population Regression Function) ... 7
1.2.2. Hàm hồi quy mẫu (SRF – Sample Regression Function): ... 7
1.2.3. Phương pháp bình phương nhỏ nhất (Ordinary Least Squares) ... 8
1.2.3.1. Các giả thiết của phương pháp bình phương nhỏ nhất cho mơ hình hồi quy tuyến tính bội ... 8
1.2.3.2. Ước lượng ... 9
1.2.4. Độ phù hợp của mơ hình ... 10
1.2.5. Khoảng tin cậy và kiểm định các hệ số hồi quy ... 11
1.2.5.1. Ước lượng khoảng tin cậy đối với các hệ số hồi quy ... 11
1.2.5.2. Kiểm định giả thiết đối với β<small>j</small> ... 11
1.2.6. Kiểm định ý nghĩa của mơ hình ... 12
1.3. Sơ lược về P (P-value) ... 13
2. Hoạt động 1 ... 14
2.1. Nhập và làm sạch dữ liệu: ... 14
2.1.1. Nhập dữ liệu: ... 14
2.1.2. Làm sạch dữ liệu: ... 15
2.1.2.1. Kiểm tra và xử lí dữ liệu khuyết : ... 15
2.2. Thống kê mô tả cho các biến: ... 19
2.3. Chia bộ dữ liệu làm hai phần: ... 23
2.4. Chọn mơ hình để giải thích cho biến “mpg” ... 24
2.5. Kiểm tra các giả định (giả thiết) của mơ hình: ... 28
2.5.1. Nhắc lại các giả định: ... 28
2.5.2. Kiểm tra các giả định: ... 29
2.6. Ý nghĩa của mơ hình đã chọn: ... 32
2.7. Thực hiện dự báo (Prediction): ... 33
2.8. So sánh kết quả dự báo “predict_mpg” với giá trị thực tế của “mpg”: ... 34
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">3.1.2. Làm sạch dữ liệu: ... 36
3.1.2.1. Kiểm tra và xử lí dữ liệu khuyết : ... 36
3.1.2.2. Tìm và xử lí dữ liệu ngoại lai: ... 37
3.2. Thống kê mô tả cho các biến ... 39
3.3. Chọn mơ hình để giải thích cho biến “windmill_generated_power” ... 43
3.4. Kiểm tra các giả định (giả thiết) của mơ hình: ... 46
3.4.1. Nhắc lại các giả định: ... 46
3.4.2. Kiểm tra các giả định: ... 46
3.5. Ý nghĩa của mơ hình đã chọn: ... 49
3.6. Thực hiện dự báo (Prediction) ... 50
3.6.1. Xây dựng thuộc tính X1, X2: ... 50
3.7. Mơ hình ANOVA ... 51
3.7.1. Thực hiện kiểm tra giả định phân phối chuẩn: ... 51
3.7.2. Thực hiện kiểm tra giả định tính đồng nhất của phương sai ... 56
<b>TÀI LIỆU THAM KHẢO ... 60</b>
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5"><b>PHẦN ĐỀ BÀI Hoạt động 1 (phần chung) </b>
Dữ liệu được cho trong file “auto-mpg.csv” là bộ dữ liệu tiêu thụ nhiên liệu của xe trong thành phố. Dữ liệu được lấy từ UCI Machine Learning Repository
( Bộ dữ liệu gồm 398 quan trắc trên 9 biến sau:
<b>“mpg”: (continuous) mức tiêu thụ nhiên liệu tính theo dặm trên galon </b>
(miles/gallon);
<b>“cylinder”: (multi-valued discrete) số xy lanh; </b>
<b>“displacement”: (continuous) kích thước động cơ; </b>
<b>“horsepower”: (continuous) công suất động cơ; </b>
<b>“weight”: (continuous) khối lượng; </b>
<b>“acceleration”: (continuous) gia tốc xe; </b>
<b>“model_year”: (multi-valued discrete) năm sản xuất model (2 số cuối); </b>
<b>“origin”: (multi-valued discrete) nơi sản xuất: 1-North American, 2-Europe, </b>
3-Asia;
<b>“car name”: (multi-valued discrete) tên xe; Yêu cầu: </b>
<b>1. Nhập và “làm sạch” dữ liệu (lưu ý, biến “horsepower” có 6 quan trắc thiếu dữ </b>
<i>liệu; xét xem có dữ liệu ngoại lai không?), thực hiện các thống kê mô tả. (chú ý các cột của file “auto-mpg.csv” được phân tách bởi dấu “;”, khi đọc file dữ liệu dùng lệnh “read.csv” cần thêm sep = “;”) </i>
2. Chia bộ dữ liệu làm 2 phần: mẫu huấn luyện (training dataset) gồm 200 quan trắc đặt tên “auto_mpg1” và mẫu kiểm tra (validation dataset) gồm các quan trắc còn lại trong bộ dữ liệu ban đầu đã “làm sạch”, đặt tên “auto_mpg2”
3. Chọn mơ hình tốt nhất giải thích cho biến phụ thuộc “mpg” thông qua việc chọn lựa các biến độc lập phụ hợp trong 8 biến độc lập còn lại từ mẫu huấn luyện
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">5. Nêu ý nghĩa của mơ hình đã chọn.
6. Dự báo (Prediction): Sử dụng mẫu kiểm tra (validation dataset) “auto_mpg2” và dựa vào mô hình tốt nhất được chọn trên đưa số liệu dự báo cho biến phụ thuộc “mpg”. Gọi kết quả dự báo này là biến “predict_mpg”.
7. So sánh kết quả dự báo “predict_mpg” với giá trị thực tế của “mpg”. Rút ra nhận xét?
<b>Hoạt động 2 (Khoa cơ khí): </b>
<b>Tệp tin train_data chứa các thơng số về điều kiện môi trường, cấu tạo và năng </b>
lượng tạo ra từ các máy xoay gió. Dữ liệu được cung cấp tại trang web:
Các biến chính trong bộ dữ liệu:
wind_speed: Tốc độ gió
area_temperature: Nhiệt độ môi trường
motor_torque: Công suất động cơ
blade_breadth: chiều rộng cánh quạt
turbine_status: Loại turbine
could_level: Cấp độ mây
windmill_generated_power: Năng lượng tạo ra từ cối xây gió
<b>Yêu cầu: </b>
1. Đọc dữ liệu (Import data):
2. Làm sạch dữ liệu (Data cleaning):
3. Làm rõ dữ liệu (Data visualization): Thống kê mô tả, dùng thống kê mẫu và dùng đồ thị.
4. Mơ hình hồi quy tuyến tính: phân tích các nhân tố ảnh hưởng đến năng lượng tạo ra từ cối xây gió.
5. Dự báo: Thực hiện dự báo cho năng lượng gió tạo ra ở hai thuộc tính:
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">6. Mơ hình anova: so sánh năng lượng gió trung bình tạo ra từ cối xây gió ở các điều kiện cấp độ mây. Từ đó chỉ ra điều kiện cấp độ mây như thế nào có thể tạo ra lượng gió tốt nhất.
<b>NỘI DUNG BÁO CÁO </b>
<b>1. Cơ sở lí thuyết </b>
Hồi quy chính là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến phụ thuộc và một nhóm tập hợp các biến độc lập. Mơ hình với một biến phụ thuộc với hai hoặc nhiều biến độc lập được gọi là hồi quy bội (hay còn gọi là hồi quy đa biến).
Ví dụ: Chi tiêu của hộ gia đình về thực phẩm phụ thuộc vào quy mơ hộ gia đình, thu nhập, vị trí địa lý,…; Tỷ lệ tử vong trẻ em của một quốc gia phụ thuộc vào thu nhập bình quân đầu người, trình độ giáo dục,…; Lương của một người phụ thuộc vào chức vụ, kinh nghiệm, độ tuổi,…
<b>1.1. Giới thiệu mơ hình hồi quy tuyến tính bội </b>
Mơ hình hồi quy tuyến tính bội có dạng tổng quát như sau: Y = β<small>1 </small>+ β<small>2</small>X<small>2</small> + β<small>3</small>X<small>3</small> + … + β<small>k</small>X<small>k</small> + u
Trong đó:Y: biến phụ thuộc X<small>i</small>: biến độc lập β<small>1</small>: hệ số tự do
β<small>i</small>: hệ số hồi quy riêng. β<small>i</small> đo lường tác động riêng phần của biến X<small>i</small> lên Y với điều kiện các biến số khác trong mơ hình khơng đổi. Cụ thể hơn, nếu các biến khác trong mô hình khơng đổi, giá trị kỳ vọng của Y sẽ tăng β<small>i</small> đơn vị nếu X<small>i</small> tăng 1 đơn vị u: sai số ngẫu nhiên.
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">sử dụng cho các trường hợp chúng ta muốn dự đốn một số lượng liên tục. Ví dụ: dự đoán thời gian người dùng dừng lại một trang nào đó hoặc số người đã truy cập vào một website nào đó v.v... Bằng dữ liệu thu thập được, ta đi ước lượng hàm hồi quy của tổng thể, đó là ước lượng các tham số của tổng thể: β<small>1</small>, β<small>2</small>,…, β<small>k </small>
<b>1.2. Ước lượng các tham số của mơ hình hồi quy tuyến tính bội </b>
<b>1.2.1. Hàm hồi quy tổng thể (PRF – Population Regression Function) </b>
Với Y là biến phụ thuộc, X<small>2</small>, X<small>3</small>,…, X<small>k</small> là biến độc lập, Y là ngẫu nhiên và có một phân phối xác suất nào đó. Suy ra: Tồn tại E(Y|X<small>2</small>, X<small>3</small>,…, X<small>k</small>) = giá trị xác định. Do vậy, F(X<small>2</small>, X<small>3</small>,…, X<small>k</small>) = E(Y|X<small>2</small>, X<small>3</small>,…, X<small>k</small>) là hàm hồi quy tổng thể của Y theo X<small>2</small>,
<b>1.2.2. Hàm hồi quy mẫu (SRF – Sample Regression Function): </b>
Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của biến phụ thuộc là đúng ở mức độ nào. Do vậy chúng ta phải dựa vào dữ liệu mẫu để ước lượng.
Trên một mẫu có n cá thể, gọi Ŷ = F̂(X<small>2</small>, X<small>3</small>,…, X<small>k</small>) làhồi quy mẫu.
Với một cá thể mẫu Y<small>i</small> ≠ F̂(X<small>2,i</small>, X<small>3,i</small>,…, X<small>k,i</small>) sinh ra e<small>i</small> = Y<small>i</small> – F̂(X<small>2</small>, X<small>3</small>,…, X<small>k</small>); e<small>i</small>
gọi là phần dư SRF.
Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau: ŷ<small>i</small> = β̂<sub>1</sub> + β̂2x2,i + β̂3x3,i + … + β̂kxk,i
Phần dư sinh ra: e<small>i</small> = y<small>i</small> – ŷ<small>i</small>
Ký hiệu: β̂<small>m</small> là ước lượng của β<small>m</small>. Chúng ta trông đợi β̂<small>m</small> là ước lượng không chệch của β<small>m</small>, hơn nữa phải là một ước lượng hiệu quả.
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của F qua việc tìm các tham số của F̂ và lấy giá trị quan sát của các tham số này làm giá trị xấp xỉ cho tham số của F.
<b>1.2.3. Phương pháp bình phương nhỏ nhất (Ordinary Least Squares) </b>
Phương pháp bình phương nhỏ nhất được đưa ra bởi nhà Toán học Đức Carl Friedrich Gauss. Tư tưởng của phương pháp này là cực tiểu tổng bình phương của các phần dư. Do đó có thể nói để có được hồi quy thích hợp nhất, chúng ta chọn các ước lượng có tung độ gốc và độ dốc sao cho phần dư là nhỏ.
<b>1.2.3.1. Các giả thiết của phương pháp bình phương nhỏ nhất cho mơ hình hồi quy tuyến tính bội </b>
Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong việc ước lượng các tham số của mơ hình, tuy nhiên mơ hình ước lượng phải thỏa mãn 7 giả thiết. Khi thỏa mãn các giả thiết, ước lượng bình phương nhỏ nhất (OLS) là ước lượng tuyến tính khơng chệch có hiệu quả nhất trong các ước lượng. Vì thế phương pháp OLS đưa ra ước lượng khơng chệch tuyến tính tốt nhất (BLUE).
Kết quả này được gọi là Định lý Gauss – Markov, theo lý thuyết này ước lượng OLS là BLUE, nghĩa là trong tất cả các tổ hợp tuyến tính khơng chệch của Y, ước lượng OLS có phương sai bé nhất. Các giả thiết như sau:
1/ Hàm hồi quy là tuyến tính theo các hệ số
Điều này có nghĩa là q trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan hệ dưới dạng:
y = β<small>1 </small>+ β<small>2</small>x<small>2</small> + β<small>3</small>x<small>3</small> + β<small>4</small>x<small>4</small> + … + β<small>k</small>x<small>k</small> + u
hoặc mối quan hệ thực tế có thể được viết lại ví dụ như dưới dạng lấy loga cả hai vế.
2/ E(u<small>i</small>) = 0 : Kỳ vọng của các yếu tố ngẫu nhiên u<small>i</small> bằng 0
Trung bình tổng thể sai số là bằng 0. Điều này có nghĩa là có một số giá trị sai số mang dấu dương và một số sai số mang dấu âm. Do hàm xem như là đường trung bình nên có thể giả định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức trung bình, trong tổng thể.
3/ Var(u<small>i</small>) = σ<small>2</small> : Phương sai bằng nhau và thuần nhất với mọi u<small>i</small>
Tất cả giá trị u được phân phối giống nhau với cùng phương sai σ<small>2</small>, sao cho:
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">thuyết trong những phạm vi mẫu là nhỏ. Nhưng phạm vi mẫu lớn hơn, điều này trở nên không mấy quan trọng.
5/ Giữa các u<small>i</small> thì độc lập với nhau
<b>1.2.3.2. Ước lượng </b>
Ta đặt: y<small>i</small> ký hiệu giá trị thực của biến y tại quan sát i ŷ<small>i</small> ký hiệu giá trị của hàm hồi quy mẫu
e<small>i</small> ký hiệu phần dư y<small>i</small> – ŷ<small>i</small>
Do đó cực tiểu hóa Σ(y<small>i</small> – ŷ<small>i</small>)<small>2</small> sẽ tương đương với cực tiểu Σe<small>i</small><sup>2</sup> từ đó tìm ra β̂<small>0</small>, β̂<small>1</small>,…, β̂k
Ta có:
Σei2 = Σ(yi – (β̂1 + β̂2x2,i + β̂3x3,i + β̂4x4,i + … + β̂kxk,i))<small>2 </small>
Chúng ta có thiết lập các điều kiện bậc nhất cho phép tính tối thiểu này như sau:
<small>∂β̂k</small><sup> = -2</sup>(yi – (β̂1 + β̂2x2,i + β̂3x3,i + β̂4x4,i + … + β̂kxk,i)) x<sub>ki</sub> = 0
Hệ phương trình mà chúng ta có được gọi là hệ phương trình chuẩn của hồi quy mẫu. Chúng ta có thể giải k phương trình chuẩn này để tìm k hệ số β" chưa biết. β̂<small>1</small>, β̂<small>2</small>,…, β̂<small>k</small> được gọi là các ước lượng bình phương nhỏ nhất.
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11"><b>1.2.4. Độ phù hợp của mơ hình </b>
Để có thể biết mơ hình giải thích được như thế nào hay bao nhiêu % biến động của biến phụ thuộc, người ta sử dụng R<sup>2</sup>
Ta có: Σ(y<small>i</small> – ӯ)<small>2</small> = Σ[(y<small>i</small> – ŷ<small>i</small>) + (ŷ<small>i</small> – ӯ)]<small>2</small> = Σ[e<small>i</small> + (ŷ<small>i</small> – ӯ)]<small>2</small>
= Σe<small>i</small><sup>2</sup> + 2Σe<small>i</small>(ŷ<small>i</small> – ӯ) + Σ(ŷ<small>i</small> – ӯ)<small>2</small>
Đặt:
Σ(y<small>i</small> – ӯ)<sup>2</sup> : TSS – Total Sum of Squares
Σ(ŷ<small>i</small> – ӯ)<sup>2</sup> : ESS – Explained Sum of Squares
Σe<small>i</small><sup>2</sup> : RSS – Residual Sum of Squares
Do Σe<small>i</small>(ŷ<small>i</small> – ӯ) = 0 ⇐ (Σe<small>i</small>ŷ<small>i</small> = 0; Σe<small>i</small>ӯ = 0) Ta có thể viết: TSS = ESS + RSS Ý nghĩa của các thành phần:
TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y<small>i</small> và giá trị trung bình.
ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng. Phần này đo độ chính xác của hàm hồi quy.
RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi quy.
TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra. Từ TTS = ESS + RSS, ta chia cả hai vế cho TSS, ta có:
(Σ(y<sub>i</sub> − ӯ)(y<sub>i</sub> − ŷ ))<small>2</small> (Σ(y<sub>i</sub> − ӯ)<small>2</small>)(Σ(y<sub>i</sub>− ŷ )<small>2</small>)<sup> </sup>
Tỷ số giữa tổng biến thiên được giải thích bởi mơ hình cho tổng bình phương cần được giải thích được gọi là hệ số xác định, hay là trị thống kê “good of fit”. Từ định nghĩa R<small>2</small> chúng ta thấy R<small>2</small> đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị trung bình được giải thích bằng mơ hình. Khi đó người ta sử dụng R<small>2</small> để đo sự phù hợp của hàm hồi quy:
0 ≤ R<small>2</small> ≤ 1.
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12"> Nếu R<small>2</small> = 0, nghĩa là mơ hình khơng đưa ra thông tin nào về sự thay đổi của biến phụ thuộc y. rong mơ hình hồi quy đa biến tỷ lệ của toàn bộ sự khác biệt của biến y do tất cả các biến x<small>2</small> và x<small>3</small> gây ra được gọi là hệ số xác định bội, ký
<b>1.2.5. Khoảng tin cậy và kiểm định các hệ số hồi quy </b>
<b>1.2.5.1. Ước lượng khoảng tin cậy đối với các hệ số hồi quy </b>
Mục đích của phân tích hồi quy khơng phải chỉ suy đốn về β<small>1</small>, β<small>2</small>,…, β<small>k</small> mà còn phải kiểm tra bản chất sự phụ thuộc. Do vậy cần phải biết phân bố xác suất của β<small>1</small>, β<small>2</small>,…, β<small>k</small>. Các phân bố này phụ thuộc vào phân bố của các u<small>i</small>.
Với các giả thiết OLS, u<small>i</small> có phân phối N (0, σ<small>2</small>). Các hệ số ước lượng tuân theo phân phối chuẩn:
β̂<small>j</small> ~ N(β<small>j</small>, Se(β̂<small>j</small>)) <small>β̂j − βj</small>
<small>Se(β̂j)</small> ~ T(n − k)
Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu. Trong đó k là số hệ số có trong phương trình hồi quy đa biến:
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không: kiểm định rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay khơng. Nói cách khác là hệ số hồi quy có ý nghĩa thống kê hay khơng.
Có thể đưa ra giả thiết nào đó đối với β<small>j</small>, chẳng hạn β<small>j</small> = β<small>j</small>*. Nếu giả thiết này
<b>1.2.6. Kiểm định ý nghĩa của mơ hình </b>
Trong mơ hình hồi quy đa biến, giả thuyết “khơng” cho rằng mơ hình khơng có ý nghĩa được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0.
Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể như sau:
Bước 1: Giả thuyết “không” là H<small>0</small>: β<small>2</small> = β<small>3</small> = … = β<small>k</small> = 0.
Giả thuyết đối là H<small>1</small>: “có ít nhất một trong những giá trị β khác không”.
Bước 2: Trước tiên hồi quy Y theo một số hạng không đổi và X<small>2</small>, X<small>3</small>, …, X<small>k</small>, sau đó tính tổng bình phương sai số RSS<small>U</small>, RSS<small>R</small>. Phân phối F là tỷ số của hai biến ngẫu nhiên phân phối khi bình phương độc lập. Điều này cho ta trị thống kê:
F<small>c </small>= ~ F(α, k – m, n – k)
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14"> Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k – 1) cho tử số và (n-k) cho mẫu số, và với mức ý nghĩa α cho trước.
Bước 4: Bác bỏ giả thuyết H<small>0</small> ở mức ý nghĩa α nếu F<small>c </small><b>> F(α, k-1, n-k). Đối với </b>
<b>phương pháp giá trị p, tính giá trị p = P(F>F</b><small>c</small>|H<small>0</small>) và bác bỏ giả thuyết H<small>0</small> nếu p < α.
<b>1.3. Sơ lược về P (P-value) </b>
Chúng ta nhìn lại bài tốn kiểm định 2 phía: H<small>0</small>: a= a<small>0</small> ; H<small>1</small>: a ≠ a<small>0</small> với trường hợp n ≥ 30 và chưa biết phương sai tổng thể. Giả sử mức ý nghĩa đang được xem xét là α<small>1</small>=0,05 thì z<small>α1 </small>= 1,96 và miền bác bỏ tương ứng là W<small>α1</small> =(-∞; -1,96) ∪ (1,96; +∞).
Nếu từ một mẫu cụ thể ta tính được z<small>qsA</small> = 2,0 ∈ W<small>α1</small> thì giả thiết H0 tương ứng bị bác bỏ. Giả thiết từ một mẫu cụ thể khác ta tính được zqsB = 10 chẳng hạn thì giả thiết H0 cũng bị bác bỏ. Ta nhận thấy việc bác bỏ H0 trong trường hợp mẫu sau có vẻ “thuyết phục” hơn.
Mặt khác, nếu thay đổi mức ý nghĩa đang được xem xét thành α2=0,02 thì z<small>α2</small>=2,33 và miền bác bỏ tương ứng là W<small>α2 </small>=(-∞; -2,33) ∪ (2,33; +∞). Lúc này ta vẫn bác bỏ H<small>0</small> nếu z<small>qsB</small>= 10 nhưng lại phải chấp nhận H<small>0</small> nếu dùng z<small>qsA</small> = 2,0.
Qua đó ta thấy việc bác bỏ H<small>0</small> với z<small>qsB</small>= 10 khá thuyết phục nhưng việc bác bỏ H<small>0</small>
với z<small>qsB</small> = 2,0 lại ít thuyết phục hơn.
Quá trình kiểm định như trên được gọi là kiểm định theo cách tiếp cận cổ điển. Bây giờ ta tìm hiểu một cách tiếp cận khác bài tốn kiểm định. Thay vì kiểm định giả thiết với một mức ý nghĩa α định trước thì người ta cho rằng sau khi định rõ các giả thiết kiểm định H<small>0</small> và giả thiết đối H<small>1</small>, ta thu thập các số liệu mẫu và xác định mức độ khẳng định việc bác bỏ giả thiết H<small>0</small>. Mức độ khẳng định này thường được gọi là giá trị xác suất P hay P-value.
Ta nói rằng mức ý nghĩa nhỏ nhất tại đó giả thiết H<small>0</small> bị bác bỏ được gọi là giá trị P kết hợp với mẫu quan sát được. Người ta còn gọi giá trị P là mức ý nghĩa quan sát,
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">nó cho biết xác suất mắc sai lầm loại I tối đa khi bác bỏ giả thiết H<small>0</small> với một mẫu quan sát cụ thể.
Các phần mềm thống kê hiện nay đều đưa ra P-value cho mỗi bài toán kiểm định để độc giả tự đánh giá kết quả. Ý tưởng chủ đạo là P-value càng nhỏ thì càng bác bỏ giả thiết mạnh, P-value càng lớn thì càng chấp nhận giả thiết mạnh.
Thông thường người ta tiến hành kiểm định theo nguyên tắc:
Nếu 0,1 ≤ P-value: ta thường thừa nhận H<small>0</small>.
Nếu 0,05 ≤ P-value < 0,1: cân nhắc cẩn thận trước khi bác bỏ H<small>0</small>.Nếu 0,01 ≤ P-value
< 0,05: nghiêng về hướng bác bỏ H<small>0 </small>nhiều hơn.
Nếu 0,001 ≤ P-value < 0,01: có thể ít băn khoăn khi bác bỏ H<small>0</small>.
Nếu P-value < 0,001: có thể hồn tồn yên tâm khi bác bỏ H<small>0</small>.
<b>2. Hoạt động 1 </b>
<b>2.1. Nhập và làm sạch dữ liệu: 2.1.1. Nhập dữ liệu: </b>
Vào session / set working directory / choose directory / “ đường dẫn thư mục chứa file auto_mpg.csv”
Sau đó nhập lệnh sau để thực hiện nhập dữ liệu:
Kết quả:
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16"><b>2.1.2. Làm sạch dữ liệu: </b>
<b>2.1.2.1. Kiểm tra và xử lí dữ liệu khuyết : </b>
Thay kí hiệu “?” của các dữ liệu bị khuyết bằng “NA”
</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17"><b>Theo quan sát ta thấy có 6 vị trí dữ liệu nằm ở cột horsepower đó là các quan trắc thứ: 33, 127, 331, 337, 355 và 375 và chiếm tỉ lệ khoảng 1,51%, do tỉ lệ dữ liệu </b>
khuyết rất bé so với bộ dữ liệu đang xét nên ta xử lí bằng cách xóa các quan trắc chứa dữ liệu khuyết.
Tiến hành xóa và kiểm tra lại dữ liệu khuyết:
Ta được kết quả:
Vậy các dữ liệu khuyết đã bị xóa khỏi tập dữ liệu.
<b>2.1.3. Tìm và xử lí dữ liệu ngoại lai: </b>
<b>Trước tiên ta được cột horsepower về dạng dữ liệu số bằng lệnh: </b>
<b>Tiếp theo, ta kiểm tra biến horsepower có dữ liệu ngoại lai hay khơng </b>
<b>Vẽ boxplot cho các biến mpg, cylinders, horsepower, weight, acceleration, </b>
<b>model_year: </b>
</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">Ta được boxplot sau:
</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19"><b><small>18</small></b>
</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20"><b>Dựa vào boxplot ta thấy biến horsepower và acceleration có các giá trị ngoại </b>
lai, để xem cụ thể đó là những giá trị nào, ta nhập lệnh:
Và thu được các giá trị ngoại lai:
Ta sẽ xử lí bằng cách xóa các giá trị này ra khỏi tập dữ liệu, thực hiện như sau: Trước hết ta thay các giá trị ngoại lai thành “NA”
Và xóa các quan trắc chứa “NA” để hồn thành xóa các giá trị ngoại lai:
Kết quả:
Vậy là các giá trị ngoại lai đã được xử lí
<b>2.2. Thống kê mơ tả cho các biến: </b>
Ta thực hiện thống kê mô tả cho các biến định lượng, ta xuất các giá trị thống kê
</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">Thực hiện code sau:
Và được kết quả như sau:
Ta vẽ biểu đồ boxplot đối với biến phân loại và biểu đồ phân tán (plot) để nắm
<b>rõ sự phân phối của biến “mpg” theo 8 biến còn lại. </b>
<b>Các boxplot: </b>
</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22"><b>Các plot: </b>
</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23"><b><small>22</small></b>
</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24"><b>Nhận xét: Dựa trên các đồ thị phân tán, ta thấy mpg mối quan hệ gần như tuyến </b>
<b>tính nghịch với các biến horsepower, displacement, weight và khơng có quan hệ tuyến tính với biến acceleration (các điểm phân tán khá rộng và ngẫu nhiên). Ta dự đoán rằng: các yếu tố horsepower, displacement, weight ít nhiều có ảnh hưởng đến mức tiêu thụ nhiên liệu cịn acceleration thì có thể không ảnh hưởng. </b>
<b>2.3. Chia bộ dữ liệu làm hai phần: </b>
Để chia ngẫu nhiên bộ dữ liệu thành 2 phần, ta thực hiện nhập lệnh sau:
Kết quả thu được:
<b>“auto_mpg1” (training dataset) </b>
</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25"><b>“auto_mpg2” (validation dataset) </b>
<b>2.4. Chọn mơ hình để giải thích cho biến “mpg” </b>
<b>Để đánh giá sự ảnh hưởng các nhân tố lên biến phụ thuộc “mpg”, ta xem xét các </b>
biến trong dữ liệu. Ở đây ta thấy các biến độc lập trong dữ liệu là các biến định lượng và một số biến phân loại. Và ngoài ra ở đây ta có nhiều nhân tố độc lập để xem xét đưa vào mơ hình. Do đó nhóm chọn phương án phân tích ở đây là xây dựng mơ hình hồi quy tuyến tính bội.
<b>Ở mơ hình hồi quy tuyến tính ta sẽ khơng đưa biến car_name vào chương trình </b>
vì đây là biến phân loại với rất nhiều giá trị, khi đưa vào sẽ làm cho mơ hình phức tạp hơn. Ngồi ra, ta có thể nhận thấy tên xe có thể khơng ảnh hưởng đến mức tiêu thụ
<b>nhiên của xe. Do đó, ta xây dựng mơ hình hồi quy hqtt_1 gồm biến phụ thuộc mpg và các biến độc lập là các biến (cylinders, displacement, horsepower, weight, </b>
<b>acceleration, model_year, origin) từ mẫu huấn luyện auto_mpg1. </b>
Mơ hình được biểu diễn như sau:
</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26"><b>Từ kết quả phân tích ta được: </b>
Ta thấy rằng P-value tương ứng với thống kê F bé hơn 2,2e – 16 là có ý nghĩa rất cao. Điều này chỉ ra rằng, ít nhất một biến dự báo trong mơ hình có ý nghĩa giải thích
<b>rất cao cho biến mpg. </b>
<b>Giả thiết: </b>
</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">H<small>0</small>: “Hệ số β<sub>i</sub> khơng có ý nghĩa thống kê đối với mơ hình” H<small>1</small>: “Hệ số β<sub>i</sub> có ý nghĩa thống kê đối với mơ hình”
<b>Vì P-value ứng với các biến cylinders, displacement và acceleration lớn hơn </b>
0,05 nên ta chưa bác bỏ được giả thiết H<small>0</small><b> cho nên ta tạm chấp nhận rằng các biến </b>
<b>cylinders, displacement và acceleration khơng có ý nghĩa đối với mơ hình hồi quy ta </b>
<b>vừa xây dựng, do đó ta có thể loại bỏ các biến này ra khỏi mơ hình hồi quy. </b>
Ta tiếp tục xây dựng các mơ hình thơng qua việc loại lần lượt từng biến:
<b> hqtt_2 bằng cách bỏ đi biến cylinders </b>
<b> hqtt_3 bằng cách bỏ đi biến displacement từ hqtt_2 </b>
</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28"><b>Ta sẽ so sánh các mơ hình hqtt_1, hqtt_2, hqtt_3 và hqtt_4 với nhau để chọn ra mơ hình tốt nhất giải thích cho biến mpg: </b>
Giả thuyết H<small>o</small><b>: Hai mơ hình hqtt_i và hqtt_j hiệu quả giống nhau </b>
Đối thuyết H<small>1</small><b>: Hai mơ hình hqtt_i và hqtt_j hiệu quả khác nhau </b>
Với i,j = 1, 2, 3, 4 và i ≠ j trong từng cặp so sánh Ta thực hiện lệnh:
Kết quả so sánh:
<b> hqtt_1 với hqtt_2: </b>
<b>Nhận xét: ta thấy P-value = 0.6576 > 0,1 nên theo phần lí thuyết về P ta thừa </b>
nhận giả thuyết H<small>0</small><b> vì vậy ta kết luận rằng hiệu quả của hai mơ hình hqtt_1 và hqtt_2 </b>
là giống nhau.
</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29"><b> hqtt_2 với hqtt_3: </b>
<b>Nhận xét: ta thấy P-value = 0,3319 > 0,1 nên theo phần lí thuyết về P ta thừa </b>
nhận giả thuyết H<small>0</small><b> vì vậy ta kết luận rằng hiệu quả của hai mơ hình hqtt_2 và hqtt_3 </b>
là giống nhau.
<b> hqtt_3 với hqtt_4: </b>
<b>Nhận xét: ta thấy p-value = 0,5889 > 0,1 nên theo phần lí thuyết về P ta thừa </b>
nhận giả thuyết H<small>0</small><b> vì vậy ta kết luận rằng hiệu quả của hai mơ hình hqtt_3 và hqtt_4 </b>
là giống nhau.
Từ các so sánh trên ta nhận thấy hiệu quả của 4 mơ hình là như nhau. Vậy ta sẽ
<b>chọn mơ hình dựa vào hệ số R<small>2</small> hiệu chỉnh, xét thấy R<small>2</small> hiệu chỉnh = 0,8481 ở mơ </b>
<b>hình hqtt_4 là cao nhất.. Vậy để phù hợp nhất ta chọn mơ hình hqtt_4. </b>
<b>2.5. Kiểm tra các giả định (giả thiết) của mơ hình: 2.5.1. Nhắc lại các giả định: </b>
Nhắc lại các giả định của mơ hình hồi quy: Y<sub>i</sub> = β<sub>0</sub>+ β<sub>1</sub>. X<sub>1</sub>+. . . +β<sub>i</sub>X<sub>i</sub> + ϵ<sub>i</sub>, i = 1,..n.
+ Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được giả sử là tuyến tính.
+ Sai số có phân phối chuẩn
+ Phương sai của các sai số là hằng số: ϵ<sub>i</sub>~N(0, σ<sup>2</sup>) + Các sai số ϵ<sub>1</sub>, … ϵ<sub>n</sub> thì độc lập với nhau.
</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">
<b>Đồ thị biểu diễn sai số của mơ hình hồi quy tương ứng với các giá trị dự báo, để kiểm tra các giả định về tính tuyến tính của dữ liệu, kỳ vọng của sai số bằng 0 và phương sai các sai số là hằng số: </b>
</div>