Tải bản đầy đủ (.pdf) (72 trang)

BÁO cáo bài tập lớn xây dựng mô hình hồi quy phân tích các nhân tố ảnh hưởng đến lương của kỹ sư sau khi tốt nghiệp đh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.18 MB, 72 trang )

 

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA KỸ THUẬT HOÁ HỌC


BÁO CÁO BÀI TẬP LỚN

MƠN XÁC SUẤT THỐNG KÊ HỌC KỲ 212
Nhóm 2 – L18

GVHD: Thầy Nguyễn Bá Thi
  SVTH : Lâm Thuỳ Dương
2012882

 Hồ Chí Minh, 05/04/2022


 

MỤC LỤC
A. PHẦN C
CH
HUNG..............
.............................
..............................
.............................
.............................
.............................
.............................


..............................
............................
............. 3
I.

............................
.............................
..............................
.............................
.............................
..............................
............................
............. 3
Hồi qu
quy ttuuyến tí
tính bbộội..............

1.

Đọc
Đọc dữ liệu
liệu (I
(Imp
mpor
ortt ddat
ata)
a)...............
.............................
.............................
.............................

.............................
..............................
.............................
..................
.... 6

2.


Làm
m ssạc
ạchh ddữ
ữ liệ
liệuu (Da
(Data
ta cl
clea
eani
ning
ng))...............
.............................
.............................
.............................
.................................................
................................... 6

3.

............................
..............................

.............................
.............................
.................................8
..................8

Làm
m rõ dữ li
liệu
ệu (D
(Dat
ataa vvis
isua
uali
liza
zati
tion
on)).............

4.


Xâyy ddựn
ựngg m
mơơ hìn
hìnhh hhồi
ồi qu
quyy ttuy
uyến
ến tí
tính

nh.............
...........................
.............................
..............................
.............................
...........................
............. 14

5.

Dự bá
báoo (Pr
(Predic
edicttio
ions
ns))...............
.............................
.............................
..............................
.............................
.............................
.......................................19
........................19

II.

ANOVA..............
.............................
.............................
.............................

..............................
.............................
.............................
...........................................
............................ .. 20

1.

Nhậ
Nhậpp và làm sạ
sạch
ch dữ liệ
liệu,
u, tthực
hực hiệ
hiệnn cá
cácc th
thống
ống kê m
môô tả......................................................22

2.

Ph
Phân
ân tí
tích
ch ph
phươ
ương

ng sa
saii m
một
ột nhân
nhân tố..............
.............................
.............................
.............................
.............................
................................31
..................31

B. PHẦN RIÊNG..............
.............................
.............................
.............................
..............................
.............................
.............................
.............................
............................47
..............47
.............................
.............................
..............................
.............................
.............................
..............................
.............................
.........................

........... 47
Đề bài và yêu cầu:...............

1.

Đọc dữ liệu:...............
.............................
.............................
..............................
.............................
.............................
.............................
................................
.................. ...... 48

2.

Làm sạch dữ liệu:.............
............................
..............................
.............................
.............................
.............................
.............................
...............................49
................49

3.

Làm rrõõ dữ liệu:..............

.............................
.............................
.............................
..............................
.............................
...............................................
................................. 49

4. Xây ddựng
ựng m
mơơ hìn
hìnhh hồi quy: P
Phân
hân ttích
ích cá
cácc nhân tố ảnh hưởng đến llương
ương ccủa
ủa kỹ sư sa
sauu khi
............................
.............................
.............................
..............................
.............................
.............................
.............................
.............................
............... 57
tốt nghiệp ĐH..............
5.


t.t
t.test
est:: So sán
sánhh lương
lương tru
trung
ng bìn
bìnhh gi
giữa
ữa Nam và Nữ.................................................................64

6. Xây ddựng
ựng m
mơơ hìn
hìnhh anov
anova:
a: So sánh mức llương
ương ttrung
rung bbình
ình ggiữa
iữa các
các ứng cử vi
viên
ên đạt các
bằng cấp khác nhau.............
............................
.............................
.............................
.............................

.............................
..............................
...................................
.................... 65
...........................
.............................
..............................
.............................
.............................
..............................
.................................70
..................70
TÀI LIỆU THAM KHẢO.............

2


 

A. PHẦN CHUNG
I. Hồi qu
quyy tuy
tuyến
ến tí
tính
nh bộ
bộii
Câu 1: Tập tin "gia_nha.csv" chứa thông tin về giá bán ra thị trường (đơn vị đơ la) của
21613
nhà ởgiáquận

nước
khoảng
giantảtừchất
tháng
5/2014
đến
5/2015.ngơi
Bên cạnh
nhà,King
dữ liệu
cịnMỹ
bao trong
gồm các
thuộc thời
tính mơ
lượng
ngơi nhà.
Dữ liệu gốc được cung cấp tại: https://www
/>.kaggle.com/harlfoxem/housesalespre
em/housesalesprediction
diction..
Các biến chính trong bộ dữ liệu:
• price: Giá nhà được bán ra.
 • sqft_living15: Diện tích trung bình của 15 ngơi nhà gần nhất trong khu dân cư.
• floors: Số tầng của ngôi nhà được phân loại từ 1 - 3.5.
• condition: Điều kiện kiến trúc của ngơi nhà từ 1 - 5, 1: rất tệ và 5: rất tốt.
• sqft_above: Diện tích ngơi nhà.
• sqft_living: Diện tích khn viên nhà.
Yêu cầu:
1. Đọc dữ liệu (Import data): Hãy dùng lênh read.csv() để đọc tệp tin.

2. Làm sạch dữ liệu (Data cleaning):
(a) Hãy trích ra một dữ liệu con đặt tên là new_DF chỉ bao gồm các biến chính mà
ta quan tâm như đã trình bày trong phần giới thiệu dữ liệu. Từ câu hỏi này về sau, mọi
yêu cầu xử lý đều dựa trên tập dữ liệu con new_DF này.
(b) Kiểm tra các dữ liệu bị khuyết trong tập tin. (Các câu lênh tham khảo: is.na(),
which(), apply()). Nếu có dữ liệu bị khuyết, hãy đề xuất phương pháp thay thế cho những
dữ liệu bị khuyết này.
3. Làm rõ dữ liệu (Data visualization):
(a) Chuyển đổi các biến price, sqft_living15, sqft_above, sqft_living lần lượt thành
log(price), log(sqft_living15), log(sqft_above), và log(sqft_living). Từ đây mọi sự tính
tốn với các biến trên được hiểu là đã qua đổi biến dạng log.
(b) Đối với các biến liên tục, hãy tính các giá trị thống kê mơ tả bao gồm: trung
 bình, trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất. Xuất kết quả dưới dạng

3


 

 bảng. (Hàm gợi ý: mean(), median(), sd(), min(), max() , apply(), as.data.frame(),
rownames()).
(c) Đối với các biến phân loại, hãy lập một bảng thống kê số lượng cho từng
chủng loại (Hàm gợi ý: table()).
(d) Hãy dùng hàm hist() để vẽ đồ thị phân phối của biến price.
(e) Hãy dùng hàm boxplot() vẽ phân phối của biến price cho từng nhóm phân loại
của biến floors và biến condition.
(f) Dùng lệnh pairs() vẽ các phân phối của biến price lần lượt theo các biến
sqft_living15, sqft_above, và sqft_living.
4. Xây dựng các mơ hình hồi quy tuyến tính (Fitting linear regression models):
Chúng ta muốn khám phá rằng có những nhân tố nào và tác động như thế nào đến giá nhà

ở quận King.
(a) Xét mô hình hồi quy tuyến tính bao gồm biến price là một biến phụ thuộc, và
tất
các biến
còn lại đều là biến độc lập. Hãy dùng lệnh lm() để thực thi mô hình hồi
quycảtuyến
tính bội.
(b) Dựa vào kết quả của mơ hình hồi quy tuyến tính trên, những biến nào bạn sẽ
loại khỏi mơ hình tương ứng với mức tin cậy 5%?
(c) Xét 2 mơ hình tuyến tính cùng bao gồm biến price là biến phụ thuộc nhưng: +
mơ hình M1 chứa tất cả các biến còn lại là biến độc lập. + mơ hình M2 là loại bỏ biến
condition từ mơ hình M1. Hãy dùng lệnhh anova() để đề xuất mơ hình hồi quy hợp lý
hơn.
(d) Chọn mơ hình hợp lý hơn từ câu (c) hãy suy luận sự tác động của các biến lên
giá nhà.
(e) Từ mơ hình hồi quy mà bạn chọn ở câu (c) hãy dùng lệnh plot() để vẽ đồ thị
 biểu thị sai số hồi quy (residuals) và giá trị dự báo (fitted values). Nêu ý nghĩa và nhận
xét đồ thị.
5. Dự báo (Predictions):
(a) Từ mơ hình bạn chọn trong câu (c), hãy dùng lệnh predict() để dự báo giá nhà
tại 2 thuộc tính như sau:
X1: sqft_living15 = mean(sqft_living15), sqft_above = mean(sqft_above), sqft_living =
mean(sqft_living), floor = 2, condition = 3

4


 

X2: sqft_living15 = max(sqft_living15), sqft_above = max(sqft_above), sqft_living =

max(sqft_living), floor = 2, condition = 3.
(b) So sánh khoảng tin cậy cho 2 giá trị dự báo này.

5


 

THỰC HIỆN 

1. Đọc
Đọc dữ
dữ lliệ
iệuu ((Im
Impo
port
rt da
data
ta))
Đọc dữ liệu “gia_nha.csv”. 

2. Làm
Làm sạc
sạchh dữ liệu
liệu (D
(Dat
ataa clea
cleani
ning
ng))

(a) Tạo một dữ liệu con new_DF
new_DF chỉ
 chỉ bao gồm các biến chính mà ta quan tâm.

6


 

(b) Kiểm tra các dữ liệu bị khuyết trong new_DF

 Nhìn vào kết quả khi kiểm tra
tra dữ liệu bị khuyết trong new_D
new_DF,
F, ta nhận thấy có 20 dữ liệu
 bị khuyết tại biến price (lượng dữ liệu khuyết chiếm dưới 10% của dữ liệu). Vì vậy, ta
cần xử lý các dữ liệu bị khuyết đó.
Phương pháp thay thế cho các dữ liệu bị khuyết: xoá các quan sát chứa dữ liệu bị khuyết.

7


 

Sau khi thực hiện phương pháp, nhận thấy khơng cịn dữ liệu bị khuyết.
3. Làm
Làm rõ dữ
dữ liệu
liệu (Dat
(Dataa visu

visual
aliz
izat
atio
ion)
n)
(a) Chuyển
Chuyển đổi các biến
biến price
price,,  sqft_living15,
sqft_living15,  sqft_above,
sqft_above,  sqft_living 
sqft_living  lần lượt thành
log(price), log(sqft_living15), log(sqft_above), và log(sqft_living). Từ
log(sqft_living).  Từ đây mọi sự
tính tốn với các biến trên được hiểu là đã qua đổi biến dạng log.

Giải thích lý do chuyển sang dạng log(x):
+ Cải thiện sự phù hợp của mơ hình: giả định khi ta xây dựng mơ hình hồi quy thì các sai
số hồi quy (phần dư) phải có phân phối chuẩn, do đó trong trường hợp sai số hồi quy
(phần dư) khơng có phân phối chuẩn thì việc lấy log của của một biến giúp thay đổi tỉ lệ
và làm cho biến đó có phân phối chuẩn. Ngồi ra, trong trường hợp phần dư (phương sai
thay đổi) do các biến độc lập gây ra, ta cũng có thể chuyển đổi các biến đó sang dạng log.
+ Diễn giải: đây là lý do giúp ta có thể diễn giải mối quan hệ giữa 2 biến thuận tiện hơn.
 Nếu ta lấy log của biến phụ thuộc Y và biến độc lập X, khi đó hệ số hồi quy β sẽ là hệ số
co giãn và diễn giải sẽ như sau: X tăng 1% sẽ dẫn đến tăng việc ta sẽ kỳ vọng Y tăng lên
β% (về mặt trung bình của Y), ...
+ Ước lượng mơ hình phi tuyến: việc lấy log cho phép ta ước lượng các mơ hình này
 bằng hồi quy tuyến tính.
8



 

(b) Tính các giá trị thống kê mơ tả (trung bình, trung vị độ lệch chuẩn, giá trị lớn nhất,
log.price,,  log.sqft_above,
log.sqft_above,  log.sqft_living,
log.sqft_living,
giá trị nhỏ nhất) cho các biến log.price
log.sqft_living15. Xuất kết quả dưới dạng bảng.
log.sqft_living15.

(c) Lập một bảng thống kê số lượng cho từng chủng loại của biến floors
floors và
 và condition
condition..

9


 

(d) Vẽ biểu đồ histogram thể hiện phân phối của log.price
log.price..

Dựa trên biểu đồ histogram của biến log.price, ta nhận thấy đồ thị có hình dạng phân phối
chuẩn.
(e) Vẽ biểu đồ boxplot thể hiện phân phối của biến log.price
log.price cho
 cho từng nhóm phân loại

floors và
condition..
của biến floors
 và biến condition
log.price cho
- Vẽ biểu đồ boxplot thể hiện phân phối của biến log.price
 cho từng nhóm phân loại của
floors..
 biến floors

10


 

- Vẽ biểu đồ boxplot thể hiện phân phối của biến log.price cho từng nhóm phân loại của
condition..
 biến condition

11


 

(f) Vẽ biểu đồ phân tán thể hiện phân phối của biến log.price
log.price   theo
theo biến
biến
log.sqft_living15, log.sqft_above
log.sqft_living15,

 log.sqft_above,, log.sqft_living
 log.sqft_living..
log.price theo
- Vẽ biểu đồ phân tán thể hiện phân phối của biến log.price
 theo biến log.sqft_living15

log.price theo
log.sqft_above..
- Vẽ biểu đồ phân tán thể hiện phân phối của biến log.price
 theo biến log.sqft_above

12


 

- Vẽ biểu đồ phân tán thể hiện phân phối của biến log.price
log.price theo
 theo biến log.sqft_living.

13


 

Nhận xét: Dựa
xét: Dựa trên các đồ thị phân tán, ta nhận thấy log.price có
log.price có quan hệ tuyến tính với
log.sqft_living15,, log.sqft_above
 log.sqft_above,, log.sqft_living

 log.sqft_living (cụ
các biến log.sqft_living15
 (cụ thể là quan hệ đồng biến).
log(x) sẽ
 Nhìn vào các đồ thị trên, ta nhận thấy việc chuyển đổi các biến sang dạng log(x)
 sẽ hiệu
quả hơn trong việc phân tích mối quan hệ tuyến tính giữa các biến độc lập với biến phụ
thuộc (giá nhà).
Câu hỏi đặt ra lúc này là mối quan hệ giữa các biến với giá nhà là ngẫu nhiên hay thực sự
cómối quan hệ tuyến tính giữa các biến với giá nhà. Mơ hình hồi quy tuyến tính sẽ giúp
ta kiểm tra điều này thông qua các khoảng tin cậy và các phép kiểm định. Hơn nữa, nó
cịn cho phép ta ước lượng giá trị của biến phụ thuộc (giá nhà) theo các biến độc lập (số
tầng, điều kiện ngơi nhà, diện tích nhà, ...).
4. Xây
Xây dựng
dựng mơ
mơ hình
hình hhồi
ồi qu
quyy tuyế
tuyếnn tính
tính
Chúng ta muốn khám phá rằng có những nhân tố nào và tác động như thế nào đến giá nhà
ở quận King.
(a) Xét mơ hình hồi quy tuyến tính bao gồm biến log.price
log.price là
 là biến phụ thuộc. Biến độc
lập: floors, condition, log.sqft_living15, log.sqft_above, log.sqft_living.
log.sqft_living.
Mơ hình được biểu diễn như sau:

log.pr
log
.price
ice =  β   +  β   × log.sq
log.sqft_
ft_liv
living
ing15
15 +
0

1

 β 2  ×

floor
floors1
s1.5
.5 +  β   × floor
floors2
s2 + ... +  β   ×
3

11

log.sqft_above +  β  × log.sqft_living + ε i
12

Trước khi ước lượng các hệ số β i, ta cần chuyển các biến floors
floors và

 và condition
condition sang
 sang dạng
factor.

Ta thực hiện ước lượng các hệ số  β i, i = 0, ..., 12:

14


 

 Nhận xét: Từ kết quả phân tích, ta thu được:
được:

^

 β 0=

5.314428;  β^  = 0.462153;  β^  = 0.181243;  β^ = 0.067617, ...,  β
 β  = −0.142451;   β
β =
1

2

3

^


11

^

12

0.670249

 Như vậy, đường thẳng hồi quy ước lượng cho bởi phương ttrình
rình sau:
log.price = 5.314428 + 0.462153 × log.sqft_living15 + 0.181243 × floors1.5 + 0.067617
× floors2 + ... − 0.142451 × log.sqft_above + 0.670249 × log.sqft_living.
(b) Kiểm định các hệ số hồi quy
Giả thuyết H0: Hệ số hồi quy khơng có ý nghĩa thống kê ( β i = 0)
Giả thuyết H1: Hệ số hồi quy có ý nghĩa thống kê ( β i ≠  0)
15


 

condition2 lớn
Ta nhận thấy Pr(>|t|) của các hệ số ứng với biến condition2
 lớn hơn mức ý nghĩa α =
0.05 nên ta chưa bác bỏ được giả thuyết H0. Do đó hệ số ứng với các biến này khơng có ý
condition ra
nghĩa với mơ hình hồi quy ta xây dựng. Ta có thể cân nhắc loại bỏ biến condition
 ra khỏi
mơ hình.
(c) Xét 2 mơ hình tuyến tính cùng bao gồm biến log.price là biến phụ thuộc nhưng:
+ Mơ hình M1 chứa tất cả các biến cịn lại là biến độc lập.

condition từ
+ Mơ hình M2 là loại bỏ biến condition
 từ mơ hình M1.
condition từ
Xây dựng mơ hình m2 loại bỏ biến condition
 từ mơ hình m1.

16


 

So sánh hiệu quả của hai mơ hình:

Giả thuyết H0: Hai mơ hình hiệu quả giống nhau.
Giả thuyết H1: Hai mơ hình hiệu quả khác nhau.
Ta nhận thấy Pr(>|t|) < 2.2e-16, tức bé hơn mức ý nghĩa α = 0.05 nên ta bác bỏ giả thuyết
H0. Vậy hai mơ hình hiệu quả khác nhau. Mặt khác, biến bỏ đi là biến condition
condition mà
 mà trong
condition2,, condition3
 condition3,, condition4
 condition4,, condition5
 condition5 có
đó vẫn cịn có biến condition2
 có ý nghĩa với mơ
hình, do đó nếu bỏ đi biến có ý nghĩa ra khỏi mơ hình sẽ khiến mơ hình tệ hơn. Vì vậy ta
chọn mơ hình 1 là mơ hình phù hợp nhất.
(d) Phân tích sự tác động của các nhân tố lên giá nhà:
 Như vậy mơ hình hồi quy tuyến tính về ảnh hưởng của các nhân tố lên giá nhà được cho

 bởi:
log.price = 5.314428 + 0.462153 × log.sqft_living15 + 0.181243 × floors1.5 + 0.067617
× floors2 +... − 0.142451 × log.sqft_above + 0.670249 × log.sqft_living.
Trước hết, ta thấy rằng p−value tương ứng với thống kê F bé hơn 2.2e−16, có ý nghĩa rất
cao. Điều này chỉ ra rằng, ít nhất một biến dự báo trong mơ hình có ý nghĩa giải thích rất
cao đến giá nhà. Để xét ảnh hưởng cụ thể của từng biến độc lập, ta xét trọng số (hệ số

 β i)

và p − value tương ứng. Ta thấy rằng p − value tương ứng với các biến đa số đều bé hơn
2e − 16 (ngoài trừ biến condition2 lớn hơn mức ý nghĩa), điều này nói lên rằng ảnh
17


 

log.price.. Mặt khác, hệ số hồi quy  β i của
hưởng của các biến này có ý nghĩa rất cao lên log.price
một biến dự báo cũng có thể được xem như ảnh hưởng trung bình lên biến phụ thuộc
price khi tăng một đơn vị của biến dự báo, giả sử rằng các biến dự báo khác khơng đổi.
price khi
Cụ thể,  β^  = 0.462153 thì khi log của diện tích trung bình của 15 ngơi nhà gần đó của một
1

ngơi nhà bán ra tăng 1 đơn vị ta có thể kỳ vọng log.price
log.price tăng
 tăng lên 0.462153 về mặt đơn vị
log.price.. Tương tự đối với các biến còn lại. Hệ số R 2 hiệu chỉnh bằng 0.5097 nghĩa
của log.price
log.price được

là 50.97% sự biến thiên trong log.price
 được giải thích bởi các biến các biến độc lập.
(e) Vẽ đồ thị biểu thị sai số hồi quy (residuals) và các giá trị dự báo (fitted values)

Đồ thị này vẽ các giá trị dự báo với các giá trị thặng dư (sai số) tương ứng, dùng để kiểm
tra tính tuyến tính của dữ liệu, các sai số có kỳ vọng bằng 0 và tính đồng nhất của các
 phương sai sai số. Nếu như giả định về tính tuyến tính của dữ liệu khơng thỏa, ta sẽ quan
sát thấy rằng các điểm thặngdư (residuals) trên đồ thị sẽ phân bố theo một hình mẫu
(pattern) đặc trưng nào đó (ví dụ parabol). Nếu đường màu đỏ trên đồ thị phân tán là
đường thẳng nằm ngang mà khơng phải là đường cong, thì giả định tính tuyến tính của dữ
18


 

liệu được thỏa mãn. Để kiểm tra giả định phương sai đồng nhất thì các điểm thặng dự
 phải phân tán đều nhau xung quanh đường thẳng màu đỏ. Để giả định các sai số có kỳ
vọng bằng 0 thoả mãn thì đường màu đỏ phải nằm sát đường residuals = 0.
+ Đồ thị cho thấy giả định về tính tuyến tính của dữ liệu chưa thực sự thoả mãn.
+ Đồ thị cho ta thấy rằng giả định các sai số có kỳ vọng bằng 0 chưa thoả mãn.
+ Đồ thị cho ta thấy rằng giả định về tính đồng nhất của phương sai chưa thoả mãn.
5. Dự báo
báo (P
(Pre
redi
dict
ctio
ions
ns))
(a) Từ mơ hình 1, thực hiện dự báo tại hai thuộc tính như sau:

X1: sqft_living15 = mean(sqft_living15), sqft_above = mean(sqft_above), sqft_living =
mean(sqft_living), floor = 2, condition = 3
X2: sqft_living15 = max(sqft_living15), sqft_above = max(sqft_above), sqft_living =
max(sqft_living), floor = 2, condition = 3.

19


 

(b) So sánh khoảng tin cậy cho hai giá trị dự báo này:
Dựa vào kết quả, nhận thấy độ dài khoảng ước lượng cho giá trị dự báo của thuộc tính X1
 bé hơn so với độ dài khoảng ước lượng cho giá trị dự báo ở thuộc tính X2. Vậy khoảng
ước lượng cho giá trị dự báo ở thuộc tính X1 hợp lý hơn.
II. ANOVA
Câu 4: Tập
4: Tập tin flights.rda
flights.rda cung
 cung cấp thông tin về 162049 chuyến bay đã khởi hành từ hai
sân bay lớn của vùng Tây bắc Thái Bình Dương của Mỹ, SEA ở Seattle và PDX ở 
Portland trong năm 2014. Dữ liệu cung cấp bởi Văn phòng Thống kê Vận tải, Mỹ
( /> Dữ liệu này được dùng để phân tích các nguyên nhân
gây ra sự khởi hành trễ hoặc hoãn các chuyến bay. Chi tiết về bộ dữ liệu như sau:


Tổng chuyến bay được thống kê: 162049.



Tổng số biến 16.




Mô tả các biến chính:

day: ngày khởi hành của mỗi chuyến bay
1. year, month, day:
carrier:: tên của hãng hàng không, được mã hóa bằng 2 chữ cái in hoa. Ví dụ: UA
2. carrier
= United Air Lines, AA = American Airlines, DL = Delta Airlines, v.v.
3. origin
origin và
 và dest
dest:: tên sân bay đi và đến. Đối với sân bay đi, ta chỉ có hai giá trị SEA
(Seattle) và PDX (Portland).
4. dep_time
dep_time và
 và arr_time
arr_time:: thời gian cất cánh và hạ cánh (theo lịch dự kiến)
5. dep_delay
dep_delay và
 và arr_time
arr_time:: chênh lệch (phút) giữa thời gian cất cánh/hạ cánh thực tế
với thời gian cất cánh/hạ cánh in trong vé
distance:: khoảng cách giữa hai sân bay (dặm)
6. distance
Yêu cầu:
1. Nhập và làm sạch dữ liệu, thực hiện các thống kê mô tả
(a) Trong R hãy nhập tập dữ liệu flights.rda
newFlights,, chỉ chứa các biến chúng ta

(b) Hãy tạo một data.frame mới, đặt tên là newFlights
cần quan tâm là: carrier, origin, dep_ time, arr _ time, dep_ delay và arr _ delay.
delay . Từ câu
hỏi này về sau, mọi yêu cầu xử lý đều được thực hiện trên data.frame newFlights
newFlights này.
 này.
20


 

(c) Trong các biến đang xét, có một số biến chứa nhiều giá trị khuyết (NA – Not
Available). Hãy in bảng thống kê tỷ lệ giá trị khuyết đối với từng biến. Hãy đề xuất một
 phương pháp để xử lý những giá trị khuyết này.
(d) Tính các giá trị thống kê mơ tả (cỡ mẫu. trung bình, độ lệch chuẩn, min, max,
các điểm tứ phân vị) của thời gian khởi hành trễ (biến dep_ delay)
delay) của từng hãng hàng
không (carrier 
(carrier ).
). Xuất kết quả ra dưới dạng bảng.
(e) Vẽ đồ thị boxplot cho thời gian khởi hành trễ dep_ delay tương
delay tương ứng với từng
hãng hàng không carrier .
(f) Ta sẽ quan sát thấy rằng có rất nhiền điểm outliers trên các đồ thị boxplot vừa
vẽ (đối với biến dep_ delay).
delay). Hãy sử dụng khoảng tứ phân vị (interquartile range) để loại
 bỏ các điểm outlier này và vẽ lại các đồ thị boxplot cho dep_ delay.
delay. Dựa trên đồ thị
 boxplot, cho nhận xét về thời gian khởi hành trễ của từng hãng hàng không.
2. Phân tích phương sai một nhân tố (one way ANOVA)

Ta quan tâm đến việc kiểm định rằng liện có sự khác biệt về thời gian khởi hành trễ trung
 bình
các hãng hàng không đối với các chuyến bay khởi hành từ Portland trong năm
2014giữa
hay khơng?
(a) Hãy giải thích tại sao ta cần dùng phân tích phương sai để trả lời cho câu hỏi
trên. Xác định biến phụ thuộc và các nhân tố (hay các biến độc lập).
(b) Phát biểu các giả thuyết và đối thuyết bằng lời và cơng thức tốn. Nêu các giả
định cần kiểm tra của mơ hình.
(c) Thực hiện kiểm tra các giả định của mơ hình (giả định về phân phối chuẩn, tính
đồng nhất của các phương sai). Gợi ý: ta có thể sử dụng phân tích thăng dư kết hợp với
việc sử dụng đồ thị QQ-plot, kiểm định Shapiro- Wilk để kiểm tra giả định về phân phối
chuẩn, kiểm định Levene hay Bartiet để kiếm tra giả định về tính đồng nhất của các
 phương sai.
(d) Thực hiện phân tích ANOVA một nhân tố. Trình bày bảng phân tích phương sai
trong báo cáo. Cho kết luận.

21


 

THỰC HIỆN 

1. Nhập
Nhập và làm
làm sạch
sạch ddữ
ữ li
liệu,

ệu, tthực
hực hhiện
iện các thố
thống
ng kê mô tả
(a) Dùng lệnh load
load để
 để đọc tệp tin flights.rda vào R:

(b) Tạo data.frame mới bao gồm các biến chính: carrier, origin, dep_time, arr_time,
dep_delay và
dep_delay
 và arr_delay
arr_delay,, đặt tên là newFlights
newFlights::

(c) Trong các biến đang xét, có một số biến chứa nhiều giá trị khuyết (NA – Not
Available).
Dùng lệnh apply
apply để
 để kiểm tra tổng và tỷ lệ giá trị khuyết đối với từng biến.

22


 

Nhận xét: Dựa
xét: Dựa vào kết quả thu được ở bảng thống kê tổng và tỷ lệ giá trị khuyết đối với
từng biến, ta nhận thấy có nhiều giá trị khuyết tại biến arr_delay, arr_time, dep_time,

dep_delay. Vì lượng khuyết trong dữ liệu chỉ chiếm tối đa 4% lượng quan sát (dưới
dep_delay.
10%). Do đó ta lựa chọn phương pháp xố các quan sát của biến nào có giá trị khuyết
trong tệp tin newFlight
newFlight..
na.omit  để xố các quan sát của biến nào có giá trị khuyết
Ta sử dụn
ụngg lện
ệnhh na.omit
newFlight::
trong newFlight

Ta thực hiện kiểm tra lại lượng quan sát đã xoá:

Ta nhận thấy số lượng quan sát sau khi xoá là 1301 quan sát, chiếm tỷ lệ 0,8% so với dữ
liệu ban đầu, có thể thấy việc xố các quan sát của biến có giá trị khuyết trong tệp
tin newFlight
newFlight không
 không ảnh hưởng nhiều đến kết quả của dữ liệu.
(d) Dùng các hàm length, mean, sd, min, max, quantile, kết
quantile,  kết hợp với tapply
tapply để
 để tính các
giá trị thống kê mơ tả (cỡ mẫu, trung bình, độ lệch chuẩn, min, max, các điểm tứ
dep_delay)) của từng hãng hàng không
 phân vị) của thời gian khởi hành trễ (biến dep_delay
(carrier
carrier).
).
23



 

Dùng hàm data.frame để xuất Kết quả dưới dạng bảng thống kê:

24


 

(e) Dùng hàm boxplot
boxplot để
 để vẽ biểu đồ của biến dep_delay theo từng hãng hàng không:

Nhận xét: Qua
xét: Qua biểu đồ trên ta thấy rằng có rất nhiều điểm ngoại lai (outliers) ở biến
dep_delay, điều này có thể là nguyên nhân ảnh hưởng đến kết quả phân tích phía sau.
(f) Ta sử dụng khoảng tứ phân vị (interquartile range) để loại bỏ các điểm outlier.
Ý tưởng: Ta sẽ chuyển các outliers của biến dep_delay ở từng hãng hàng khơng sang NA.
Từ đó đề xuất phương pháp xử lý các NA đó.
Trước tiên, ta tạo function xác định outliers, chuyển các outliers thành dạng NA. Việc tạo
function mới sẽ giúp ta tối ưu code hơn:

25


×