Tải bản đầy đủ (.pdf) (69 trang)

Báo cáo bài tập lớn môn xác xuất thống kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.96 MB, 69 trang )

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA KỸ THUẬT HÓA HỌC

BÁO CÁO BÀI TẬP LỚN 02
MƠN XÁC XUẤT THỐNG KÊ HỌC KÌ 202
GVHD: Nguyễn Kiều Dung
Nhóm: 04
Nhóm sinh viên thực hiện:
STT

HỌ VÀ TÊN

MSSV

LỚP

NGÀNH

1

Đặng Thị Ngọc Huyền

1913584 L04A Kỹ Thuật Hóa Học

2

Nguyễn Dĩ Khang

1913696 L04B Kỹ Thuật Hóa Học


3

Nguyễn Mai Tấn Thành

1915149 L04B Kỹ Thuật Hóa Học

4

Tạ Ngọc Khánh Thy

1915453 L04B Kỹ Thuật Hóa Học

5

Lê Trọng Tín

1915514 L04B Kỹ Thuật Hóa Học

6

Nguyễn Việt Tú Anh

1912604 L12A Kỹ Thuật Hóa Học

7

Phạm Thanh Thảo Nguyên

1914396 L13C Kỹ Thuật Hóa Học


Thành phố Hồ Chí Minh - 2021


TÊN


MỤC LỤC
A. PHẦN CHUNG
YÊU CẦU ...................................................................................................................... 4
LÝ THUYẾT VỀ ANOVA (PHÂN TÍCH PHƯƠNG SAI) ......................................... 4
1. PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ .................................................... 4
1.1. Trường hợp k tổng thể có phân phối bình thường và phương sai bằng
nhau .................................................................................................................. 5
1.2. Kiểm tra các giả định của phân tích phương sai ..................................... 10
1.3. Phân tích sâu ANOVA ............................................................................ 11
2. PHÂN TÍCH PHƯƠNG SAI HAI YẾU TỐ .................................................... 12
2.1. Trường hợp có một quan sát mẫu trong một ơ ........................................ 13
2.2. Trường hợp có nhiều quan sát trong một ơ ............................................. 16
2.3. Phân tích sâu trong ANOVA hai yếu tố .................................................. 19
BÀI TẬP SỐ 4 ............................................................................................................. 19
ĐỀ BÀI ................................................................................................................. 19
CÂU HỎI .............................................................................................................. 20
1. Nhập và làm sạch dữ liệu, thực hiện các thống kê mơ tả ........................... 20
2. Phân tích phương sai một nhân tố (one way ANOVA) ............................. 21
XỬ LÝ SỐ LIỆU BÀI TẬP 4............................................................................... 21
1. Nhập và làm sạch dữ liệu, thực hiện các thống kê mô tả .......................... 21
2. Phân tích phương sai một nhân tố (oneway ANOVA) .............................. 37
B. PHẦN RIÊNG
ĐỀ BÀI: ...................................................................................................................... 49
CÂU HỎI: .................................................................................................................... 49

1. Đọc dữ liệu. ....................................................................................................... 49
2. Làm sạch dữ liệu (Data cleaning) ..................................................................... 49
2


3. Làm rõ dữ liệu (Data visualization) .................................................................. 49
4. Xây dựng các mơ hình hồi quy tuyến tính (Fitting linear regression models) . 51
5. Dự báo (Predictions) ......................................................................................... 51
LÝ DO CHỌN ĐỀ TÀI ............................................... Error! Bookmark not defined.
XỬ LÝ SỐ LIỆU ......................................................................................................... 52
1. Đọc dữ liệu. ....................................................................................................... 52
2. Làm sạch dữ liệu (Data cleaning) ..................................................................... 52
3. Làm rõ dữ liệu (Data visualization): ................................................................. 53
4. Xây dựng các mơ hình hồi quy tuyến tính (Fitting linear regression models) . 61
5. Dự báo (Predictions) ......................................................................................... 66
6. Kết luận: ............................................................................................................ 69

3


A. PHẦN CHUNG
YÊU CẦU
‑ Trình bày lý thuyết ANOVA
‑ Xử lý số liệu bài tập 4
LÝ THUYẾT VỀ ANOVA (PHÂN TÍCH PHƯƠNG SAI)
Mục tiêu của phân tích phương sai (Analysis of Variance - ANOVA) là so sánh trung
bình của nhiều nhóm (tổng thể) dựa trên các trị trung bình của các mẫu quan sát từ các
nhóm này và thơng qua kiểm định giả thuyết của kết luận về sự bằng nhau của các trung
bình tổng thể này. Trong nghiên cứu, phân tích phương sai được dùng như một cơng cụ
để xem xét ảnh hưởng của một yếu tố nguyên nhân (định tính) đến một yếu tố kết quả

(định lượng). Ví dụ như khi nghiên cứu ảnh hưởng của thời gian tự học đến kết quả học
tập của sinh viên. Nếu thời gian tự học của sinh viên được thu thập dạng dữ liệu định tính
(dưới 9 giờ/ tuần, 9 - 18 giờ/ tuần, trên 18 giờ/ tuần); và kết quả học tập của sinh viên là
dữ liệu định lượng (điểm trung bình học tập), thì phân tích phương sai là phương pháp
phù hợp vì chúng ta có 3 nhóm cần so sánh trị trung bình.
Nếu chứng minh được 3 nhóm sinh viên có mức độ thời gian tự học khác nhau đều có kết
quả điểm trung bình học tập bằng nhau, chúng ta kết luận được rằng ảnh hưởng của yếu tố
thời gian tự học đến yếu tố kết quả học tập của những nhóm sinh viên có thời gian tự học
khác nhau là như nhau. Nếu qua phân tích phương sai chúng ta thấy rằng 3 nhóm sinh
viên có kết quả điểm trung bình khác nhau, trong đó nhóm có thời gian tự học nhiều (trên
18 giờ/ tuần) có kết quả học tập cao hơn 2 nhóm kia một cách có ý nghĩa thống kê, thì kết
luận rút ra là thời gian tự học khác nhau sẽ có ảnh hưởng đến kết quả học tập.
Trong chương này chúng ta đề cập đến hai mơ hình phân tích phương sai: phân tích
phương sai một yếu tố và hai yếu tố. Cụm từ yếu tố ở đây ám chỉ số lượng yếu tố nguyên
nhân ảnh hưởng đến yếu tố kết quả đang nghiên cứu. Vậy thì với ví dụ vừa nêu trên ta có
một yếu tố nguyên nhân là thời gian tự học ảnh hưởng đến yếu tố kết quả học tập nên ta
có loại phân tích phương sai một yếu tố.
1. PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ
4


Phân tích phương sai một yếu tố (One way ANOVA) là phân tích ảnh hưởng của một yếu
tố nguyên nhân (dạng biến định tính) ảnh hưởng đến một yếu tố kết quả (dạng biến định
lượng) đang nghiên cứu. Ví dụ như xem xét ảnh hưởng của thời gian tự học của sinh viên
đến kết quả học tập. Như đã phân tích ở trên, căn cứ vào thời gian tự học ta có 3 nhóm
sinh viên cần so sánh về điểm trung bình học tập là nhóm dưới 9 giờ/ tuần, nhóm 9 - 18
giờ/ tuần, và nhóm trên 18 giờ/ tuần, cả 3 nhóm này thể hiện các cấp độ của một yếu tố đó
là yếu tố thời gian tự học. Xét rộng ra, 3 nhóm sinh viên này như mẫu đại diện của 3 tổng
thể sinh viên với thời gian tự học khác nhau, mục đích của chúng ta là tìm hiểu xem điểm
trung bình học tập của 3 tổng thể này thực ra giống hay khác nhau để kết luận liệu có hay

khơng sự ảnh hưởng của yếu tố thời gian tự học đến kết quả học tập của sinh viên. Ta đi
vào lý thuyết như sau:
1.1. Trường hợp k tổng thể có phân phối bình thường và phương sai bằng nhau
Giả sử rằng chúng ta muốn so sánh trung bình của k tổng thể (với ví dụ trên thì k = 3) dựa
trên những mẫu ngẫu nhiên độc lập gồm n1, n2, n3,…, nk quan sát từ k tổng thể. Cần ghi
nhớ ba giả định sau đây về các nhóm tổng thể được tiến hành phân tích ANOVA
- Các tổng thể này có phân phối bình thường
- Các phương sai tổng thể bằng nhau
- Các quan sát được lấy mẫu là độc lập nhau
Nếu trung bình của các tổng thể được ký hiệu là 𝜇1 , 𝜇2 , . . . , 𝜇𝑘 thì khi các giả định trên
được đáp ứng, mơ hình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng
kiểm định giả thuyết như sau:
H0: 𝜇1 = 𝜇2 =. . . = 𝜇𝑘
Giả thuyết H0 cho rằng trung bình của k tổng thể đều bằng nhau (về mặt nghiên cứu liên
hệ thì giả thuyết này cho rằng yếu tố nguyên nhân khơng có tác động gì đến vấn đề ta
đang nghiên cứu). Và giả thuyết đối là:
H1: Tồn tại ít nhất một cặp trung bình tổng thể khác nhau

5


Hai giả định đầu tiên để tiến hành phân tích phương sai được mơ tả như hình dưới đây,
bạn thấy ba tổng thể đều có phân phối bình thường với mức độ phân tán tương đối giống
nhau, nhưng ba vị trí chênh lệch của chúng cho thấy ba trị trung bình khác nhau. Rõ ràng
là nếu bạn thực sự có các giá trị của 3 tổng thể và biểu diễn được phân phối của chúng
như hình dưới thì bạn khơng cần phải làm gì nữa mà kết luận được ngay là bạn bác bỏ
H0, hay 3 tổng thể này có trị trung bình khác nhau.

Nhưng bạn chỉ có mẫu đại diện được quan sát, nên để kiểm định giả thuyết này, ta thực
hiện các bước sau:

Bước 1: Tính các trung bình mẫu của các nhóm (xem như đại diện của các tổng thể)
Trước hết ta xem cách tính các trung bình mẫu từ những quan sát của k mẫu ngẫu nhiên
độc lập (ký hiệu 𝑥̅1 , ̅̅̅,
𝑥2 . . . , ̅̅̅)
𝑥𝑘 và trung bình chung của k mẫu quan sát (ký hiệu 𝑥̅ ) từ
trường hợp tổng quát như sau:
Bảng số liệu tổng quát thực hiện phân tích phương sai
Tổng thể
1

2



k

X11

X21



Xk1

6


X12

X22




Xk2









𝑋1𝑛1

𝑋2𝑛2



𝑋𝑘𝑛𝑘

Tính trung bình mẫu của từng nhóm 𝑥̅1 , ̅̅̅,
𝑥2 . . . , ̅̅̅
𝑥𝑘 theo công thức:
𝑛

𝑥̅𝑖 =

𝑖 𝑥
∑𝑗=1

𝑖𝑗

𝑛𝑖

(i = 1, 2, …, k)

Và trung bình chung của k mẫu (trung bình chung của tồn bộ mẫu khảo sát):
𝑥̅ =

∑𝑘𝑖=1 𝑛𝑖 𝑥̅𝑖
∑𝑘𝑖=1 𝑛𝑖

Dĩ nhiên bạn có thể tính trung bình chung của k mẫu theo cách khác là: cộngt tất cả các
𝑥𝑖𝑗 trên bảng 9.1 lại rồi đem chia cho ∑ 𝑛𝑖 , với (i = 1, 2,…,k). Kết quả là như nhau:
Bước 2: Tính các tổng các chênh lệch bình phương (hay gọi tắt là tổng bình phương)
Tính tổng các chênh lệch bình phương trong nội bộ nhóm 𝑆𝑆𝑊 1 và tổng các chênh lệch
bình phương giữa các nhóm 𝑆𝑆𝐺 2
⚫ Tổng các chênh lệch bình phương trong nội bộ nhóm (SSW) được tính bằng cách
cộng các chênh lệch bình phương giữa các giá trị quan sát với trung bình mẫu của
từng nhóm, rồi sau đó lại tính tổng cộng kết quả tất cả các nhóm lại. SSW phản ánh
phần biến thiên của yếu tố kết quả do ảnh hưởng của các yếu tố khác, chứ không phải
do yếu tố nguyên nhân đang nghiên cứu (là yếu tố dùng để phân biệt các tổng thể/
nhóm đang so sánh)
Tổng các chênh lệch bình phương của từng nhóm được tính theo cơng thức:
𝑛

𝑖
Nhóm 1: 𝑆𝑆1 = ∑𝑗=1
(𝑥1𝑗 − 𝑥̅1 )2


𝑛

𝑖
Nhóm 2: 𝑆𝑆2 = ∑𝑗=1
(𝑥2𝑗 − ̅̅̅)
𝑥2 2

Tương tự như vậy ta tính cho đến nhóm thứ k được 𝑆𝑆𝑘 . Vậy tổng các chênh lệch bình
phương trong nội bộ các nhóm được tính như sau:
7


SSW = 𝑆𝑆1 + 𝑆𝑆2 + …. + 𝑆𝑆𝑘
Hay viết tổng qt theo cơng thức ta có:
𝑛

𝑖
SSW = ∑𝑘𝑖=1 ∑𝑗=1
(𝑥𝑖𝑗 − 𝑥̅𝑖 )2

⚫ Tổng các chênh lệch bình phương giữa các nhóm (SSG) được tính bằng cách cộng
các chênh lệch được lấy bình phương giữa các trung bình mẫu của từng nhóm với
trung bình chung của k nhóm (các chênh lệch này đều được nhân thêm với số quan
sát tương ứng cả từng nhóm). SSG phản ánh phần biến thiên của yếu tố kết quả do
ảnh hưởng của yếu tố nguyên nhân đang nghiên cứu.
SSG = ∑ki=1 ni (xi - x)

2

⚫ Tổng các chênh lệch bình phương tồn bộ SST được tính bằng cách cộng tổng các

chênh lệch đã lấy bình phương giữa từng giá trị quan sát của tồn bộ mẫu nghiên cứu
(xij) với trung bình tồn bộ (𝑥). SST phản ánh biến thiên của yếu tố kết quả do ảnh
hưởng của tất cả các nguyên nhân.
n

i
SST = ∑ki=1 ∑j=1
(xij - x)

2

Có thể dễ dàng chứng minh là tổng các chênh lệch bình phương tồn bộ bằng tổng cộng
tổng các chênh lệch bình phương trong nội bộ các nhóm và tổng các chênh lệch bình
phương giữa các nhóm.
SST = SSW + SSG
Như vậy công thức trên cho thấy, SST là toàn bộ biến thiên của yếu tố kết quả đã được
phân tích thành hai phần: phần biến thiên do yếu tố đang nghiên cứu tạo ra (SSG) và phần
biến thiên cịn lại do các yếu tố khác khơng nghiên cứu ở đây tạo ra (SSW). Nếu phần
biến thiên do yếu tố nguyên nhân đang xét tạo ra càng “đáng kể” so với phần biến thiên
do các yếu tố khác khơng cét tạo ra, thì chúng ta càng có cơ sở để bác bỏ H0 và kết luận là
yếu tố nguyên nhân đang nghiên cứu ảnh hưởng có ý nghĩa đến yếu tố kết quả.
Bước 3: Tính các phương sai (là trung bình của các chênh lệch bình phương).

8


Các phương sai được tính bằng cách lấy các tổng chênh lệch bình phương chia cho bậc tự
do tương ứng.
Tính phương sai trong nội bộ nhóm (MSW) bằng cách lấy tổng các chênh lệch bình
phương trong nội bộ các nhóm (SSW) chia cho bậc tự do tương ứng là n – k (n là số quan

sát, k là số nhóm so sánh). MSW là ước lượng phần biến thiên của yếu tố kết quả do các
yếu tố khác gây ra.
𝑀𝑆𝑊 =

𝑆𝑆𝑊
𝑛−𝑘

Tính phương sai giữa các nhóm (MSG) bằng cách lấy tổng các chênh lệch bình phương
giữa các nhóm chia cho bậc tự do tương ứng là k-1. MSG là ước lượng phần biến thiên
của yếu tố kết quả do yếu tố nguyên nhân đang nghiên cứu gây ra
𝑀𝑆𝐺 =

𝑆𝑆𝐺
𝑘−1

Bước 4: Kiểm định giả thuyết
Giả thuyết về sự bằng nhau của k trung bình tổng thể được quyết đinh dựa trên tỉ số của
hai phương sai: phương sai giữa các nhóm (MSG) và phương sai trong nội bộ nhóm
(MSW). Tỉ số này gọi là tỉ số F vì nó tn theo định luật Fisher – Snedecor với bậc tự do
k-1 ở tử số và n-k ở mẫu số.
𝐹=

𝑀𝑆𝐺
𝑀𝑆𝑊

Ta bác bỏ giả thuyết H0 cho rằng trị trung bình của k tổng thể bằng nhau khi:
F > F(k-1;n-k);α
F(k-1;n-k);α là giá trị trị giới hạn tra từ bảng số 4 với bậc tự do k-1 tra theo hàng đầu tiên và
n-k tra theo cột đầu tiên, nhớ chọn bảng với mức ý nghĩa phù hợp.
Sau đây là dạng bảng kết quả ttongr quát của ANOVA khi phân tích bằng chương tình

Excell hay SPSS.

9


Nguồn biến

Tổng chênh lệch bình

thiên

phương

Giữa các
nhóm
Trong nội bộ
các nhóm
Tồn bộ

Bậc tự do

Phương sai

SSG

k-1

𝑀𝑆𝐺 =

𝑆𝑆𝐺

𝑘−1

SSW

n-k

𝑀𝑆𝑊 =

𝑆𝑆𝑊
𝑛−𝑘

SST

n-1

Tỉ số F

𝐹=

𝑀𝑆𝐺
𝑀𝑆𝑊

1.2. Kiểm tra các giả định của phân tích phương sai
Chúng ta có thể kiểm tra nhanh các giả định này bằng đồ thị. Histogram là phương pháp
tốt nhất để kiểm tra giả định về phân phối bình thường của dữ liệu nhưng nó đòi hỏi một
số lượng quan sát khá lớn. Biểu đồ thân lá hay biểu đồ hộp và râu là một thay thế tốt trong
tình huống số quan sát ít hơn. Nếu công cụ đồ thị cho thấy tập dữ liệu mẫu khá phù hợp
với phân phối bình thường thì ta có thể xem giả định phân phối bình thường đã thỏa mãn.
Một phương pháp kiểm định tham số chắc chắn hơn cho giả định phương sai bằng nhau là
kiểm định Levene về phương sai của các tổng thể. Kiểm định này xuất phát từ giả thyết

sau.
H0: 12 = 22 = … = k2
H1: Không phải tất cả các phương sai bằng nhau
Để quyết định chấp nhận hay bác bỏ H0 ta tính tốn giá trị kiểm định F theo cơng thức
Fmax =

S2max
S2min

Trong đó S2max là phương sai lớn nhất trong các nhóm nghiên cứu và S2min là phương sai
nhỏ nhất trong các nhóm nghiên cứu.
Giá trị F tính được được đem so sánh với giá trị F(k;

df); 

tra được từ bảng phân phối

Hartley Fmax. Trong đó, k là số nhóm so sánh, bậc tự do df tính theo cơng thức df = (𝑛 –
10


1). Trong tình huống, các nhóm có ni khác nhau thì 𝑛 =

∑ki=1 ni
k

(chú ý là nếu kết quả tính 𝑛

là một số thập phân thì ta lấy phần nguyên).
Quy tắc quyết định:

Fmax > F(k; df);  thì bác bỏ giả thuyết H0 cho rằng phương sai bằng nhau và ngược lại.
Nếu chúng ta không chắc chắn về các giả định hoặc nếu kết quả kiểm định cho thấy các
giả định khơng được thỏa mãn thì một phương pháp kiểm định thay thế cho ANOVA là
phương pháp kiểm định phi tham số Kruskal – Wallis sẽ được áp dụng.
1.3.

Phân tích sâu ANOVA

Mục đích của phân tích phương sai là kiểm định giả thuyết H0 rằng trung bình của tổng
thể bằng nhau. Sau khi phân tích và kết luận, có hai trường hợp xảy ra là chấp thuận giả
thuyết H0 hoặc bác bỏ giả thuyết H0. Nếu chấp nhận giả thuyết H0 thì phân tích kết thúc.
Nếu bác bỏ giả thuyết H0, bạn kết luận trung bình của các tổng thể khơng bằng nhau. Vì
vậy, vấn đề tiếp theo là phân tích sâu hơn để xác minh nhóm (tổng thể) nào khác nhóm
nào, nhóm nào có trung bình lớn hơn hay nhỏ hơn.
Có nhiều phương pháp để tiếp tục phân tích sâu ANOVA khi bác bỏ giả thyết H0. Trong
phần này chỉ đề cập đến một phương pháp thơn dụng đó là phương pháp Tukey, phương
pháp này còn được gọi là kiểm định HSD (Honestly Significant Differences). Nội dung
của phương pháp này là so sánh từng cặp các trung bình nhóm ở mức ý nghĩa  nào đó
cho tất cả các cặp kiểm định có thể để phát hiện ra những nhóm khác nhau. Nếu có k
nhóm nghiên cứu và chúng ta so sánh tất cả các cặp nhóm thì số lượng cặp cần phải so
sánh là tổ hợp chập 2 của k nhóm.
C2k =

k!
2!(k-2)!

=

k(k-1)
2


Giá trị giới hạn Tukey được tính theo công thức:
T = q,k,n-k √

MSW
ni

11


Trong đó:
• q,k,n-k là giá trị tra bảng phân phối kiểm định Tukey ở mức ý nghĩa , với bậc tự do
k và n – k, với n là tổng số quan sát mẫu (n = ∑ 𝑛𝑖 ).
• MSW là phương sai trong nội bộ nhóm
• ni là số quan sát trong một nhóm (tổng thể), trong trường hợp mỗi nhóm có số quan
sát ni khác nhau, sử dụng giá trị ni nhỏ nhất.
Tiêu chuẩn quyết định là bác bỏ giả thuyết H0 khi độ lệch tuyệt đối giữa các cặp trung
bình mẫu lớn hơn hay bằng T giới hạn.
Bên cạnh việc kiểm định để phát hiện ra những nhóm khác biệt, chúng ta có thể tìm
khoảng ước lượng cho chênh lệch giữa các nhóm có khác biệt có ý nghĩa thống kê. Ước
lượng khoảng về chênh lệch giữa hai trung bình nhóm có khác biệt tính theo cơng thức:
2MSW

1 - 2 = (𝑥1 − 𝑥2 ) ± (tn-k,  √
2

ni

)


Trong đó, t là giá trị được tra từ bảng phân phối Student t với (n – k) bậc tự do. Trong
chương trình Excel khơng có các lệnh phân tích sâu ANOVA. Chúng ta có thể thực hiện
phân tích này bằng chương trình SPSS. Ngồi ra kết quả của SPSS cịn cung cấp cho các
bạn một kiểm định chính thức về sự bằng nhau của các phương sai tổng thể là kiểm định
Levene.
Phân tích phương sai với kiểm định F chỉ có thể áp dụng khi các nhóm so sánh có phân
phối bình thường và phương sai bằng nhau. Trong trường hợp khơng thỏa điều kiện này,
chúng ta có thể chuyển đổi dữ liệu của yếu tố kết quả từ dạng định lượng về dạng định
tính (dữ liệu thứ bậc) và áp dụng một kiểm định phi tham sô phù hợp tên là Kruskal –
Wallis
2. PHÂN TÍCH PHƯƠNG SAI HAI YẾU TỐ
Phân tích phương sai hai yêu tố (Two – way Analysis of Variance) xem xét cùng một lúc
hai yếu tố nguyên nhân (dưới dạng dữ liệu định tính) ảnh hưởng đến yếu tố kết quả đang
nghiên cứu (dưới dạng dữ liệu định lượng).
12


2.1. Trường hợp có một quan sát mẫu trong một ô
Giả sử chúng ta nghiên cứu ảnh hưởng của hai yếu tố nguyên nhân định tính đến một yếu
tố kết quả định lượng nào đó. Theo yếu tố nguyên nhân thứ nhất chúng ta có thể sắp xếp
các đơn vị mẫu nghiên cứu thành K nhóm. Theo yếu tố nguyên nhân thứ hai ta có thể sắp
xếp các đơn vị mẫu nghiên cứu thành H khối. Nếu đồng thời sắp xếp các đơn vị mẫu theo
hai yếu tố nguyên nhân này, ta sẽ có bảng kết hợp gồm K cột và H hàng, và bảng sẽ có
K x H ơ dữ liệu. Nếu chúng ta chỉ có một mẫu quan sát trong một ơ thì tổng số đơn vị
mẫu quan sát là n = K x H. Dạng tổng quát của bảng này như sau:
Cột
Dòng
1

2




K

1

x11

x21



xK1

2

x12

x22



xK2

x1H

x2H




xKH


H

Để thực hiện (1) kiểm định giả thuyết cho rằng trung bình của K tổng thể tương ứng với
K nhóm mẫu là bằng nhau, và (2) kiểm định giả thuyết cho rằng trung bình của H tổng thể
tương ứng với H nhóm mẫu là bằng nhau, ta thực hiện theo các bước sau:
Bước 1: Tính các trung bình
Trung bình riêng của từng nhóm:
𝑥̅𝑖 =

∑𝐻
𝑗=1 𝑥𝑖𝑗
𝐻

Trung bình riêng cho từng khối:
𝑥̅𝑗 =

∑𝐾
𝑖=1 𝑥𝑖𝑗
𝐾

Trung bình chung của tồn bộ mẫu quan sát:
13


𝑥̅ =


∑𝐾𝑖=1 ∑𝐻
𝑗=1 𝑥𝑖𝑗
𝑛

=

∑𝐻
̅𝑗
𝑗=1 𝑥
𝐻

=

∑𝐾
𝑖=1 𝑥̅ 𝑖
𝐾

Bước 2: Tính tổng các chênh lệch bình phương
1. Tổng các chênh lệch bình phương chung: SST = SSG + SSB + SSE
𝐾

𝐻

𝑆𝑆𝑇 = ∑ ∑(𝑥𝑖𝑗 − 𝑥̅ )

2

𝑖=1 𝑗=1

SST phản ảnh biến thiên của yếu tố định lượng kết quả đang nghiên cứu do ảnh hưởng

của tất cả các nguyên nhân.
2. Tổng bình phương chênh lệch giữa các nhóm:
𝐾

𝑆𝑆𝐺 = 𝐻 ∑(𝑥̅𝑖 − 𝑥̅ )2
𝑖=1

SSG phản ánh phần biến thiên các yếu tố định lượng kết quả đang nghiên cứu do ảnh
hưởng của các yếu tố nguyên nhân thứ nhất, yếu tố dùng để phân nhóm ở cột.
3. Tổng các chênh lệch bình phương giữa các khối:
𝐻

𝑆𝑆𝐵 = 𝐾 ∑(𝑥̅𝑗 − 𝑥̅ )

2

𝑗=1

SSB phản ánh phần biến thiên các yếu tố định lượng kết quả đang nghiên cứu do ảnh
hưởng của các yếu tố nguyên nhân thứ hai, yếu tố dùng để phân nhóm ở dịng.
4. Tổng các chênh lệch bình phương phần dư:
𝐾

𝐻
2

𝑆𝑆𝐸 = ∑ ∑(𝑥𝑖𝑗 − 𝑥̅𝑖 − 𝑥̅𝑗 − 𝑥̅ ) = 𝑆𝑆𝑇 − 𝑆𝑆𝐺 − 𝑆𝑆𝐵
𝑖=1 𝑗=1

SSE phản ánh phần biến thiên các yếu tố định lượng kết quả đang nghiên cứu do ảnh

hưởng của các yếu tố khác cịn lại khơng đưa vào nghiên cứu trong phân tích này.
Bước 3: Tính các phương sai:

14


1. Phương sai giữa các nhóm: 𝑀𝑆𝐺 =
2. Phương sai giữa các khối: 𝑀𝑆𝐵 =
3. Phương sai dư: 𝑀𝑆𝐸 =

𝑆𝑆𝐺
𝐾−1

𝑆𝑆𝐵
𝐻−1

𝑆𝑆𝐸
(𝐾−1)(𝐻−1)

Bước 4: Kiểm định giả thuyết vể ảnh hưởng của các yếu tố thứ nhất (cột) và yếu tố thứ
hai (dòng) đến yếu tố kêt quả bằng các tỉ số F:
𝐹1 =

𝑀𝑆𝐺
𝑀𝑆𝐸

𝐹2 =

𝑀𝑆𝐵
𝑀𝑆𝐸


Bước 5: Có 2 trường hợp trong quyết định bác bỏ giả thiết H0 của ANOVA hai yếu tố:
1. Đối với F1 có mức ý nghĩa α, giả thiết H0 cho thấy rằng trung bình của K tổng thể theo
yếu tố thứ nhất (cột) bằng nhau khi bị bác bỏ:
F1 > FK-1,(K-1)(H-1),α
2. Đối với F2 có mức ý nghĩa α, giả thiết H0 cho thấy rằng trung bình của H tổng thể theo
yếu tố thứ hai (dòng) bằng nhau khi bị bác bỏ:
F2 > FH-1,(K-1)(H-1),α
Trong đó:
• FK-1,(K-1)(H-1),α Là giá trị tra trong bảng phân phối F với K-1 bậc tự do ở tử số và

(K-

1)(H-1) bậc tự do ở mẫu số.
• FH-1,(K-1)(H-1),α Là giá trị tra trong bảng phân phối F với H-1 bậc tự do ở tử số và

(K-

1)(H-1) bậc tự do ở mẫu số.
Thường phân tích phương sai hai yếu tố được thực hiện trên chương tình máy tính
(EXCEL hoặc SPSS). Kết quả có dạng tổng qt như sau:
Bảng kết quả tổng quát ANOVA hai yếu tố:
Nguồn biến

Tổng các

thiên

chênh lệch


Bậc tự do

15

Phương sai

Tỉ số F


bình phương
Giữa các

SSG

K-1

𝑀𝑆𝐺 =

𝑆𝑆𝐺
𝐾−1

𝐹1 =

𝑀𝑆𝐺
𝑀𝑆𝐸

SSB

H-1


𝑀𝑆𝐵 =

𝑆𝑆𝐵
𝐻−1

𝐹2 =

𝑀𝑆𝐵
𝑀𝑆𝐸

Phần dư

SSE

(K-1)(H-1)

Tổng cộng

SST

n-1

nhóm
Giữa các
khối

𝑀𝑆𝐸 =

𝑆𝑆𝐸
(𝐻 − 1)(𝐾 − 1)


2.2. Trường hợp có nhiều quan sát trong một ơ
Để tăng tính chính xác khi kết luận về ảnh hưởng của hai yếu tố nguyên nhân đến yếu tố
kết quả của mẫu cho một tổng thể, ta tăng cở mẫu quan sát trong điều kiện cho phép. Gọi
L là số quan sát trong một ô, ta có dạng tổng quát của L quan sát trong một ơ như sau:
Nhóm
Dịng
1

2



K

1

x111x112…x11L

x211x212…x21L



xK11xK12…xK1L

2

x121x122…x12L

x221x122…x22L




xK21xK22…xK2L

x1H1x1H2…x1HL

x2H1x2H2…x2HL



xKH1xKH2…xKHL


H

Bước 1: Tính các trung bình
Trung bình mẫu của từng nhóm:
𝑥̅𝑖 =

𝐿
∑𝐻
𝑗=1 ∑𝑠=1 𝑥𝑖𝑗𝑠

𝐻×𝐿

Trung bình mẫu của từng khối:
16



𝑥̅𝑗 =

𝐿
∑𝐾
𝑖=1 ∑𝑠=1 𝑥𝑖𝑗𝑠

𝐾×𝐿

Trung bình mẫu của từng ơ:
𝑥̅𝑖𝑗 =

∑𝐿𝑠=1 𝑥𝑖𝑗𝑠
𝐿

Trung bình mẫu của tồn bộ quan sát:
𝑥̅ =

𝐻
𝐿
∑𝐾
𝑖=1 ∑𝑗=1 ∑𝑠=1 𝑥𝑖𝑗𝑠

𝐾×𝐻×𝐿

Bước 2: Tính tổng các chênh lệch bình phương
1. Tổng các chênh lệch bình phương tồn bộ
SST = SSG + SSB + SSI + SSE
𝐾

𝐻


𝐿

𝑆𝑆𝑇 = ∑ ∑ ∑(𝑥𝑖𝑗𝑠 − 𝑥̅ )

2

𝑖=1 𝑗=1 𝑠=1

2. Tổng các chênh lệch bình phương giữa các nhóm
𝐾

𝑆𝑆𝐺 = 𝐻𝐿 ∑(𝑥̅𝑖 − 𝑥̅ )2
𝑖=1

SSG phản ánh phần biến thiên của yếu tố định lượng kết quả đang nghiên cứu do ảnh
hưởng của các yếu tố thứ nhất, yếu tố dùng để phân nhóm ở cột.
3. Tổng các chênh lệch bình phương giữa các khối
𝐻

𝑆𝑆𝐵 = 𝐾𝐿 ∑(𝑥̅𝑗 − 𝑥̅ )

2

𝑗=1

SSB phản ánh phần biến thiên của yếu tố định lượng kết quả đang nghiên cứu do ảnh
hưởng của các yếu tố thứ hai, yếu tố dùng để phân nhóm ở dịng.

4. Tổng các chênh lệch bình phương giữa các ơ

17


𝐾

𝐻

𝑆𝑆𝐼 = 𝐿 ∑ ∑(𝑥𝑖𝑗 − 𝑥̅𝑖 − 𝑥̅𝑗 − 𝑥̅ )

2

𝑖=1 𝑗=1

SSI phản ánh phần biến thiên do tác động qua lại giữa hia yếu tố đang nghiên cứu.
5. Tổng bình phương chênh lệch bình phương phần dư
2

H
L
SSE = ∑K
i=1 ∑j=1 ∑s=1(xijs -x̅ij ) = SST – SSG – SSB – SSI

Bước 3: Tính các phương sai:
1. Phương sai giữa các nhóm: 𝑀𝑆𝐺 =
2. Phương sai giữa các khối: 𝑀𝑆𝐵 =
3. Phương sai giữa các ô: 𝑀𝑆𝐼 =
4. Phương sai dư: 𝑀𝑆𝐸 =

𝑆𝑆𝐺
𝐾−1


𝑆𝑆𝐵
𝐻−1
𝑆𝑆𝐼

(𝐾−1)(𝐻−1)

𝑆𝑆𝐸
𝐾×𝐻×(𝐿−1)

Bước 4: Kiểm định giả thuyết vể ảnh hưởng của các yếu tố thứ nhất (cột) và yếu tố thứ
hai (dòng), tương tác giữa hai yếu tố đến yếu tố kêt quả bằng các tỉ số F:
𝐹1 =

𝑀𝑆𝐺
𝑀𝑆𝐸

𝐹2 =

𝑀𝑆𝐵
𝑀𝑆𝐸

𝐹3 =

𝑀𝑆𝐼
𝑀𝑆𝐸

Bước 5: Nguyên tắc quyết định trong ANOVA hai yếu tố
1. Đối với F1 có mức ý nghĩa α, giả thiết H0 cho rằng trung bình của K tổng thể theo yếu
tố nguyên nhân thứ nhất (cột) bằng nhau bị bác bỏ khi:

F1 > FK-1,KH(L-1),α
2. Đối với F2 có mức ý nghĩa α, giả thiết H0 cho rằng trung bình của H tổng thể theo yếu
tố nguyên nhân thứ hai (dòng) bằng nhau bị bác bỏ khi:
F2 > FH-1,KH(L-1),α
3. Đối với F3 có mức ý nghĩa α, giả thiết H0 cho rằng khơng có tác động qua lại giữa yếu
tố thứ nhất (cột) và yếu tố thứ hai (dòng) bị bác bỏ khi:
F3 > F(H-1)(K-1),KH(L-1),α
18


Trong đó:
• FK-1,(K-1)(H-1),α Là giá trị tra trong bảng phân phối F với K-1 bậc tự do ở tử số và
KH(L-1) bậc tự do ở mẫu số.
• FH-1,(K-1)(H-1),α Là giá trị tra trong bảng phân phối F với H-1 bậc tự do ở tử số và
KH(L-1) bậc tự do ở mẫu số.
• F(H-1)(K-1),KH(L-1),α Là giá trị tra trong bảng phân phối F với (K-1)(H-1) bậc tự do ở tử
số và KH(L-1) bậc tự do ở mẫu số.
2.3. Phân tích sâu trong ANOVA hai yếu tố
Trong phân tích phương sai hai yếu tố sau khi đã xác định có sự khác biệt giữa các nhóm
so sánh, chúng ta có thể dùng kiểm định Tukey để xác định các cặp trung bình tổng thể
khác nhau xét theo yếu tố thứ nhất (so sánh giữa K nhóm) hay xét theo yếu tố thứ hai (so
sánh giữa H khối). Kiểm định Tukey vẫn được thực hiện theo nguyên tắc giống như phần
trước, với giá trị giới hạn Tukey được tính như sau:
So sánh theo yếu tố thứ nhất (K nhóm): T = q, K, KH(L – 1) √

MSE
H.L

MSE


So sánh theo yếu tố thứ hai (H khối): T = q, H, KH(L – 1) √

K.L

BÀI TẬP SỐ 4
ĐỀ BÀI: Tập tin flights.rda cung cấp thông tin về 162049 chuyến bay đã khởi hành từ
hai sân bay lớn của vùng Tây bắc Thái Bình Dương của Mỹ, SEA ở Seattle và PDX ở
Portland trong năm 2014. Dữ liệu cung cấp bởi Văn phòng Thống kê Vận tải, Mỹ
( Dữ liệu này được dùng để phân tích các nguyên nhân gây
ra sự khởi hành trễ hoặc hoãn các chuyến bay. Chi tiết về bộ dữ liệu như sau:
‑ Tổng chuyến bay được thống kê: 162049.
‑ Tổng số biến 16
Mơ tả các biến chính:
1. year, month, day: ngày khởi hành của mỗi chuyến bay
19


2. carrier: tên của hãng hàng khơng, được mã hóa bằng 2 chữ cái in hoa. Ví dụ: UA =
United Air Lines, AA = American Airlines, DL = Delta Airlines, v.v.
3. origin và dest: tên sân bay đi và đến. Đối với sân bay đi, ta chỉ có hai giá trị SEA
(Seattle) và PDX (Portland)
4. dep_time và arr_time: thời gian cất cánh và hạ cánh (theo lịch dự kiến)
5. dep_delay và arr_delay chênh lệch (phút) giữa thời gian cất cánh/hạ cánh thực tế với
thời gian cất cánh/hạ cánh in trong vé
6. distance: khoảng cách giữa hai sân bay (dặm)
CÂU HỎI
1. Nhập và làm sạch dữ liệu, thực hiện các thống kê mô tả
(a) Trong R, hãy sử dụng lệnh read.table để đọc dữ liệu từ tập tin flights.rda. Chú ý rằng
hàng đầu tiên dùng để đặt tên biến và dấu ngăn cách giữa các cột là dấu "," thay vì khoảng
trắng như mặc định.

(b) Hãy tạo một data.frame mới, đặt tên là newFlights, chỉ chứa các biến chúng ta cần
quan tâm là: carrier, origin, dep_time, arr_time, dep_delay và arr_time (arr_delay). Từ
câu hỏi này về sau, mọi yêu cầu xử lý đều được thực hiện trên data.frame newFlights này.
(c) Trong các biến đang xét, có một số biến chứa nhiều giá trị khuyết (NA - Not
Available). Hãy in bảng thống kê tỷ lệ giá trị khuyết đối với từng biến. Hãy đề xuất một
phương pháp để xử lý những giá trị khuyết này.
(d) Tính các giá trị thống kê mơ tả (cỡ mẫu, trung bình, độ lệch chuẩn, min, max, các
điểm tứ phân vị) của thời gian khởi hành trễ (biến dep_delay) của từng hãng hàng không
(carrier). Xuất kết quả ra dưới dạng bảng.
(e) Vẽ đồ thị boxplot cho thời gian khởi hành trễ dep_delay tương ứng với từng hãng
hàng không carrier.
(f) Ta sẽ quan sát thấy rằng có rất nhiều điểm outliers trên các đồ thị boxplot vừa vẽ (đối
với biến dep_delay). Hãy sử dụng khoảng tứ phân vị (interquartile range) để loại bỏ các
điểm outlier này và vẽ lại các đồ thị boxplot cho dep_delay. Dựa trên đồ thị boxplot, cho
nhận xét về thời gian khởi hành trễ của từng hãng hàng không.
20


2. Phân tích phương sai một nhân tố (one way ANOVA)
Ta quan tâm đến việc kiểm định rằng liệu có sự khác biệt về thời gian khởi hành trễ trung
bình giữa các hãng hàng không đối với các chuyến bay khởi hành từ Portland trong năm
2014 hay không?
(a) Hãy giải thích tại sao ta cần dùng phân tích phương sai để trả lời cho câu hỏi trên. Xác
định biến phụ thuộc và các nhân tố (hay các biến độc lập).
(b) Phát biểu các giả thuyết và đối thuyết bằng lời và cơng thức tốn. Nêu các giả định
cần kiểm tra của mơ hình.
(c) Thực hiện kiểm tra các giả định của mơ hình (giả định về phân phối chuẩn, tính đồng
nhất của các phương sai). Gợi ý: ta có thể sử dụng phân tích thặng dư kết hợp với việc sử
dụng đồ thị QQ-plot, kiểm định Shapiro-Wilk để kiểm tra giả định về phân phối chuẩn,
kiểm định Levene hay Bartlett để kiểm tra giả định về tính đồng nhất của các phương sai.

(d) Thực hiện phân tích ANOVA một nhân tố. Trình bày bảng phân tích phương sai trong
báo cáo. Cho kết luận.
XỬ LÝ SỐ LIỆU BÀI TẬP 4
1. Nhập và làm sạch dữ liệu, thực hiện các thống kê mô tả
(a) Trong R, hãy sử dụng lệnh read.table để đọc dữ liệu từ tập tin flights.rda. Chú ý
rằng hàng đầu tiên dùng để đặt tên biến và dấu ngăn cách giữa các cột là dấu "," thay
vì khoảng trắng như mặc định
- Input:
install.packages("sqldf")
+Giải thích: Cài đặt gói chứa chức năng lọc dữ liệu
require(sqldf)
+Giải thích: Gọi packages “sqldf” để sử dụng
install.packages("tidyverse")e
+Giải thích: Cài đặt gói chứa chức năng lọc dữ liệu, trực quan hoá dữ liệu, tạo đồ thị
library(tidyverse)
21


+Giải thích: Nhập gói tidyverse vào mơi trường vận hành của R
install.packages("questionr")
+Giải thích: Cài đặt gói có chức năng giúp xử lý khảo sát dễ hơn( bao gồm thống kê tỷ lệ
giá trị khuyết đối với từng biến)
library(questionr)
+Giải thích: Nhập gói questionr vào mơi trường vận hành của R
install.packages("car")
library(car)
+Giải thích: Cài đặt gói chức năng “car” để sử dụng lệnh “leveneTest”
install.packages("nortest")
+ Giải thích: Cài đặt gói chức năng “nortest” để sử dụng lệnh “ad.test” để kiểm định
phân phối chuẩn

library(nortest)
+ Giải thích: Nhập gói nortest vào mơi trường vận hành của R
load("D:/XSTK/BTL2/flights.rda")
+ Giải thích: Đọc tệp flights.rda vào R
(b) Hãy tạo một data.frame mới, đặt tên là newFlights, chỉ chứa các biến chúng ta cần
quan tâm là: carrier, origin, dep_time, arr_time, dep_delay và arr_delay. Từ câu hỏi
này về sau, mọi yêu cầu xử lý đều được thực hiện trên data.frame newFlights này.
newFlights = data.frame(carrier=flights$carrier, origin=flights$origin,
dep_time=flights$dep_time, arr_time=flights$arr_time, dep_delay=flights$dep_delay,
arr_delay = flights$arr_delay)
+ Giải thích: Trích ra dữ liệu con đặt tên là newFlights bao gồm các biến chính theo yêu
cầu.

22


(c) Trong các biến đang xét, có một số biến chứa nhiều giá trị khuyết (NA – Not
Available). Hãy in bảng thống kê tỷ lệ giá trị khuyết đối với từng biến. Hãy đề xuất một
phương pháp để xử lý những giá trị khuyết này.
head(freq.na(newFlights))
+ Giải thích: Tạo bảng thống kê tỷ lệ giá trị khuyết đối với từng biến trong file dữ liệu
con newFlights
- Output:

Dựa vào kết quả thu được ở bảng thống kê tỷ lệ giá trị khuyết đối với từng biến, ta nhận
thấy có nhiều giá trị khuyết tại biến arr_delay, arr_time, dep_time, dep_delay. Do đó, ta
cần xử đưa ra các phương pháp cho các giá trị khuyết đó. Ta có các phương pháp xử lý
các giá trị khuyết như sau:
+ Phương pháp 01: Deletion (xoá): phương pháp này được dùng khi xác suất thiếu biến
là như nhau cho tất cả các quan sát. Phương pháp này được thực hiện bởi 2 cách: List

Wise Deletion and Pair Wise Deletion.
• List wise deletion: xóa các quan sát mà bất kỳ biến nào bị thiếu, nhưng phương pháp
này có một lỗ hổng bởi việc xoá quan sát của bất cứ biến nào bị thiếu này sẽ làm
giảm sức mạnh của mơ hình vì nó xóa tồn bộ hàng quan sát trong đó dữ liệu bị
thiếu.
• Pair Wise Deletion: chúng ta sẽ thực hiện phân tích với tất cả các trường hợp có các
biến quan tâm. Ưu điểm của phương pháp này là, nó giữ được nhiều trường hợp có
sẵn để phân tích. Một trong những nhược điểm của phương pháp này, nó sử dụng cỡ
mẫu khác nhau cho các biến khác nhau.
23


+ Phương pháp 02: Mean/ Mode/ Median Imputation: là một phương pháp để điền vào
các giá trị còn thiếu với các giá trị ước tính. Mục tiêu là sử dụng các mối quan hệ đã biết
có thể được xác định trong các giá trị hợp lệ của tập dữ liệu để hỗ trợ ước tính cho các giá
trị cịn thiếu. Mean/ Mode/ Median Imputation là một trong những phương pháp được sử
dụng thường xuyên nhất. Ta có hai cách sử dụng:
• Generalized Imputation: Trong trường hợp này, ta tính giá trị trung bình hoặc trung
vị cho tất cả các giá trị khơng bị thiếu của biến đó sau đó thay thế giá trị bị thiếu
bằng giá trị trung bình hoặc trung vị.
• Similar case Imputation: trong trường hợp này, ta cũng tính các giá trị trung bình
nhưng các giá trị này sẽ được tính riêng lẻ theo từng đối tượng của các giá trị
khơng bị thiếu, sau đó thay các giá trị trung bình đã được tính theo từng đối tượng
trước đó.
+ Phương pháp 03: Prediction Model (mơ hình dự đốn): tạo mơ hình dự đốn để ước
tính các giá trị sẽ thay thế dữ liệu bị thiếu. Trong trường hợp này, chia tập dữ liệu của
mình thành hai tập: Một tập khơng có giá trị bị thiếu cho biến và một tập khác có giá trị bị
thiếu. Tập dữ liệu đầu tiên trở thành tập dữ liệu huấn luyện của mơ hình trong khi tập dữ
liệu thứ hai có giá trị bị thiếu là tập dữ liệu thử nghiệm và biến có giá trị bị thiếu được coi
là biến mục tiêu. Tiếp theo, chúng tơi tạo một mơ hình để dự đốn biến mục tiêu dựa trên

các thuộc tính khác của tập dữ liệu huấn luyện và điền các giá trị còn thiếu của tập dữ liệu
thử nghiệm.
+ Phương pháp 4: KNN Imputation: Trong phương pháp này gán giá trị, các giá trị bị
thiếu của một thuộc tính được gán bằng cách sử dụng một số thuộc tính đã cho giống nhất
với thuộc tính có giá trị bị thiếu. Sự giống nhau của hai thuộc tính được xác định bằng
cách sử dụng hàm khoảng cách.
- Tóm lại, mặc dù R có nhiều cách khác nhau để thay các dữ liệu khuyết nhưng với những
ưu nhược điểm của từng phương pháp thì trong trường hợp này, vì kích thước mẫu lớn và
các giá trị khuyến chiếm dưới 10% nên ta sẽ chọn phương án là xoá các quan sát bất kì
biến nào bị thiếu trong “newFlights”
24


- Input:
newFlights=na.omit(newFlights)
+ Giải thích: Xố các quan sát của bất kỳ biến nào bị thiếu trong “newFlights”.

 Ta thấy số lượng dữ liệu khuyết bị xóa đi là 1301 chiếm 0,8028%. Vì lượng dữ liệu bị
xóa đi <10% nên ta có thể xóa đi, việc xố các quan sát của biến có giá trị khuyết
trong tệp tin newFlights khơng ảnh hưởng nhiều đến kết quả của dữ liệu.
(d) Tính các giá trị thống kê mơ tả (cỡ mẫu, trung bình, độ lệch chuẩn, min, max, các
điểm tứ phân vị) của thời gian khởi hành trễ (biến dep_delay) của từng hãng hàng
không (carrier). Xuất kết quả ra dưới dạng bảng.
-Input:
length = tapply(newFlights$dep_delay, newFlights$carrier,length)
+ Giải thích: Thống kê tổng số phần tử (cỡ mẫu) của 2 biến liên tục thời gian khởi hành
trễ (biến dep_delay) cho từng hãng hàng không (biến carrier), lưu vào biến length
mean = tapply(newFlights$dep_delay, newFlights $carrier,mean)
+ Giải thích: Thống kê trung bình của 2 biến liên tục thời gian khởi hành trễ (biến
dep_delay) cho từng hãng hàng không (biến carrier), lưu vào biến mean

sd = tapply(newFlights $dep_delay, newFlights $carrier,sd)
+ Giải thích: Thống kê độ lệch chuẩn của 2 biến liên tục thời gian khởi hành trễ (biến
dep_delay) cho từng hãng hàng không (biến carrier), lưu vào biến sd
min = tapply(newFlights $dep_delay, newFlights $carrier,min)
25


×