Tải bản đầy đủ (.pdf) (38 trang)

MÔN HỌC XÁC SUẤT THỐNG KÊ BÀI TẬP LỚN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.67 MB, 38 trang )

Trường Đại Học Bách Khoa
Đại Học Quốc Gia Thành Phố Hồ Chí Minh
---oOo---

MƠN HỌC XÁC SUẤT THỐNG KÊ
BÀI TẬP LỚN SỐ 3

Lớp L13 NHĨM 13 HK211
GVHD: NGUYỄN ĐÌNH HUY
HỌ VÀ TÊN SINH VIÊN : BÙI XUÂN PHONG
MSSV : 2014113
KHOA : MƠI TRƯỜNG VÀ TÀI NGUN

TP.Hồ Chí Minh, năm 2021
1


DANH SÁCH SINH VIÊN THỰC HIỆN
STT

1

Họ, tên sinh viên

Bùi Xuân Phong

MSSV

2014113

Lớp/Tổ



L13/C

Phân chia công việc

Ký tên

hoạt động 1

tham dự

1. Lọc dữ liệu
2. Làm sạch dữ liệu
3. Phụ làm word

2

Lê Thiên Phúc

2014165

L13/C

1. Làm rõ dữ liệu
2.t-test: Dùng một
kiểm định phù hợp
cho hai biến
pre.weight và
weight6week
3.Tổng hợp làm

word

3

Phan Võ Tiểu Phương 2014212

L13/C

ANOVA 1 nhân tố:
Chế độ ăn kiêng
(Diet) nào hiệu quả
nhất trong việc giảm
cân

4

Lê Ngân Phúc Tâm

2014428

L13/C

ANOVA 1 nhân tố:
Chế độ ăn kiêng
(Diet) nào hiệu quả
nhất trong việc giảm
cân

5


Nguyễn Thành Tâm

2014431

L13/C

ANOVA 2 nhân tố:
Chế độ ăn kiêng
(Diet) và giới tính
(gender) ảnh hưởng
thể nào đến việc
2


giảm cân (weight
loss)
6

Phan Ngọc Thanh

2014466

L13/C

ANOVA 2 nhân tố:
Chế độ ăn kiêng
(Diet) và giới tính
(gender) ảnh hưởng
thể nào đến việc
giảm cân (weight

loss)

MỤC LỤC

LỜI CẢM ƠN ..................................................................................................................... 1
I. HOẠT ĐỘNG 1 ............................................................................................................... 2
1.Đề bài: ............................................................................................................................... 2
2. Thực hiện ......................................................................................................................... 3
2.1 Đọc dữ liệu: ............................................................................................................... 3
2.1 Làm sạch dữ liệu (Data cleaning)............................................................................ 3
2.2 Làm rõ dữ liệu: (Data visualization) ....................................................................... 4
2.3 t.test: Dùng một kiểm định phù hợp cho hai biến pre.weight và weight6weeks 8
2.4 ANOVA một nhân tố: Chế độ ăn kiêng Diet nào hiệu quả nhất trong việc giảm
cân. ................................................................................................................................... 9
3


2.5 ANOVA hai nhân tố: Chế dộ ăn kiêng Diet và giới tính gender ảnh hưởng thế
nào đến việc giảm cân weight.loss? ............................................................................. 17
III. HOẠT ĐỘNG 2 .......................................................................................................... 20
1.Giới thiệu bộ dữ liệu. ..................................................................................................... 20
2. Đoc dữ liệu (Import data): ........................................................................................... 21
3. Làm sạch dữ liệu (Data cleaning): .............................................................................. 21
4. Làm rõ dữ liệu (Data visualization): ........................................................................... 22
5. Xây dưng các mơ hình hồi quy tuyến tính (Fitting linear regression models): ...... 29
KẾT LUẬN ....................................................................................................................... 32
Tài liệu tham khảo ............................................................................................................ 32

DANH MỤC HÌNH ẢNH
Hình 1: code R và kết quả khi đọc tệp tên và xem 3 dòng đầu tiên của tệp tin ................... 3

Hình 2: code R và kết quả khi kiểm tra dữ liệu khuyết trong tệp tin .................................. 3
Hình 3 : code R và kết quả khi xố các quan sát chứa dữ liệu khuyết ................................ 4
Hình 4 : code R và kết quả khi tạo thêm biến weight.loss ................................................... 4
Hình 5: code R và kết quả khi thực hiện thống kê mô tả cho các biến pre.weight,
weight6weeks, weight.loss theo từng nhóm chế độ ăn kiêng (Diet) .................................... 5
Hình 6 : code R và kết quả khi thống kê số lượng nam và nữ tham gia ............................. 5
Hình 7 : code R và kết quả khi thống kê người tham gia ở các chế độ ăn kiêng ................ 5
Hình 8 : code R và kết quả khi vẽ đồ thị Histogram cho biến weight.loss ......................... 6
Hình 9 : code R và kết quả khi vẽ đồ thị Boxplot thể hiện phân phối của biến weight.loss
theo giới tính (gender) .......................................................................................................... 7

4


Hình 10 : code R và kết quả khi vẽ đồ thị Boxplot thể hiện phân phối của biến weight.loss
theo các chế độ ăn kiêng (Diet) ............................................................................................ 7
Hình 11 : code R và kết quả khi thực hiện kiểm định theo cặp........................................... 8
Hình 12 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặng
giảm đi ở chế độ ăn kiêng 1 bằng đồ thị ............................................................................. 10
Hình 13 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặng
giảm đi ở chế độ ăn kiêng 1 bằng phương pháp kiểm định................................................ 11
Hình 14 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặng
giảm đi ở chế độ ăn kiêng 2 bằng đồ thị ............................................................................. 11
Hình 15 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặng
giảm đi ở chế độ ăn kiêng 2 bằng phương pháp kiểm định................................................ 12
Hình 16 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặng
giảm đi ở chế độ ăn kiêng 3 bằng đồ thị ............................................................................. 13
Hình 17 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặng
giảm đi ở chế độ ăn kiêng 3 bằng phương pháp kiểm định................................................ 13
Hình 18 : code R và kết quả khi thực hiện kiểm giả định tính đồng nhất của phương sai 14

Hình 19 : code R và kết quả khi thực hiện ANOVA một nhân tố..................................... 14
Hình 20 : code R và kết quả khi thực hiện so sánh bội sau ANOVA một nhân tố ........... 15
Hình 21 : code R và kết quả khi thực hiện ANOVA hai nhân tố ...................................... 18
Hình 22 : code R và kết quả khi vẽ đồ thị phân tích sự tương tác .................................... 20
Hình 23 : Biểu đồ FWI ...................................................................................................... 24
Hình 24 : Phân phối FWI của nhiệt độ .............................................................................. 25
Hình 25 : Phân phối FWI của độ ẩm tương đối................................................................ 26
Hình 26 : Phân phối FWI của tốc độ gió ............................................................................ 27
Hình 27 : Phân phối FWI của lượng mưa........................................................................... 28

5


LỜI CẢM ƠN

Xác suất thống kê là một môn học đại cương có tầm quan trọng đối với sinh viên nói
chung và sinh viên nhóm ngành Khoa học Kỹ thuật nói chung. Do đó, việc dành cho
mơn học này một khối lượng thời gian nhất định và thực hành là điều tất yếu để giúp
sinh viên có cơ sở vững chắc về kiến thức và kỹ năng cần thiết cho các môn học
chuyên ngành cũng như công việc sau này.
Sự phát triển và ra đời của tốn tin nói chung và phần mềm R Studio, ngơn ngữ R
nói riêng đã hỗ trợ rất nhiều trong quá trình học tập và nghiên cứu bộ mơn Xác suất
thống kê. Việc phân tích và xử lý số liệu đã được rút ngắn và có hiệu quả cao hơn.
Vì vậy mà việc tìm hiểu R Studio và ngôn ngữ R trong việc thực hành mơn học Xác
suất thống kê rất quan trọng và có tính cấp thiết.
Ở bài tập lớn này, nhóm thực hiện nội dung: “Phân tích phương sai Anova phân tích
dữ liệu mẫu”. Đây là một phương pháp phân tích dữ liệu mẫu khá phổ biến để so
sánh, đối sánh chỉ ra những sai khác, chênh lệch về giá trị các đại lượng của các
nhóm quần thể thống kê, từ đó rút ra được mức độ tác động của các nhân tố đến quần
thể.

Trong suốt q trình thực hiện bài tập, nhóm đã nhận được rất nhiều sự quan tâm,
ủng hộ và giúp đỡ tận tình của thầy cơ, anh chị em và bạn bè.

1


I. HOẠT ĐỘNG 1
1.Đề bài:
Tập tin Diet.csv (cung cấp bởi Đại học Sheffield, Anh) chứa thông tin về một thử nghiệm
về hiệu quả của các chế độ ăn kiêng trong việc giảm cân nặng đối với những người trưởng
thành. Một người tham gia sẽ được áp dụng một trong ba chế độ ăn kiêng khác nhau trong
vòng 6 tuần lễ. Cân nặng của người tham gia sẽ được ghi nhận trước và sau khi kết thúc
thử nghiệm để đánh giá hiệu quả của từng chế độ ăn kiêng.
Các biến chính trong bộ dữ liệu:
 Person: số thứ tự của người tham gia thử nghiệm
 gender: giới tính của người tham gia (1 = nam, 0 = nữ)


Age: tuổi (năm)

 Height: chiều cao (cm)
 pre.weight: cân nặng trước khi áp dụng chế độ ăn kiêng (kg)
 Diet: chế độ ăn kiêng (3 chế độ khác nhau)
 weight6weeks: cân nặng sau 6 tuần ăn kiêng
Các bước thực hiện:
1. Đọc dữ liệu (Import data): "Diet.csv"
2. Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)
3. Làm rõ dữ liệu: (Data visualization)
(a) Chuyển đổi biến (nếu cần thiết).
(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị.

4. t.test: Dùng một kiểm định phù hợp cho hai biến pre.weight và weight6weeks
5. ANOVA một nhân tố: Chế độ ăn kiêng Diet nào hiệu quả nhất trong việc giảm cân.
6. ANOVA một nhân tố: ANOVA hai nhân tố: Chế dộ ăn kiêng Diet và giới tính gender
ảnh hưởng thế nào đến việc giảm cân weightloss?
2


2. Thực hiện
2.1 Đọc dữ liệu:
Đọc tập tin “Diet.csv”

Hình 1: code R và kết quả khi đọc tệp tên và xem 3 dòng đầu tiên của tệp tin
2.2 Làm sạch dữ liệu (Data cleaning)
Kiểm tra dữ liệu khuyết trong tập tin.

Hình 2: code R và kết quả khi kiểm tra dữ liệu khuyết trong tệp tin

Nhận xét: Biến gender có chứa hai dữ liệu khuyết ở dòng 1 và dòng 2 của người tham gia
thứ 25 và 26. Vì chỉ có 2 người trong 78 người khơng xác định được giới tính (chiếm tỉ lệ
2.56% rất nhỏ) nên ta sẽ loại bỏ 2 quan sát chứa dữ liệu khuyết này.
3


Hình 3 : code R và kết quả khi xố các quan sát chứa dữ liệu khuyết
2.3 Làm rõ dữ liệu: (Data visualization)
Tạo biến weight.loss = pre.weight - weight6weeks thể hiện lượng cân nặng đã giảm đi khi
tham gia thực hiện các chế độ ăn kiêng.

Hình 4 : code R và kết quả khi tạo thêm biến weight.loss
Thực hiện tính các giá trị thống kê mô tả cho các biến pre.weight, weight6weeks,

weight.loss theo từng nhóm chế độ ăn kiêng (Diet).

4


Hình 5: code R và kết quả khi thực hiện thống kê mô tả cho các biến pre.weight,
weight6weeks, weight.loss theo từng nhóm chế độ ăn kiêng (Diet)
Thống kê số lượng nam và nữ tham gia.

Hình 6 : code R và kết quả khi thống kê số lượng nam và nữ tham gia
Thống kê số lượng người tham gia ở các chế độ ăn kiêng.

Hình 7 : code R và kết quả khi thống kê người tham gia ở các chế độ ăn kiêng

5


Vẽ đồ thị Histogram cho biến weight.loss.

Hình 8 : code R và kết quả khi vẽ đồ thị Histogram cho biến weight.loss

Vẽ đồ thị Boxplot thể hiện phân phối của biến weight.loss theo giới tính (gender).

6


Hình 9 : code R và kết quả khi vẽ đồ thị Boxplot thể hiện phân phối của biến weight.loss
theo giới tính (gender)
Vẽ đồ thị Boxplot thể hiện phân phối của biến weight.loss theo các chế độ ăn kiêng (Diet).


Hình 10 : code R và kết quả khi vẽ đồ thị Boxplot thể hiện phân phối của biến
weight.loss theo các chế độ ăn kiêng (Diet)
7


2.4 t.test: Dùng một kiểm định phù hợp cho hai biến pre.weight và weight6weeks
Thực hiện kiểm định theo cặp để đánh giá xem liệu chế độ ăn kiêng (nói chung) có làm
giảm cân nặng hay khơng?
Đặt giả thuyết:
+ Giả thuyết H0: µ1 = µ2
⇔ Cân nặng trung bình trước ăn kiêng và sau 6 tuần thực hiện chế độ ăn kiêng bằng nhau.
+ Đối thuyết H1: µ1 6= µ2
⇔ Cân nặng trung bình trước ăn kiêng lớn hơn sau 6 tuần thực hiện chế độ ăn kiêng.
Thực hiện kiểm định:

Hình 11 : code R và kết quả khi thực hiện kiểm định theo cặp
Nhận xét: Từ kết quả phân tích, ta thu được:
+ p-value < 2.2e-16 (bé hơn nhiều so mức ý nghĩa α = 5%) nên ta bác bỏ giả thuyết H0,
chấp nhận H1. Vậy với mức ý nghĩa 5%, ta có thể kết luận cân nặng trung bình trước khi
ăn kiêng cao hơn sau 6 tuần thực hiện ăn kiêng, tức việc ăn kiêng đã làm giảm cân nặng
trung bình.
+ mean of the differences = 3.946053, cho thấy cân nặng trung bình giảm đi sau 6 tuần thực
hiện ăn kiêng dựa trên mẫu thu được là 3.946053 kg.
+ Khoảng tin cậy tối thiểu cho lượng cân nặng trung bình giảm đi sau 6 tuần thực hiện ăn
kiêng là [3.46725]; + ∞), xét với độ tin cậy 95%.
8


2.5 ANOVA một nhân tố: Chế độ ăn kiêng Diet nào hiệu quả nhất trong việc giảm
cân.

Để lựa chọn một chế độ ăn kiêng hiệu quả nhất trong việc giảm cân, ta thực hiện phân tích
phương sai một nhân tố. Trong đó:
+ Biến nhân tố (định tính): biến Diet.
+ Biến độc lập (định lượng): biến weight.loss.
Đặt giả thuyết:
+ Giả thuyết H0: µ1 = µ2 = µ3 ⇔ Cân nặng trung bình giảm đi ở các chế độ ăn kiêng bằng
nhau.
+ Đối thuyết H1: 𝑢𝑖  𝑢𝑗 với (i  j) ⇔ Có ít nhất 2 chế độ ăn kiêng có cân nặng trung bình
giảm đi khác nhau.
Nguồn của sự biến thiên

SS

df

MS

Giữa các nhóm

SSB

k-1

MSB

Trong từng nhóm

SSW

N-k


MSW

Tổng

SST

N-1

F
𝐹=

𝑀𝑆𝐵
𝑀𝑆𝑊

Trong đó:
+ Thống kê F là tỷ số giữa phương sai ước lượng giữa các nhóm với phương sai ước
lượng trong từng nhóm.
+ Bậc tự do:
- df1 = k - 1 (k: số nhóm)
- df2 = N - k (N: tổng số phần tử khảo sát ở tất cả các nhóm)
Các giả định cần kiểm tra trong ANOVA một nhân tố:
+ Giả định phân phối chuẩn: Cân nặng giảm đi ở các chế độ ăn kiêng tuân theo phân phối
chuẩn.

9


+ Tính đồng nhất của các phương sai: Phương sai cân nặng giảm đi ở các chế độ ăn kiêng
bằng nhau.

Kiểm tra giả định phân phối chuẩn:
Đối với chế độ ăn kiêng 1:

Hình 12 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặng
giảm đi ở chế độ ăn kiêng 1 bằng đồ thị
Nhận xét: Biểu đồ QQ-plot cho ta thấy những giá trị quan sát đa phần nằm trên đường
thẳng kì vọng của phân phối chuẩn do đó biến weight.loss ở chế độ ăn kiêng 1 tuân theo
phân phối chuẩn.

10


Hình 13 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặng
giảm đi ở chế độ ăn kiêng 1 bằng phương pháp kiểm định
Giả thuyết H0: Cân nặng giảm đi ở chế độ ăn kiêng 1 tuân theo phân phối chuẩn.
Đối thuyết H1: Cân nặng giảm đi ở chế độ ăn kiêng 1 khơng tn theo phân phối chuẩn.
Vì Pr(> F) = 0.07749 > mức ý nghĩa α = 0.05 nên ta chưa đủ cơ sở để bác bỏ giả thuyết H0.
Vậy biến weight.loss ở chế độ ăn kiêng 1 tuân theo phân phối chuẩn.
Đối với chế độ ăn kiêng 2:

Hình 14 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặng
giảm đi ở chế độ ăn kiêng 2 bằng đồ thị

11


Nhận xét: Biểu đồ QQ-plot cho ta thấy những giá trị quan sát đa phần nằm trên đường
thẳng kì vọng của phân phối chuẩn do đó biến weight.loss ở chế độ ăn kiêng 2 tuân theo
phân phối chuẩn.


Hình 15 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặng
giảm đi ở chế độ ăn kiêng 2 bằng phương pháp kiểm định
Giả thuyết H0: Cân nặng giảm đi ở chế độ ăn kiêng 2 tuân theo phân phối chuẩn.
Đối thuyết H1: Cân nặng giảm đi ở chế độ ăn kiêng 2 không tuân theo phân phối chuẩn.
Vì Pr(> F) = 0.8722 > mức ý nghĩa α = 0.05 nên ta chưa đủ cơ sở để bác bỏ giả thuyết H0.
Vậy biến weight.loss ở chế độ ăn kiêng 2 tuân theo phân phối chuẩn.
Đối với chế độ ăn kiêng 3:

12


Hình 16 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặng
giảm đi ở chế độ ăn kiêng 3 bằng đồ thị
Nhận xét: Biểu đồ QQ-plot cho ta thấy những giá trị quan sát đa phần nằm trên đường
thẳng kì vọng của phân phối chuẩn do đó biến weight.loss ở chế độ ăn kiêng 3 tuân theo
phân phối chuẩn.

Hình 17 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặng
giảm đi ở chế độ ăn kiêng 3 bằng phương pháp kiểm định
Giả thuyết H0: Cân nặng giảm đi ở chế độ ăn kiêng 3 tuân theo phân phối chuẩn.
Đối thuyết H1: Cân nặng giảm đi ở chế độ ăn kiêng 3 không tuân theo phân phối chuẩn.
Vì Pr(> F) = 0.372 > mức ý nghĩa α = 0.05 nên ta chưa đủ cơ sở để bác bỏ giả thuyết H0.
Vậy biến weight.loss ở chế độ ăn kiêng 3 tuân theo phân phối chuẩn.
13


Kiểm tra giả định tính đồng nhất của phương sai:

Hình 18 : code R và kết quả khi thực hiện kiểm giả định tính đồng nhất của phương sai


Giả thuyết H0: Phương sai cân nặng giảm đi ở các chế độ ăn kiêng bằng nhau.
Đối thuyết H1: Có ít nhất 2 chế độ ăn kiêng có phương sai cân nặng giảm đi khác nhau.
Vì Pr(>F) = 0.6313 > mức ý nghĩa α = 0.05 nên ta chưa đủ cơ sở để bác bỏ giả thuyết H0.
Vậy phương sai cân nặng giảm đi ở các chế độ ăn kiêng là như nhau.
Thực hiện phân tích phương sai một nhân tố:

Hình 19 : code R và kết quả khi thực hiện ANOVA một nhân tố
Nhận xét: Dựa trên kết quả ANOVA cho thấy:
+ SSB = 60.5, bậc tự do k − 1 = 2(k = 3)
+ SSW = 410.4, bậc tự do N − k = 76 − 3 = 73 (N là tổng số phần tử khảo sát ở tất cả các
nhóm)
+ MSB = SSB/(k − 1) = 30.264
+ MSW = SSW/(N − k) = 5.622
14


+ Giá trị thống kê kiểm định: f = MSB/MSW = 5.383
+ Mức ý nghĩa quan sát: p − value = 0.0066.
Dựa vào p − value = 0, 429 lớn hơn mức ý nghĩa α = 5% nên ta bác bỏ được giả thuyết H0.
Ngồi ta, ta có thể dựa vào f = 5.383 < ngưỡng fα;k−1;N−k = f0.05;2;73 = 3.1221 nên ta cũng đưa
ra kết luận là bác bỏ được giả thuyết H0.
Vậy có ít nhất 2 chế độ ăn kiêng có cân nặng trung bình giảm đi khác nhau, tức mức độ
hiệu quả đối với việc giảm cân giữa các chế độ ăn kiêng là khác nhau.
Ta thực hiện so sánh bội sau ANOVA một nhân tố để chọn ra chế độ ăn kiêng hiệu quả
nhất trong việc giảm cân.

Hình 20 : code R và kết quả khi thực hiện so sánh bội sau ANOVA một nhân tố

Nhận xét:
15



+ Sự khác nhau giữa cân nặng giảm đi trung bình của nhóm chế độ ăn kiêng 2 và 1:
Giả thuyết H0: Trung bình cân nặng giảm đi ở nhóm chế độ ăn kiêng 2 và 1 bằng nhau.
Đối thuyết H1: Trung bình cân nặng giảm đi ở nhóm chế độ ăn kiêng 2 và 1 khác nhau.
Ta nhận thấy p−adj = 0.9987711 > mức ý nghĩa α = 0.05, nên ta chưa đủ cơ sở để bác bỏ
giả thuyết H0. Vậy cân nặng giảm đi trung bình ở chế độ ăn kiêng 2 và chế độ ăn kiêng 1
bằng nhau.
+ Sự khác nhau giữa cân nặng giảm đi trung bình của nhóm chế độ ăn kiêng 3 và 1:
Giả thuyết H0: Trung bình cân nặng giảm đi ở nhóm chế độ ăn kiêng 3 và 1 bằng nhau.
Đối thuyết H1: Trung bình cân nặng giảm đi ở nhóm chế độ ăn kiêng 3 và 1 khác nhau.
Ta nhận thấy p − adj = 0.0188047 < mức ý nghĩa α = 0.05, nên ta bác bỏ được giả thiết H0.
Vậy cân nặng giảm đi trung bình ở chế độ ăn kiêng 3 và chế độ ăn kiêng 1 khác nhau.
Mặt khác, ta dựa vào giá trị diff = 1.848148 > 0 nên ta có thể kết luận cân nặng giảm đi
trung bình ở nhóm chế độ ăn kiêng 3 cao hơn so với nhóm chế độ ăn kiêng 1.
+ Sự khác nhau giữa cân nặng giảm đi trung bình của nhóm chế độ ăn kiêng 3 và 2:
Giả thuyết H0: Trung bình cân nặng giảm đi ở nhóm chế độ ăn kiêng 3 và 2 bằng nhau.
Đối thuyết H1: Trung bình cân nặng giảm đi ở nhóm chế độ ăn kiêng 3 và 2 khác nhau.
Ta nhận thấy p − adj = 0.0152020 < mức ý nghĩa α = 0.05, nên ta bác bỏ được giả thiết H0.
Vậy cân nặng giảm đi trung bình ở chế độ ăn kiêng 3 và chế độ ăn kiêng 2 khác nhau.
Mặt khác, ta dựa vào giá trị diff = 1.880148 > 0 nên ta có thể kết luận cân nặng giảm đi
trung bình ở nhóm chế độ ăn kiêng 3 cao hơn so với nhóm chế độ ăn kiêng 2.
Vậy chế độ ăn kiêng 3 là chế độ ăn kiêng có hiệu quả nhất trong việc giảm cân.

16


2.6 ANOVA hai nhân tố: Chế dộ ăn kiêng Diet và giới tính gender ảnh hưởng thế nào
đến việc giảm cân weight.loss?
Đặt giả thuyết:

Đối với các nhóm (nhân tố A - cụ thể là nhân tố giới tính):
+ Giả thuyết H0a: Cân nặng trung bình giảm đi giữa nam và nữ bằng nhau.
+ Đối thuyết H1a: Cân nặng trung bình giảm đi giữa nam và nữ khác nhau.
Đối với các khối (nhân tố B - cụ thể là nhân tố chế độ ăn kiêng):
+ Giả thuyết H0b: Cân nặng trung bình giảm đi giữa các chế độ ăn kiêng bằng nhau.
+ Đối thuyết H1b: Có ít nhất 2 chế độ ăn kiêng có cân nặng trung bình giảm đi khác nhau.
Đối với tương tác giữa A và B (cụ thể là tương tác giữa giới tính và chế độ ăn kiêng ):
+ Giả thuyết H0ab: Khơng có sự tương tác giữa giới tính và chế độ ăn kiêng.
+ Đối thuyết H1ab: Có sự tương tác giữa giới tính và chế độ ăn kiêng.
Bảng ANOVA hai nhân tố (n > 1):
Nguồn của sự biến thiên

SS

df

MS

F

Giữa các nhóm

SSG

a-1

MSG

Giữa các khối


SSB

b-1

MSB

Trong từng nhóm

SSI

(a - 1)(b - 1)

MSI

𝑀𝑆𝐺
𝑀𝑆𝐸
𝑀𝑆𝐵
𝐹𝑏 =
𝑀𝑆𝐸
𝑀𝑆𝐼
𝐹𝑎𝑏 =
𝑀𝑆𝐸

Sai số

SSE

ab(n - 1)

MSE


Tổng

SST

abn - 1

𝐹𝑎 =

Trong đó:
𝐹𝑎 =

𝑀𝑆𝐺
𝑀𝑆𝐸
17


𝐹𝑏 =

𝑀𝑆𝐵
𝑀𝑆𝐸

𝐹𝑎𝑏 =

𝑀𝑆𝐼
𝑀𝑆𝐸

Thực hiện phân tích phương sai hai nhân tố:

Hình 21 : code R và kết quả khi thực hiện ANOVA hai nhân tố

Nhận xét: Dựa trên kết quả ANOVA cho thấy:
+ SSG = 0.3, bậc tự do a − 1 = 1(a = 2)
+ SSB = 60.4, bậc tự do b − 1 = 2(b = 3)
+ SSI = 33.9, bậc tự do (a − 1)(b − 1) = 1*2 = 2
+ SSE = 376.3, bậc tự do ab(n − 1) = abn − ab = 76 − 6 = 70
+ MSG = SSG/(a − 1) = 0.278
+ MSB = SSB/(b − 1) = 30.209
+ MSI = SSI/((a − 1)(b − 1)) = 16.952
+ MSE = SSE/(ab(n − 1)) = 5.376
+ Giá trị thống kê kiểm định:
+ fa = MSG/MSE = 0.052
+ fb = MSB/MSE = 5.619
+ fab = MSI/MSE = 3.153
18


+ Mức ý nghĩa quan sát:
+ p − valuea = 0.82062.
+ p − valueb = 0.00546.
+ p − valueab = 0.04884.
Đối với các nhóm (nhân tố A - cụ thể là nhân tố giới tính):
Dựa vào p − valuea = 0.82062 lớn hơn mức ý nghĩa α = 5% nên ta chưa đủ cơ sở để bác bỏ
được giả thuyết H0a.
Ngồi ra, ta có thể dựa vào fa = MSG/MSE = 0.052 < ngưỡng fα;a−1;ab(n−1) = f0.05;1;70 = 3.9778
nên ta cũng đưa ra kết luận là chưa đủ cơ sở để bác bỏ được giả thuyết H0a.
Vậy giới tính khơng ảnh hưởng đến việc giảm cân.
Đối với các khối (nhân tố B - cụ thể là nhân tố chế độ ăn kiêng):
Dựa vào p − valueb = 0.00546 bé hơn mức ý nghĩa α = 5% nên ta bác bỏ được giả thuyết
H0b.
Ngồi ta, ta có thể dựa vào fb = MSB/MSE = 5.619 > ngưỡng fα; b−1; ab(n−1) = f0.05;2;70 = 3.1277

nên ta cũng đưa ra kết luận là bác bỏ được giả thuyết H0b.
Vậy chế độ ăn kiêng có ảnh hưởng đến việc giảm cân.
Đối với tương tác giữa A và B (cụ thể là tương tác giữa giới tính và chế độ ăn kiêng):
Dựa vào p − valueab = 0.04884 bé hơn mức ý nghĩa α = 5% nên ta bác bỏ được giả thuyết
H0ab. Ngoài ta, ta có thể dựa vào fab = MSI/MSE = 3.153 < ngưỡng fα;(a−1).(b−1);ab(n−1) = f0.05;2;70
= 3.1277 nên ta cũng đưa ra kết luận là bác bỏ được giả thiết H0ab.
Vậy có sự tương tác giữa giới tính và chế độ ăn kiêng.
Ngồi ra, ta có thể vẽ đồ thị để đánh giá sự tương tác.

19


Hình 22 : code R và kết quả khi vẽ đồ thị phân tích sự tương tác
Nhận xét: Ta nhận thấy 2 đường thẳng trên đồ thị cắt nhau, tức có sự tương tác giữa giới
tính và phương pháp ăn kiêng.

III. HOẠT ĐỘNG 2
1. Giới thiệu bộ dữ liệu.
Nội dung dữ liệu: Thống kê tập hợp dữ liệu về việc cháy rừng ở Algeria, cụ thể là vùng
Bejaia nằm ở phía đơng bắc của Algeria
Lý do chọn bộ dữ liệu: Đây là đề tài được quan tâm đối với khoa môi trường, đặc biệt là về
nạn cháy rừng, việc này ảnh hưởng rất lớn đến tài nguyên rừng, gây mất mát nguồn nguyên
liệu tự nhiên, thiệt hại về động vật, bên cạnh đó ta cịn thấy lượng chất thải do cháy rừng
xảy ra sẽ gây ô nhiễm phần nào về môi trường, ảnh hưởng đến sinh sống người dân khu
vực quanh đó.
Mơ tả: Khoảng thời gian thống kê từ tháng 6 năm 2012 đến tháng 9 năm 2012.
Các biến chính trong bộ dữ liệu:
20



×