Tải bản đầy đủ (.pdf) (29 trang)

baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.66 MB, 29 trang )


MỤC LỤC
Bài 1………………………………………………………………………………..3
Câu 1………………………………………………………………………...3
Câu 2………………………………………………………………………...6
Bài 2……………………………………………………………………………….14
Bài 3……………………………………………………………………………….17
Bài 4……………………………………………………………………………….20
Bài 5……………………………………………………………………………….24
Tài liệu tham khảo…….………………………………………………..…………29

Trang 2


BÀI 1:
Câu 1: (VD10/172 GT XSTK)
Đề bài
Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo 3 yếu tố
: PH (A), nhiệt độ (B), xúc tác (C) được trình bày trong bảng sau :
Yếu tố Yếu tố B
B1
B2
B3
B4
A
A1
C1
9
C2
14
C3


16
C4
A2
C2
12
C3
15
C4
12
C1
A3
C3
13
C4
14
C1
11
C2
A4
C4
10
C1
11
C2
13
C3
Hãy đánh giá về ảnh hưởng của các yếu tố trên hiệu suất phản ứng?

12
10

14
13

Bài giải
Dạng toán: Phân tích phương sai 3 yếu tố
Cơ sở lý thuyết
Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên
các giá trị quan sát Yijk(i=1,2,…,r: yếu tố A; j=1,2,…,r: yếu tố B;
k=1,2,…,r: yếu tố C).
Mơ hình
Mơ hình vng la tinh ba yếu tố được trình bày như sau:
Yếu tố C (T..k, thí dụ T..1=Y111+Y421+Y334+Y241)
Yếu tố A

Yếu
B
B1

B2

tố
B3

B4

A1
A2
A3
A4


Trang 3


Bảng ANOVA
Nguồn Bậc tự do Tổng số bình phương
sai số
Yếu tố
A

SSR = ∑𝑟𝑖=1

Yếu tố
B

SSC = ∑𝑐𝑗=1

Yếu tố
C

SSF = ∑𝑟𝑘=1

Sai số

(r-1)(r-2)

Tổng
cộng

2
𝑇𝑖…


𝑟



𝑇…2



𝑇…2

2
𝑇𝑗…

𝑟

2
𝑇𝑘…

𝑟

𝑟2

𝑟2

𝑇2

− 𝑟…2

SSE=SST(SSF+SSR+SSC)


Bình phương trung Giá trị thống
bình

MSR =

𝑆𝑆𝑅

(𝑟−1)
𝑆𝑆𝐶

MSC = (𝑟−1)
𝑆𝑆𝐹

MSF = (𝑟−1)

FR =

𝑀𝑆𝑅

𝑀𝑆𝐸

𝑀𝑆𝐶

FC = 𝑀𝑆𝐸
𝑀𝑆𝐹

F = 𝑀𝑆𝐸

𝑆𝑆𝐸


MSE =(𝑟−1)(𝑟−2)

2

SST=∑𝑖 ∑𝑗 ∑𝑘 𝑌𝑖𝑗𝑘
𝑇…2
𝑟2

Trắc nghiệm
Giả thiết:
“Các giá trị trung bình bằng nhau”
𝐻1 : 𝜇1 ≠ 𝜇2 ≠ ⋯ ≠ 𝜇𝑘  “Có ít nhất hai giá trị trung bình khác nhau”
Giá trị thống kê: FR và FC
Biện luận:
Nếu FR < Fa → Chấp nhận H0 (Yếu tố A).
Nếu FC < Fa → Chấp nhận H0 (Yếu tố B).
Nếu F < Fa → Chấp nhận H0 (Yếu tố C).

Bài Giải
Giả thiết H0 (yếu tố pH): pH không ảnh hưởng đến hiệu suất phản ứng.
Giả thiết H0 (yếu tố nhiệt độ): Nhiệt độ không ảnh hưởng đến hiệu suất phản ứng.
Giả thiết H0 (yếu tố chất xúc tác): Chất xúc tác không ảnh hưởng đến hiệu suất
phản ứng.

Trang 4


Ta sẽ sử dụng ngơn ngữ lập trình Rstudio để giải bài toán này.
Bước 1: Lập bảng số liệu

Khai báo số liệu và thiết lập các giá trị thành dạng bảng dễ xử lí hơn

Kết quả xuất ra:

Bước 2: Lập bảng ANOVA
Dùng hàm lm để phân tích số liệu
Sau đó chúng ta lập bảng ANOVA bằng lệnh summary.aov và được kết quả

Trang 5


Bước 3: Kết quả và biện luận
Với mức ý nghĩa mặc định α = 0,05 :
𝐹𝑅 = 3,10 < 𝐹0,05 = 4,76 ⇒

nhận

Chấp

𝐹𝐶 = 11,95 > 𝐹0,05 = 4,76 ⇒ Bác bỏ
𝐹 = 30,05 > 𝐹0,05 = 4,76 ⇒ Bác bỏ

(pH)

(nhiệt độ)
(chất xúc tác)

KẾT LUẬN: Vậy chỉ có nhiệt độ và chất xúc tác gây ảnh hưởng đến hiệu suất.
Câu 2: (VD12/181 GT XSTK)
Người ta đã dùng ba mức nhiệt độ gồm 105, 120, 135oC kết hợp với ba khoảng

thời gian là 15, 30 và 60 phút để thức hiện một phản ứng tổng hợp. Các hiệu suất
ủa phản ứng (%) được trình bày trong bảng sau đây:

Thời gian (phút)

Nhiệt độ (oC)

Hiệu suất (%)

X1

X2

Y

15

105

1.87

30

105

2.02

60

105


3.28

15

120

3.05

30

120

4.07

60

120

5.54

15

135

5.03

30

135


6.45

60

135

7.26

Trang 6


Hãy cho biết yếu tố nhiệt độ và/ hoặc yếu tố thời gian có liên quan tuyến tính với
hiệu suất của phản ứng tổng hợp? Nếu có thì điều kiện nhiệt dộ 115oC trong vịng
50p thì hiệu suất phản ứng sẽ là bao nhiêu?
Bài giải
Cơ sở lí thuyêt:
i.

Dạng bài: Phân tích tương quan và hồi quy tuyến tính.

ii.

Khái niệm thống kê và trắc nghiệm

Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y có liên
quan đến k biến số độc lập Xi (i=1,2,...,k) thay vì chỉ có một như trong hồi quy
tuyến tính đơn giản.
Phương trình tổng quát: Ŷx0, x1,...,xk = B0 + B1X1 + ... + BkXk
Bảng ANOVA

Nguồn
sai số

Bậc tự do

Tổng số bình
phương

Bình phương trung
bình

Giá trị thống


Hồi quy

k

SSR

MSR=SSR/k

F=MSR/MSE

Sai số

N-k-1

SSE


MSE =SSE/(N-k-1)

Tổng
cộng

N-1

SST = SSR + SSE

Trang 7


Giá trị thống kê
- Giá trị R-bình phương:
- Độ lệch chuẩn:
Trắc nghiệm thống kê:
- Trắc nghiệm t:
H0: βi = 0 ↔ Các hệ số hồi quy khơng có ý nghĩa.
H1: βi ≠ 0 ↔ Tồn tại vài hệ số hồi quy có ý nghĩa.
t < (N-k-1) → Chấp nhận H0
- Trắc nghiệm F
H0: βi = 0 ↔ Phương trình hồi quy khơng thích hợp.
H1: βi ≠ 0 ↔ Phương trình hồi quy thích hợp với ít nhất vài hệ số Bi.
F < Fα (1, N-k-1) → Chấp nhận H0
Giả thiết :
H01 yếu tố thời gian khơng liên quan tuyến tính với hiệu suất phản ứng tổng hợp
H02 yếu tố nhiệt độ khơng liên quan tuyến tính với hiệu suất phản ứng tổng hợp
H03 hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố là
thời gian và nhiệt độ
Ta sẽ sử dụng ngôn ngữ lập trình Rstudio để giải bài tốn này.

i.
ii.

Đánh giá: với lý thuyết ở trên việc xử lý số liệu khá cồng kềnh cho nên
ta sử dụng phần mềm R để hỗ trợ tính tốn.
Phương pháp giải bài tốn trên phần mềm R:

- Các bước tiến hành:
Bước 1: nhập bảng dữ liệu
- Nhập đoạn code sau để xây dựng bảng số liệu ứng với các yếu tố thời gian (X1),
nhiệt độ (X2) và hiệu suất (Y):
Trang 8


Bước 2: Tổng hợp các số liệu đã nhập thành 1 data.frame và gọi data.

Bước 3: Xét mối liên hệ giữa từng yếu tố thời gian, nhiệt độ tới hiệu suất.
- Dùng hàm lm để xét mối liên hệ:

- Dùng hàm summary để hiện các kết quả phân tích:
> summary(bang1)
> summary(bang2)
> summary(bang3)

Trang 9


Bước 4: Kết quả và biện luận:
1.


Xét liên hệ giữa thời gian và hiệu suất phản ứng.

- Phương trình hồi quy: Ŷ|x1=f(X1)
Ŷ|x1 = 2,73 + 0,04X1
t0 = 2,129 < t0,025 =2,365 (hay Pv2 = 0,071 > α = 0,05)
→ Chấp nhận giả thiết H01 .
t1 = 1,380 < t0,025 =2,365 (hay Pv = 0,210 > α = 0,05)
→ Chấp nhận giả thiết H01 .
F = 1,905 < F0,05 = 5,590 (hay Fs4 = 0,210 > α = 0,05)
→ Chấp nhận giả thiết H01 .
- Vậy cả hai hệ số 2,37(B0) và 0,04(B1) của phương trình hồi quy Ŷ|x1 = 2,73 +
0,04X1 đều khơng có ý nghĩa. Nói một cách khác, phương trình hồi quy này khơng
thích hợp.
- Kết luận: Yếu tố thời gian khơng có liên quan tuyến tính với hiệu suất của
phản ứng tổng hợp.

Trang 10


2.

Xét liên hệ giữa nhiệt độ và hiệu suất phản ứng:

- Phương trình hồi quy: Ŷ|x2 = f(X2)
Ŷ|x2 = -11,14 + 0,13X2
t0 = 3,418 > t0,025=2,365 (hay Pv = 0,011 > α = 0,05)
Bác bỏ giả thiết H02.
t1 = 4,757 > t0,025=2.365 (hay Pv = 0,00206 < α = 0,05)
Bác bỏ giả thiết H02.
F = 22,631 > F0,05 5,591 (hay Fs = 0,00206 < α = 0,05)

Bác bỏ giả thiết H02.
- Vậy cả hai hệ số -11,14(B0) và 0,13(B2) của phương trình hồi quy Ŷ|x2 = 11,14 + 0,13X2 đều có ý nghĩa thống kê. Nói một cách khác, phương trình hồi quy
này thích hợp.
- Kết luận: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất phản ứng của
phản ứng tổng hợp.

Trang 11


3.

Xét liên hệ giữa thời gian và nhiệt độ với hiệu suất phản ứng:

- Phương trình hồi quy: Ŷ|x1,x2 = f(X1,X2)
Ŷ|x1,x2 = -12,70 + 0,04X1 + 0,13X2

(R2 = 0,97; S = 0,33)

t0 = 11,528 > t0,025 = 2,365 (hay Pv = 2,260.10-5 < α = 0,05)
→ Bác bỏ giả thiết H03
t2 = 7,583 > t0,025 = 2,365 (hay Pv = 0,00027 < α = 0,05)
→ Bác bỏ giả thiết H03
t3 = 14,328 > t0,025 = 2,365 (hay Pv = 7,233.10-6 < α = 0,05)
→ Bác bỏ giả thiết H03
F = 131,392 > F0.05 = 5,140 (hay Fs = 1,112.10-5 < α = 0,05)
→ Bác bỏ giả thiết H03
- Vậy cả ba hệ số -12,70(B0), 0,04(B1) và 0,13(B2) của phương trình hồi quy
Ŷ|x1,x2 = -12,70 + 0,04X1 + 0,13X2 đều có ý nghĩa thống kê. Nói một cách khác,
phương trình hồi quy này thích hợp.


Trang 12


- Kết luận: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu
tố là thời gian và nhiệt độ.
Vậy ở điều kiện nhiệt độ 115°C, trong vịng 50 phút thì hiệu suất phản ứng sẽ là:
Ŷ|50,115 = -12.700 + 0.045*50 + 0.129*115 = 4.385 (%)
Sự tuyến tính của phương trìnhŶ|x1,x2 = -12,70 + 0,04X1 + 0,13X2 có thể được
trình bày trên biểu đồ phân tán (scatter plots):
→ Code đầy đủ:
X1 ← c(15,30,60,15,30,60,15,30,60)
X2 ← c(105,105,105,120,120,120,135,135,135)
Y ← c(1.87,2.02,3.28,3.05,4.07,5.54,5.03,6.45,7.26)
data ← data.frame(X1,X2,Y)
data
bang1 ← lm(Y~X1)
bang2 ← lm(Y~X2)
bang3 ← lm(Y~X1+X2)
summary(bang1)
summary(bang2)
summary(bang3)

Trang 13


BÀI 2:
Bảng số liệu nghiên cứu việc sử dụng phương tiện đi lại của 2 nhóm cơng nhân
nam và cơng nhân nữ ở thành phố công nghiệp X:
Xe đạp
Xe máy

Xe buýt
Nữ
25
100
125
Nam
75
120
205
Với mức ý nghĩa α=5%, hãy nhận định có sự khác nhau khi sử dụng phương tiện ở
2 nhóm hay khơng?
1. Dạng tốn: KIỂM ĐỊNH TÍNH ĐỘC LẬP
2. Cơ sở lý thuyết:
Giả sử mỗi phần tử trong tổng thể có thể được phân loại theo hai đặc tính
khác nhau, gọi là đặc tính X và Y. Có r phần tử trong tổn g thể mang đặc tính X và
s phần tử trong tổng thể có dặc tính Y. Gọi
Pij=P(X=xi , Y=yj) với i = 1, 2, ... , r và j = 1, 2, ... , s
Pij là xác suất chọn được phần tử trong tổng thể mang đặc tính X bằng xi và đặc
tính Y bằng yj.
Gọi
pi = P(X=xi) = ∑𝑠𝑗=1 𝑃𝑖𝑗 i=1,2,…,r
qj = P(Y=yi) = ∑ 𝑟𝑖=1 𝑃𝑖𝑗

j=1,2,…,s

Trong đó pi là xác suất chọn được phần tử trong tổng thể mang đặc tính X
bằng xi , qj là xác suất chọn được phần tử trong tổng thể mang đặc tính Y bằng yj
Ta cần kiểm định xem X có độc lập với Y hay khơng?
Phát biểu giả thuyết
H0 : Pij = piqj i=1,…,r; j=1,…,s

H1 : Tồn tại (i,j) sao cho Pij ≠ piqj

Trang 14


Khảo sát thực tế N phần tử, ta được bảng kết quả sau

...
Tổng cột

...

...

...
...
...
...
...
...

Tổng hàng

...

...

trong đó các nij gọi là tần số thực nghiệm.
Ước lượng của pi và qj lần lượt bằng


Gọi Nij là số phần tử có đặc tính (xi;yj) trong
Khi đó, E(Nij)=NPij=Npiqj khi H0 đúng.
Đặt

phần tử khảo sát, thì Nij~B(N,Pij) .

gọi là tần số lý thuyết.

Với Nij và Eij=NPij , biến ngẫu nhiên ∑𝑟𝑖=1 ∑𝑠𝑗=1
về biến ngẫu nhiên Chi bình phương

(𝑁𝑖𝑗−𝐸𝑖𝑗 )2
𝐸𝑖𝑗

sẽ hội tụ theo phân phối

Bài giải
Với bài toán đặt ra chúng ta dùng giá trị χ2 để so sánh sự khác nhau của 2 nhóm
Đặt giả thuyết Ho: cơ cấu sử dụng phương tiện của 2 nhóm là khơng khác nhau.
H1: cơ cấu sử dụng phương tiện của 2 nhóm khác nhau.

Trang 15


Ta sẽ sử dụng ngơn ngữ lập trình Rstudio để giải bài toán này.
Bước 1: Chúng ta khai báo bảng số liệu 3 nhóm phương tiện và gắn chúng vào 1
data.frame như sau:

Kết quả xuất ra :


Bước 2: chúng ta thay hàng “1” và “2” bằng 2 giá trị biểu thị cho nữ và nam:

Sau đó dùng lệnh chisq.test để tính giá trị và thu được kết quả như sau:

Bước 3: dùng hàm qchisq(1-α, df) để tìm giá trị χ^2α :

Trong đó X-squared = χ2o
Df = bậc tự do
Χ2α=0.05= 5,991465
So sánh: χ2o > χ2α=0,05 => bác bỏ Ho.
Kết luận: Vậy có sự khác biệt cơ cấu sử dụng phương tiện của 2 nhóm cơng nhân
nam và cơng nhân nữ

Trang 16


BÀI 3:
Một cuộc điều tra xã hội học được tiến hành ở 5 thành phố A, B, C, D, E yêu cầu
những người được hỏi diễn tả mức độ thỏa mãn của mình đối với thành phố mà họ
đang sống. Kết quả được cho như sau:
Mức độ thỏa mãn
Thành phố
A
B
C
D
E

Rất thỏa mãn


Tương đối

Không

220
130
84
156
122

121
207
54
95
164

63
75
24
43
73

Câu hỏi: Với mức ý nghĩa α = 3%, kiểm định xem mức độ thỏa mãn cuộc sống có
phân bố giống nhau trong 5 thành phố trên hay không?
Bài làm
Cơ sở lý thuyết:
Phương pháp giải:
So sánh tỷ số bằng Kiểm định Khi bình phương (Chi-squared Test)
Đối với một thí nghiệm có hai kết quả (binomial experiment), ví dụ như ở
một quốc gia, để điều tra về tỷ lệ giới tính với kết quả là: nam hay nữ; thì người ta

thường so sánh hai tỷ số (nam, nữ) với nhau. Song, đối với một thí nghiệm có
nhiều kết quả (multinomial experiment), ví dụ như đánh giá mức độ hài lòng của
khán giả về một tiết mục với những kết quả là: rất hay, hay, bình thường, tệ, rất tệ;
ta cần so sánh nhiều tỷ số. Nếu bắt cặp từng tỷ số để so với nhau thì rất phức tạp và
tốn thời gian, thậm chí có thể khơng chính xác hay khơng đáng tin cậy.
Vì thế, phương pháp so sánh tỷ số bằng Kiểm định Khi bình phương
(Chi-squared Test) giúp chúng ta so sánh khơng những hai mà cịn nhiều tỷ số (tỷ
lệ hoặc xác suất) một cách tiện lợi và chính xác hơn. Kiểm định Khi bình phương
(hay cịn gọi tắt là Kiểm định χ2) là phân phối xác suất, khơng có tính đối xứng và
chỉ có giá trị ≥ 0.

Trang 17


Trong bài tập số 3 này, ta có một cuộc điều tra xã hội học được tiến hành ở 5
thành phố A, B, C, D, E yêu cầu những người được hỏi diễn tả mức độ thỏa mãn
của mình đối với thành phố mà họ đang sống. Kết quả của “thí nghiệm” này gồm:
Rất thỏa mãn, Tương đối, Khơng. Ta đặt ra câu hỏi là liệu mức độ thỏa mãn cuộc
sống có phân bố giống nhau trong 5 thành phố trên hay không? Với mức ý nghĩa α
= 3%.
Đầu tiên, ta đặt ra hai giả thiết:
H0: mức độ thỏa mãn cuộc sống trong 5 thành phố có phân bố giống nhau.
H1: mức độ thỏa mãn cuộc sống trong 5 thành phố có phân bố khác nhau.
Lập bảng tổng quát:
Y
X

y1

y2




yc

ni

x1

n11

n12



n1c

n1

x2

n21

n22



n2c

n2














xr

nr1

nr2



nrc

nr

mi

m1

m2




mc

N

X, Y: Lần lượt là dấu hiệu chỉ số đối tượng được thí nghiệm và số kết quả, hoặc
ngược lại.
Tính tốn:
𝐸𝑖𝑗 =
𝑟

𝑐

𝑚𝑖 𝑛𝑗
𝑁

(𝑂𝑖𝑗 − 𝐸𝑖𝑗 )2
2
𝜒 = ∑∑
𝐸𝑖𝑗
𝑖=1 𝑗=1

𝑂𝑖𝑗 : tần số thực nghiệm (observed frequency) của ô thuộc hàng i và cột j.
𝐸𝑖𝑗 : tần số lý thuyết (expected frequency) của ô thuộc hàng i và cột j.

r: số hàng.
c: số cột.
Trang 18



Xác suất P(X > χ2) với bậc tự do (degree of freedom) df = (r – 1)(c – 1).
Bằng ngôn ngữ lập trình Rstudio, ta sẽ tính được xác suất này, thông qua biến
P-value
Nếu P(X > χ2) > α  chấp nhận H0, bác bỏ H1.
Nếu P(X > χ2) ≤ α  chấp nhận H1, bác bỏ H0.
Giải quyết vấn đề và trả lời câu hỏi của đề bài
Ta sẽ sử dụng ngơn ngữ lập trình Rstudio để giải bài toán này.
Bước 1: Nhập dữ liệu từ đề vào hệ thống.
Bước 2: Kiểm định Khi bình phương bằng hàm chisq.test.

Phần code nhập dữ liệu vào và kiểm định Khi bình phương

Kết quả xuất ra trên màn hình Console

Trang 19


Bước 3: Trả lời câu hỏi và đưa ra kết luận
Kết quả trên màn hình Console cho ta thấy được:
χ2 = 75,725; df = (5 – 1)(3 – 1) = 8
P(X > χ2) = P-value = 3,53.10-13 < α = 3%
 chấp nhận H1, bác bỏ H0.
Kết luận:
Với mức ý nghĩa α = 3%, mức độ thỏa mãn cuộc sống trong 5 thành phố thực
sự có phân bố khác nhau.

BÀI 4:
Sau đây là số liệu một loại báo ngày bán được ở 5 quận nội thành:

Ngày khảo Quận nội thành
sát
Q1
Q2
Q3
Q4
Thứ hai
22
18
22
18
Thứ ba
21
18
22
18
Thứ tư
25
25
25
19
Thứ năm
24
24
18
20
Thứ sáu
28
19
15

22
Thứ 7
30
22
28
25
a) Lượng báo bán ra ở 5 quận có thực sự khác nhau khơng?

Q5
18
19
20
22
25
25

b) Chọn 𝛼 = 2%. Hỏi lượng báo bán ra có chịu yếu tố ngày trong tuần không?
Bài giải
a) Câu hỏi thứ nhất kiểm định sự khác nhau về lượng báo bán ra ở 5 quận, ta sẽ sử
dụng phương pháp phân tích phương sai một yếu tố (one-way ANOVA) để xử lý.
Cơ sở lý thuyết:
Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của
một yếu tố (nhân tạo hay tự nhiên) nào đó trên các giá trị quan sát,

Trang 20


Mơ hình
Yếu tố
khảo sát

1

2



k












Tổng cộng



Trung bình



Bảng ANOVA
Nguồn sai số


Bậc tự do

Tổng số
phương

bình Bình phương Giá trị thống
trung bình


Yếu tố
Sai số
Tổng cộng
Trong đó:

SSF: Tổng bình phương độ lệch riêng của các nhóm so với X
SST: Tổng bình phương các độ lệch
MSF: Trung bình của các bình phương độ lệch riêng
Trang 21


Trắc nghiệm
Giả thiết
“Các giá trị trung bình bằng nhau”.
“Ít nhất có hai giá trị trung bình khác nhau”.
Giá trị thống kê:
Biện luận:
Nếu

Chấp nhận giả thiết


Bài giải
Đặt H: Lượng báo bán ra ở năm quận không thực sự khác nhau
 : Lượng bán bán ra ở năm quận có sự khác nhau.
H
Ta sẽ sử dụng ngơn ngữ lập trình Rstudio để giải bài tốn này.

Kết quả nhận được ra màn hình:
Kết quả phân tích phương sai:

Tính tốn giá trị F0 từ thuật toán: qf(0.98, df1 = 5 - 1 = 4, df2 = 30 – 5 = 25)
F0 = 3.549423
Trang 22


F_value = 1.635
Do F_value < F0 nên ta chấp nhận giả thiết H0.
Kết luận: Với mức ý nghĩa α = 2%, lượng báo bán ra ở năm quận không thực
sự khác nhau
b) Câu hỏi thứ 2 hỏi lượng báo bán ra có chịu yếu tố ngày trong tuần hay khơng?
Đây là bài tốn kiểm định tính độc lập của yếu tố và số liệu.
H0: Lượng báo bán ra không phụ thuộc vào ngày
H1: Lượng báo bán ra có phụ thuộc vào ngày
Ta sẽ sử dụng ngơn ngữ lập trình Rstudio để giải bài toán này.

Kết quả thu được:

F0 = 3.331214 nhận được từ câu lệnh qf(0.98, df1 = 5, df2 = 24)
F_value = 2.863
Do F_value < F0 nên chấp nhận H0.
Kết luận: Với mức ý nghĩa 2%, lượng báo bán ra khơng phụ thuộc vào ngày

trong tuần
● Giải thích các thuật tốn sử dụng:
df(): Tìm các giá trị thống kê của phân phối F
aov(): Thực hiện phân tích phương sai (Phân tích ANOVA)
Trang 23


● Giải thích các thuật ngữ thống kê:
1) Bậc tự do (df)
- Bậc tự do trong tiếng Anh là Degrees Of Freedom.
- Bậc tự do đề cập đến số lượng các giá trị độc lập tối đa của một hệ, là các
giá trị có thể thay đổi tự do trong mẫu dữ liệu.

BÀI 5:
Theo dõi ngẫu nhiên giá thuê nhà tại 5 thành phố (với điều kiện thuê nhà như nhau)
thu được các số liệu sau:
Thành
A

phố 900

1200

850

1320

1400

1150


975

Thành
B

phố 625

640

775

1000

690

550

840

750

Thành
C

phố 415

400

420


560

780

620

800

390

Thành
D

phố 410

310

320

280

500

385

440

Thành phố E 340


425

275

210

575

360

Hãy tìm P-value để kiểm định xem có sự khác biệt về giá thuê nhà ở 5 thành phố
nói trên hay khơng.
Dạng tốn: Phân tích phương sai 1 yếu tố.
Cơ sở lý thuyết:
Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của
một yếu tố (nhân tạo hay tự nhiên) nào đó trên các giá trị quan sát,

Trang 24


Mơ hình
Yếu tố
khảo sát
1

2



k













Tổng cộng



Trung bình



Bảng ANOVA
Nguồn sai số

Bậc tự do

Tổng số
phương

bình Bình phương Giá trị thống
trung bình



Yếu tố
Sai số
Tổng cộng
Trong đó:

SSF: Tổng bình phương độ lệch riêng của các nhóm so với X
SST: Tổng bình phương các độ lệch
MSF: Trung bình của các bình phương độ lệch riêng

Trang 25


×