Tải bản đầy đủ (.pdf) (34 trang)

bài tập lớn xác suất thống kê thầy Nguyễn Đình Huy

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.89 MB, 34 trang )

MỤC LỤC
1. ĐỀ BÀI TẬP – ĐỀ SỐ 5 ............................................................................. 3
2. PHÂN TÍCH BÀI TOÁN – GIẢI TOÁN TRÊN EXCEL ....................... 6
2.1 Trình bày lại ví dụ 10 trang 172 và ví dụ 12 trang 181 Sách GT XSTK
2015 (N.Đ.HUY). ................................................................................................6
2.1.1 Ví dụ 10 trang 172 ................................................................................. 6
2.1.2 Ví dụ 12 trang 181 ................................................................................. 9
2.2 Bài tập 2 ........................................................................................................15
2.3 Bài tập 3 ........................................................................................................19
2.4 Bài tập 4 ........................................................................................................25
2.5 Bài tập 5 ........................................................................................................28

1. ĐỀ BÀI TẬP – ĐỀ SỐ 5
1.1. Trình bày lại ví dụ 10 trang 172 và ví dụ 12 trang 181 Sách GT XSTK 2015
(N.Đ.HUY).
1.1.1. Ví dụ 10/172: Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu
theo 3 yếu tố: pH (A), nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng sau:
Yếu tố B

Yếu tố
A
A1
A2
A3
A4

B1
C1
C2
C3
C4



B2
9
12
13
10

C2
C3
C4
C1

B3
14
15
14
11

C3
C4
C1
C2

B4
16
12
11
13

C4

C1
C2
C3

12
10
14
13

Hãy đánh giá về ảnh hưởng của các yếu tố trên hiệu suất phản ứng?
1.1.2. Ví dụ 12/181: Người ta đã dùng ba mức nhiệt độ gồm 105, 120 và 135C kết hợp với ba
khoảng thời gian là 12, 30 và 60 phút, để thực hiện mộ phản ứng tổng hợp. Các hiệu suất của
phản ứng (%) được trình bày trong bảng sau đây:
Thời gian (phút) X1
15
20
60
15
30

Thời gian ( C) X2
105
105
105
120
120

Hiệu suất (%) Y
1.87
2.02

3.28
3.05
4.07


60
15
30
60

120
135
135
135

5.54
5.03
6.45
7.26

Hãy cho yếu tố nhiệt độ và thời gian/ hoặc yếu tố thời gian có liên quan tuyến tính với hiệu suất của
phản ứng tổng hợp? Nếu có thì điều kiện nhiệt độ 115C trong vòng 50 phút thì hiệu suất phản ứng sẽ là
bao nhiêu?

1.2. Một nông trường nuôi bò nuôi ba giống bò sữa A, B, C. Lượng sữa của các con bò này được
thống kê trong bảng sau đây:
Lượng sữa
Loại bò
A
B

C

Ít

Trung bình

Nhiều

92
53
75

37
15
19

46
19
12

Với mức ý nghóa = 0,05, hãy nhận đònh xem có phải ba giống bò này thuần như nhau về
phương diện sản lượng sữa hay không?
1.3. Hãy phân tích tình hình kinh doanh của một số ngành nghề ở quận 4 quận nội thành trên cơ sở số
liệu về doanh thu của một số cửa hàng như sau:
Ngành nghề kinh
doanh
Điện lạnh
Vật liệu xây dựng
Dòch vụ tin học


Khu vực kinh doanh
Q1

Q2

Q3

2.5:2.7:2.0:3.0 3.1:3.5:2.7
2.0:2.4
9.5:9.3:9.1
0.6:10.4
15.0
1.2:1.0:9.8:1.8 2.0:2.2:1.8 1.2:1.3:1.2

Q4
5.0:5.4
19.5:17.5
5.0:4.8:5.2

1.4. Một nhóm gồm 105 nhà doanh nghiệp Mỹ được phân loại căn cứ theo thu nhập hàng năm và
tuổi của họ. Kết quả thu được như sau:
Tuổi

Thu nhập


Từ 100 000
$ - 399 599 $

Trên

400 000
$

6

9

5

18

19

8

11

12

17

Dưới 100
000 $
Dưới 40
Từ 40 đến 54

Trên 54

Với mức ý nghóa 1%, kiểm đònh giả thiết cho rằng tuổi và mức thu nhập có quan hệ với nhau
hay không ?


1.5. Sau đây là số liệu về số lượng một loại báo ngày bán được ở 5 quận nội thành:
Quận nội thành
Ngày khảo sát
Thứ hai
Thứ ba
Thứ tư
Thứ năm
Thứ sáu
Thứ bảy

Q1

Q2

Q3

Q4

Q5

22
21
25
24
28
30

18
18

25
24
19
22

22
22
25
18
15
28

18
18
19
20
22
25

18
19
20
22
25
25

Lượng báo bán được ở 5 quận có khác nhau thực sự không? Chọn  = 1%. Lượng báo bán ra
có chòu tác động của các yếu tố ngày trong tuần không?

5.1. Trình bày lại ví dụ 10 trang 172 và ví dụ 12 trang 181 Sách GT XSTK 2015 (N.Đ.HUY).

5.1.1. Vd 10, trang 172: Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo ba
yếu tố: pH (A), nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng sau:

Hãy đánh giá về ảnh hưởng của các yếu tố trên hiệu suất phản ứng.
5.1.1.1.Phương pháp:


Khi nghiên cứu ảnh hưởng của hai yếu tố, mỗi yếu tố có n mức, thì người ta dùng mô hình hình vuông la
tinh n x n. Thí dụ như mô hình 4 x 4:

Mô hình hình vuông la tinh ba yếu tố được trình bày như sau:

BẢNG ANOVA :

Trắc nghiệm:
Giả thiết:
H0 : μ1= μ2=.... =μk <=> “Các giá trị trung bình bằng nhau”.
H1 : μi ≠ μj <=> “Có ít nhất hai giá trị trung bình khác nhau”.


Giá trị thống kê: Fr và Fc.
Biện luận:




Nếu Fr < Fα => Chấp nhận H0 (Yếu tố A).
Nếu Fc< Fα=> Chấp nhận H0 (Yếu tố A).
Nếu F < Fα => Chấp nhận H0 (Yếu tố C).


5.1.1.2.Áp dụng MS-EXCEL
Nhập dữ liệu vào máy tính :

Tính các giá trị Ti.. (Tổng các hàng).
Chọn ô B7 và nhập biểu thức =SUM(B2:E2).
Chọn ô C7 và nhập biểu thức =SUM(B3:E3).
Chọn ô D7 và nhập biểu thức =SUM(B4:E4).
Chọn ô E7 và nhập biểu thức =SUM(B5:E5).
Các giá trị T.j.
Chọn ô B8 và nhập biểu thức =SUM(B2:B5).
Dùng con trỏ kéo kí hiệu tự điền từ ô B8 đến ô E8.
Các giá trị T.j.
Chọn ô B9 và nhập biểu thức =SUM(B2,C5,D4,E3).
Chọn ô C9 và nhập biểu thức =SUM(B3,C2,D5,E3).
Chọn ô D9 và nhập biểu thức =SUM(B4,C3,D2,E5).
Chọn ô E9 và nhập biểu thức =SUM(B5,C4,D3,E2).
Giá trị T..
Chọn ô B10 và nhập biểu thức =SUM(B2:E5).


Các giá trị SUMSQTi.., SUMSQT.J. và SUMSQT..k.
Chọn ô G7 và nhập biểu thức =SUMSQ(B7:E7).
Dùng con trỏ kéo ký hiệu tự điền từ ô G7 đến ô G9..
Giá trị SQT..
Chọn ô G10 và nhập biểu thức =POWER(B10.2)
Giá trị SUMSO Yijk.
Chọn ô G11 và nhập biểu thức = SUMSQ(B2:E5)..

Tính các giá trị SSR, SSC, SSF, SST và SSE.
Các giá trị SSR, SSC và SSF.

Chọn ô I7 và nhập biểu thức =G7/4-39601/POWER(4.2).
Dùng con trỏ kéo ký hiệu tự điền từ ô I7 đến ôn I9.
Giá trị SST.
Chọn ô I11 và nhập biểu thức =G11-G10/16.
Giá trị SSE.


Chọn ô I10 và nhập biểu thức =I11-SUM(I7:I9).
Tính các giá trị MSR, MSC, MSF và MSE.
Các giá trị MSR, MSC và MSF.
Chọn ô K7 và nhâp biểu thức =I7/(4-1).
Dùng con trỏ kéo kí hiệu điền từ ô K7 đến ô K9.
Giá trị MSE: Chọn ô K10 và nhâp biểu thức =I10/((4-1)*(4-2)).
Tình các giá trị FR , FC và F:.
Chọn ô M7 và nhâp biểu thức =K7/0.3958.
Dùng con trỏ kéo kí hiệu điền từ ô M7 đến ô M9.
Ta có kết quả như sau:

Kết quả và biện luận.





FR=3.1 < F0.05(3.6)=4.76 → Chấp nhận Ho (pH).
FC=11.95 > F0.05(3.6)=4.76→ Bác bỏ Ho (nhiệt độ).
F=30.05 > F0.05(3.6)=4.76 → Bác bỏ Ho (chất xúc tác).
Vậy chỉ có nhiệt độ và chất xuc tác gây ảnh hưởng đến hiệu suất.

5.1.2. Ví dụ 12/181: Người ta đã dùng ba mức nhiệt độ gồm 105, 120 và 135C kết hợp với ba

khoảng thời gian là 12, 30 và 60 phút, để thực hiện mộ phản ứng tổng hợp. Các hiệu suất của phản
ứng (%) được trình bày trong bảng sau đây:


Hãy cho yếu tố nhiệt độ và thời gian/ hoặc yếu tố thời gian có liên quan tuyến tính với hiệu suất của
phản ứng tổng hợp? Nếu có thì điều kiện nhiệt độ 115°C trong vòng 50 phút thì hiệu suất phản ứng
sẽ là bao nhiêu?
5.1.2.1.Phương pháp: Hồi quy tuyền tính đa tham số.
Trong phương tình hồi quy tuyền tính đa tham số, biến số phụ thuộc Y có liên quan đến k biến số độc lập
Xi (i=1,2,…,k) thay vì chỉ có một như trong quy hồi quy tuyến tính đơn giản.
Phương trình tổng quát:
Ŷ X0,X1,…,Xk= B0 +B1X1+…+BkXk.
Bảng Anova:

Giá trị thống kê:
- Giá trị R-bình phương:

Độ lệch chuẩn:


Trắc nghiệm thông kê.
o Giá trị thông kê: F
o Trắc nghiệm t:
H0 βi = 0 ↔ Các hệ số hồi quy không có ý nghĩa.
H1 βi ≠ ↔ Có ít nhất vài hệ số hồi quy có ý nghĩa.
o Trác nghiệm F:
H0 βi = 0 ↔ Phuơng trình hồi quy không thích hợp.
H1 βi ≠ ↔ Phương trình hồi quy thích hợp với ít nhất vài hệ số Bi
Bậc tự do của giá trị F : v1 =1, v2= N-k-1
5.1.2.2.ÁP DỤNG MS EXCEL:

Nhập dữ liệu vào bảng:

Sử dụng “Regresstion” :
o Vào Data nhấn Data Analysis, Regression rồi nhấn nut Ok.


Trong hộp Regression, lần lượt ấn định các chi tiết :
o Phạm vị của biến X (Input X Range): $A$1:$A$10.
o Phạm vị của biến Y (Input Y Range): $C$1:$C$10.
o Nhãn dữ liệu (Labels).
o Mức tin cậy (Confidence Level).
o Đường hồi quy (Line Fit Plots), biểu thức sai số (Residuals).
Nhấn OK ta có bảng sau:

Phương trình hồi quy: ŶX1=f(X1).
ŶX1=2.73 + 0.04X1 (R2=0.21;S=1.81).
T0=2.129< t0.05=2.365.




Chấp nhận giả thiết Ho.

T2=1.38< t0.05=2.365.


Chấp nhận giả thiết Ho.

F=1.905< F30.05=5.59.



Chấp nhận giả thiết Ho.

Vậy cả hai hệ số 2.37(Bo) và 0.04 (B1) của phương trình hồi quy ŶX1=2.73+0.04X1 đều không có ý
nghĩa thống kê. Hay phương trình hồi quy không thích hợp.
Kết luận : yếu tố thời gian không liên quan tuyến tính với hiệu suất của phản ứng.


Phương trình hồi quy: ŶX2=f(X2).
ŶX2=-11.14+0.13X2 (R2=0.21;S=0.99).
T0=3.418> t0.05=2.365.
 Bác bỏ giả thiết Ho.
T2=4.757> t0.05=2.365.
 Bác bỏ giả thiết Ho.
F=22.631> F0.05=5.59.
 Chấp nhận giả thiết Ho.
Vậy cả hai hệ số -11.14 (B0) và 0.13(B1) của phương trình hồi quy ŶX2=-11.14+0.13X2 đều có ý nghĩa
thống kê. Hay phương trình hồi quy thích hợp.
Kết luận: yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp.
 Cả hai yếu tố nhiệt độ và thời gian:


Phương trình hồi quy: ŶX1, X2=f(X1, X2).
ŶX1, X2= -12.7+ 0.04X1+ 0.13X2..
T0 11.528 > t0.05=2.365.
 Bác bỏ giả thiết Ho.
T1=7.583> t0.05=2.365.


 Bác bỏ giả thiết Ho.

T2=14.328> t0.05=2.365.
 Bác bỏ giả thiết Ho.
F=131.395> F0.05=5.51.
 Chấp nhận giả thiết Ho..
Vậy cà hai hệ số -12.7 (Bo); 0.04(B1) và 0.13(B2) của phương trình hồi quy ŶX1, X2= -12.7+ 0.04X1+
0.13X2 đều có ý nghĩa thống kê. Hay phương trình hồi quy thích hợp.
Kết luận: Hiêu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố là nhiệt độ và
thơi gian.

Dự đoán hiệu suất của phản ứng tại nhiệt độ 115°C và 50 phút:
Chọn ô B21 và nhập công thức: B1 7+B18*50+B19*115 được kết quả là: 4.310873.
Bài 2: Một nông trường nuôi bò nuôn ba giống bò sữa A, B,C. Lượng sữa của các con bò được
thống kê trong bảng sau đây:
Lượng sữa
Loại bò

Với mức ý nghĩa

Ít

Trung Bình

Nhiều

A

92

37


46

B

53

15

19

C

75

19

12

= ,

, hãy nhận định xem có phải ba giống bò này thuần như nhau về

phương diện sữa hay không?
BÀI LÀM

 Nhận xét: Đây là bài toán kiểm định giả thuyết vể tỷ lệ.
 Giải thuyết H0: Tỷ lệ sữa của ba giống bò này có phân phân bố tỉ nhau


GIẢI BÀI TOÁN BẰNG EXCEL.

Nhập giá trị vào bảng tính:
Lượng sữa
Ít
Trung Bình
Nhiều

A

Loại bò
B
C
92
53
37
15
46
19

75
19
12

Tính tổng các số:

 Tổng hàng: Chọn E3, nhập =SUM(B3:D3), rồi Enter, dùng con trỏ kéo nút tự
điều khiển từ điền từ E4 đến E5.

 Tổng cột: Chọn B6, nhập =SUM(B3:B5), rồi Enter, dùng con trỏ kéo nút tự điều
khiển từ B6 đến D6.


 Tổng cộng: chọn E8 và nhập =SUM(E3:E5).

Lượng sữa
Ít
Trung Bình
Nhiều
Tổng cột

A
92
37
46
175

Loại bò
B
C
53
15
19
87

75
19
12
106

Tổng Hàng
220
71

77
368


Tính các tần số lý thuyết: (tổng hàng*tổng cột)/tổng cộng

 A: Chọn B11: nhập =E3*$B$6/$E$6, rùi Enter, dùng con trỏ kéo nút tự điều
khiển từ B11 đến B13.

 B: Chọn C11: nhập =E3*$C$6/$E$6, rồi Enter, dùng con trỏ kéo nút tự điều
khiển từ C11 đến C13.

 C: Chọn D11: nhập =E3*$D$6/$E$6, rồi Enter, dùng con trỏ kéo nút tự điều
khiển từ D11 đến D13.

Lượng sữa
Ít
Trung Bình
Nhiều
Tổng cột

Lượng sữa
Ít
Trung Bình
Nhiều

Loại bò
A
B
92

53
37
15
46
19
175
87
Lý thuyết
Loại bò
A
B
104,6196 52,01087
33,76359 16,78533
36,61685

C
75
19
12
106

C
63,36957
20,45109
22,17935

Tổng Hàng
220
71
77

368


Áp dụng hàm số CHITEST tính giá trị ( > 2)
Chọn B15, nhập =CHITEST(B3:D5,B11:D13), rồi Enter.

Lượng sữa
Ít
Trung Bình
Nhiều
Tổng cột

Lượng sữa
Ít
Trung Bình
Nhiều
Gia tri P

Biện luận:

Loại bò
B
92
53
37
15
46
19
175
87

Lý thuyết
Loại bò
A
B
104,6196 52,01087
33,76359 16,78533
36,61685
0,022851
A

C
75
19
12
106

Tổng Hàng
220
71
77
368

C
63,36957
20,45109
22,17935

( > 2) = 0,022851 < 0.05
Bác bỏ giả thuyết
H0.


 Kết luận: Ba giống bò này có tỉ lệ khác nhau về phương diện sữa.

Bài 3: Với mức ý nghĩa 1%, Hãy phân tích tình hình kinh doanh của 1 số ngành nghề ở
quận 4 quận nội thành trên cơ sở số liệu về doanh thu của 1 số cửa hàng như sau:
Ngành nghề
kinh doanh

Khu vực kinh doanh
Q1

Q2

Q3

Q4

Điện lạnh

2.5:2.7:2.0:3.0

3.1:3.5:1.7

2.0:2.4

5.0:5.4

Vật liệu xây dựng

0.6:10.4


15.0

9.5:9.3:9.1

19.5:17.5

Dịch vụ tin học

1.2:1.0:9.8:1.8

2.0:2.2:1.8

1.2:1.3:1.2

5.0:4.8:5.2

BÀI LÀM
Phươngpháp: Phân tích phương sai 2 yếu tố ( có lặp).
Cơ sở lý thuyết:Trên thực một biến lượng chịu tác động không chỉ một nhân tố mà có thể
hai (hay nhiều nhân tố). Chẳng hạn năng suất cây trồng chịu ảnh hưởng của nhân tố giống và
của nhân tố đất. Kết quả học tập của một sinh viên chịu ảnh hưởng không những bởi nhân tố
giảng viên mà còn bởi nhân tố sĩ số của lớp học...


Trong mục này ta sẽ trình bày một cách vắn tắt kỹ thuật phân tích phương sai hai nhân tố
nhằm phát hiện ảnh hưởng của mỗi nhân tố cũng như tác động qua lại của hai nhân tố đó đến
biến lượng đang xét.
Giả sử chúng ta quan tâm tới nhân tố A và B. Nhân tố A được xem xét ở các mức
A1, A2, ... Ar và nhân tố B được xem xét ở các nước B1, B2,...Bc.

Gọi Xjk là ĐLNN đo lường hiệu quả việc tác động của mức Aj và Bk lên cá thể.
Giả sử x1jk, x2jk, ..., xnjk là mẫu kích thước njk rút ra từ tập hợp chính các giá trị của Xjk. Ta gọi
đó là mẫu (j, k). Ta đưa ra một số ký hiệu sau:

x jk trung bình của mẫu (j, k)
c

c

n jo   n jk

nok   n jk

;

k 1

n
x jo 

jk

j

jk

k

nok


ijk

i



n jo

k

 x

x jk

k

n
xok 

n   n jk   n jk

;

j 1

k

 trung bình của mức Aj;

n jo


 x

x jk

ijk



i

j

 trung bình của mức Bk

nok

x  trung bình chung 

 x
n

jk

xok

Ta có bảng sau đây ghi các kết quả tính toán trên:
B
B1


B2



Bk



Bc

Trung bình dòng Aj

A1

x11

x12



x1k



x1c

x1o

A2


x21

x22



x2k



x2c

x2o


















Aj

x j1

x j2



x jk



x jc

x jo


















Ar

xr1

xr 2



xrk



xrc

xro

Trung bình cột Bk

xo1

xo 2



xok




xoc

x

A


+ Tổng bình phương chung, ký hiệu là SST, được tính theo công thức sau:
c

r

n jk



SST   xijk  x



2

k 1 j 1 i 1

+ Tổng bình phương cho nhân tố A, ký hiệu là SSFA được tính theo công thức sau:
c

SSFA   nok ( xok  x)2
k 1


+ Tổng bình phương do sai số, ký hiệu là SSE, được tính theo công thức sau:
c

r

n jk



SSE   xijk  x jk



2

k 1 j 1 i 1

+ Tổng bình phương do tương tác (Sum of Squares for Interaction) ký hiệu là SSI, được tính
c

r

theo công thức sau: SSI   ( x jk  x jo  xko  x) 2 .
k 1 j 1

+ Trung bình bình phương của nhân tố A, ký hiệu là MSFA, được tính theo công thức sau:

MSFA 

SSFA

r 1

(với r – 1 gọi là bậc tự do của A bằng số mức của A trừ 1).

+ Trung bình bình phương của nhân tố B, ký hiệu là MSFB, được tính theo công thức sau:

MSFB 

SSFB
c 1

(với c – 1 gọi là bậc tự do của B bằng số mức của B trừ 1).

+ Trung bình bình phương của sai số, ký hiệu là MSE, được tính theo công thức sau:

MSE 

SSE
n  cr

(với n – cr gọi là bậc tự do của sai số).

+ Trung bình bình phương của tương tác, ký hiệu là MSI, được tính bởi
MSI 

SSI
 c – 1 r – 1

(với (c – 1) (r – 1) gọi là bậc tự do của tương tác).


Chú ý rằng: (r – 1) + (c – 1) + (c – 1) (r – 1) + n – rc = n – 1 = bậc tự do tổng cộng.
+ Tỷ số F cho nhân tố A, ký hiệu bởi FA được tính như sau: FA 

MSFA
.
MSE

+ Tương tự tỷ số F cho nhân tố B, ký hiệu bởi FB được tính như sau: FB 

MSFB
.
MSE

và tỷ số F cho tương tác giữa A và B, ký hiệu là FAB được tính như sau: FAB 

MSI
.
MSE

Với mức ý nghĩa  đã cho ta ký hiệu f (u, v) là phân vị mức  của phân bố Fisher với bậc tự
do (u, v).


Ta có quy tắc quyết định như sau:
+ Nếu FA > f (r – 1, n – cr) thì ta bác bỏ giả thiết.

H 0A : “Các mức A1,... Ar có hiệu quả trung bình như nhau”.
+ Nếu FB > f (c – 1, n – cr) thì ta bác bỏ giả thiết:

H 0B : “Các mức B1, B2, ... Bc có hiệu quả trung bình như nhau”.

Nếu FAB > f ((r – 1)(c – 1), n – rc) thì ta bác bỏ giả thiết:

H 0AB : “Có sự tương tác giữa A và B”.
Trên thực hành tính toán chúng ta thực hiện như sau.
Giả sử Tjk là tổng các giá trị trong mẫu (j, k). Ký hiệu:
c
r

T

T
,

T

T jk

ok
 jo  jk
k 1
j 1



c
r
n  n ,n  n

jk
ok

jk
 jo 
k 1
j 1

T   T jo   Tok   xijk

n   no   nok
   xijk2 (3)
Ta có các đẳng thức sau:
T2
(4)
n
r T2
T2
SSFA   jo  (5)
n
j 1 n jo
SST  A 

Tok2 T 2
 (6)
n
k 1 nok
c

SSFB  

c


r

SSE  A  
k 1 j 1

T jk2
n jk



SSI  SST  SSFA  SSFB  SSE

Đặc biệt nếu tất cả các mẫu bằng nhau njk = m với mọi j, k thì:


n jo  cm,nok  rm
r

T
do đó:o

SSFA 

2
jo

j 1

cm




T2
' )
n

r
2
ok

T

T2
(6' )
rm
n
T jk2

k
j
SSE  A 
(7 ' )
m
SSFB 

k 1



Trước hết ta cần tính các đại lượng Tjk. Tiếp theo tính các giá trị Tjo, njo, nok, Tok, n, T và A theo

các công thức (1), (2), (3). Từ đó tính SST, SSFA, SSFB, SSE và SSI theo các công thức (4),
(5), (6), (7) (hoặc (5’), (6’), (7’) nếu njk = m).
Giảthuyết:
-HA (yếu tố ngành nghề): doanh thu không phụ thuộc vào ngành nghề.
-HB (yếu tố quận): doanh thu không phụ thuộc vào quận.
-HAB (sự tương tác giữa 2 yếu tố): doanh thu giữ các ngành nghề và các quận không có liên
quan tới nhau.
Nhập dữ liệu vào bảng tính:


Áp dụng: “Anova: Two-Factor With Replication”.
Vào Data -> Data Analysis. Chọn mục Anova: Two-Factor With Replication.
Chọn OK.

Trong hộp thoại Anova: Two-Factor With Replication lần lượt ấn định các chi tiết
Phạm vi đầu vào (Input Range): $A$9:$E$21
Số hàng mỗi mẫu (Rows per sample): 4
Ngưỡng tin cậy (Alpha): 0.01 (mức ý nghĩa = 1%)
Phạm vi đầu ra (Output Range): $A$23


Nhấn OK. Ta được bảng sau:

Kết quả và biện luận:
Thực hiện bài toán trên MS-EXCEL:
FR = 2.8929 < F0.01 = 5.247894.
Chấp nhận giả thuyết Ho (ngành nghề kinh doanh).
FC= 0.8089 < F0.01 = 4.3771.
Chấp nhận giả thuyết Ho (ngành nghề và địa điểm kinh doanh)
KẾT LUẬN: Vì vậy doanh thu cửa hàng trên không phụ thuộc vào ngành nghề và địa điểm kinh doanh,

giữa ngành nghề kinh doanh và địa điểm kinh doanh không có sự tương tác lẫn nhau.


Bài 4: Một nhóm gồm 105 nhà doanh nghiệp Mỹ được phân loại căn cứ theo thu nhập hằng năm và
tuổi thọ của họ. Kết quả thu được như hình sau:
Thu nhập
Tuổi

Dưới 100 000 $

Từ 100 000 $
đến 399 599 $

Trên 400 000 $

Dưới 40

6

9

5

Từ 40 đến
54

18

19


8

Trên 54

11

12

17

Với mức ý nghĩa 1%, kiểm định giả thiết cho rằng tuổi và mức thu nhập có quan hệ với nhau hay
không?
1. Dạng bài: Kiểm định tính độc lập
2. Phương pháp giải : Kiểm tra tính độc lập
 Cơ sở lí thuyết:
Giả sử ta quan tâm tới một dấu hiệu nào đó của các cá thể trong một tập hợp chính C. Dấu hiệu
này nói chung thay đổi từ cá thể này sang cá thể khác. Nếu dấu hiệu này biểu thị được bởi một
con số, hay nói cách khác có thể gán số đo cho dấu hiệu này lên các cá thể, thì ta nói dấu hiệu này
là một biến lượng hay là một dấu hiệu định lượng. Chẳng hạn nếu cad thể là người thì biến lượng
có thể là chiều cao, trong lượng, tuổi... tuy nhiên trong thực tế có những dấu hiệu không thể đo
đạc để biểu diễn bằng con số được. Chẳng hạn màu tóc, màu mắt của một người, cảm giác hạnh
phúc, sự yêu thích một cuốn phim nào đó... Đó đều là những dấu hiệu không đo đạc được. Ta gọi
đó là những dấu hiệu định tính.
Trong mục này ta sẽ xét bài toán kiểm tra tính độc lập của hai dấu hiệu. Trước hết, chúng ta xét
bài toán kiểm định tính độc lập của dấu hiệu định tính A và B.
Ta chia dấu hiệu A ra làm r mức độ A1, A2,..., Ar, và chia đặc tính B làm k mức độ B1, B2,..., Bk.
Xét một mẫu ngẫu nhiên gồm n cá thể. Mỗi cá thể sẽ mang dấu hiệu A ở mức Ai nào đó và mang
dấu hiệu B ở mức Bj nào đó. Giả sử nij là số cá thể có các dấu hiệu Ai và Bj. Các số liệu nij được
ghi trong bảng sau đây gọi là bảng liên hợp các dấu hiệu (Contingency Table).


A

B1

B2

...

Bk

Tổng

A1

n11

n12



n1k

n10

A2

n21

n22




n2k

n20













Ar

nr1

nr2



nrk

nr0


Tổng

n01

n02

...

n0k

N

B

Trong đó ký hiệu pij là xác suất để một cá thể chọn ngẫu nhiên mang dấu hiệu Ai và Bj ; pjo và poj
tương ứng là xác suất để cá thể mang dấu hiệu Ai và Bj.
Nếu giả thiết Ho “Hai dấu hiệu A và B độc lập” chúng ta có hệ thức sau:
pij = pio.poj
Các xác suất pio và poj được ước lượng bởi


n
ˆ
p io  io ,
n
n oj
ˆ
poj 
n


Do đó Ho đúng thì
n io .noj
ˆ
ˆ ˆ
,
p ij  p io .poj 
n2

và số cá thể có đồng thời dấu hiệu Ai và Bj sẽ xấp xỉ bằng
n io n oj
ˆ
n ij  np ij 
n

ˆ
Các số n ij được gọi là các tần số lý thuyết (TSLT), còn các số nij được gọi là các tần số quan sát
(TSQS). Khoảng cách giữa các TSLT và TSQS được đo bằng đại lượng sau:
ˆ
(n ij  n ij )2
T
ˆ
n ij
j 1 i 1
k

r



Người ta đã chứng minh được rằng nếu n lớn và các TSLT không nhỏ hơn 5 thì T sẽ có phân bố

xấp xỉ phân bố 2 với bậc tự do là (k–1).(r–1). Thành thử Ho sẽ bị bác bỏ ở mức ý nghĩa  nếu
T > c, trong đó c là phân vị mức  của phân bố 2 với (k–1).(r–1) bậc tự do.
Chú ý. Ta có các thức sau đây khá thuận lợi trong tính toán thực hành:

T  n


n 2ij



 nionoj  1


Trong trường hợp k = r = 2 (bảng liên hợp có hai dòng, hai cột) thì
n

T

trong đó

n11

n12

n21 n22
n01n02n10n20
n11

n12


n 21

n 22

 n11n 22  n 21 n 22

 n11

n12 
.
n

 21 n22 

là định thức của ma trận 

3. Công cụ giải:.
Phần mềm Micsrosoft Excel 2010.
Sử dụng hàm CHITEST trong Excel: CHITEST (nij,γij), với lưu ý số lượng các giá trị của nij và γij
phải bằng nhau.
Nếu  02   2 → Chấp nhận giả thiết H0.
Hoặc kết quả hàm CHITEST > α =0.01 → Chấp nhận giả thiết H0.
4. Bài làm:
a) Kết quả tính bằng tay


×