Tải bản đầy đủ (.doc) (35 trang)

BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.32 MB, 35 trang )

July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG

Bài 1.
a) Đề bài.
Trình bày ví dụ 3.4 trang 207 sách BT XSTK 2012(N.Đ.Huy)
Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo ba yếu
tố: pH (A), nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng sau:
Yếu tố A
Yếu tố B
B1 B2 B3 B4
A1 C1 9 C2 14 C3 16 C4 12
A2 C2 12 C3 15 C4 12 C1 10
A3 C3 13 C4 14 C1 11 C2 14
A4 C4 10 C1 11 C2 13 C3 13
Hãy đánh giá về ảnh hưởng của các yếu tố trên đến hiệu suất phản ứng?
 Dạng bài.
Phân tích phương sai 3 yếu tố (A, B, C)
 Cơ sở lý thuyết.
Phương pháp giải:
Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố
trên các giá trị quan sát G (i = 1, 2 r: yếu tố A; j = 1, 2 r: yếu tố B: k =
1, 2 r: yếu tố C).
Mô hình:
Khi nghiên cứu ảnh hưởng của hai yếu tố, mỗi yếu tố có n mức, thì
người ta dùng mô hình vuông la tinh n×n. Ví dụ như mô hình vuông la
tinh 4×4:
B C D A
C D A B
D A B C
A B C D


GVHD: GS-TS: NGUYỄN ĐÌNH HUY 1
July 23, 2014 BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG

Mô hình vuông la tinh ba yếu tố được trình bày như sau:
Yếu tố
A
Yếu tố B
B1 B2 B3 B4
A1 C1 Y
111
C2 Y
122
C3 Y
133
C4 Y
144
T
1
A2 C2 Y
212
C3 Y
223
C4 Y
234
C1 Y
241
T
2
A3 C3 Y
313

C4 Y
324
C1 Y
331
C2 Y
342
T
3
A4 C4 Y
414
C1 Y
421
C2 Y
432
C3 Y
443
T
4
T
.i.
T
.1.
T
.2.
T
.3.
T
.4.

Bảng ANOVA:

Nguồn
sai số
Bậc tự do Tổng số bình
phương
Bình
phương
trung bình
Giá trị
thống kê
Yếu tố
A
(Hàng)
(r-1)
MSR=§
FR=§
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 2

=

r
i
i
r
T
r
T
1
2
2


2

)1( −r
SSR
MSE
MSR
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG

SSR=
Yếu tố
B
(Cột)
(r-1)
SSC=§
MSC=§
FC=§
Yếu tố
C
(r-1)
SSF=§
MSF=§
F=§
Sai số (r-1)(r-2)
SSE=SST –
(SSF+SSR+SS
C)
MSE=§
Tổng
cộng

(r2-1)
SST=§
Trắc nghiệm
• Giả thiết:
H0: μ1 = μ2 = = μk ↔ Các giá trị trung bình bằng nhau
H1: μi§ μj ↔ Có ít nhất hai giá trị trung bình khác nhau
• Giá trị thống kê: FR, FC, F
• Biện luận:
Nếu FR< Fα(r-1)(r-2) → Chấp nhận H0 đối với yếu tố A
Nếu FC < Fα(r-1)(r-2)→ Chấp nhận H0 đối với yếu tố B
Nếu F < Fα(r-1)(r-2) → Chấp nhận H0 đối với yếu tố C
 Bài làm.
Các bước thực hiện trên MS Excel:
• Nhập số liệu bảng tính:
• Tính toán
các giá trị
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 3

=

r
j
j
r
T
r
T
1
2
2


2

)1( −r
SSC
MSE
MSC

=

r
k
k
r
T
r
T
1
2
2

2

)1( −r
SSF
MSE
MSF
)2)(1( −− rr
SSE
2

2

2
r
T
Y
ijk
−ΣΣΣ

July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG

+ Tính các
giá trị Ti
C20=SUM(C16:F16)
Dùng con trỏ ký tự cho các ô từ C20:F20
+Tính các giá trị Tj
C21=SUM(C16:C19)
Dùng con trỏ ký tự cho các ô từ C21:F21
+Tính các giá trị Tk
C22=SUM(C16,D19,E18,F17)
+Tính giá trị Tk
C23=SUM(C16:F19)
+ Gính các giá trị G
H20=SUMSQ(C20:F20)
Kéo con trỏ cho các vị trí từ H20:H24
+ Tính các giá trị I
J20=SUMSQ(C20:F20)
Kéo con trỏ cho các vị trí từ J20:J22
J24=H24-H23/POWER(4,2)

J23=J24-SUM(J20:J22)
+Tính các giá trị K
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 4
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG

L20==J20/(4-1)
Kéo con trỏ cho các vị trí L20:L22
L23=J23/((4-1)*(4-2))
+ Tính các giá trị M
N20=L20/$L$23
Kéo con trỏ cho các vị trí L20:L22
• So sánh các giá trị và kết luận :
F
R
=3.10 < F
0.05
(3,6)=4.76 => chấp nhận H
0
(pH)
F
C
=11.95 > F
0.05
(3,6)=4.76 => bác bỏ H
0
(nhiệt độ)
F=30.05 > F
0.05
(3,6)=4.76=> bác bỏ H

0
(chất xúc tác)
Vậy chỉ có nhiệt độ và chất xúc tác gây ảnh hưởng đến hiệu suất phản ứng
b) Đề bài.
Trình bày ví dụ 4.2 tr 216 BT XSTK
Người ta dùng ba mức nhiệt độ gồm 105, 120 và 135°C kết hợp với ba khoảng thời
gian là 15, 30 và 60 phút để thực hiện một phản ứng tổng hợp. Các hiệu suất của
phản ứng (%) được trình bày trong bảng sau:
Thời gian (phút) Nhiệt độ (°C) Hiệu suất (%)
X
1
X
2
Y
15 105 1.87
30 105 2.02
60 105 3.28
15 120 3.05
30 120 4.07
60 120 5.54
15 135 5.03
30 135 6.45
Hãy cho biết yếu tố nhiệt độ và thời gian/hoặc yếu tố thời gian có liên quan tuyến
tính với hiệu suất của phản ứng tổng hợp? Nếu có thì điều kiện nhiệt độ 115°C
trong vòng 50 phút thì hiệu suất phản ứng sẽ là bao nhiêu?
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 5
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG

 Dạng bài:

Hồi quy tuyến tính đa tham số.
 Cơ sở lý thuyết.
HỒI QUY TUYẾN TÍNH ĐA THAM SỐ
Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y có liên
quan đến k biến số độc lập X
i
(i=1,2, ,k) thay vì chỉ có một như trong hồi quy
tuyến tính đơn giản.
Phương trình tổng quát
Ŷx
0
,x
1
, ,x
k
= B
0
+ B
1
X
1
+ + B
k
X
k
Bảng ANOVA
Nguồn
sai số
Bậc tự do
Tổng số bình

phương
Bình phương
trung bình
Giá trị
thống kê
Hồi
quy
K SSR
MSR= F=
Sai số N-k-1 SSE
MSE =
Tổng
cộng
N-1
SST = SSR +
SSE
Giá trị thống kê
Giá trị R-bình phương:
( là khá tốt)
Độ lệch chuẩn:
(là khá tốt)
Trắc nghiệm
• Giá trị thống kê: F
• Trắc nghiệm t:
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 6
k
SSR
MSE
MSR
)1( −− kN

SSE
kFkN
kF
SST
SSR
R
+−−
==
)1(
2
81.0
2
≥R
)1( −−
=
kN
SSE
S
30.0≤S
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG

H0: βi = 0 ↔ Các hệ số hồi quy không có ý nghĩa.
H1: βi§ 0 ↔ Có ít nhất vài hệ số hồi quy có ý nghĩa.
F <§(r-1)(r-2) → Chấp nhận H0
• Trắc nghiệm F
H0: βi = 0 ↔ Phương trình hồi quy không thích hợp.
H1: βi§ 0 ↔ Phương trình hồi quy thích hợp với ít
nhất vài hệ số Bi.
F <Fα(1,N-k-1) → Chấp nhận H0

 Bài làm.
Nhập dữ liệu vào bảng tính
Dữ liệu nhất thiết phải được nhập theo cột.
Áp dụng Regression
Nhấn lần lượt đơn lệnh
Tools và lệnh Data
Analysis
Chọn chương trình
Regressiontrong hộp
thoại Data Analysis rồi
nhấp OK
Trong
hộp
thoại
Regression, lần lượt ấn định các chi tiết:
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 7

2
α
t

July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG

• Phạm vi của biến số Y (input Y range)
• Phạm vi của biến số X (input X range)
• Nhãn dữ liệu(Labels)
• Mức tin cậy(Confidence level)
• Tọa độ đầu ra(Output range)
• Đường hồi quy (Line Fit Plots),…

Các giá trị đầu ra cho bảng sau:
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 8
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG

Phương trình hồi quy:
Ŷx
1
=f(X
1
)
Ŷx
1
=2.73+0.04X
1
(R
2
=0.21, S=1.81)
t
0
=2.129< t
0.05
=2.365(hay P
v
2
=0.071>α=0.05)=>Chấp nhận giả thiết H
0
t
1
=1.38<t

0.05
=2.365(hay P
v
=0.209>α=0.05) =>Chấp nhận giả thiết H
0
F=1.95<F
0.05
=5.590(hay F
s
=0.209>α=0.05) =>Chấp nhận giả thiết H
0
Vậy cả hai hệ số 2.73(B
0
) và 0.04(B
1
) củaphươngtrình hồi quyŶx
1
=2.73+0.04X
1
đều
không có ý nghĩa thống kê. Nói cách khác phương trình hồi quy này không thích hợp.
Phương trình hồi quy: Ŷx
2
=f(X
2
)
Ŷx2= -11.141 +0.129X2 (R2=0.76, S=0.99)
t
0
=3.418> t

0.05
=2.365(hay P
v
2
=0.011>α=0.05) =>Bác bỏ giả thiết H
0
t
1
= 4.757>t
0.05
=2.365(hay P
v
=0.00206<α=0.05) =>Bác bỏ giả thiết H
0
F=22.631>F=5.590(hay F
s
=0.00206<α=0.05) =>Bác bỏ giả thiết H
0
Vậy cả hai hệ số -11.141 (B
0
) và 0.129 (B1) của phương trình hồi quy Ŷx2=-11.141
+0.129X2 đều có ý nghĩa thống kê. Nói cách khác phương trình hồi quynày thích hợp.
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 9
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG

Kết luận: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp.
Phương trình hồi quy: Ŷx1, x2=f(X
1
, X

2
)
Ŷx1, x2 =-12.70+0.04X
1
+0.13X
2
(R
2
=0.97; S=0.33)
P
v
2
=2.260.10
-5
<α=0.05 =>Bác bỏ giả thiết H
0
P
v
=0.00027<α=0.05 =>Bác bỏ giả thiết H
0
F
s
=1.112*10
-5
<α=0.05 =>Bác bỏ giả thiết H
0
Vậy cả hai hệ số -12.70 (B
0
),0.04(B1)và 0.13(B1)của phương trình hồi quy Ŷx1,x2 =-
12.7 +0.04X

1
+0.13X
2
đều có ý nghĩa thống kê. Nói cách khác, phương trình hồi quy này
thích hợp.
Kết luận: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố là
thời gian và nhiệt độ.
Sự tuyến tính của phương trình Ŷx1, x2 =-12.70+0.04X
1
+0.13X
2
. Có thể được trình bày
trong biểu đồ phân tán (scatterplots):
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 10
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG

Nếu muốn
dự đoán
hiệu suất
bằng
phương
trình hồi
quy
Y=-
12.70+0.04X
1
+0.13X
2
chỉ cần chọn một ô,ví dụ như:

E20,sau đó nhập hàm=E17+E18*50+E19*115 và được kết quả như sau:
Ghi chú: E17
tọa độ của B
0
,E18 tọa độ
của B
1
,E19
tọa độ của
B
2
,50 là giá
trị của
X
1
(thời gian)
và 115 là giá
trị của X
2
(nhiệt độ)
Vậy hiệu suất phản ứng theo dự đoán ở 115°C trong vòng 50 phút là 4.3109%.
Bài 2:
Đề bài.
Bảng sau đây cho ta một mẫu gồm 11 quan sát (x
i
, y
i
) từ tập hợp chính các giá trị của cặp
ĐLNN (X,Y):
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 11

July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG

X 0,9 1,22 1,32 0,77 1,3 1,2
Y -0,3 0,1 0,7 -0,28 -0,25 0,02
X 1,32 0,95 1,45 1,3 1,2
Y 0,37 -0,70 0,55 0,35 0,32
a) Tìm đường hồi quy của Y đối với X.
b) Tính sai số tiêu chuẩn của đường hồi quy
c) Tính tỷ số F để kiểm định sự đúng đắn của giả thiết: Có hồi quy tuyến tính của Y
theo X.
 Dạng bài.
Phân tích hồi quy tuyến tính
 Cơ sở lý thuyết.
Phương trình hồi quy tuyến tính:
; ;
Kiểm định hệ số a, b:
Giả thuyết Ho: Hệ số quy hồi không có ý nghĩa (= 0)
H1: Hệ số hồi quy có ý nghĩa (≠ 0)
Trắc nghiệm t < tα, n-2: chấp nhận Ho
Kiểm định phương trình hồi quy:
Giả thuyết Ho: “Phương trình hồi quy tuyến tính không phù hợp”
H1: “Phương trình hồi quy tuyến tính phù hợp”
Trắc nghiệm F < Fα, 1, n-2: chấp nhận Ho
 Bài làm.
Phần mềm sử dụng: Microsoft Excel
Làm bằng Excel, ta có các bước:
B1: Nhâp bảng số liệu
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 12
x

y a bx= +
y
x
S
a r
S
=
b y ax= −
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG

B2: Chọn Data/Data
Analysis/ Regression như trong hình:
Nhập dữ liệu vào như trong hình:
Input Y Range : khoảng dữ liệu của Y
Input X Range : khoảng dữ liệu của X
Confidence Level : mức ý nghĩa
Labels : Nhãn dữ liệu
Output Range : Khoảng dữ liệu xuất ra
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 13
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG

B3: Sau khi nhập đủ các thông số, ta có được bảng sau:
B4: Kết luận:
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 14
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG

Đường quy hồi tuyến tính của Y đối với X là:

Y= 1.547892 X- 1.73948
a) Sai số tiêu chuẩn của đường hồi quy.
Sai số tiêu chuẩn của đường hồi quy là:
= 0.28965
b) Tỷ số F = 0.289645
Với mức ý nghĩa a=0.05,
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 15
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG

Ta thấy F=0.249645 > c=4.41 (bảng Fisher [1, 18])
Vậy có hồi quy tuyến tính giữa Y và X
c) Tỷ số F = 0.006169
Với mức ý nghĩa a=0.05, ta thấy F=0.006169 < 0.05
Vậy có hồi quy tuyến tính này không thích hợp.
Bài 3:
Đề bài.
Bảng sau đây cho ta phân bố thu nhập của 2 nhóm tuổi: Nhóm từ 40 – 50 tuổi và nhóm từ
50 – 60 tuổi trong số các công nhân lành nghề ở Thụy Điển năm 1930.
Nhóm
tuổi
Thu nhập
0 – 1 1 – 2 2 – 3 3 – 4 4 – 6 >=6
40 – 50 71 430 1072 1609 1178 158
50 – 60 54 324 894 1202 903 112
Có sự khác nhau về phân bố thu nhập giữa hai nhóm tuổi này trong số các công nhân
lành nghề hay không? Mức ý nghĩa α = 2%.
 Dạng toán:
Bài toán kiểm định tính độc lập.
 Cơ sở lí thuyết:

Ta sẽ xét bài toán kiểm tra tính độc lập của hai dấu hiệu. Trước hết, chúng ta xét bài
toán kiểm định tính độc lập của dấu hiệu định tính A và B.
Ta chia dấu hiệu A ra làm r mức độ A
1
, A
2
, , A
r
, và chia đặc tính B làm k mức độ
B
1
, B
2
, , B
k
. Xét một mẫu ngẫu nhiên gồm n cá thể. Mỗi cá thể sẽ mang dấu hiệu A ở
mức A
i
nào đó và mang dấu hiệu B ở mức B
j
nào đó. Giả sử n
ij
là số cá thể có các dấu
hiệu A
i
và B
j
. Các số liệu n
ij
được ghi trong bảng sau đây gọi là bảng liên hợp các dấu

hiệu (Contingency Table).
A
B
B
1
B
2
B
k
Tổng
A
1
n
11
n
12
… n
1k
n
10
A
2
n
21
n
22
… n
2k
n
20

… … … … … …
A
r
n
r1
n
r2
… n
rk
n
r0
Tổng n
01
n
02
n
0k
N
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 16
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG

Trong đó ký hiệu p
ij
là xác suất để một cá thể chọn ngẫu nhiên mang dấu hiệu A
i
và B
j
;
p

jo
và p
oj
tương ứng là xác suất để cá thể mang dấu hiệu A
i
và B
j
.
Nếu giả thiết H
o
“Hai dấu hiệu A và B độc lập” chúng ta có hệ thức sau:
p
ij
= p
io
.p
oj

Các xác suất p
io
và p
oj
được ước lượng bởi
Do đó H
o
đúng thì
,
và số cá thể có đồng thời dấu hiệu
A
i

và B
j
sẽ xấp xỉ bằng
Các số được gọi là các tần số
lý thuyết (TSLT), còn các số n
ij
được gọi là các tần số quan sát (TSQS). Khoảng cách
giữa các TSLT và TSQS được đo bằng đại lượng sau:
Người ta đã chứng minh
được rằng nếu n lớn và các TSLT
không nhỏ hơn 5 thì T sẽ có phân bố xấp xỉ phân bố χ
2
với bậc tự do là (k–1).(r–1).
Thành thử H
o
sẽ bị bác bỏ ở mức ý nghĩa α nếu T > c, trong đó c là phân vị mức α của
phân bố χ
2
với (k–1).(r–1) bậc tự do.
Cách 2: Sử dụng hàm CHITEST trong Excel: CHITEST(n
ij

ij
), với lưu ý số lượng các giá
trị của n
ij
và γ
ij
phải bằng nhau.
 Kết luận

Nếu → Chấp nhận giả thiết H
0
.
Hoặc kết quả hàm CHITEST > α =0.02 → Chấp nhận giả thiết H
0
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 17
io
io
oj
oj
n
ˆ
p ,
n
n
ˆ
p
n


io oj
ij io oj
2
n .n
ˆ ˆ ˆ
p p .p
n
≈ =
io oj
ij ij

n n
ˆ
n np
n
= =
ij
ˆ
n
2
k r
ij ij
ij
j 1 i 1
ˆ
(n n )
T
ˆ
n
= =

=
∑∑
22
0
α
χχ
<
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG


 Bài làm.
Tính bằng excel
Bước 1: Lập giả thiết H
0
: Phân bố thu nhập giữa hai nhóm tuổi này trong số các
công nhân lành nghề là như nhau.
Nhập bảng số liệu
Bước 2: Tính tổng hàng và tổng cột.
Đặt con trỏ tại ô B11 rồi giữ chuột kéo đến ô H13.
Sau đó nhấn nút trong Tab
Home.
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 18
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG

Ta được tổng hàng và tổng cột
Bước 3: Tính tần số lý thuyết.
Tần số = (tổng hàng
*
tổng cột) / tổng cộng.
Ô B23 nhập lệnh = $H11*B$13/$H$13 rồi enter.
Sau đó ta kéo chọn từ B16:G17 , sau đó ta ấn tổ hợp phím F2+ctrl+enter.
Ta có bảng tần số lý thuyết
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 19
July 23, 2014 BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG

Bước 4:
Dùng hàm CHITEST để tính.
Nhấn vào Tab Fomulas chọn Insert Function chọn CHITEST rồi nhấn OK
Lúc đó sẽ xuất hiện hộp thoại Function Arguments

Nhập các giá trị tần số quan sát vào mục Actual_range
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 20
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG

Rồi nhập các giá trị tần số quan sát vào mục Expected_range. Nhấn OK
Ta được P = 0.511582
Vì giá trị P > α = 2% => Chấp nhận giả thuyết H0
.Kết luận: Phân bố thu nhập giữa hai nhóm tuổi này trong số các công nhân lành
nghề là như nhau.
Bài 4:
Đề bài.
Một nhóm gồm 105 nhà doanh nghiệp Mỹ được phân loại căn cứ theo thu nhập hằng năm và
tuổi thọ của họ. Kết quả thu được như hình sau:
Tuổi
Thu nhập
Dưới 100 000 $
Từ 100 000 $
đến 399 599 $
Trên 400 000 $
Dưới 40 6 9 5
Từ 40
đến 54
18 19 8
Trên 54 11 12 17
Với mức ý nghĩa 1%, kiểm định giả thiết cho rằng tuổi và mức thu nhập có quan hệ với
nhau hay không?
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 21
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG


 Dạng toán:
Bài toán kiểm định tính độc lập.
 Cơ sở lí thuyết:
Ta sẽ xét bài toán kiểm tra tính độc lập của hai dấu hiệu. Trước hết, chúng ta xét bài
toán kiểm định tính độc lập của dấu hiệu định tính A và B.
Ta chia dấu hiệu A ra làm r mức độ A
1
, A
2
, , A
r
, và chia đặc tính B làm k mức độ
B
1
, B
2
, , B
k
. Xét một mẫu ngẫu nhiên gồm n cá thể. Mỗi cá thể sẽ mang dấu hiệu A
ở mức A
i
nào đó và mang dấu hiệu B ở mức B
j
nào đó. Giả sử n
ij
là số cá thể có các
dấu hiệu A
i
và B

j
. Các số liệu n
ij
được ghi trong bảng sau đây gọi là bảng liên hợp
các dấu hiệu (Contingency Table).
A
B
B
1
B
2
B
k
Tổng
A
1
n
11
n
12
… n
1k
n
10
A
2
n
21
n
22

… n
2k
n
20
… … … … … …
A
r
n
r1
n
r2
… n
rk
n
r0
Tổng n
01
n
02
n
0k
N
Trong đó ký hiệu p
ij
là xác suất để một cá thể chọn ngẫu nhiên mang dấu hiệu A
i

B
j
; p

jo
và p
oj
tương ứng là xác suất để cá thể mang dấu hiệu A
i
và B
j
.
Nếu giả thiết H
o
“Hai dấu hiệu A và B độc lập” chúng ta có hệ thức sau:
p
ij
= p
io
.p
oj

Các xác suất p
io
và p
oj
được ước lượng bởi
Do đó H
o
đúng thì
,
và số cá thể có đồng thời dấu
hiệu A
i

và B
j
sẽ xấp xỉ bằng
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 22
io
io
oj
oj
n
ˆ
p ,
n
n
ˆ
p
n


io oj
ij io oj
2
n .n
ˆ ˆ ˆ
p p .p
n
≈ =
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG

Các số được gọi là các tần số

lý thuyết (TSLT), còn các số n
ij
được gọi là các tần số quan sát (TSQS). Khoảng
cách giữa các TSLT và TSQS được đo bằng đại lượng sau:
Người ta đã chứng minh
được rằng nếu n lớn và các
TSLT không nhỏ hơn 5 thì T sẽ có phân bố xấp xỉ phân bố χ
2
với bậc tự do là (k–
1).(r–1). Thành thử H
o
sẽ bị bác bỏ ở mức ý nghĩa α nếu T > c, trong đó c là phân
vị mức α của phân bố χ
2
với (k–1).(r–1) bậc tự do.
Cách 2: Sử dụng hàm CHITEST trong Excel: CHITEST (n
ij

ij
), với lưu ý số lượng
các giá trị của n
ij
và γ
ij
phải bằng nhau.
 Kết luận
Nếu → Chấp nhận giả thiết H
0
.
Hoặc kết quả hàm CHITEST > α =0.01 → Chấp nhận giả thiết H

0
.
 Bài làm.
1. Kết quả tính bằng tay
H
0
: Tuổi và thu nhập không phụ thuộc nhau.
Áp dụng công thức => T
qs
=
6.854861
Ta có bậc tự do: (3-1)(3-1)=4 và mức ý nghĩa 1% tra bảng ta được c =
13.28
T
qs
< c chấp nhận giả thiết H
0.
Kết luận tuổi và thu nhập không phụ thuộc nhau.
2. Tính bằng excel
Bước 1: Lập giả thiết H
0
: Tuổi và thu nhập không phụ thuộc nhau.
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 23
io oj
ij ij
n n
ˆ
n np
n
= =

ij
ˆ
n
2
k r
ij ij
ij
j 1 i 1
ˆ
(n n )
T
ˆ
n
= =

=
∑∑
22
0
α
χχ
<
2
k r
ij ij
ij
j 1 i 1
ˆ
(n n )
T

ˆ
n
= =

=
∑∑
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG

Nhập bảng số liệu
Bước 2: Tính tổng hàng và tổng cột.
Đặt con trỏ tại ô B14 rồi giữ chuột kéo đến ô E17.
Sau đó nhấn nút trong Tab
Home.
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 24
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG

Ta được tổng hàng và tổng cột
GVHD: GS-TS: NGUYỄN ĐÌNH HUY 25

×