1
ðẠI HỌC QUỐC GIA THÀNH PHỒ HỒ CHÍ MINH
TRƯỜNG ðẠI HỌC BÁCH KHOA
*****¥*¥*****
BÁO CÁO: BÀI TẬP LỚN
XÁC SUẤT THỐNG KÊ
TP.HỒ CHÍ MINH , THÁNG 11 NĂM 2010
GVHD: PGS.TS NGUYỄN ðÌNH HUY
SV: NGUYỄN VĂN HỮU
MSSV: 20901139
NHÓM: 04
ðỀ SỐ 4
2
BÀI 1
A. Ví dụ 3.4/161 SGK
Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo ba yếu tố: pH (A),
nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng sau:
Yếu tố B
Yếu tố A
B1 B2 B3 B4
A1 C1 9 C2 14 C3 16 C4 12
A2 C2 12 C3 15 C4 12 C1 10
A3 C3 13 C4 14 C1 11 C2 14
A4 C4 10 C1 11 C2 13 C3 13
Hãy đánh giá về ảnh hưởng của các yếu tố trên đến hiệu suất phản ứng?
Phương pháp: PHÂN TÍCH PHƯƠNG SAI BA NHÂN TỐ
Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên các giá trị quan sát
G (i = 1, 2 r: yếu tố A; j = 1, 2 r: yếu tố B; k = 1, 2 r: yếu tố C).
Mô hình:
Khi nghiên cứu ảnh hưởng của hai yếu tố, mỗi yếu tố có n mức, thì người ta dùng mô hình vuông
la tinh n×n. Ví dụ như mô hình vuông la tinh 4×4:
B C D A
C D A B
D A B C
A B C D
Mô hình vuông la tinh ba yếu tố được trình bày như sau:
Yếu tố B
Yếu tố
A
B1 B2 B3 B4
A1 C1 Y
111
C2 Y
122
C3 Y
133
C4 Y
144
T
1
A2 C2 Y
212
C3 Y
223
C4 Y
234
C1 Y
241
T
2
A3 C3 Y
313
C4 Y
324
C1 Y
331
C2 Y
342
T
3
A4 C4 Y
414
C1 Y
421
C2 Y
432
C3 Y
443
T
4
T
.i.
T
.1.
T
.2.
T
.3.
T
.4.
3
Bảng ANOVA:
Nguồn sai số Bậc tự do
Tổng số bình
phương
Bình phương trung
bình
Giá trị thống kê
Yếu tố A
(Hàng)
(r-1)
SSR=
∑
=
−
r
i
i
r
T
r
T
1
2
2
2
MSR=
)1( −r
SSR
F
R
=
MSE
MSR
Yếu tố B
(Cột)
(r-1)
SSC=
∑
=
−
r
j
j
r
T
r
T
1
2
2
2
MSC=
)1( −r
SSC
F
C
=
MSE
MSC
Yếu tố C (r-1)
SSF=
∑
=
−
r
k
k
r
T
r
T
1
2
2
2
MSF=
)1( −r
SSF
F=
MSE
MSF
Sai số (r-1)(r-2)
SSE=SST –
(SSF+SSR+SSC)
MSE=
)2)(1( −− rr
SSE
Tổng cộng (r
2
-1)
SST=
2
2
2
r
T
Y
ijk
−ΣΣΣ
Trắc nghiệm
•
Giả thiết:
H
0
: µ
1
= µ
2
= = µ
k
↔ Các giá trị trung bình bằng nhau
H
1
: µ
i
≠
µ
j
↔ Có ít nhất hai giá trị trung bình khác nhau
•
Giá trị thống kê: F
R
, F
C
, F
•
Biện luận
Nếu F
R
< F
α
(r-1)(r-2) → Chấp nhận H
0
đối với yếu tố A
Nếu F
C
< F
α
(r-1)(r-2) → Chấp nhận H
0
đối với yếu tố B
Nếu F < F
α
(r-1)(r-2) → Chấp nhận H
0
đối với yếu tố C
Bài làm:
Nhập dữ liệu vào bảng tính
4
Thiết lập các biểu thức và tính các giá trị thống kê
1. Tính các giá trị Ti , T.j., T k và T
• Các giá trị Ti
Chọn ô B7 và chọn biểu thức =SUM(B2:E2)
Chọn ô C7 và nhập biểu thức =SUM(B3:E3)
Chọn ô D7 và nhập biểu thức =SUM(B4:E4)
Chọn ô E7 và nhập biểu thức =SUM(B4:E4)
• Các giá trị T.j.
Chọn ô B8 và nhập biểu thức =SUM(B2:B5)
Dùng con trỏ kéo ký hiệu tự điền từ ô B8 đến ô E8
• Các giá trị T k
Chọn ô B9 và nhập biểu thức =SUM(B2,C5,D4,E3)
Chọn ô C9 và nhập biểu thức =SUM(B3,C2,D5,E4)
Chọn ô D9 và nhập biểu thức =SUM(B4,C3,D2,E5)
Chọn ô E9 và nhập biểu thức =SUM(B5,C4,D3,E2)
• Giá trị T…
Chọn ô B10 và nhập biểu thức=SUM(B2:E5)
2. Tính các giá trị G
Chọn ô G7 và nhập biểu thức =SUMSQ(B7:E7)
Dùng con trỏ kéo ký hiệu tự điền từ ô G7 đến ô G9
Chọn ô G10 và nhập biểu thức =POWER(B10,2)
Chọn ô G11 và nhập biểu thức =SUMSQ(B2:E5)
3. Tính các giá trị SSR, SSC, SSF, SST và SSE
• Các giá trị SSR, SSC, SSF
Chọn ô I7 và nhập biểu thức =G7/4-39601/POWER(4,2)
Dùng con trỏ kéo ký hiệu tự điền từ ô I7 đến ô I9
• Giá trị SST
Chọn ô I11 và nhập biểu thức =G11-G10/POWER(4,2)
• Giá trị SSE
Chọn ô I10 và nhập biểu thức =I11-SUM(I7:I9)
4. Tính các giá trị MSR, MSC, MSF và MSE
• Giá trị MSR, MSC, MSF
Chọn ô K7 và nhập biểu thức =I7/(4-1)
Dung con trỏ kéo ký hiệu tự điền từ ô K7 đến ô K9
5
Giá trị MSE:
Chọn ô K10 và nhập biểu thức =I10/((4-1)*(4-2))
Tính các giá trị F:
Chọn ô M7 và nhập biểu thức =K7/$K$10
Dùng con trỏ kéo ký hiệu tự điền từ ô M7 đến M9.
Kết quả và biện luận
F
R
=3.11 < F
0.05
(3,6)=4.76 => chấp nhận H
0
(pH)
F
C
=11.95 > F
0.05
(3,6)=4.76 => bác bỏ H
0
(nhiệt độ)
F=30.05 > F
0.05
(3,6)=4.76 => bác bỏ H
0
(chất xúc tác)
Vậy chỉ có nhiệt ñộ và chất xúc tác gây ảnh hưởng ñến hiệu suất phản ứng.
B. Ví dụ 4.2/170 SGK
Người ta dùng ba mức nhiệt độ gồm 105, 120 và 135
°
C kết hợp với ba khoảng thời gian là 15,
30 và 60 phút để thực hiện một phản ứng tổng hợp. Các hiệu suất của phản ứng (%) được trình
bày trong bảng sau:
Thời gian (phút) Nhiệt độ (°C) Hiệu suất (%)
X
1
X
2
Y
15 105 1.87
30 105 2.02
60 105 3.28
15 120 3.05
30 120 4.07
60 120 5.54
15 135 5.03
30 135 6.45
60 135 7.26
6
Hãy cho biết yếu tố nhiệt độ và thời gian/hoặc yếu tố thời gian có liên quan tuyến tính với hiệu
suất của phản ứng tổng hợp? Nếu có thì điều kiện nhiệt độ 115°C trong vòng 50 phút thì hiệu
suất phản ứng sẽ là bao nhiêu?
Phương pháp:
HỒI QUY TUYẾN TÍNH ðA THAM SỐ
Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y có liên quan đến k biến
số độc lập X
i
(i=1,2, ,k) thay vì chỉ có một như trong hồi quy tuyến tính đơn giản.
Phương trình tổng quát
Ŷ
x
0
,x
1
, ,x
k
= B
0
+ B
1
X
1
+ + B
k
X
k
Bảng ANOVA
Nguồn sai số Bậc tự do Tổng số bình phương
Bình phương trung
bình
Giá trị thống
kê
Hồi quy K SSR
MSR=
k
SSR
F=
MSE
MSR
Sai số N-k-1 SSE
MSE =
)1( −− kN
SSE
Tổng cộng N-1 SST = SSR + SSE
Giá trị thống kê
Giá trị R-bình phương:
kFkN
kF
SST
SSR
R
+−−
==
)1(
2
(
81.0
2
≥R
là khá tốt)
ðộ lệch chuẩn:
)1( −−
=
kN
SSE
S
(
30.0
≤
S
là khá tốt)
Trắc nghiệm
•
Giá trị thống kê: F
•
Trắc nghiệm t:
H
0
: β
i
= 0 ↔ Các hệ số hồi quy không có ý nghĩa.
H
1
: β
i
≠
0
↔ Có ít nhất vài hệ số hồi quy có ý nghĩa.
F <
2
α
t
(r-1)(r-2) → Chấp nhận H
0
•
Trắc nghiệm F
H
0
: β
i
= 0 ↔ Phương trình hồi quy không thích hợp.
7
H
1
: β
i
≠
0
↔ Phương trình hồi quy thích hợp với ít nhất vài hệ số B
i
.
F < F
α
(1,N-k-1) → Chấp nhận H
0
Bài làm:
Nhập dữ liệu vào bảng tính
Dữ liệu nhất thiết phải ñược nhập theo cột.
Áp dụng Regression
Nhấn lần lượt ñơn lệnh Tools và lệnh Data Analysis
Chọn chương trình Regression trong hộp thoại Data Analysis rồi nhấp OK
8
Trong hộp thoại Regression, lần lượt ấn định các chi tiết:
− Phạm vi của biến số Y (input Y range)
− Phạm vi của biến số X (input X range)
− Nhãn dữ liệu (Labels)
− Mức tin cậy (Confidence level)
− Tọa độ đầu ra (Output range)
− Đường hồi quy (Line Fit Plots),…
9
Các giá trị đầu ra cho bảng sau:
Phương trình hồi quy:
Ŷx
1
=f(X
1
)
Ŷx
1
=2.73 + 0.04X
1
(R
2
=0.21, S=1.81)
10
t
0
=2.19 < t
0.05
= 2.365 (hay P
v
2
=0.071>α=0.05) => Chấp nhận giả thiết H
0
t
1
=1.38 < t
0.05
= 2.365 (hay P
v
=0.209>α=0.05) => Chấp nhận giả thiết H
0
F=1.95 < F
0.05
= 5.590 (hay F
s
=0.209>α=0.05) => Chấp nhận giả thiết H
0
Vậy cả hai hệ số 2.73 (B
0
) và 0.04 (B
1
) của phương trình hồi quy
Ŷx
1
= 2.73 + 0.04X
1
đều không
có ý nghĩa thống kê. Nói cách khác phương trình hồi quy này không thích hợp.
Phương trình hồi quy:
Ŷ
x
2
= f(X
2
)
Ŷ
x
2
= -11.141 + 0.129X
2
(R
2
=0.76,S=0.99)
11
t
0
= 3.418 > t
0.05
= 2.365 (hay P
v
2
=0.011 > α=0.05) =>Bác bỏ giả thiết H
0
t
1
= 4.757 > t
0.05
= 2.365(hay P
v
=0.00206 < α=0.05) =>Bác bỏ giả thiết H
0
F= 22.631 > F=5.590(hay F
s
=0.00206 < α=0.05) =>Bác bỏ giả thiết H
0
Vậy cả hai hệ số -11.141 (B
0
) và 0.129 (B1) của phương trình hồi quy
Ŷx
2
= -11.141 + 0.129X
2
đều có ý nghĩa thống kê. Nói cách khác phương trình hồi quy
này thích hợp.
Kết luận: yếu tố nhiệt ñộ có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp.
Phương trình hồi quy:
Ŷx
1
,x
2
=f(X
1
,X
2
)
Ŷx
1
,x
2
= -12.70 + 0.04X
1
+ 0.13X
2
(R
2
=0.97; S=0.33)
12
t
0
=11.528 > t
0.05
=2.365 (hay P
v
2
=2.260.10
-5
<α=0.05)=>Bác bỏ giả thiết H
0
t
1
=7.583 > t
0.05
=2.365 (hay P
v
=0.00027<α=0.05) =>Bác bỏ giả thiết H
0
F=131.392 > 5.14 (hay F
s
=1.112*10
-5
<α=0.05) =>Bác bỏ giả thiết H
0
Vậy cả hai hệ số -12.70 (B
0
), 0.04 (B1) và 0.13 (B1) của phương trình hồi quy
Ŷx
1
,x
2
=-12.7 +
0.04X
1
+ 0.13X
2
đều có ý nghĩa thống kê. Nói cách khác, phương trình hồi quy này thích hợp.
Kết luận: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố là thời
gian và nhiệt ñộ.
Sự tuyến tính của phương trình
Ŷx
1
,x
2
= -12.70 + 0.04X
1
+ 0.13X
2
. Có thể được trình bày trong
biểu đồ phân tán (scatter plots):
13
Biểu ñồ phân tán
0
1
2
3
4
5
6
7
8
0 2 4 6 8
Y
Y dự
ñoán
Nếu muốn dự đoán hiệu suất bằng phương trình hồi quy Y= -12.70 + 0.04X
1
+ 0.13X
2
chỉ cần chọn một ô, ví dụ như:B31, sau đó nhập hàm=B28+B29*50+EB30*115 và được kết quả
như sau:
Vậy hiệu suất phản ứng theo
dự ñoán ở 115°C trong vòng
50 phút là 4.3109%.
14
Bài 2:
Hai máy cùng gia công một loại chi tiết. Người ta muốn kiểm tra xem hai máy này có độ
chính xác như nhau hay không? Để làm điều đó người ta lấy ngẫu nhiên từ mỗi máy 7 chi tiết,
đem đo và thu được kết quả sau:
Máy A 135 138 136 140 138 135 139
Máy B 140 135 140 138 135 138 140
Với mức ý nghĩa 0.05 có thể cho rằng hai máy này có độ chính xác như nhau hay không?
Biết kích thước chi tiết có phân phối chuẩn.
Phương pháp: so sánh phương sai
Nhập dữ liệu vào bảng tính:
Áp dụng “F-Test Two-Sample for Variances”
15
Kết quả và biện luận:
22
0
:
BA
H
σσ
= “Hai máy có độ chính xác
như nhau.
22
:
BAt
H
σσ
< “Độ chính xác của máy A
cao hơn máy B”
781.0233.0
05.0
=<= FF
⇒
Bác bỏ giả
thiết H
0
Vậy độ chính xác của máy A cao hơn
máy B
BÀI 3:
Một cửa hàng lớn có bán ba loại giày A,B,C. Theo dõi số khách hàng mua các loại giày này
trong 5 ngày, người quản lý thu ñược bảng số liệu sau:
Loại giày
A B C
28 35 33
21 42 38
20 32 31
18 25 42
23 27 29
Với mức ý nghĩa α=1% hãy so sánh lượng tiêu thụ trung bình của ba loại giày nói trên.
Bài làm:
ðây là bài toán phân tích phương sai một yếu tố, mức tiêu thụ ảnh hưởng bởi loại giày
Giả thiết H
0
: µ
1
= µ
2
= µ
3
; tức lượng tiêu thụ trung bình là bằng nhau
Nhập dữ liệu vào bảng tính
Áp dụng Anova: Single Factor
Nhấn lần lượt ñơn lệnh Tools và lệnh Data Analysis.
Chọn trương trình Anova: Single Factor trong hộp thoại Data Analysis rồi nhấn nút OK
Trong hộp thoại Anova: single factor lần lượt ấn định
−
Phạm vi đầu vào(input range)
16
−
Cách xắp xếp theo hang hay cột(group by)
−
Nhấn dữ liệu(labels in fisrt row/column)
−
Phạm vi đầu ra(output range)
Sau khi nhấn OK xuất hiện bảng Anova:
Kết luận:
Từ giá trị trong bảng Anova:
F = 7.5864 > F
0.01
= 6.9266 => Bác bỏ H
0
=> Lượng tiêu thụ của 3 loại giày trên là khác nhau
Lượng tiêu thụ trung bình của loại giày A là 22
Lượng tiêu thụ trung bình của loại giày B là 32.2
Lượng tiêu thụ trung bình của loại giày C là 34.6
=> Lượng tiêu thụ trung bình: Loại C > Loại B > loại A
17
Câu 4: Với mức ý nghĩa 0.03 hãy phân tích vai trò ngành nghề (chính, phụ) trong hoạt
ñộng kinh tế của các hộ gia ñình ở một vùng nông thôn trên cơ sở bảng số liệu về thu
nhập trung bình của một hộ tương ứng với các ngành nghề nói trên như sau:
1.Cơ sở lý thuyết:
Đây là dạng toán phân tích phương sai hai yếu tố (không lặp):
Giả thiết: H
0
– các giá trị trung bình là bằng nhau
ðối giả thiết: H
1
– các giá trị trung bình là không bằng nhau.
Nhập dữ liệu vào máy tính:
Áp dụng: “Anova: Two – Factor without Replication”
a)Tại nhóm lệnh Data analysis, chọn Anova:Two – Factor without Replication”.
b)Trong hộp thoại Anova:Two – Factor without Replication, lần lượt ấn định các giá trị:
- Phạm vi đầu vào (input range): chọn bảng tính ta vừa tạo.
-Nhãn dữ liệu (labels in first row/column)
-Ngưỡng tin cậy: Alpha = 3% = 0.03
-Phạm vi đầu ra (output Range).
Nghề phụ
Nghề chính
(1) (2) (3) (4)
Trồng lúa (1)
Trồng cây ăn trái (2)
Chăn nuôi(3)
Dịch vụ (4)
3.5
5.6
4.1
7.2
7.4
4.1
2.5
3.2
8.0
6.1
1.8
2.2
3.5
9.6
2.1
1.5
18
Sau
khi click Ok thì kết quả thu ñược như sau:
F
R
= 1.9966 < F
0.03
= 4.7407 => chấp nhận giả thiết H
0
(nghề chính).
F
C
= 0.1106 < F
0.03
= 4.7407 => chấp nhận giả thiết H
0
(nghề phụ).
Vậy, thu nhập của gia đình giống nhau xét cho nghề chính hay nghề phụ.
19
Bài 5: Với mức ý nghĩa 0.02 hãy phân tích sự biến ñộng của thu nhập ($/tháng/người)
trên cơ sở số liệu ñiều tra về thu nhập trung bình của 4 loại ngành nghề ở 4 ku vực khác
nhau sau ñây:
Nơi làm việc Loại ngành
nghề
V1 V2 V3 V4
1
2
3
4
212
222
241
240
200
205
250
228
230
222
245
230
220
225
235
240
Bài làm:
Phương pháp: phân tích phương sai hai yếu tố không lặp
Nhập dữ liệu vào bảng tính:
Áp dụng: “Anova: Two – Factor without Replication”
a)Tại nhóm lệnh Data analysis, chọn Anova:Two – Factor without Replication”.
b)Trong hộp thoại Anova: Two – Factor without Replication, lần lượt ấn định các giá trị:
- Phạm vi đầu vào (Input Range): chọn bảng tính ta vừa tạo.
-Nhãn dữ liệu (labels in first row/column)
-Ngưỡng tin cậy: Alpha = 2% = 0.02
-Phạm vi đầu ra (Output Range).
20
Sau
khi click Ok thì kết quả thu ñược như sau:
F
R
= 8.7831 > F
0.02
= 5.5097 => bác bỏ giả thiết H
0
(loại ngành nghề).
F
C
= 1.2328 < F
0.02
= 5.5097 => chấp nhận giả thiết H
0
(nơi làm việc).
Vậy chỉ có loại ngành nghề ảnh hưởng đến thu nhập trung bình trên tháng của một người.