Tải bản đầy đủ (.docx) (29 trang)

báo cáo bài tập lớn xác suất thống kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (657.82 KB, 29 trang )

ĐẠI HỌC QUỐC GIA TPHCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
……… oOo…………
BÁO CÁO BÀI TẬP LỚN
XÁC SUẤT THỐNG KÊ
GVHD: PGS-TS Nguyễn Đình Huy
Nhóm: 2
SV: NGÔ VIẾT MINH DUY
MSSV: 1410574
Tp. Hồ Chí Minh,05/2015
1
PGS.TS NGUYỄN ĐÌNH HUY
HUY
MỤC LỤC
Bài 1 3
Bài 2 14
Bài 3 18
Bài 4 20
Bài 5 25
Bài 1
2
Trình bài lại ví dụ 3.4 trang 207 và ví dụ 4.2 trang 216 sách bài tập Xác suất thống
kê 2012 (Nguyễn Đình Huy)
Ví dụ 3.4: Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu
theo 3 yếu tố: pH (A), nhiệt độ (B) và chất xúc tác (C) được trình bày trong
bảng sau:
Yếu tố Yếu tố
B
A B1 B2 B3 B4
A1 C1 9 C2 14 C3 16 C4 12
A2 C2 12 C3 15 C4 12 C1 10


A3 C3 13 C4 14 C1 11 C2 14
A4 C4 10 C1 11 C2 13 C3 13
Hãy đánh giá về ảnh hưởng của các yếu tố trên hiệu suất phản ứng?
Bài làm:
• Dạng bài: Phân tích phương sai ba yếu tố.
• Ta giả thiết:
H
0
: Các giá trị trung bình của ba yếu tố pH (A), nhiệt độ (B) và chất xúc tác
(C) bằng nhau.
Ta tiến hành phân tích phương sai ba yếu tố trên và dựa trên bảng ANOVA để
kết luận ảnh hưởng của các yếu tố đến hiệu suất của phản ứng.
• Cơ sở lý thuyết:
Khi phân tích phương sai ba yếu tố ta thường dung mô hình vuông La tinh có
dạng như sau:
Yếu tố Yếu tố
B
A B1 B2 B3 B4 T
i
A1 C1 Y
111
C2 Y
122
C3 Y
133
C4 Y
144
T
1
3

A2 C2 Y
212
C3 Y
223
C4 Y
234
C1 Y
241
T
2
A3 C3 Y
313
C4 Y
324
C1 Y
331
C2 Y
342
T
3
A4 C4 Y
414
C1 Y
421
C2 Y
432
C3 Y
443
T
4

T
.i.
T
.1.
T
.2.
T
.3.
T
.4.
Bảng ANOVA:
Nguồn
sai số
Bậc tự do Tổng số bình phương
Bình phương
trung bình
Giá trị thống kê
Yếu tố A
(hàng)
r – 1
MSR = SSR / (r -
1)
F
R
= MSR / MSE
Yếu tố B
(cột)
r – 1
MSC = SSC / (r -
1)

FC = MSC /MSE
Yếu tố C r – 1
MSF = SSF / (r -
1)
F = MSF / MSE
Sai số (r-1)(r-2)
SSE = SST – (SSF + SSR +
SSC)
MSE = SSE/(r-1)
(r-2)
Tổng
cộng
r
2
– 1
Giải toán trên Excel:
Nhập dữ liệu vào bảng như sau:
4
• Tính các giá trị T
i…
T
.j.
T
k
và T
- Các giá trị T
i
Chọn ô B7 và nhập biểu thức =SUM(B2:E2)
Chọn ô C7 và nhập biểu thức =SUM(B3:E3)
Chọn ô D7 và nhập biểu thức =SUM(B4:E4)

Chọn ô E7 và nhập biểu thức =SUM(B5:E5)
- Các giá trị T
.j.
Chọn ô B8 và nhập biểu thức =SUM(B2:B5)
Dùng con trỏ kéo kí hiệu tự điền từ ô B8 đến E8
- Các giá trị T
k
Chọn ô B9 và nhập biểu thức =SUM(B2;C5;D4;E3)
Chọn ô C9 và nhập biểu thức =SUM(B3;C2;D5;E4)
Chọn ô D9 và nhập biểu thức =SUM(B4;C3;D2;E5)
Chọn ô E9 và nhập biểu thức =SUM(B5;C4;D3;E2)
- Giá trị T…
Chọn ô B10 và nhập biểu thức =SUM(B2:E5)
• Tính các giá trị và
- Các giá trị và
Chọn ô G7 và nhập biểu thức =SUMSQ(B7:E7)
Dùng con trỏ kéo kí hiệu tự điền từ ô G7 đến ô G9
- Giá trị
Chọn ô G10 và nhập biểu thức =POWER(B10,2)
- Giá trị
Chọn ô G11 và nhập biểu thức =SUMSQ(B2:E5)
• Tính các giá trị SSR, SSC, SSF, SST và SSE
- Các giá trị SSR, SSC và SSF
Chọn ô I7 và nhập biểu thức =G7/4-39601/POWER(4,2)
Dùng con trỏ kéo kí hiệu tự điền từ ô I7 đến ô I9
- Giá trị SST
Chọn ô I11 và nhập biểu thức =G11-G10/POWER(4,2)
Giá trị SSE
Chọn ô I10 và nhập biểu thức =I11-SUM(I7:I9)
• Tính các giá trị MSR, MSC, MSF, và MSE

- Các giá trị MSR, MSC và MSF
Chọn ô K7 và nhập biểu thức =I7/(4-1)
Dùng con trỏ kéo kí hiệu tự điền từ ô K7 đến ô K9
- Giá trị MSE
Chọn ô K10 và nhập biểu thức =I10/((4-1)*(4-2))
• Tính giá trị G và F
Chọn ô M7 và nhập biểu thức =K7/0.3958
5
Dùng con trỏ kéo kí hiệu tự điền từ ô M7 đến ô M9
Kết quả và biện luận:
F
R
= 3,1 < F
0.05
(3.6) =4,76 => Chấp nhận H
0
(pH)
F
c
= 11,95˃ F
0.05
(3.6) =4,76 => Bác bỏ H
0
(Nhiệt độ)
F = 30,05 ˃ F
0.05
(3.6) =4,76 => Bác bỏ H
0
(Chất xúc tác)
Vậy chỉ có nhiệt độ và chất xúc tác gây ảnh hưởng tới hiệu suất.

Ví dụ 4.2: Người ta dung ba mức nhiệt độ gồm 105, 120 và 135
o
C kết hợp với
ba khoảng thời gian là 15, 30 và 60 phút để thực hiện một phản ứng tổng hợp.
Các hiệu suất của phản ứng (%) được trình bày trong bảng sau đây:
Thời gian
(phút)
X
1
Nhiệt độ (
o
C)
X
2
Hiệu suất (%)
Y
15 105 1.87
30 105 2.02
60 105 3.28
15 120 3.05
30 120 4.07
60 120 5.54
15 135 5.03
30 135 6.45
60 135 7.26
6
Hãy cho biết yếu tố nhiệt độ hoặc yếu tố thời gian có liên quan tính tuyến với
hiệu suất của phản ứng tổng hợp? Nếu có thì điều kiện nhiệt độ 115
o
C trong

vòng 50 phút thì hiệu suất phản ứng sẽ là bao nhiêu?
Bài làm:
• Dạng bài: Hồi quy tuyến tính đa tham số.
• Ta giả thiết:
H
0
: Phương trình hồi quy không thích hợp.
Ta tìm phương trình hồi quy tính tuyến đa tham số để chỉ ra sự phụ thuộc hoặc
không phụ thuộc giữa yếu tố thời gian (X
1
) và nhiệt độ (X
2
) với hiệu suất phản
ứng tổng hợp (Y).
• Cơ sở lý thuyết:
Phương trình tổng quát cho biến phụ thuộc Y có liên quan đến k biến số độc
lập X
i
(i=1,2, ,k):
B
0
+ B
1
X
1
+ B
2
X
2
+ … + B

k
X
k
Bảng ANOVA:
Nguồn sai
số
Bậc tự
do
Tổng số bình phương
Bình phương trung
bình
Giá trị thống kê
Hồi quy k SSR MSR = SSR / k F = MSR / MSE
Sai số N - k - 1 SSE
MSE = SSE / (N - k -
1)
Tổng cộng N - 1 SST = SSR + SSE
Giá trị thống kê:
• Giá trị R-bình phương:
Giá trị R
2
: (R
3
≤ 0.81 là khá tốt)
Giá trị R
2
được hiệu chỉnh (Adjusted R Square) sẽ trở nên âm hay không xác
định nếu R
2
hay N nhỏ

• Độ lệch chuẩn:
(S ≤ 0.30 là khá tốt)
Trắc nghiệm thống kê:
7
• Trắc nghiệm t:
Bậc tự do của t: = N - k - 1
;
• Trắc nghiệm F:
Bậc tự do của giá trị F: v
1
= 1, v
2
= N -k - 1
Giải toán trên Excel:
Nhập dữ liệu theo cột:
Sử dụng Regression: Data ->DataAnalysis
Trong cửa sổ DataAnalysis chọn Regression:
8
• Hồi quy theo Thời gian(X
1
):
Các thông số:
- Input Y Range: Phạm vi biến số Y
- Input X Range: Phạm vi biến số X
- Labels: Dữ liệu bao gồm nhãn
- Confidence Level: Mức tin cậy (chọn 95%)
- Output options: Chọn New Worksheet Ply (Xuất kết quả ở sheet Thời
gian)
9
Kết quả:

Phương trình hồi quy:
Ŷ
X1
= f(X
1
) = 2.7667 + 0.0445X
1
với R
2
= 0.2139 và S = 1.8112
t
0
= 2.1290 < t
0.05
= 2.365 (tra bảng VII với n = 7, α = 0.025) hay =
0.0708 > α = 0.05
 Nên chấp nhận giả thiết H
0
.
t
1
= 1.3802 < t
0.05
= 2.365 hay P
V
= 0.2100 > α = 0.05
 Nên chấp nhận giả thiết H
0
.
F = 1.9049 < = 5.590 (tra bảng VIII với n

1
= 1 và n
2
= 7) hay = 0.2100 >α
= 0.05
 Nên chấp nhận giả thiết H
0
.
Vậy phương trình hồi quy trên không có ý nghĩa thống kê. Nói 1 cách khác,
phương trình hồi quy này không thích hợp.
Kết luận: Yếu tố thời gian không có liên quan tính tuyến với hiệu suất của
phản ứng tổng hợp.
10
• Hồi quy theo Nhiệt độ(X
2
):
Các thông số ở cửa sổ Regression như Hồi quy theo X
1
, trừ Input X Range
là $B$1:$B$10
Kết quả:
Phương trình hồi quy:
Ŷ
X2
= f(X
2
) = -11.1411 + 0.1286X
2
với R
2

= 0.7638 và S = 0.9929
t
0
= 3.4179 > t
0.05
= 2.365 hay = 0.0112 < α = 0.05
 Nên bác bỏ giả thiết H
0
.
t
1
= 4.7572 > t
0.05
= 2.365 hay P
V
= 0.0021 < α = 0.05
 Nên bác bỏ giả thiết H
0
.
F = 22.6309 > = 5.590 hay = 0.0021 <α = 0.05
 Nên bác bỏ giả thiết H
0
.
Vậy phương trình hồi quy trên có ý nghĩa thống kê. Nói 1 cách khác,
phương trình hồi quy này thích hợp.
Kết luận: Yếu tố nhiệt độ có liên quan tính tuyến với hiệu suất của phản
ứng tổng hợp.
11
• Hồi quy theo Thời gian (X
1

) và Nhiệt độ (X
2
):
Các thông số ở cửa sổ Regression như Hồi quy theo X
1
, trừ Input X Range
là $A$1:$B$10
Kết quả:
Phương trình hồi quy:
Ŷ
X1, X2
= f(X
1
,X
2
) = -12.7000 + 0.0445X
1
+ 0.1286X
2
với R
2
= 0.9777 và
S = 0.3297
t
0
= 11.5283 > t
0.05
= 2.365 hay = 2.5607E-05 < α = 0.05
 Nên bác bỏ giả thiết H
0

.
t
1
= 7.5827 > t
0.05
= 2.365 hay P
V
= 0.0003 < α = 0.05
 Nên bác bỏ giả thiết H
0
.
t
2
= 14.3278 > t
0.05
= 2.365 hay P
V
= 7.2338E-6 < α = 0.05
12
 Nên bác bỏ giả thiết H
0
.
F = 131.3921 > F
0.05
= 5.140 (tra bảng VII với n
1
= 2 và n
2
= 6) hay F
S

=
0.0021 <α = 0.05
 Nên bác bỏ giả thiết H
0
.
Vậy phương trình hồi quy trên có ý nghĩa thống kê. Nói 1 cách khác,
phương trình hồi quy này thích hợp.
Kết luận: Hiệu suất phản ứng có liên quan tính tuyến với cả hai yếu tố là
thời gian và nhiệt độ.
Dữ liệu với hàm hồi quy Y = -12.7000 + 0.0445X
1
+ 0.1286X
2
:
Vẽ
biểu
đồ:
chọn ô
C2,
vào
Insert
->Scatter ->ScatterwithonlyMaker
Sự tính tuyến của phương trình hồi quy Y
X1, X2
= -12.7000 + 0.0445X
1
+
0.1286X
2
có thể được trình bày trên biểu đồ phân tán:

13
Dự đoán hiệu suất của phản ứng bằng phương trình hồi quy tại nhiệt thời gian (X
1
)
50 phút, nhiệt độ (X
2
) 115
o
C:
BÀI 2
Kiểm tra sức khỏe của 29 công nhân ở năm phân xưởng của nhà máy sản xuất pin
ắc-quy, người ta đo được mật độ nhiễm chì của họ như sau:
Số thứ tự
quan sát
Mức nhân tố
F1 F2 F3 F4 F5
1
2
3
4
5
6
7
0,25
0,28
0,32
0,22
0,22
0,22
0,25

0,24
0,28
0,31
0,21
0,22
0,25
0,26
0,28
0,25
0,22
0,28
0,31
0,31
0,33
0,30
0,29
0,25
0,22
0,28
0,28
0,25
0,30
14
Hàm
lượng
dự
đoán
(Y’)
Hàm lượng thực nghiệm (Y)
Công thức ô E3:

=B1+B2*E1+B3*
E2
So sánh mức độ nhiễm chì của các công nhân của nhà máy nói trên với mức ý
nghĩa α=3%.
Bài làm:

• Dạng bài: Phân tích phương sai một yếu tố.
• Ta giả thiết:
H
0
: Các giá trị trung bình mức độ nhiễm chì của các công nhân của năm
phân xưởng bằng nhau.
H
1
: Các giá trị trung bình mức độ nhiễm chì của các công nhân của năm
phân xưởng khác nhau
Ta tiến hành phân tích phương sai một yếu tố trên và dựa trên bảng ANOVA để
so sánh mức độ nhiễm chì của các công nhân của nhà máy nói trên.
• Cơ sở lý thuyết:
Khi phân tích phương sai một nhân tố ta tiến hành dựng mô hình:
Các mức nhân tố
1 2 k
=
=

1
1
k
i
n n

x
11
x
12
n
1k
x
21
x
22
n
2k

1
1n
x
2
2n
x

k
n k
x
15
Tổng số
T
1
T
2
T

k
=
=

1
k
k
i
T T
Trung
bình
1
x
2
x

=
T
x
n
Bảng ANOVA
Nguồn Tổng
bình
phương
Bậc tự do
Trung
bình bình
phương
Tỷ số F
Nhân tố SSF k – 1 MSF MSF/MSE

Sai số SSE n – k MSE
Tổng số SST n – 1
Nhập dữ liệu vào bảng như sau:
N
i
=count(số hàng)
T
i
=sum(cột)
Giải toán trên Excel:
16
Vào Data/Data Analysis.
Chọn Anova: Single Factor.
Trong hộp thoại
Anova Single
Factor điền dữ liệu
vào: Chọn vùng dữ
liệu, chỉnh lại chỉ
số Alpha: 0,03.
17
Sau đó bấm OK để cho ra kết quả:
BÀI 3
Bảng sau đây cho ta phân bố thu nhập của 2 nhóm tuổi: Nhóm tuổi từ 40 – 50 và nhóm tuổi từ 50
– 60
trong
số các
công
nhân
lành
nghề


Thụy
Điển
năm
1930
Nhóm
tuổi
Thu nhập
0 –
1
1 – 2 2 – 3 3 –
4
4 –
6
≥ 6
18
40 –
50
71 430 1072 160
9
1178 158
50 –
60
54 324 894 1202 903 112
Có sự khác nhau về phân bố thu nhập giữa 2 nhóm tuổi này trong số các công nhân lành nghề hay
không ? Mức ý nghĩa α = 5%.
Bài làm:

• Dạng bài: So sánh 2 tỉ số.
• Ta giả thiết:

H
0
: Sự phân bố thu nhập giữa hai nhóm tuổi này trong số các công nhân lành nghề là giống
nhau.
• H
1:
Sự phân bố thu nhập giữa hai nhóm tuổi này trong số các công nhân lành nghề là khác
nhau.
Ta tiến hành tính toán các tỉ số và so sánh để có thể kết luận phân bố thu nhập giữa 2 nhóm
tuồi này trong số các công nhân lành nghề có khác nhau hay không.
Giải toán trên Excel:
Nhập dữ liệu và tính tổng n
i
và m
j
vào bảng như sau:
Thực tế
Nhóm tuổi Thu nhập
0-1 1-2 2-3 3-4 4-6 ≥6 ni
40-50 71 430 1072 1609 1178 158 4518
50-60 54 324 894 1202 903 112 3489
mj 125 754 1966 2811 2081 270 8007
N
i
= sum(D4:I4).
M
j
= sum(D4:D5).
Tính dữ liệu kỳ vọngγ
ij

theo công thức γ
ij
= n
i
* m
j
/n ta được bảng sau:
19
Kì vọng
Nhóm tuổi
Thu nhập
0-1 1-2 2-3 3-4 4-6 ≥6
40-50 70.5320345 425.44923 1109.3278 1586.1244 1174.2173 152.3492
50-60 54.4679655 328.55077 856.67216 1224.8756 906.78269 117.6508
Tính P(X>χ²) = CHITEST (Bảng thực tế, Bảng kỳ vọng)
=CHITEST(C3:H4,C11:H12)= 0.5116
Phân tích kết quả: P(X> χ²) = 0.5116 > α= 0.05
Do đó được chấp nhậngiả thuyết H
o
.
Kết luận: Vậy mức thu nhập giữa 2 nhóm tuổi 40 - 50 và 50 - 60 là như nhau.
20
BÀI 4
Theo dõi số học sinh đến lớp muộn của 4 trường PTTH người ta thu được về số
lượng học sinh trung bình đến lớp muộn của các trường đó như sau:
Ngày trong
tuần
Trường PTTH
A B C D
Thứ hai 5 4 5 7

Thứ tư 4 5 3 2
Thứ sáu 4 3 4 5
Thứ bảy 4 4 3 2
Bạn có nhận xét gì về số lượng học sinh đến lớp muộn của các trường. Có sự khác
biệt gì về số lượng học sinh đến lớp muộn vào các ngày khác nhau trong tuần?
Mức ý nghĩa α= 1%.
BÀI LÀM
Nhận xét: Đây là bài toán phân tích phương sai hai nhân tố không lặp
 Giả thuyế t:
 “Các giá trị trung bình
bằng nhau”
21
 “Ít nhất có hai giá trị trung bình khác
nhau”
 Cơ sở lý thuyết:
Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai nhân tố trên
các giá trị quan sát Yij (i=1,2…r: nhân tố A; j=1,2…c: nhân tố B)
Mô hình:
22
BảngAnova
 Giá trị thống kê :
 Biện luận :
Nếu => Chấp nhận
giả thuyết (nhân tố ngày).
23
Nếu => Chấp
nhận (nhân tố trường).
• Ta giả thuyết
: nhân tố ngày không ảnh hưởng đến số lượng học sinh trung bình
đến lớp muộn của các trường đó.

: nhân tố trường khác không ảnh hưởng đến số lượng học sinh
trung bình đến lớp muộn của các trường đó.
THỰC HIỆN BÀI TOÁN BẰNG EXCEL
• Nhập bảng số liệu như hình dưới:
• Vào Data/Data analysis, chọn Anova: Two-Factor Without Replication,
bấm OK.
24
• Trên màn hình sẽ hiện lên hộp thoại của Anova: Two-Factor Without
Replication như hình dưới:
4
• Ta nhập các thông số như hình bên dưới:
+ Phạm vi của biến sô Y (Input Range): ta kéo từ ô A2 tới ô E6.
+ Nhấp vào Labels, điền giá trị Alpha là 0.01.
+ Tọa độ đầu ra Output Range: nhấp vào A8.
+ Nhấn OK.
25

×