BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
BÀI 1: Ví dụ 3.4/207/Sách BT XSTK 2012 ( NGUYỄN ĐÌNH HUY )
Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo 3 yếu tố :
pH(A), nhiệt độ (B), va chất xúc tác (C) được trình bày trong bảng sau:
Yếu tố
A
Yếu tố B
B1 B2 B3 B4
A1 C1 9 C2 14 C3 16 C4 12
A2 C2 12 C3 15 C4 12 C1 10
A3 C3 13 C4 14 C1 11 C2 14
A4 C4 10 C1 11 C2 13 C3 13
Hãy đánh giá về ảnh hưởng của các yếu tố trên hiệu suất phản ứng.
BÀI LÀM
Dạng bài toán phân tích phương sai 3 yếu tố :
• Bảng ANOVA
Nguồn sai số Bậc tự do Tổng số bình phương Bình phương trung bình Giá trị tống
kê
Yếu tố A (hàng) (r – 1)
Yếu tố B (cột) (r – 1)
Yếu tố C (r – 1)
Sai số (r – 1)(r – 2) SSE = SST - (SSF + SSR +
SSC)
Tổng cộng (r
2
– 1)
TÍNH TOÁN :
Ta nhập dữ liệu như bảng sau :
1
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Thiết lập các biểu thức và tính các giá trị thống kê
Tính các giá trị Ti ; T.j.; T k và T…
• Các giá trị Ti
- Chọn ô B7 và nhập vào biểu thức = SUM(B2:E2)
- Chọn ô C7 và nhập vào biểu thức = SUM(B3:E3)
- Chọn ô D7 và nhập vào biểu thức = SUM(B4:E4)
- Chọn ô E7 và nhập vào biểu thức = SUM(B5:E5)
• Các giá trị T.j.
- Chọn ô B8 và nhập vào biểu thức =SUM(B2:B5)
- Dùng con trỏ kéo ký hiệu tự điền từ ô B8 đến E8
• Các giá trị T k
- Chọn ô B9 và nhập vào biểu thức =SUM(B2,C5,D4,E3)
- Chọn ô C9 và nhập vào biểu thức =SUM(B3,C2,D5,E4)
- Chọn ô D9 và nhập vào biểu thức =SUM(B4,C3,D2,E5)
- Chọn ô E9 và nhập vào biểu thức =SUM(B5,C4,D3,E2)
• Giá trị T…
- Chọn ô B10 và nhập vào biểu thức =SUM(B2:E5)
Tính giá trị G và
G
&
- Chọn ô G7 và nhập vào biểu thức =SUMSQ(B7:E7)
- Dùng con trỏ kéo ký hiệu tự điền từ ô G7 đến G9
• Tính giá trị G
- Chọn ô G10 và nhập vào biểu thức =POWER(B10,2)
• Tính giá trị
G
&
- Chọn ô G11 và nhập vào biểu thức =SUMSQ(B2:E5)
Tính các giá trị SSR, SSC, SSF, SST và SSE
• Các giá trị SSR, SSC và SSF
- Chọn ô I7 và nhập vào biểu thức =G7/4-39601/POWER(4,2)
- Dùng con trỏ kéo ký hiệu tự điền từ ô I7 đến I9
• Giá trị SST
- Chọn ô I11 và nhập vào biểu thức =G11-G10/POWER(4,2)
• Giá trị SSE
- Chọn ô I10 và nhập vào biểu thức =I11-SUM(I7:I9)
Tính các giá trị MSR, MSC, MSF và MSE
• Các giá trị MSR, MSC và MSF
- Chọn ô K7 và nhập vào biểu thức =I7/(4-1)
- Dùng con trỏ kéo ký hiệu tự điền từ ô K7 đến K9
• Giá trị MSE
- Chọn ô K10 và nhập vào biểu thức =I10/((4-1)*(4-2))
Tính các giá trị
G
&
và F
- Chọn ô M7 và nhập vào biểu thức =K7/0.3958
- Dùng con trỏ kéo ký hiệu tự điền từ ô M7 đến M9.
2
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Áp dụng các công thức trên ta có bảng số liệu sau:
Kết quả và biện luận :
Với mức ý nghĩa ta có:
nên ta chấp nhận
nên ta bác bỏ
nên ta bác bỏ
Kết luận: Như vậy chỉ có nhiệt độ và chất xúc tác là gây ảnh hưởng đến hiệu suất.
3
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
BÀI 2 : Một nghiên cứu được tiến hành ở thành phố công nghiệp X để xác định tỉ lệ
những người đi làm bằng xe máy, xe đạp và xe buýt. Việc điều tra được tiến hành trên 2
nhóm. Kết quả như sau:
Xe maùy Buyt Xe ñaïp
Nöõ 25 100 125
Nam 75 120 205
Với mức ý nghĩa α = 0,05%, hãy nhận định xem có sự khác nhau về cơ cấu sử
dungh các phương tiện gia thông đi làm trong hai nhóm công nhân nam và nữ
không.
BÀI LÀM
CƠ SỞ LÍ THUYẾT : Dạng bài so sáng tỷ lệ
• Giả thiết:
Ho : P1=P
1,0
;P
2=
P
2,0
;….;P
k,0
các cặp P
i
và P
i,0
giống nhau.
H
1
: có ít nhất một cặp P
i
và P
i,0
khác nhau.
• Giá trị thống kê
2
=
O
i
: các tần số thực nghiệm.
E
i
: các tần số lý thuyết.
BIỆN LUẬN:
χ
1
>
χ
2
(a) bác bỏ giả thiết H
o
(DF=K-1)
Trong Excel có hàm Chitest có thể tính giá trị
χ
2
theo biểu thức:
2
=
O
i j
: các tần số thực nghiệm của ô thuộc hàng thứ I cột j.
E
i j
: các tần số lý thuyết của ô thuộc hàng thứ I cột j; r là số hàng; c là số cột.
• Xác suất P(X >
2
)
với bậc tự do DF= (r-1) (c-1)
Nếu P(X > ) ⇒ chấp nhận giả thiết H
o
và ngược lại.
TÍNH TOÁN
Bước 1: Nhập dữ liệu vào bảng tính.
4
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Sắp xếp dữ liệu theo bảng trắc nghiệm hai mẫu độc lập.
Bước 2: Tính các tổng số.
- Tổng hàng (Row totals): Chọn ô E3 và nhập biểu thức =SUM(B3:C3:D3).
- Dùng con trỏ kéo nút tự điền từ ô E3 đến E4.
- Tổng cột (Column totals): Chọn ô B5 và nhập biểu thức =SUM(B3:B4).
- Dùng con trỏ kéo nút tự điền từ ô B5 đến D5.
- Tổng cộng (Grand totals): Chọn ô E5 và nhập biểu thức =SUM(E3:E4).
Bước 3: Tính các tần số lý thuyết
Tần số lý thuyết = (tổng hàng *tổng cột)/tổng cộng
- Nữ đi xe máy: Chọn ô B7 và nhập biểu thức =($E$3*B5/$E$5).
- Dùng con trỏ kéo nút tự điền từ ô B7 đến ô D7 ta được nữ đi xe buyt và nữ đi
xe đạp.
- Nam đi xe máy: Chọn ô B8 và nhập biểu thức =($E$4*B5/$E$5).
- Dùng con trỏ kéo nút tự điền từ ô B8 đến ô D8 ta được nam đi xe buyt và nam
đi xe đạp.
5
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Bước 4: Áp dụng hàm số “CHITEST”
Tính xác suất P(X>χ2) bằng cách chọn ô C9 và nhập biểu thức:
=CHITEST(B3:D4,B7:D8).
Bước 5: Kết luận.
P(X>χ2) = 0.002189 < α = 0.05 .
Bác bỏ giả thuyết Ho.
6
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Bài 3 : Một cuộc điều tra xã hội học được tiến hành ở 5 thành phố A, B, C, D, E yêu cầu
những người được hỏi diễn tả mức độ thỏa mãn của mình đối với thành phố mà họ
đang sống. kết quả như sau:
Thành phố Mức độ thoả mãn
Rất thoả mãn Tương đối Không
A 220 121 63
B 130 207 75
C 84 54 25
D 156 95 43
E 122 164 73
Với mức ý nghĩa α = 3%, hãy kiểm định xem mức độ thỏa mãn cuộc sống có phân bố
giống nhau trong 5 thành phố trên hay không?
Bài làm
CƠ SỞ LÍ THUYẾT : D ạng bài so sáng tỷ số đơn giản .
• Giả thiết:
Ho : P1=P
1,0
;P
2=
P
2,0
;….;P
k,0
các cặp P
i
và P
i,0
giống nhau.
H
1
: có ít nhất một cặp P
i
và P
i,0
khác nhau.
• Giá trị thống kê
2
=
O
i
: các tần số thực nghiệm.
E
i
: các tần số lý thuyết.
BIỆN LUẬN:
χ
1
>
χ
2
(a) bác bỏ giả thiết H
o
(DF=K-1)
Trong Excel có hàm Chitest có thể tính giá trị
χ
2
theo biểu thức:
2
=
O
i j
: các tần số thực nghiệm của ô thuộc hàng thứ I cột j.
E
i j
: các tần số lý thuyết của ô thuộc hàng thứ I cột j; r là số hàng; c là số cột.
• Xác suất P(X >
2
)
với bậc tự do DF= (r-1) (c-1)
Nếu P(X > ) ⇒ chấp nhận giả thiết H
o
và ngược lại.
7
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
TÍNH TOÁN
Bước 1:Nhập dữ liệu vào bảng tính:
Bước 2:Ta đi thiết lập một số biểu thức và tiến hành tính toán:
• Tính các tổng số:
Tổng hàng: Chọn ô F2 và nhập vào biểu thức =SUM(B2:D2)
Dùng con trỏ để kéo nút tự điền từ ô F2 đến F6
Tổng cột: Chọn ô B8 và nhập vào biểu thức =SUM(B2:B6)
Dùng con trỏ kéo nút tự điền từ ô B8 đến D8
Tổng cộng: Chọn ô F8 và nhập biểu thức =SUM(F2:F6) hoặc
=SUM(B8:D8)
• Tính các tần số lí thuyết:
Tần số lí thuyết = (tổng hàng tổng cột) / tổng cộng
• Các tần số tại thành phố A:
Rất thỏa mãn: chọn ô B10 và nhập vào biểu thức =F2*B8/F8
Tương đối: chọn ô C10 và nhập vào biểu thức =F2*C8/F8
Không tỏa mãn: chọn ô D10 và vào nhập biểu thức =F2*D8/F8
• Các tần số tại thành phố B:
Rất thỏa mãn: chọn ô B11 và nhập vào biểu thức =F3*B8/F8
Tương đối: chọn ô C11 và nhập vào biểu thức =F3*C8/F8
Không thỏa mãn: chọn ô D11 và nhập vào biểu thức =F3*D8/F8
• Các tần số tại thành phố C:
Rất thỏa mãn: chọn ô B12 và nhập vào biểu thức =F4*B8/F8
Tương đối: chọn ô C12 và nhập vào biểu thức =F4*C8/F8
Không thỏa mãn: chọn ô D12 và nhập vào biểu thức =F4*D8/F8
• Các tần số tại thành phố D:
Rất thỏa mãn: chọn ô B13 và nhập vào biểu thức =F5*B8/F8
Tương đối: chọn ô C13 và nhập vào biểu thức =F5*C8/F8
Không thỏa mãn: chọn ô D13 và nhập vào biểu thức =F5*D8/F8
• Các tần số tại thành phố E:
Rất thỏa mãn: chọn ô B14 và nhập vào biểu thức =F6*B8/F8
Tương đối: chọn ô C14 và nhập vào biểu thức =F6*C8/F8
8
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Không thỏa mãn: chọn ô D14 và nhập vào biểu thức =F6*D8/F8
Bước 3:Tính xác suất P(X > ) :
Chọn ô B16 và nhập vào biểu thức =CHITEST(B2:D6,B10:D14)
Ta được :
Hoặc chọn Formulas → Insert Function → chitest → OK
Xuất hiện hộp thoại Function Agruments
• Nhập các giá trị tần số quan sát vào mục Actual_range
• Nhập các giá trị tần số lí thuyết vào mục Expected_range. Chọn OK
9
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Ta được P = 3.5299E-13 0.02 nên bác bỏ giả thuyết .
Kết luận: Như vậy mức độ thỏa mãn tại 5 thành phố trên là không giống nhau
Bài 4: Sau đây là số liệu về số lượng một loạ báo ngày bấn được ở 5 quận nội thành:
Ngày khảo sát
Quận nội thành
Q1 Q2 Q3 Q4 Q5
Thứ 2
Thứ 3
Thứ 4
Thứ 5
Thứ 6
Thứ 7
22
21
25
24
28
30
18
18
25
24
19
22
22
22
25
18
15
28
18
18
19
20
22
25
18
19
20
22
25
25
Lượng báo bán được ở 5 quận có khác nhau thực sự hay không ? Chọn α = 2%.
Lượng báo bán ra có chịu tác động của yếu tố các ngày trông tuần không ?
Bài làm
CƠ SỞ LÍ THUYẾT: Dạng bài phân tích phương sai hai yếu tố (không lặp)
Bảng ANOVA
Nguồn sai số Bậc tự do Tổng số bình phương Bình phương trung bình Giá trị tống
kê
Yếu tố A (hàng) (r – 1)
Yếu tố B (cột) (c – 1)
Sai số (r – 1)(c – 2) SSE = SST - (SSF + SSB)
Tổng cộng (rc – 1)
Trắc nghiệm:
• Giả thuyết:
“các giá trị trung bình bằng nhau”
“có ít nhất hai giá trị trung bình khác nhau”
• Giá trị thống kê:
và
10
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
BIỆN LUẬN
Nếu [b – 1,(k – 1)(b – 1)] chấp nhận (yếu tố A)
Nếu [k – 1,(k – 1)(b – 1)] chấp nhận (yếu tố B)
TÍNH TOÁN
ÁP DỤNG MICROSOFT EXCEL
Nhập dữ liệu vào bảng tính ta được dữ liệu sau:
Áp dụng “Anova :Two-Factor Without Replication”
-Nhập lần lượt đơn lệnh Tool và lệnh Data Analysis
-Chon chương trình Anova: Two-Factor Without Replication trong hộp thoại Data Analysis
rồi nhấn nút OK
-Trong hộp thoại Anova:Two-Factor Without Replication,lần lượt ấn định các chi tiết:
*Phạm vi đầu vào (Input Range)
*Nhãn dữ liệu(Labels in First Row/Columm)
*Ngưỡng tin cậy(Alpha)
*Phạm vi đầu ra (Outout Range)
11
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Ta có kết quả:
Kết quả và biện luận:
F
R
=3.5672 >F
0.02
=3.4816 => Bac bỏ giả thiết H
0
(các ngày trong tuần)
F
C
=2.4747<F
0.02
=3.731 => Chấp nhận giả thiết H
0
(quận)
Vậy chỉ có yếu tố ngày là ảnh hưởng đến lượng báo bán ra.
Lượng báo bán ra ở năm quận không thật sự khác nhau.
12
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Bài 5: theo dõi ngẫu nhiên giá thuê nhà tại 5 thành phố (điều kiện thuê nhà như nhau)
thu được các số liệu sau:
Thành phố A 900 1200 850 1320 1400 1150 975
Thành phố B 625 640 775 1000 690 550 840 750
Thành phố C 415 400 420 560 780 620 800 390
Thành phố D 410 310 320 280 500 385 440
Thành phố E 340 425 275 210 575 360
Hãy tìm giá trị P – value để kiểm định xem có sự khác biệt về giá thuê nhà ở 5
thành phố trên hay không ?
Bài làm
Nhận xét: Đây là bài toán phân tích phương sai một yếu tố
• Đánh giá sự ảnh hưởng của 1 yếu tố nhân tạo hay tự nhiên nào đó trên các giá trị quan
sát.
• Giả thuyết:
yếu tố giá thuê nhà không khác nhau ở 5 thành phố nêu trên.
• H
0
: µ
1=
µ
2=
…µ
k
“ yếu tố giá thuê nhà không khác nhau ở 5 thành phố nêu trên”.
• H
1
: µ
1≠
µ
2
“ có sự khác nhau ở ít nhất 2 thành phố”.
• Giá trị thống kê: F =
TÍNH TOÁN
• Nhập bảng số liệu:
13
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
• Vào Data / Data analysis, chọn Anova: Single Factor rồi bấm OK.
• Trên màn hình sẽ hiện hộp thoại Anova: Single Factor.
• Ta nhập các thông số như hình dưới:
Phạm vi của biến số Y (input range): ta kéo từ ô D2 đến ô L6.
Alpha = 0,05
Group by: Columns
Toạ độ đầu ra: kích chuột vào ô A8
• Ta được kết quả sau:
14
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
BIỆN LUẬN :
Ta thấy : F = 0,438094 < F
0,05
= F crit = 2,244396
Chấp nhận giả thuyết H
o
: giá thuê nhà ở 5 thành phố không khác nhau.
15