Tải bản đầy đủ (.docx) (35 trang)

BÀI TẬP XÁC SUẤT THỐNG KÊ ĐẠI HỌC BÁCH KHOA

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.06 MB, 35 trang )

BÀI TẬP 1:
A. Ví dụ 10 trang 172
Đề bài: Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo 3
yếu tố: pH (A), nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng sau:
Yếu tố B

Yếu tố A

B1

B2

B3

B4

A1

C1

9

C2

14

C3

16

C4



12

A2

C2

12

C3

15

C4

12

C1

10

A3

C3

13

C4

14


C1

11

C2

14

A4

C4

10

C1

11

C2

13

C3

13

Yêu cầu: Hãy đánh giá về ảnh hưởng của các yếu tố trên hiệu suất phản ứng ?
 Dạng bài: Kiểm định giá trị trung bình.
 Cơ sở lý thuyết:

• Mô hình:

Khi nghiên cứu ảnh hưởng của hai yếu tố, mỗi yếu tố có n mức, thì người ta
dùng mô hình vuông la tinh . Thí dụ như mô hình vuông la tinh :
B

C

D

A

C

D

A

B

D

A

B

C

A


B

C

D

Mô hình vuông la tinh ba yếu tố được trình bày như sau:
Yếu tố B

Yếu tố
A

B1

B2

B3

B4

A1

C1

Y111

C2

Y122


C3

Y133

C4

Y144

T1..

A2

C2

Y212

C3

Y223

C4

Y234

C1

Y241

T2..


A3

C3

Y313

C4

Y324

C1

Y331

C2

Y342

T3..

A4

C4

Y414

C1

Y421


C2

Y432

C3

Y443

T4..

T.i.

T.1.

T.2.

T.3.

T.4.

Yếu tố C (T..k, thí dụ: T..1=Y111 + Y421 + Y331 + Y241)

1


 Phương

pháp giải: Phân tích phương sai 3 yếu tố (A, B, C)
Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của 3 yếu tố trên các giá trị
quan sát Yijk (i = 1, 2... r: yếu tố A; j = 1, 2...r: yếu tố B: k = 1, 2...r: yếu tố C).

Bảng ANOVA :
Nguồn sai số
Yếu tố A
(Hàng)
Yếu tố B
(Cột)

Bậc tự do

Tổng số bình phương

Bình phương trung
bình

Giá trị
thống kê

(r-1)

(r-1)

Yếu tố C

(r-1)

Sai số

(r-1)(r-2)

Tổng cộng


(r2-1)

Trắc nghiệm:
- Giả thiết:
H0: μ1 = μ2 = ...= μk ↔ Các giá trị trung bình bằng nhau
H1 : μ i

μj

↔ Có ít nhất hai giá trị trung bình khác nhau

- Giá trị thống kê: FR, FC, F
- Biện luận:
+ Nếu (Yếu tố A)
+ Nếu (Yếu tố B)
+ Nếu (Yếu tố C)
Bài làm:

Các bước thực hiện trên MS Excel

2




Tính toán các giá trị:

Tính các giá trị Ti..
Chọn ô B7 nhập vào biểu thức:

Chọn ô C7 nhập vào biểu thức:
Chọn ô D7 nhập vào biểu thức:
Chọn ô E7 nhập vào biểu thức:
• Tính các giá trị T.j.
Chọn ô B8 nhập vào biểu thức:
Dùng con trỏ chuột kéo kí hiệu tự điền từ ô B8 đến ô E8
• Tính các giá trị T..k
Chọn ô B9 nhập vào biểu thức:
Chọn ô C9 nhập vào biểu thức:
Chọn ô D9 nhập vào biểu thức:
Chọn ô E9 nhập vào biểu thức:
• Tính giá trị T…
Chọn ô B10 nhập vào biểu thức:
• Tính các giá trị SUMSQTi.., SUMSQT.j., SUMSQT..k, SQT…, SUMSOY ijk
Chọn ô G7 nhập vào biểu thức :
Dùng con trỏ chuột kéo kí hiệu tự điền từ ôn G7 đến G9
Chọn ô G10 nhập vào biểu thức : Chọn ô G11 nhập vào biểu thức :


Tính các giá trị SSR, SSC, SSF, SST, SSE
Các giá trị SSR, SSC, SSF


Chọn ô I7 nhập vào biểu thức :
Dùng con trỏ chuột kéo kí hiệu tự điền từ ôn I7 đến I9
3


Giá trị SST
Chọn ô I11 nhập vào biểu thức

Giá trị SSE
Chọn ô I10 nhập vào biểu thức
• Tính các giá trị MSR, MSC, MSF, MSE
MSR, MSC, MSF
Chọn ô K7 nhập vào biểu thức :
Dùng con trỏ chuột kéo kí hiệu tự điền từ ôn K7 đến K9
MSE
Chọn ô K10 nhập vào biểu thức :
• Tính cá giá trị FR , FC, F
Chọn ô M7 nhập vào biểu thức:
Dùng con trỏ chuột kéo kí hiệu tự điền từ ôn M7 đến M9


Kết quả sau khi tính toán:



Kết quả và biện luận:

 Kết luận: Vậy chỉ có nhiệt độ và chất xúc tác gây ảnh hưởng đến hiệu

suất

B. Ví dụ 12 trang 181:
Đề bài: Người ta dùng 3 mức nhiệt độ gồm 105, 120 và 135 kết hợp với 3 khoảng
thời gian là 15, 30 và 60 phút để thực hiện một phản ứng tổng hợp. Các hiệu suất
của phản ứng (%) đưuọc trình bày trong bảng dưới đây:
Thời gian (phút)

Nhiệt độ (°C)


Hiệu suất (%)
4


X1

X2

Y

15

105

1,87

30

105

2,02

60

105

3,28

15


120

3,05

30

120

4,07

60

120

5,54

15

135

5,03

30

135

6,45

60


135

7,26

Yêu cầu: Hãy cho biết yếu tố nhiệt độ và thời gian/ hoặc yếu tố thời gian có
liên quan tuyến tính với hiệu suất của phản ứng tổng hợp? Nếu có thì điều
kiện nhiệt độ trong vòng 50 phút thì hiệu suất phản ứng sẽ là bao lâu ?
 Dạng bài: Phân tích tương quan và hồi quy tuyến tính.
 Cơ sở lý thuyết:
• Phương pháp giải: Hồi quy tuyến tính đơn giản.
o Phương trình tổng quát:

Y: Biến số phụ thuộc (dependent / reponse variable).
X: Biến số độc lập (independent / predictor variable).
B0, B: Các hệ số hồi quy (regression coefficients).

 Bảng ANOVA:
Nguồn
sai số
Hồi quy
Sai số
Tổng
cộng


Bậc tự do

Tổng số bình phương


Bình phương trung
bình

Giá trị
thống kê

1
N–2
N–1

Giá trị thống kê
5


Giá trị R-bình phương:
(100R2: % của biến đổi trên Y được giải thích bởi X)
Độ lệch chuẩn:
(Sự phân tán của dữ liệu càng ít thì giá trị của S càng gần zero)

-

Trắc nghiệm
Trắc nghiệm t:

H0: βi = 0 ↔ Hệ số hồi quy không có ý nghĩa.
H1 : β i

0 ↔ Hệ số hồi quy có ý nghĩa.

Giá trị thống kê:

;
Phấn bố Student
Biện luận:
Nếu t < (N-2) → Chấp nhận H0
-

Trắc nghiệm F:

H0: βi = 0 ↔ Phương trình hồi quy không thích hợp.
H1 : β i

0 ↔ Phương trình hồi quy thích hợp.

Giá trị thống kê:
Biện luận:
Nếu F < Fα(1,N-2) → Chấp nhận H0
 Phương pháp giải: Hồi quy tuyến tính đa tham số.

Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y
có liên quan đến k biến số độc lập Xi ( i = 1, 2, 3, …, k) thay vì chỉ có
một như hồi quy tuyến tính đơn giản.
o Phương trình tổng quát:
Phương trình hồi quy đa tham số có thể được trình bày dưới dạng ma trận
 Bảng ANOVA

Nguồn
sai số

Bậc tự do


Tổng số bình
phương

Hồi quy

K

SSR

Bình phương
trung bình

MSR=

Giá trị thống


F=
6


Sai số

N-k-1

SSE
MSE =

Tổng
cộng




N-1

SST = SSR + SSE

Giá trị thống kê

Giá trị R-bình phương:

(

là khá tốt)

Độ lệch chuẩn:

(


là khá tốt)

Trắc nghiệm

Giá trị thống kê: F
-

Trắc nghiệm t:

H0: βi = 0 ↔ Các hệ số hồi quy không có ý nghĩa.

H1 : β i

0

↔ Có ít nhất vài hệ số hồi quy có ý nghĩa.

t < (N-k-1) → Chấp nhận H0
-

Trắc nghiệm F:

H0: βi = 0 ↔ Phương trình hồi quy không thích hợp.
H1 : β i

0 ↔ Phương trình hồi quy thích hợp với ít nhất vài hệ số Bi.

F  Bài làm:

7


Nhập dữ liệu vào bảng tính:

Áp dụng Regression
Trên thanh công cụ , nhấn vào Data
Trong mục Data vừa chọn, nhấp chọn vào biểu tượng Data Analysis

Chọn chương trình Regression trong hộp thoại Data Analysis rồi nhấp OK


8


Trong hộp thoại Regression, lần lượt ấn định các chi tiết:








Phạm vi của biến số Y ( input range)
Phạm vi của biến số X ( input range)
Nhãn dữ liệu ( Labels)
Mức tin cậy ( Confidence level)
Tọa độ đầu ra ( Output range)
Đường hồi quy ( Line Fit Plots)
Biểu thức sai số: ( Residual Plots),…

 Viết phương trình đường hồi quy

Các giá trị nhập vào như sau:
• Input Y Range: Kéo chuột từ ô C1 đến C10
• Input X Range: Kéo chuột từ ô A1 đến A10
• Nhấp chọn Labels
• Nhấp chọn Confidence Level là 95%
• Nhấp chọn vào Output Range , chọn A15 ( Kết quả sẽ xuất hiện luôn
trong sheet này vào ô kết quả đầu tiên sẽ được ghi vào ô A15, các kết
quả khác sẽ được ghi dựa vào ô A15 này ).

• Nhấp OK

9


Kết quả hiển thị như sau:

Phương trình hồi quy:
(Hay = 0,071 > )

(Hay = 0,210 > )

Vậy cả hai hệ số 2,37() và 0,04() của phương trình hồi quy đều không có ý nghĩa
thống kê. Nói một cách khác, phương trình hồi quy này không thích hợp.
10


 Kết luận: Yếu tố thời gian không có liên quan tuyến tính với hiệu suất của
phản ứng tổng hợp.
 Viết phương trình đường hồi quy

Các giá trị nhập vào như sau:
• Input Y Range: Kéo chuột từ ô C1 đến C10
• Input X Range: Kéo chuột từ ô B1 đến B10
• Nhấp chọn Labels
• Nhấp chọn Confidence Level là 95%
• Nhấp chọn vào Output Range , chọn A15 ( Kết quả sẽ xuất hiện luôn
trong sheet này vào ô kết quả đầu tiên sẽ được ghi vào ô A15, các kết
quả khác sẽ được ghi dựa vào ô A15 này ).
• Nhấp OK


Kết quả hiển thị như sau:

11


Phương trình hồi quy:
(Hay = 0,011 < )

(Hay = 0,00207 < )

Vậy cả hai hệ số -11,14() và 0,13() của phương trình hồi quy đều có ý nghĩa thống kê.
Nói một cách khác, phương trình hồi quy này thích hợp.
 Kết luận: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất của phản ứng
tổng hợp.

 Viết phương trình đường hồi quy

Các giá trị nhập vào như sau:
• Input Y Range: Kéo chuột từ ô C1 đến C10
• Input X Range: Kéo chuột từ ô A1 đến B10
• Nhấp chọn Labels
• Nhấp chọn Confidence Level là 95%
• Nhấp chọn vào Output Range , chọn A15 ( Kết quả sẽ xuất hiện luôn
trong sheet này vào ô kết quả đầu tiên sẽ được ghi vào ô A15, các kết
quả khác sẽ được ghi dựa vào ô A15 này ).
• Nhấp OK

12



Kết quả hiển thị như sau:

Phương trình hồi quy:
()
(Hay < )

(Hay < )
13


(Hay )

Vậy cả ba hệ số -12,7( và 0,13() của phương trình hồi quy đều có ý nghĩa thống kê.
Nói một cách khác, phương trình hồi quy này thích hợp.
 Kết luận: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai
yếu tố là thời gian và nhiệt độ.
Muốn dự đoán hiệu suất của phản ứng bằng phương trình hồi quy
Y|X1,X2 = -12.70 + 0.0445X1 + 0.1286X2 , chỉ cần chọn một ô, ví dụ B32 sau đó
nhập hàm và được kết quả như sau:

Ghi chú: 50 là giá trị của X1 (Thời gian) và 115 là giá trị của X2 (nhiệt độ)

BÀI TẬP 2:
 Dạng bài toán: Bài toán kiểm định tỉ lệ
 Cơ sở lý thuyết
✓ Giả thiết:
-

, = ,... , “ Các cặp và giống nhau”

: “ Ít nhất có 1 cặp và khác nhau
14


✓ Giá trị thống kê:

- Các tần số thực nghiệm.
– Các tần số lý thuyết.
✓ Biện Luận:

Nếu > Bác bỏ giả thiết
✓ Trong chương trình MS-EXCEL có hàm số CHITEST có thể tính:
-

Gía trị theo biểu thức:

Trong đó: ij là tần số thực nghiệm của hàng i, cột j
ij

: Tần số lý thuyết của hàng i và cột j

ij

-

Xác suất (>) với bậc tự do DF = (r-1)(c-1); trong đó,r là số hàng, c là
số cột trong bảng ngẫu nhiên.
Nếu (>) > Chấp nhận giả thiết H0 và ngược lại.

 Thực hiện bài toán:

-

Nhập dữ liệu vào bảng tính và tính các tổng số:

-

Tính các tần số lý thuyết:

+) Tần số lý thuyết = ( tổng hàng x tổng cột) / tổng cộng
+) Bò loại A sản xuất lượng sữa ít: chọn ô B11 và nhập Biểu thức =
B6*E3/E6
+) Bò loại A sản xuất lượng sữa trung bình : chọn ô C11 và nhập Biểu thức
= C6*E3/E6.
+) Làm tương tự cho các ô còn lại.

15


-

Áp dụng hàm số CHITEST để tính xác suất :

-

Kết quả:P 0,022515147
Giả thiết:
H0: Ba giống bò này thuần nhau về phương diện sản xuất lượng sữa.

16



H1: Ba giống bò này không thuần nhau về phương diện sản xuất lượng
sữa.
-

Biện luận:
Nếu (>) = 0.022515147 < =0,05 bác bỏ giả thiết H0
Vậy ba giống bò này không thuần nhau về phương diện sản xuất lượng
sữa.

BÀI TẬP 3:
Đề bài: Hãy phân tích tình hình kinh doanh của một số ngành nghề ở quận 4 quận nội
thành trên cơ sở số liệu về doanh thu của một số cửa hàng như sau:
Ngành nghề kinh
doanh
Điện lạnh
Vật liệu xây dựng
Dịch vụ tin học

Khu vực kinh doanh
Q1
Q2
Q3
Q4
2.5:2.7:2.0:3.0 3.1:3.5:2.7 2.0:2.4
5.0:5.4
0.6:10.4
15.0
9.5:9.3:9.1 19.5:17.5
1.2:1.0:9.8:1.8 2.0:2.2:1.8 1.2:1.3:1.2 5.0:4.8:5.2


 Dạng toán
: Phân tích phương sai 2 yếu tố (có lặp)
 Cơ sở lý thuyết:

Trên thực tế một biến lượng chịu tác động không chỉ một nhân tố mà có thể hai
(hay nhiều nhân tố). Chẳng hạn năng suất cây trồng chịu ảnh hưởng của nhân tố giống
và của nhân tố đất. Kết quả học tập của một sinh viên chịu ảnh hưởng không những
bởi nhân tố giảng viên mà còn bởi nhân tố sĩ số của lớp học…
Phương pháp phân tích phương sai hai nhân tố nhằm phát hiện ảnh hưởng của
mỗi nhân tố cũng như tác động qua lại của hai nhân tố đó đến biến lượng đang xét.
Giả sử chúng ta quan tâm tới nhân tố A và B. Nhân tố A được xem xét ở các mức
A1, A2,…Ar và nhân tố B được xem xét ở các mức B1, B2,…Bc
+ Tổng bình phương chung, ký hiệu là SST, được tính theo công thức sau:

+ Tổng bình phương cho nhân tố A, ký hiệu là SSFA được tính theo công thức:

+ Tổng bình phương cho nhân tố B, ký hiệu là SSFB được tính theo công thức:

17


+Tổng bình phương do sai số, ký hiệu là SSE, được tính theo công thức

+ Tổng bình phương do tương tác (Sum of Squares for Interaction) ký hiệu là SSI,
được tính theo công thức

+ Trung bình bình phương của nhân tố A, ký hiệu là MSFA, được tính theo công
thức


r – 1 gọi là bậc tự do của A bằng số mức của A trừ 1
+Trung bình bình phương của nhân tố B, ký hiệu là MSFB, được tính theo công
thức

c – 1 gọi là bậc tự do của B bằng số mức của B trừ 1
+ Trung bình bình phương của sai số, ký hiệu là MSE, được tính bởi

n – cr gọi là bậc tự do của sai số
+ Trung bình bình phương của tương tác, ký hiệu là MSI, được tính bởi

(c – 1) (r – 1) gọi là bậc tự do của tương tác
18


Chú ý rằng:
(r – 1) + (c – 1) + (c – 1) (r – 1) + n – rc = n – 1 = bậc tự do tổng cộng
+ Tỷ số F cho nhân tố A, ký hiệu bởi FA được tính như sau,

Tương tự tỷ số F cho nhân tố B, FB được tính bởi

vàtỷ số F cho tương tác giữa A và B, ký hiệu là FAB được tính bởi:

Với mực ý nghĩaαđã cho ta ký hiệu f (u, v) là phân vị mức α của phân bố Fisher với
bậc tự do (u, v).
Ta có quy tắc quyết định như sau:
+ Nếu FA> f (r – 1, n – cr) thì ta bác bỏ giả thiết.
“Các mức A1,... Arcó hiệu quả trung bình như nhau”
+ Nếu FB> f (c – 1, n – cr) thì ta bác bỏ giả thiết
“Các mức B1, B2, ... Bccó hiệu quả trung bình như nhau”
+ Nếu FAB> f ((r – 1)(c – 1), n – rc)

Ta bác bỏ giả thiết:
“Có sự tương tác giữa A và B”.
Trên thực hành tính toán chúng ta thực hiện như sau:
Giả sử Tjktổng các giá trị trong mẫu (j, k).Ký hiệu

19


(3)
Ta có các đẳng thức sau:

(4)

(5)

(6)

(7)
(8)
Đặc biệt nếu tất cả các mẫu bằng nhau njk = m với mọi j, k thì:

do đó
(5’)

20


(6’)

(7’)

Trước hết ta cần tính các đại lượng T jk. Tiếp theo tính các giá trị T jo,
njo, nok, Tok, n, T và A theo các công thức (1), (2), (3).
Từ đó tính SST, SSFA, SSFB, SSE và SSI theo các công thức (4), (5),
(6), (7) (hoặc (5’), (6’), (7’) nếu njk = m).
 Bài làm:

Giả thuyết:
H01(yếu tố ngành nghề) : tình hình kinh doanh một số ngành nghề ở bốn quận là như
nhau.
H02(yếu tố quận):tình hình kinh doanh ở 4 quận là như nhau
 Nhập bảng số liệu

 Vào DataData AnalysisTwo – Factor With Replication

21


 Điền thông số vào cửa sổ trên

Nhấn OK, ta thu được bảng sau:

22


 Kết luận:

FR = 2.8929 < F0.05 =3.2595 => chấp nhận giả thuyết H0 (Tình hình kinh doanh giữa
các ngành nghề là như nhau).
FC = 0.8189 < F0.05 = 2.86627 => chấp nhận giả thuyết H0 (Tình hình kinh doanh giữa
các quận là như nhau)

FI = 0.6498 < F 0.05 = 2.36375 => chấp nhận giả thuyết H0 ( Tình hình kinh doanh giữa
các quận và ngành nghề như nhau )

BÀI TẬP 4:
Đề bài: Một nhóm gồm 105 nhà doanh nghiệp Mỹ được phân loại căn cứ theo thu nhập
hàng năm và tuổi của họ. Kết quả thu được như sau:
Thu nhập
Tuổi
Dưới 40
Từ 40 đến 54
Trên 54

Dưới
100 000 $
6
18
11

Từ 100 000 $
- 399 599 $
9
19
12

Trên
400 000 $
5
8
17


Với mức ý nghĩa 1%, kiểm định giả thiết cho rằng tuổi và mức thu nhập có quan
hệ với nhau hay không
 Cơ sở lý thuyết:
23


 Dạng bài toán: Kiểm định tính độc lập

Giả thuyết:
H0: P1 = P1,0; P2 = P2,0; … ; Pk = Pk,0 ⇔ “Các cặp Pi và Pi,0 giống nhau”.
H1 :

“Ít nhất có một cặp Pi và Pi,0 khác nhau”.

Giá trị thống kê:

Oi: các tần số thực nghiệm (observed frequency);

Ei: các tần số lý thuyết (expected frequency).

Biện luận:


Nếu

⇒ Bác bỏ giả thuyết H0 (DF = k-1)

Trong chương trình MS-EXCEL có hàm CHITEST có thể tính:

-


Giá trị χ2 theo biểu thức:
Oij: tần số thực nghiệm của ô thuộc hàng i và cột j;
Eij: tần số lý thuyết của ô thuộc hàng i với cột j;
r: số hàng;
c: số cột.

-



Xác suất P(X >χ2) với bậc tự do DF = (r-1)(c-1); trong đó, r là số hàng và c
là số cột trong bảng ngẫu nhiên (contingency table).

Nếu P(X >χ2) > α ⇒ Chấp nhận giả thuyết H0 và ngược lại.
 Phương pháp giải

- Tính các tổng số
- Tổng hàng (row totals)
- Tổng cột (column totals)
24


-Tổng cộng (grand total)
- Tính các tần số lý thuyết
- Tần số lý thuyết = tổng hàng x tổng cột / tổng cộng
 Bài làm

Nhập bảng số liệu vào excel:


Tính các tổng hàng : Chọn ô E4 và nhập biểu thức =SUM(B4:D4)
Dùng con trỏ kéo kí hiệu tự điền ô E4 đến ô E6.
Tính các tổng cột : Chọn ô B7 và nhập biểu thức =SUM(B4:B6)
Dùng con trỏ kéo kí hiệu tự điền ô B7 đến ô E7.

Chọn ô B10 nhập biểu thức

=B$7*$E4/$E$7.

Dùng con trỏ kéo đến các ô B10 tới ô D10, B11 tới D11, B12 tới D12 và nhập biểu
thức tương ứng theo công thức

25


×