Tải bản đầy đủ (.docx) (38 trang)

Báo cáo xác suất thống kê-thầy vũ đình huy-nhóm 6

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.01 MB, 38 trang )

Mục Lục
Bài 1: 2
Ví dụ 3.4: 2
Ví dụ 4.2: 6
Bài 2: 16
Bài 3: 22
Bài 4: 31
Bài 5: 37

Bài 1a (vd 3.4)
Hiệu suất (%) của một phản ứng hóa học được nghiên cứu theo ba yếu tố: pH (A),
nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng sau:
Yếu tố
A
Yếu tố B
B1 B2 B3 B4
A1 C1 9 C2 14 C3 16 C4 12
A2 C2 12 C3 15 C4 12 C1 10
A3 C3 13 C4 14 C1 11 C2 14
A4 C4 10 C1 11 C2 13 C3 13
Hãy đánh giá về ảnh hưởng của các yếu tố trên hiệu suất phản ứng?
 Cơ sở lý thuyết:
Dạng bài: PHÂN TÍCH PHƯƠNG SAI BA YẾU TỐ
Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên các
giá trị quan sát G (i = 1, 2 r: yếu tố A; j = 1, 2 r: yếu tố B; k = 1, 2 r: yếu
tố C).
Khi nghiên cứu ảnh hưởng của hai yếu tố, mỗi yếu tố có n mức, thì người ta
dùng mô hình vuông la tinh n×n. Ví dụ như mô hình vuông la tinh 4×4:
B C D A
C D A B
D A B C


A B C D


Mô hình vuông la tinh ba yếu tố được trình bày như sau:
Yếu tố C (T k. ví dụ: T 1 = Y111 + Y421 + Y331 + Y241)
Yếu
tố A
Yếu tố B
B1 B2 B3 B4
A1 C1 Y
111
C2 Y
122
C3 Y
133
C4 Y
144
T
1
A2 C2 Y
212
C3 Y
223
C4 Y
234
C1 Y
241
T
2
A3 C3 Y

313
C4 Y
324
C1 Y
331
C2 Y
342
T
3
A4 C4 Y
414
C1 Y
421
C2 Y
432
C3 Y
443
T
4
T
.i.
T
.1.
T
.2.
T
.3.
T
.4.
Bảng ANOVA:

Nguồn sai
số
Bậc tự do Tổng số bình phương
Bình phương
trung bình
Giá trị
thống kê
Yếu tố A
(Hàng)
(r-1) SSR= MSR=
F
R
=
Yếu tố B
(Cột)
(r-1) SSC= MSC=
F
C
=
Yếu tố C (r-1) SSF= MSF=
F=
Sai số (r-1)(r-2)
SSE=SST –
(SSF+SSR+SSC)
MSE=
Tổng
cộng
(r
2
-1) SST=

Trắc nghiệm
• Giả thiết:
H
0
: μ
1
= μ
2
= = μ
k
↔ Các giá trị trung bình bằng nhau.


H
1
: μ
i


μ
j
↔ Có ít nhất hai giá trị trung bình khác nhau.
• Giá trị thống kê: F
R
, F
C
, F
• Biện luận:
Nếu F
R

< F
α
(r-1)(r-2) → Chấp nhận H
0
đối với yếu tố A.
Nếu F
C
< F
α
(r-1)(r-2) → Chấp nhận H
0
đối với yếu tố B.
Nếu F < F
α
(r-1)(r-2) → Chấp nhận H
0
đối với yếu tố C.
 Kết quả tính toán:
Về bản chất, đây vẫn là một bài toán kiểm định giả thiết thống kê, do đó ta giả
thiết:
H
0
: Các giá trị trung bình của ba yếu tố pH (A), nhiệt độ (B) và chất xúc tác
(C) bằng nhau.
H
1
: có ít nhất hai giá trị trung bình của ba yếu tố pH(A), nhiệt độ (B) và chất
xúc tác (C) khác nhau.
Nhập dữ liệu vào bảng tính:
Tính các giá trị Ti…(Tổng theo hàng từ B đến E)

Chọn ô B7 và nhập vào biểu thức = SUM(B2:E2)
Chọn ô C7 và nhập biểu thức =SUM(B3:E3)
Chọn ô D7 và nhập vào biểu thức =SUM(B4:E4)


Chọn ô E7 và nhập vào biểu thức =SUM(B5:E5)
Tính các giá trị T.j.
Chọn ô B8 và nhập vào biểu thức = SUM(B2:B5)
Dùng con trỏ kéo kí hiệu tự điền từ ô B8 đến ô E8
Tính các giá trị T k
Chọn ô B9 và nhập biểu thức = SUM(B2.C5.D4.E3)
Chọn ô C9 và nhập biểu thức = SUM(B3.C2.D5.E4)
Chọn ô D9 và nhập biểu thức = SUM(B4.C3.D2.E5)
Chọn ô E9 và nhập biểu thức = SUM(B5.C4.D4.E2)
Tính giá trị T…(Tổng các phần tử trong bảng)
Chọn ô B10 và nhập biểu thức =SUM(B2:E5)
Tính các giá trị G và G
-Các giá trị G và G:
Chọn ô G7 và nhập biểu thức =SUMSQ(B7:E7)
Dùng con trỏ kéo kí hiệu tự điền từ ô G7 đến ô G9
-Giá trị G:
Chọn ô G10 và nhập biểu thức =POWER(B10.2)
-Giá trị G:
Chọn ô G11 và nhập biểu thức =SUMSQ(B2:E5)
Tính các giá trị SSR . SSC . SSF . SST và SSE:
-Các giá trị SSR . SSC và SSF:
Chọn ô I7 và nhập biểu thức = G7/4-39601/POWER(4.2)
Dùng con trỏ kéo kí hiệu tự điền từ ô I7 đến ô I9
-Giá trị SST
Chọn ô I11 và nhập vào biểu thức = G11-G10/POWER(4.2)

-Giá trị SSE:


Chọn ô I10 và nhập biểu thức =I11-SUM(I7:I9)
Tính các giá trị MSR . MSC . MSF . và MSE:
-Các giá trị MSR. MSC và MSF:
Chọn ô K7 và nhập biểu thức = I7/(4-1)
Dùng con trỏ kéo kí hiệu tự điền từ ô K7 đến ô K9
-Giá trị MSE:
Chọn ô K10 và nhập biểu thức =I10/((4-1)*(4-2))
Tính các giá trị G và F:
Chọn ô M7 và nhập vào biểu thức = K7/0.3958
Dùng con trỏ kéo kí hiệu tự điền từ ô M7 đến ô M9
Kết quả và biện luận:
F
R
= 3.10 < F
0.05
(3.6) = 4.76 → chấp nhận H
0
(pH).
F
C
= 11.95 > F
0.05
(3.6) = 4.76 → bác bỏ H
0
(nhiệt độ).
F = 30.05 > F
0.05

(3.6) = 4.76 → bác bỏ H
0
(chất xúc tác).
Vậy chỉ có nhiệt độ và chất xúc tác gây ảnh hưởng đến hiệu suất.
Bài 1b (vd 4.2)
Người ta đã dùng ba mức nhiệt độ gồm 105, 120 và 135°C kết hợp với ba
khoảng thời gian là 15, 30 và 60 phút để thực hiện một phản ứng tổng hợp. Các
hiệu suất của phản ứng (%) được trình bày trong bảng sau:



Thời gian (phút) Nhiệt độ (°C) Hiệu suất (%)
X
1
X
2
Y
15 105 1.87
30 105 2.02
60 105 3.28
15 120 3.05
30 120 4.07
60 120 5.54
15 135 5.03
30 135 6.45
60 135 7.26
Hãy cho biết yếu tố nhiệt độ và thời gian/hoặc yếu tố thời gian có liên quan
tuyến tính với hiệu suất của phản ứng tổng hợp? Nếu có thì điều kiện nhiệt độ
115°C trong vòng 50 phút thì hiệu suất phản ứng sẽ là bao nhiêu?
 Cơ sở lý thuyết:

Dạng bài: BÀI TOÁN HỒI QUY TUYẾN TÍNH ĐA THAM SỐ.
Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y có liên
quan đến k biến số độc lập X
i
(i=1,2, ,k) thay vì chỉ có một như trong hồi quy
tuyến tính đơn giản.
Phương trình tổng quát
Ŷx
0
,x
1
, ,x
k
= B
0
+ B
1
X
1
+ + B
k
X
k


Bảng ANOVA:
Nguồn sai số Bậc tự do
Tổng số bình
phương
Bình phương

trung bình
Giá trị
thống kê
Hồi quy K SSR
MSR= F=
Sai số N-k-1 SSE MSE =
Tổng cộng N-1
SST = SSR +
SSE
Trắc nghiệm thống kê:
• Giá trị thống kê: F
• Trắc nghiệm T:
H
0
: β
i
= 0 ↔ “Các hệ số hồi quy không có ý nghĩa”.
H
1
: β
i


0 ↔ “Có ít nhất vài hệ số hồi quy có ý nghĩa”.
Bậc tự do của giá trị T: γ = N – k - 1
F < (r - 1)(r - 2) → Chấp nhận H
0
 Trắc nghiệm F
H
0

: β
i
= 0 ↔ Phương trình hồi quy không thích hợp.
H
1
: β
i


0

↔ Phương trình hồi quy thích hợp với ít nhất vài hệ số B
i
.
F < F
α
(1,N-k-1) → Chấp nhận H
0
.

Bậc tự do của giá trị F: v
1
=1; v
2
= N – k – 1.
 Kết quả tính toán:


Nhập dữ liệu vào bảng tính
Dữ liệu nhất thiết phải được nhập theo cột.


Sử dụng lệnh “ Regression” :
Data → Data Analysis → chọn Regression → OK, xuất hiện hộp thoại.
Trong hộp thoại Regression, lần lượt ấn định các chi tiết:
− Phạm vi của biến số Y (input Y range)
− Phạm vi của biến số X (input X range)
− Nhãn dữ liệu (Labels)
− Mức tin cậy (Confidence level)
− Tọa độ đầu ra (Output range)
Đường hồi quy (Line Fit Plots),…


Phương trình hồi quy: Ŷx
1
= f(X
1
)
Ŷx
1
= 2.73 + 0.04X
1
(R
2
= 0.21, S = 1.81)
Các giá trị đầu ra cho ở bảng sau:


• t
0
= 2.13 < t

0.05
= 2.365 (hay P
v
2
= 0.071 > α = 0.05) → Chấp nhận giả thiết H
0
.
• t
1
= 1.38 < t
0.05
= 2.365 (hay P
v
= 0.209 > α = 0.05) → Chấp nhận giả thiết H
0
.
• F = 1.905 < F
0.05
= 5.590 (hay F
4
s
= 0.209 > α = 0.05) → Chấp nhận giả thiết H
0
.
Vậy cả hai hệ số 2.73 (B
0
) và 0.04 (B
1
) của phương trình hồi quy Ŷx
1

= 2.73 +
0.04X
1
đều không có ý nghĩa thống kê. Nói cách khác phương trình hồi quy này
không thích hợp.
Kết luận: Yếu tố thời gian không có liêm quan tuyến tính với hiệu suất của phản
ứng tổng hợp.
Phương trình hồi quy: Ŷx
2
= f(X
2
)
Ŷx
2
= -11.141 + 0.129X
2
(R
2
= 0.76, S = 0.99)


• t
0
= 3.418 > t
0.05
= 2.365 (hay P
v
2
= 0.011 > α = 0.05) → Bác bỏ giả thiết H
0

• t
1
= 4.757 > t
0.05
= 2.365(hay P
v
= 0.00206 < α = 0.05) → Bác bỏ giả thiết H
0
• F = 22.631 > F = 5.590(hay F
s
= 0.00206 < α = 0.05) → Bác bỏ giả thiết H
0
Vậy cả hai hệ số -11.141 (B
0
) và 0.129 (B1) của phương trình hồi quy Ŷx
2
=
-11.141 + 0.129X
2
đều có ý nghĩa thống kê. Nói cách khác phương trình hồi quy
này thích hợp.
Kết luận: yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất của phản ứng
tổng hợp.
Phương trình hồi quy: Ŷx
1
,x
2
= f(X
1
,X

2
)
Ŷx
1
,x
2
= -12.70 + 0.04X
1
+ 0.13X
2
(R
2
= 0.97; S = 0.33)


• t
0
= 11.528 > t
0.05
= 2.365 (hay P
v
2
= 2.260.10
-5
< α = 0.05) → Bác bỏ giả thiết H
0
• t
1
= 7.583 > t
0.05

= 2.365 (hay P
v
= 0.00027 < α = 0.05) → Bác bỏ giả
thiết H
0
• t
2
=14.328>t
0.05
=2.365(Hay P
v
=7.233.10
-6
<α=0.05) →Bác bỏ giả thiết
H
0
• F = 131.392 > 5.14 (hay F
s
= 1.112*10
-5
< α = 0.05) → Bác bỏ giả thiết H
0
Vậy cả hai hệ số -12.70 (B
0
), 0.04 (B1) và 0.13 (B2) của phương trình hồi quy
Ŷx
1
,x
2
= -12.7 +0.04X

1
+0.13X
2
đều có ý nghĩa thống kê. Nói cách khác, phương
trình hồi quy này thích hợp.
Kết luận: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai
yếu tố là thời gian và nhiệt độ.
Sự tuyến tính của phương trình Ŷx
1
,x
2
= -12.70 + 0.04X
1
+ 0.13X
2
. Có thể được
trình bày trong biểu đồ phân tán (scatter plots):


Muốn dự đoán hiệu suất của phản ứng bằng phương trình hồi quy Y
X1,.X2
=
-12,7 +0,04X1 +0,13X2 chỉ cần chọn một ô, ví dụ như B21, sau đó nhập hàm
và được kết quả như sau:


-Chọn ô B21 và nhập: = B17+B18*50+B19*115
Ghi chú: B17 là tọa độ của B0, B18 là tọa độ của B1, B19 là tọa độ của B2, 50
là giá trị của X
1

(thời gian) và 115 là giá trị cùa X
2
(nhiệt độ).
Vậy hiệu suất phản ứng theo dự đoán ở 115°C trong vòng 50 phút là
4.3109%.


BÀI 2:
Tỷ số tương quan của Y đối với X và hệ số xác đònh của tập số liệu sau
đây:

Có kết luận gì về mối tương quan giữa X và Y (phi tuyến hay tuyến
tính)?
 Loại bài: Tương Quan Và Hồi Qui
KIỀM ĐỊNH GIẢ THUYẾT VỀ
 Cơ sở lý thuyết:
Giả sử X và Y là hai ĐLNN. Chúng ta đã biết rằng X và Y gọi là độc lập nếu
việc ĐLNN này nhận một giá trị nào đó cũng khơng ảnh hưởng gì đến phân bố
xác suất của ĐLNN kia.Tuy nhiên trong nhiều tình huống thực tế, X và Y khơng


độc lập với nhau. Điều này thường gặp khi X và Y là hai phép đo nào đó tiến
hành trên cùng một cá thể.
Vậy để đo mức độ phụ thuộc giữa hai ĐLNN X và Y, người ta đưa ra khái niệm
về hệ số tương quan.
o Hệ số tương quan lý thuyết của X và Y, kí hiệu là ρ:
hay:
Trong đó:
- là giá trị trung bình và độ lệch chuẩn của X và là giá trị trung bình và độ lệch
chuẩn của Y.

o Tính chất:
 ρ = 0 : X , Y không tương quan tuyến tính.
 X , Y tương quan tuyến tính dương tuyệt đối.
 X , Y tương quan tuyến tính âm tuyệt đối.
(X,Y) có phân bố chuẩn thì ρ = 0 khi và chỉ khi X và Y độc lập.
Do ρ thường rất khó tìm vì muốn biết ρ chúng ta cần biết phân bố của tập
hợp chính bao gồm tất cả các giá trị của cặp (X,Y). Vì thế chúng ta có bài


toán ước lượng và kiểm định hệ số tương quan ρ căn cứ trên một mẫu
quan sát (x
1
,y
1
), (x
2
,y
2
),…,(x
n
,y
n
) các giá trị của (X,Y).
o Và ước lượng cho ρ được thay thế bằng đại lượng r (r được gọi là hệ số tương
quan):
r=
o Để tính toán thuận lợi r có thể được viết dưới dạng sau:
r=
 Ghi chú:


• r dùng để ước lượng hướng và độ mạnh của mối quan hệ giữa X,Y
o tương quan mạnh.
o tương quant rung bình.
o tương quan yếu.
o càng lớn thì tương quan giữa X và Y càng chặt.
o tương quan tuyến tính thuận. (
o tương quan tuyến tính nghịch.
• r là ước lượng của .
• r nằm ngoài đoạn [-1,1] nghĩa là ta đã tính toán sai.
 Chúng ta có bài toán kiểm định :
 Giả thiết:
H
o
: ρ = 0 : X, Y không tương quan ( X, Y độc lập)
H
1
: ρ 0 : X , Y tương quan ( X,Y phụ thuộc tuyến tính)
Nếu (X,Y) có phân bố chuẩn hai chiều thì dưới giả thiết , ĐLNN
có phân bố Student với n-2 bậc tự do.


T=
Trong đó:
o r :hệ số tương quan của mẫu.
o n: cỡ mẫu.
o tuân theo phân phối Student T với độ tự do n-2.
 Biện luận:
Nếu |T| < c : chấp nhận giả thiết H
0


Trong đó c là phân vị mức của phân bố Student với bậc n-2 bậc tự do.
 X , Y phụ thuộc tuyến tính.
 Thuật toán bằng MS EXCEL:
o Giả thiết:
H
0
: X,Y không tương quan với nhau (p = 0)
H
1
: X,Y tương quan với nhau.
o Nhập dữ liệu vào bảng tính :


 Sư dụng lệnh Data Analysis
 Chọn chương trình Correlation
o Nhập vùng dữ liệu (A1:B29)
o Check mục labels in first column. ENTER
o MS EXCEL suất hiện cho ta bảng sau:


Vâỵ hệ số tương quan r=0.971131
Do ta có 13 cặp quan sát nên n = 28 có phân bố Student với 26 bậc tự do .
T==20.75829
Với bậc tư do là 26, =5%, ta tìm được hằng số c = 2.056 bằng cách tra bảng
Do T > c , ta bác bỏ giả thiết
Vậy X,Y tương quan với nhau.
Bài 3:
Một nhà nghiên cứu muốn khảo sát thời gian phản ứng của nam giới và
nữ giới đối với các loại tín hiệu khác nhau. Các đối tượng tham gia thí nghiệm



được yêu cầu nhấn nút ENTER trên bàn phím máy tính ngay khi nhận biết tín
hiệu thời gian (đo bằng giây) giữa lúc tín hiệu phát ra và lúc đối tượng nhận
biết được ghi lại. Sau đây là kết quả trên 15 nam và 15 nữ.

Âm thanh Ánh sáng Xung
Nam
10,0
7,2
6,8
6,0
5,0
6,0
3,7
5,1
4,0
3,2
9,1
5,8
6,0
4,0
5,1
Nữ
10,5
8,8
9,2
8,1
13,4
6,6
4,9

2,5
4,2
1,8
7,3
6,1
5,2
2,5
3,9
Với mức
α
= 5%. Có sự tương tác giữa giới tính và tín hiệu hay không?
 Dạng bài: Phân tích phương sai hai yếu tố có lặp
 Giả Thuyết:
H
0
: Giới tính khơng ảnh hưởng đến thời gian phản.
Tín hiệu khơng ảnh hường đến thời gian phản ứng.
Khơng có tương quan giữa giới tính và tín hiệu.
H
1:
Giới tính ảnh hưởng đến thời gian phản.
Tín hiệu ảnh hường đến thời gian phản ứng.
Có tương quan giữa giới tính và tín hiệu.
 Cơ sở lý thuyết:


Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị
quan sát
Trong đó có sự lập lại k lần thí nghiệm, mỗi hàng sẽ biểu thị một bản sao
của dữ liệu và trong đầu ra sẽ thêm một đại lượng tương tác (Interaction term )

F
1
giữa hai yếu tố A và B
 MÔ HÌNH :



Bảng
ANOVA :
    !
"#$ %
"# & '%
()
$
$ *%+*'%+
,-. / '*0%+
1  '0%

Yếu tố A Yếu tố B Tổng
cộng
Trung
bình
1 2 … m
A1
Y
111
"

2
"

0
Y
121
"

2
"
0




Y
1m1
"
'
2
"
'0
T
1**
2
Y
211
"

2
"
0
Y

221
"

2
"
0




Y
2m1
"
'
2
"
'0
T
2**
… … … … … … …
n
Y
n11
"

2
"
0
Y
n21

"

2
"
0




Y
nm1
"
'
2
"
'0
T
r**
Tổng
cộng
T
*1*
T
*2*
… T
.c
T
***
Trung
bình





Trắc nghiệm:
o Giả thiết
o H
0
: μ
1
= μ
2
= … μ
k
↔ “các giá trị trung bình bằng nhau”
o H1 : μi ≠ μj ↔ “Ít nhất có hai giá trị trung bình khác nhau”
o Giá trị thống kê
o
o Biện luận
o Nếu F
A
<F [n-1 ; nm(r-1) ; 1-] thì chấp nhận yếu tố A (h àng)
o Nếu F
B
< F [m-1 ; nm(r-1) ; 1-] thì chấp nhận yếu tố B (cột)
o Nếu F
AB
< F [(n-1)(m-1) ; nm(r-1) ; 1-] thì không có sự tương tác giữa A và B
III - Áp dụng MS-EXCEL:
 Ta nhập dữ liệu của đề bài vào MS-EXCEL



×