ĐH.Bách Khoa TP.HCM
XÁC ŚT THỚNG KÊ
PGS.TS Ngũn Đình Huy
Câu 1.Trình bày lại ví dụ 3.4 trang 207 và ví dụ 4.2 trang 216 Sách BT
XSTK 2012 (N.Đ.HUY).
Ví dụ 3.4: Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên
cứu theo 3 yếu tố pH (A), nhiệt độ (B) và chất xúc tác (C) được trình bày trong
bảng sau:
Hãy đánh giá về ảnh hưởng của các yếu tố trên hiệu suất phản ứng ?
Yếu tố
A
A1
A2
A3
A4
C1
C2
C3
C4
B1
9
12
13
10
C2
C3
C4
C1
B2
Yếu tố B
14
15
14
11
C3
C4
C1
C2
B3
16
12
11
13
C4
C1
C2
C3
B4
12
10
14
13
BÀI LÀM
1/ Cơ sở lí thuyết:
Nhận xét: Đây là bài tốn Phân tích phương sai ba yếu tố:
- Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của 3 yếu tố
trên các giá trị quan sát G (yếu tố A:i=1,2..r, yếu tố B: j=1,2..r, yếu tố C: k=1,2..r)
- Mơ hình: khi nghiên cứu ảnh hưởng của 2 yếu tố, mỗi yếu tố có n mức thì
người ta dùng mơ hình hình vng latin n¿ n. Ví dụ:
B
C
D
A
C
D
A
B
D
A
B
C
A
B
C
D
- Mơ hình vng latin 3 yếu tố được trình bày như sau:
Yếu tố C (T..k : vd T..1 = Y111+Y421+Y331+Y241)
Yếu
tố
A
A1
A2
A3
A4
T.j.
Yếu tố B
B1
C1
C2
C3
C4
B2
Y111
Y212
Y313
Y414
T.1.
C2
C3
C4
C1
B3
Y122
Y223
Y324
Y421
T.2.
C3
C4
C1
C2
B4
Y133
Y234
Y334
Y412
T.3.
C4
C1
C2
C3
Ti…
Y144
Y241
Y342
Y443
T.4.
T1...
T2...
T3…
T4…
ĐH.Bách Khoa TP.HCM
Bảng ANOVA
Nguồn sai
Bậc tự do
số
Yếu tố A
(hàng)
Yếu tố B
(cột)
r-1
r-1
Yếu tố C
r-1
Sai số
(r-1)(r-2)
Tổng cộng
(r2-1)
XÁC ŚT THỚNG KÊ
Tổng số bình phươg
T
∑
2
T
∑
2
r
SSR=
i=1
i. .
r
r
i=1
SSC=
T
∑
SSF=
i=1
. j.
r
r
T
−
r
2
..k
r
2
.. .
2
T
−
r
T
−
r
2
...
2
2
...
2
SSE=SST-(SSF+SSR+SSC)
T
∑∑∑ Y −
r
SST=
2
ijk
PGS.TS Nguyễn Đình Huy
Bình phương
trung bình
Giá trị thống
kê
SSR
MSR= r−1
MSR
FR= MSE
SSC
MSC= r−1
MSC
FC= MSE
SSF
MSF= r−1
MSF
F= MSE
SSE
MSE= (r−1)(r−2)
2
...
2
Trắc nghiệm:
*Giả thiết:
H0: μ1 =μ2= …μk ⇔ “Các giá trị trung bình bằng nhau”.
H1: μi ≠μj ⇔ “Có ít nhất 2 giá trị trung bình khác nhau”.
*Giá trị thống kê: G˙ vàG˙
*Biện luận:
Nếu G˙ (chấp nhận H0 (yếu tố A) )
Nếu G˙ (chấp nhận H0 (yếu tố B) )
Nếu G˙ (chấp nhận H0 (yếu tố C) )
2/ Áp dụng Excel:
Thiết lập bảng tính như sau (Hình 1.1):
Hình 1.1
ĐH.Bách Khoa TP.HCM
XÁC SUẤT THỐNG KÊ
PGS.TS Nguyễn Đình Huy
Tính các giá trị Ti..(tổng theo hàng từ B đến E)
Chọn ô B7 và nhập vào biểu thức =SUM(B2:E2)
Chọn ô C7 và nhập vào biểu thức =SUM(B3:E3)
Chọn ô D7 và nhập vào biểu thức =SUM(B4:E4)
Chọn ô E7 và nhập vào biểu thức =SUM(B5:E5)
Tính các giá trị T.j.(tổng theo cột từ hàng thứ 2 đến hàng thứ 5)
Chọn ô B8 và nhập vào biểu thức =SUM(B2:B5)
Dùng con trỏ kéo kí hiệu điền từ ô B8 đến ô E8
Tính các giá trịT..k
Chọn ô B9 và nhập biểu thức =SUM(B2,C5,D4,E3)
Chọn ô C9 và nhập biểu thức =SUM(B3,C2,D5,E4)
Chọn ô D9 và nhập biểu thức =SUM(B4,C3,D2,E5)
Chọn ô E9 và nhập biểu thức =SUM(B5,C4,D3,E2)
Tính giá trịT..(tổng các phần tử trong bảng)
Chọn ô B10 và nhập biểu thức =SUM(B2:E5)
*Tính các giá trịG˙ vàG˙
- Các giá trịG˙ và G˙
Chọn ơ G7 và nhập biểu thức =SUMSQ(B7:E7)
Dùng con trỏ kéo kí hiệu điền từ ô G7 đến ô G9
- Giá trịG˙
Chọn ô G10 và nhập biểu thức =POWER(B10,2)
- Giá trịG˙
Chọn ô G11 và nhập biểu thức =SUMSQ(B2:E5)
*Tính các giá trị SSR,SSC,SSF,SST và SSE
- Các giá trị SSR,SSC và SSF
Chọn ô I7 và nhập vào biểu thức =G7/4-39601/POWER(4,2)
Dùng con trỏ kéo kí hiệu điền từ ô I7 đên ô I9
-Giá trị SST
Chọn ơ I11 và nhập biểu thức =G11-G10/POWER(4,2)
-Giá trị SSE
Chọn ơ I10 và nhập biểu thức =I11-SUM(I7:I9)
*Tính các giá trị MSR,MSC,MSF và MSE
-Các giá trị MSR,MSC và MSF
-Giá trị SST
Chọn ô K7 và nhập biểu thức =I7/(4-1)
Dùng con trỏ kéo kí hiệu điền từ ô M7 đến ô M9
-Giá trị MSE
Chọn ô K10 và nhập biểu thức =I10/((4-1)*(4-2))
*Tính các giá trịG˙ và F
Chọn ô M7 và nhập vào biểu thức =K7/0.3958
Dùng con trỏ kéo kí hiệu điền từ ô M7 đến ô M9
Kết quả và biện luận
ĐH.Bách Khoa TP.HCM
XÁC SUẤT THỐNG KÊ
PGS.TS Nguyễn Đình Huy
FR=3.10 <F0.05(3.6)= 4.76 =>chấp nhận H0(pH)
FC=11.95>F0.05(3.6) = 4.76 =>bác bỏ H0(nhiệt độ)
F =30.05 >F0.05(3.6) = 4.76 =>bác bỏ H0(chất xúc tác)
Vậy chỉ có nhiệt độ và chất xúc tác ảnh hưởng đến hiệu suất
Ví dụ 4.2: Người ta dùng ba mức nhiệt độ gồm 105, 120, 135 oC kết hợp với ba
khoảng thời gian là 15, 30, 60 phút để thực hiện một phản ứng tổng hợp. Các
hiệu suất của các phản ứng (%) được trình bày trong bảng sau :
Thời gian (phút)
X1
15
30
60
15
30
60
15
30
60
Nhiệt độ (oC)
X2
105
105
105
120
120
120
135
135
135
Hiệu suất (%)
Y
1,87
2,02
3,28
3,05
4,07
5,54
5,03
6,45
7,26
Hãy cho biết yếu tố nhiệt độ và thời gian/hoặc yếu tố thời gian có liên quan
tuyến tính với hiệu suất của phản ứng tổng hợp?Nếu có thì với điều kiện nhiệt
độ 115oC trong vịng 50 phút, hiệu suất phản ứng sẽ là bao nhiêu?
BÀI LÀM
1/Cơ sở lí thuyết:
Nhận xét: Đây là dạng bài Hồi quy tuyến tính đa tham số.
Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y có liên quan
đến k biến số độc lập Xi (i =1,2,…k) thay vì chỉ có một như trong hồi quy tuyến tính
đơn giản.
Phương trình tổng qt:
ŶX
1
, X2 , .., Xk =
B0 + B1X1 + B2X2 + … + BkXk
Phương trình hồi quy đa tham số có thể được trình bày dưới dạng ma trận:
ĐH.Bách Khoa TP.HCM
XÁC SUẤT THỐNG KÊ
1
1
k
PGS.TS Nguyễn Đình Huy
1
=
1
+
k
N
N
N
Bảng ANOVA
Nguồn sai
số
Bậc tự
do
Tổng số bình
phương
Bình phương trung
bình
Hồi quy
k
SSR
MSR=SSR/k
Sai số
N–k–1
SSE
MSE = SSE/( N – k – 1)
Tồng cộng
N–1
SST=SSR + SSE
Giá trị thống kê:
Giá trị R-bình phương:
Giá trị R2 được hiệu chỉnh (Adjusted R Square)
R2 =
kF
SSR
=
(R3≥ 0.81 là tốt nhất)
SST ( N – k – 1 ) +kF
Giá trị R2 được hiệu chỉnh (Adjusted R Square)
R2ii =
( N−1 ) R2−k
k (1−R2 )
= R2 –
( N – k – 1)
( N – k – 1)
(R2ii sẽ trở nên âm hay không xác định nếu R2 hay N nhỏ).
Độ lệch chuẩn:
S=
√
SSE
(S ≤0.30 là khá tốt)
( N – k – 1)
Giá trị
thống kê
MSR
F=
MSE
ĐH.Bách Khoa TP.HCM
XÁC SUẤT THỐNG KÊ
PGS.TS Nguyễn Đình Huy
Trắc nghiệm thống kê:
Tương tự hồi quy đơn giản, song cần chú ý:
- Trong trắc nghiệm t
H0 : βi = 0 “Các hệ số hồi quy ko có ý nghĩa”
H0 : βi ≠ 0 “Có ít nhất vài hệ số hồi quy có ý nghĩa”
Bậc tự do của giá trị t: γ = N – k – 1
t=
-
|Bi−β i|
√S
2
n
;
2
Sn=
S2
∑ ( X i− X )2
Trong trắc nghiệm F
H0 : βi = 0 “Phương trình hồi quy khơng thích hợp”
H0 : βi ≠ 0 “Phương trình hồi quy thích hợp” với ít nhất vài B i.
Bậc tự do của giá trị F: Ʋ1 = 1, Ʋ2 = N – k – 1.
2/ Áp dụng Excel:
Nhập bảng dữ liệu vào bảng tính:
Dữ liệu bắt buộc phải được nhập theo cột (Hình 1.2):
Hình 1.2
Sử dụng “Regression”:
Vào Data-> Data Analysis.Chọn mục Regression.Chọn OK.(Hình 1.3)
ĐH.Bách Khoa TP.HCM
XÁC SUẤT THỐNG KÊ
PGS.TS Nguyễn Đình Huy
Hình 1.3
a/Trong hộp thoại Regression, lần lượt ấn định các chi tiết: (Hình 1.4)
Phạm vi của biến số Y (Input Y Range): $C$1:$C$10
Phạm vi của biến số X (Input X Range): $A$1:$A$10
Nhãn dữ liệu (Labels)
Mức tin cậy (Confidence Level): chọn mức 95%
Tọa độ đầu ra (Output Range): $A$14
Và một số tùy chọn khác như đường hồi quy (Line Fit Plots), biểu thức sai số
(Residuals Plots)…
Hình 1.4
ĐH.Bách Khoa TP.HCM
Phương trình hồi quy:
XÁC ŚT THỚNG KÊ
PGS.TS Ngũn Đình Huy
Ŷ X =ƒ ¿)
1
Ŷ X = 2.7367 +0.04454X1
1
(R2=0.2139, S=1.8112); N=9; k=1
Hình 1.5
t0= t Stat(Intercept)= 2.129 < t0,05(7)=2.365 (hay P value=0.0708 >α=0.05)
Chấp nhận giả thiết H0.
t1= t Stat(X1) = 1.3802<t0,05(7)=2.365 (hay P value=0.2099>α=0.05)
Chấp nhận giả thiết H0.
F=1.9049<F0,05(1.7)=5.59 (hay FS=0.2099>α=0.05)
Chấp nhận giả thiết H0.
Vậy cả hai hệ số 2.37(B0) và 0.04(B1) của phương trình hồi quy Ŷ X = 2.73 +
0.04X1 đều khơng có ý nghĩa thống kê. Nói một cách khác, phương trình hồi quy
này khơng thích hợp.
1
Kết luận: Yếu tố thời gian khơng có liên quan tuyến tính với hiệu suất phản ứng
tổng hợp.
ĐH.Bách Khoa TP.HCM
XÁC SUẤT THỐNG KÊ
PGS.TS Nguyễn Đình Huy
b/Trong hộp thoại Regression, lần lượt ấn định các chi tiết: (Hình 1.6)
Phạm vi của biến số Y (Input Y Range): $C$1:$C$10
Phạm vi của biến số X (Input X Range): $B$1:$B$10
Nhãn dữ liệu (Labels)
Mức tin cậy (Confidence Level): chọn mức 95%
Tọa độ đầu ra (Output Range): $A$45
Và một số tùy chọn khác như đường hồi quy (Line Fit Plots), biểu thức sai số
(Residuals Plots)…
Hình 1.6
ĐH.Bách Khoa TP.HCM
Phương trình hồi quy:
XÁC ŚT THỚNG KÊ
PGS.TS Ngũn Đình Huy
Ŷ X =ƒ ¿)
2
Ŷ X = -11.1411 +0.12856X2 (R2=0.7638; S=0.9929);N=9; k=1
2
Hình 1.7
t0= t Stat(Intercept) =3.4178 > t0,05(7)=2.365 (hay P value=0.0112 < α=0.05)
Bác bỏ giả thiết H0.
t2= t Stat(X1) =4.7572 >t0,05(7)=2.365 (hay P value=0.0021 < α=0.05)
Bác bỏ giả thiết H0.
F=22.6309 > F0,05(1.7)=5.59 (hay FS=0.0021 <α=0.05)
Bác bỏ giả thiết H0.
Vậy các hệ số của phương trình hồi quy Ŷ X = -11.1411 +0.12856X2đều có ý nghĩa
thống kê. Nói cách khác, phương trình hồi quy này thích hợp.
2
Kết luận: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất phản ứng tổng hợp.
ĐH.Bách Khoa TP.HCM
XÁC SUẤT THỐNG KÊ
PGS.TS Nguyễn Đình Huy
c/Trong hộp thoại Regression, lần lượt ấn định các chi tiết: (Hình 1.8)
Phạm vi của biến số Y (Input Y Range): $C$1:$C$10
Pham vi của biến số X (Input X Range): $A$1:$B$10
Nhãn dữ liệu (Labels)
Mức tin cậy (Confidence Level): chọn mức 95%
Tọa độ đầu ra (Output Range): $A$76
Và một số tùy chọn khác như đường hồi quy (Line Fit Plots), biểu thức sai số
(Residuals Plots)…
Hình 1.8
Phương trình hồi quy:
ŶX
1,
X2
ŶX
1,
X2
=ƒ ¿)
= -12.7 + 0.0445X1 + 0.1286X2 (R2=0.9777; S=0.3297); N=9; k=2
ĐH.Bách Khoa TP.HCM
XÁC ŚT THỚNG KÊ
PGS.TS Ngũn Đình Huy
Hình 1.9
t0= t Stat(Intercept) =1.1016 > t0,05(6)=2.447 (hay P value=0.000026 < α=0.05)
Bác bỏ giả thiết H0.
t1= t Stat(X1) = 7.5827 >t0,05(6)=2.447 (hay P value=0.0002736 < α=0.05)
Bác bỏ giả thiết H0.
t2= t Stat(X2) = 14.3278 >t0,05(6)=2.447 (hay P value=0.000007 < α=0.05)
Bác bỏ giả thiết H0.
F=131.3921> F0,05(1.6)=5.99 (hay FS =0.0021 <α=0.05)
Bác bỏ giả thiết H0.
Vậy các hệ số của phương trình hồi quy Ŷ X X = -12.7 + 0.0445X 1 + 0.1286X2đều có
ý nghĩa thống kê. Nói cách khác, phương trình hồi quy này thích hợp.
1,
2
Kết luận:Hiệu suất phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố là
nhiệt độ và thời gian.
Dự đoán hiệu suất phản ứng tại t =115oC và thời gian là 50phút
Tại ô B94, nhập = B91 + B92*50 + B93*115
Kết quả dự đoán hiệu suất phản ứng là 4.310873016