TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐHQG TP.HCM
KHOA KỸ THUẬT XÂY DỰNG
MÔN XÁC SUẤT THỐNG KÊ
---------------o0o---------------
BÁO CÁO BÀI TẬP LỚN
XÁC SUẤT THỐNG KÊ
NHĨM 10
GVHD: PGS.TS Nguyễn Đình Huy
Họ tên SV: Nguyễn Văn Tuấn
MSSV: 1414418
Nhóm_Lớp: L11_C (Sáng thứ 2)
TP. HCM tháng 11, năm 2015.
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Lời nói đầu
Thân chào Thầy cô và các bạn sinh viên!
Đây là quyển báo cáo Bài tập lớn do Nhóm 10 thực hiện.
Nội dung gồm 5 bài dưới sự hướng dẫn của thầy PGS.TS Nguyễn Đình Huy.
Báo cáo gồm 5 dạng:
+ Bài 1: Câu a) Kiểm định giá trị trung bình..........................................Trang 2
Câu b) Phân tích tương quan và hồi quy tuyến tính..................Trang 6
+ Bài 2: Phân tích tương quan và hồi quy tuyến tính............................Trang 14
+ Bài 3: Kiểm định so sánh 2 tỷ lệ........................................................Trang 19
+ Bài 4: Kiểm định tính độc lập............................................................Trang 23
Trang 29
Nhóm chúng em đã cố gắng trình bày nổi bật ý chính và cụ thể để bạn đọc có
thể dễ dàng hiểu rõ và đánh giá.
Thay mặt cả nhóm, Chúng em gửi lời cảm ơn chân thành nhất đến thầy
PGS.TS Nguyễn Đình Huy đã tận tình hướng dẫn và dạy bảo chúng em trong
học kì năm học 2015 này.
Chúng em mến chúc sức khỏe thầy!
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
1
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Bài 1a
1 Đề bài
Trình bày ví dụ 3.4 trang 207 sách BT XSTK 2012(N.Đ.Huy)
Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo ba yếu tố:
pH (A), nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng sau
Yếu tố A
`
Yếu tố B
B1
B2
B3
B4
A1
C1
9
C2
14
C3
16
C4
12
A2
C2
12
C3
15
C4
12
C1
10
A3
C3
13
C4
14
C1
11
C2
14
A4
C4
10
C1
11
C2
13
C3
13
2 Yêu cầu Hãy đánh giá về ảnh hưởng của các yếu tố trên đến hiệu suất phản ứng?
3 Dạng bài: Kiểm định giá trị trung bình;
Cơ sở lý thuyết.
Phương pháp giải: Phân tích phương sai 3 yếu tố (A, B, C)
Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên các giá trị
quan sát G (i = 1, 2... r: yếu tố A; j = 1, 2...r: yếu tố B: k = 1, 2...r: yếu tố C).
Mơ hình:
Khi nghiên cứu ảnh hưởng của hai yếu tố, mỗi yếu tố có n mức, thì người ta dùng mơ
hình vng la tinh n×n. Ví dụ như mơ hình vng la tinh 4×4:
B
C
D
A
C
D
A
B
D
A
B
C
A
B
C
D
Mơ hình vng la tinh ba yếu tố được trình bày như sau:
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
2
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Yếu tố B
Yếu tố
A
B1
A1
C1
Y111
C2
Y122
C3
Y133
C4
Y144
T1..
A2
C2
Y212
C3
Y223
C4
Y234
C1
Y241
T2..
A3
C3
Y313
C4
Y324
C1
Y331
C2
Y342
T3..
A4
C4
Y414
C1
Y421
C2
Y432
C3
Y443
T4..
T.i.
B2
B3
T.1.
T.2.
B4
T.3.
T.4.
Bảng ANOVA:
Nguồn
sai số
Tổng số bình
phương
Bậc tự do
Yếu tố A
(r-1)
(Hàng)
2
Ti..2 T...
r2
SSR= i 1 r
r
Bình phương
trung bình
T 2. j. T . . .2
∑ r − r2
j=1
MSR=
r
Yếu tố B
(r-1)
(Cột)
SSC=
T 2. . k T .. .2
∑ − r2
k =1 r
MSC=
r
Yếu tố C
(r-1)
Sai số
SSF=
SSE=SST –
(r-1)(r-2)
Tổng
cộng
(SSF+SSR+SSC)
MSF=
SSR
(r−1)
SSC
(r−1)
SSF
(r −1)
Giá trị
thống kê
FR=
FC=
F=
MSR
MSE
MSC
MSE
MSF
MSE
MSE=
SSE
(r−1)(r−2)
2
T .. .
2
ΣΣΣ Y ijk− 2
(r2-1)
SST=
r
Trắc nghiệm
Giả thiết:
H0: μ1 = μ2 = ...= μk
¿
H1 : μ i
μj
↔ Các giá trị trung bình bằng nhau
↔ Có ít nhất hai giá trị trung bình khác nhau
Giá trị thống kê: FR, FC, F
Biện luận:
Nếu FR< Fα[r-1,(r-1)(r-2)] → Chấp nhận H0 đối với yếu tố A
Nếu FC < Fα[r-1,(r-1)(r-2)] → Chấp nhận H0 đối với yếu tố B
Nếu F < Fα[r-1,(r-1)(r-2)] → Chấp nhận H0 đối với yếu tố C
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
3
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Bài làm.
Các bước thực hiện trên MS Excel:
Nhập số liệu bảng tính:
Tính tốn các giá trị
+ Tính các giá trị Ti..
Chọn ô B7 nhập vào biểu thức=SUM(B2:E2)
Chọn ô C7 nhập vào biểu thức=SUM(B3:E3)
Chọn ô D7 nhập vào biểu thức=SUM(B4:E4)
Chọn ô E7 nhập vào biểu thức=SUM(B5:E5)
+Tính các giá trị T.j..
Chọn ô B8 nhập vào biểu thức=SUM(B2:B5)
Dùng con trỏ kéo kí hiệu tự điền từ ơ B8 đến ơ E8
+Tính các giá trị T..k
Chọn ô B9 nhập vào biểu thức=SUM(B2,C5,D4,E3)
Chọn ô C9 nhập vào biểu thức=SUM(B3,C2,D5,E4)
Chọn ô D9 nhập vào biểu thức=SUM(B4,C3,D2,E5)
Chọn ơ E9 nhập vào biểu thức=SUM(B5,C4,D3,E2)
+Tính giá trị T…
Chọn ô B10 nhập vào biểu thức =SUM(B2:E5)
+ Tính các giá trị SUMSQTi.., SUMSQT.j., SUMSQT...k, SQT… SUMSOYijk
Chọn ô G7 nhập vào biểu thức=SUMSQ(B7:E7)
Dùng con trỏ kéo kí hiệu tự điền từ ô G7 đến ô G9
Chọn ô G10 nhập vào biểu thức=POWER(B10,2)
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
4
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Chọn ô G11 nhập vào biểu thức=SUMSQ(B2:E5)
+ Tính các giá trị SSR, SSC, SSF, SST và SSE
Các giá trị SSR, SSC, SSF
Chọn ô I7 nhập vào biểu thức =G7/4-39601/POWER(4,2)
Dùng con trỏ kéo kí hiệu tự điền từ ơ I7 đến ơ I9
Giá trị SST
Chọn ô I11 nhập vào biểu thức =G11-G10/POWER(4,2)
Giá trị SSE
Chọn ơ I10 nhập vào biểu thức =I11-SUM(I7:I9)
+ Tính các giá trị MSR, MSC, MSF và MSE
Chọn ô K7 nhập vào biểu thức =I7/(4-1)
Dùng con trỏ kéo kí hiệu tự điền từ ô K7 đến ô K9
Giá trị MSE
Chọn ô K10 nhập vào biểu thức =I10/((4-1)*(4-2))
+ Tính các giá trị FR, FC và F
Chọn ô M7 nhập vào biểu thức =K7/0,3958
Dùng con trỏ kéo kí hiệu tự điền từ ơ M7 đến ô M9.
So sánh các giá trị và kết luận :
FR=3.10 < F0.05(3,6) = 4.76
=> chấp nhận H0 (pH)
FC=11.95 > F0.05(3,6) = 4.76
=> bác bỏ H0
(nhiệt độ)
F=30.05 > F0.05(3,6) = 4.76
=> bác bỏ H0
(chất xúc tác)
Vậy chỉ có nhiệt độ và chất xúc tác gây ảnh hưởng đến hiệu suất phản ứng.
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
5
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
6
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Bài 1b
1 Đề bài:
Trình bày ví dụ 4.2 tr 216 BT XSTK
Người ta dùng ba mức nhiệt độ gồm 105, 120 và 135°C kết hợp với ba khoảng thời
gian là 15, 30 và 60 phút để thực hiện một phản ứng tổng hợp. Các hiệu suất của phản
ứng (%) được trình bày trong bảng sau:
Thời gian (phút)
Nhiệt độ (°C)
Hiệu suất (%)
X1
X2
Y
15
105
1.87
30
105
2.02
60
105
3.28
15
120
3.05
30
120
4.07
60
120
5.54
15
135
5.03
30
135
6.45
2 Yêu cầu Hãy cho biết yếu tố nhiệt độ và thời gian/hoặc yếu tố thời gian có liên quan
tuyến tính với hiệu suất của phản ứng tổng hợp?
Nếu có thì điều kiện nhiệt độ 115°C trong vịng 50 phút thì hiệu suất phản ứng sẽ là
bao nhiêu?
3 Dạng bài: Phân tích tương quan và hồi quy tuyến tính.
Cơ sở lý thuyết.
Phương pháp giải :Hồi quy tuyến tính đa tham số.
Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y có liên quan đến k
biến số độc lập Xi (i=1,2,...,k) thay vì chỉ có một như trong hồi quy tuyến tính đơn giản.
Phương trình tổng quát
Ŷx0,x1,...,xk = B0 + B1X1 + ... + BkXk
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
7
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Bảng ANOVA
Nguồn
sai số
Tổng số bình
phương
Bậc tự do
Hồi quy K
SSR
Bình phương
trung bình
MSR=
Sai số
N-k-1
SSE
Tổng
cộng
N-1
SST = SSR + SSE
SSR
k
MSE =
Giá trị thống
kê
F=
MSR
MSE
MSR
MSE
Giá trị thống kê
Giá trị R-bình phương:
R2 =
SSR
kF
=
SST ( N−k−1)+ kF
(
R2 ≥0 . 81
là khá tốt)
Độ lệch chuẩn:
S=
√
SSE
( N −k −1)
(
S≤0 .30
là khá tốt)
Trắc nghiệm
Giá trị thống kê: F
Trắc nghiệm t:
H0: βi = 0 ↔ Các hệ số hồi quy khơng có ý nghĩa.
¿
H1 : β i
0 ↔ Có ít nhất vài hệ số hồi quy có ý nghĩa.
t < (N-k-1) → Chấp nhận H0
Trắc nghiệm F
H0: βi = 0 ↔ Phương trình hồi quy khơng thích hợp.
¿
H1 : β i
0 ↔ Phương trình hồi quy thích hợp với ít nhất vài hệ số Bi.
F
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
8
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Bài làm.
Nhập dữ liệu vào bảng tính
Dữ liệu nhất thiết phải được nhập theo cột.
Áp dụng Regression
Nhấn lần lượt đơn lệnh Tools và lệnh Data Analysis
Chọn chương trình Regressiontrong hộp thoại Data Analysis rồi nhấp OK
Trong hộp thoại Regression, lần lượt ấn định các chi tiết:
Phạm vi của biến số Y (input Y range)
Phạm vi của biến số X (input X range)
Nhãn dữ liệu(Labels)
Mức tin cậy(Confidence level)
Tọa độ đầu ra(Output range)
Đường hồi quy (Line Fit Plots),…
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
9
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Các giá trị đầu ra cho bảng sau:
Phương trình hồi quy: Ŷx1=f(X1)
Ŷx1=2.73+0.04X1 (R2=0.21, S=1.81)
t0= 2.129 < t0.05 = 2.365 (hay Pv2=0.071> α=0.05) =>Chấp nhận giả thiết H0
t1= 1.38 < t0.05 = 2.365 (hay Pv =0.209> α=0.05) =>Chấp nhận giả thiết H0
F= 1.95 < F0.05 = 5.590 (hay Fs=0.209 > α=0.05) =>Chấp nhận giả thiết H0
Vậy cả hai hệ số 2.73(B0) và 0.04(B1) của phương trình hồi quy Ŷx1=2.73+0.04X1
đều khơng có ý nghĩa thống kê. Nói cách khác phương trình hồi quy này khơng thích hợp.
Kết luận 1: Yếu tố Thời gian khơng có liên quan tuyến tính với hiệu suất của phản ứng
tổng hợp.
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
10
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Phương trình hồi quy: Ŷx2=f(X2)
Ŷx2= -11.141 +0.129X2 (R2=0.76, S=0.99)
t0=3.418> t0.05=2.365(hay Pv2=0.011>α=0.05)
=>Bác bỏ giả thiết H0
t1= 4.757>t0.05=2.365(hay Pv =0.00206<α=0.05) =>Bác bỏ giả thiết H0
F=22.631>F=5.590(hay Fs=0.00206<α=0.05)
=>Bác bỏ giả thiết H0
Vậy cả hai hệ số -11.141 (B0) và 0.129 (B1) của phương trình hồi quy Ŷx2=-11.141 +0.129X2
đều có ý nghĩa thống kê.Nói cách khác phương trình hồi quy này thích hợp.
Kết luận 2: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp.
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
11
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Phương trình hồi quy: Ŷx1, x2=f(X1, X2)
Ŷx1, x2 =-12.70+0.04X1+0.13X2 (R2=0.97; S=0.33)
t0=11.528 > t0.05=2.365 (hay Pv2=2.260*10-5>α=0.05) => Bác bỏ giả thiết H0
t1= 7.583 > t0.05=2.365 (hay Pv =0.00027<α=0.05)
=> Bác bỏ giả thiết H0
t2= 14.328 > t0.05=2.365 (hay Pv =7.233*10-6 <α=0.05) => Bác bỏ giả thiết H0
F=131.392 > F=5.140 (hay Fs=1.112*10-5<α=0.05)
=> Bác bỏ giả thiết H0
Vậy cả hai hệ số -12.70 (B0), 0.04(B1)và 0.13(B1)của phương trình hồi quy
Ŷx1,x2 =-12.7 +0.04X1+0.13X2 đều có ý nghĩa thống kê. Nói cách khác, phương trình hồi quy
này thích hợp.
Kết luận 3: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố là
thời gian và nhiệt độ.
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
12
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Sự tuyến tính của phương trình Ŷx1, x2 =-12.70+0.04X1+0.13X2. Có thể được trình bày trong
biểu đồ phân tán (scatterplots):
Y
12
10
8
6
4
2
0
0
2
4
6
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
8
10
12
13
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Dự đoán hiệu suất bằng phương trình hồi quy
Y=-12.70+0.04X1+0.13X2
Ta chọn một ơ,ví dụ như:
C21,sau đó nhập hàm =B17+B18*50+B19*115và được kết quả như sau:
Ghi chú: B17 tọa độ của B0 ,B18 tọa độ của B1, B19 tọa độ của B2, 50 là giá trị của X1 thời
gian) và 115 là giá trị của X2 (nhiệt độ)
Vậy hiệu suất phản ứng theo dự đốn ở 115°C trong vịng 50 phút là 4.3109%.
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
14
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Bài 2
1 Đề bài
Bảng sau đây cho ta một mẫu gồm 11 quan sát (xi, yi) từ tập hợp chính các giá trị của cặp
ĐLNN (X,Y):
X
0,9
1,22
1,32
0,77
1,3
1,2
Y
-0,3
0,1
0,7
-0,28
-0,25
0,02
X
1,32
0,95
1,45
1,3
1,2
Y
0,37
-0,70
0,55
0,35
0,32
2 Yêu cầu
Tìm đường hồi quy của Y đối với X.
Tính sai số tiêu chuẩn của đường hồi quy
Tính tỷ số F để kiểm định sự đúng đắn của giả thiết: Có hồi quy tuyến tính của Y theo
X.
3 Dạng bài
Phân tích tương quan và hồi quy tuyến tính.
Cơ sở lý thuyết
Phương pháp giải :Phân tích hồi quy tuyến tính
Phương trình hồi quy tuyến tính:
;
;
Kiểm định hệ số a, b:
Giả thuyết Ho: Hệ số quy hồi khơng có ý nghĩa (= 0)
H1: Hệ số hồi quy có ý nghĩa (≠ 0)
Trắc nghiệm
chấp nhận Ho
Kiểm định phương trình hồi quy:
Giả thuyết Ho: “Phương trình hồi quy tuyến tính khơng phù hợp”
H1: “Phương trình hồi quy tuyến tính phù hợp”
Trắc nghiệm
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
: chấp nhận Ho.
15
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
16
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Bài làm.
Phần mềm sử dụng: Microsoft Excel
Làm bằng Excel, ta có các bước thực hiện:
Bước 1: Nhâp bảng số liệu
Bước 2: Chọn Data/Data Analysis/ Regression như trong hình:
Nhập dữ li
Nhập số liệu vào như trong hình:
Input Y Range : khoảng dữ liệu của Y
Input X Range : khoảng dữ liệu của X
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
17
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Confidence Level : mức ý nghĩa
Labels : Nhãn dữ liệu
Output Range : Khoảng dữ liệu xuất ra
:Sau khi nhập đủ các thông số, ta có được bảng sau:
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
18