Mục Lục.
Bài 1...............................................................................................................................1
a)
Đề bài................................................................................................................1
Dạng bài......................................................................................................1
Cơ sở lý thuyết............................................................................................1
Bài làm........................................................................................................3
b)
Đề bài................................................................................................................4
Dạng bài:.....................................................................................................5
Cơ sở lý thuyết............................................................................................5
Bài làm........................................................................................................6
Bài 2:............................................................................................................................10
Đề bài......................................................................................................................10
Dạng bài....................................................................................................11
Cơ sở lý thuyết..........................................................................................11
Bài làm......................................................................................................11
Bài 3:............................................................................................................................15
Đề bài......................................................................................................................15
Dạng tốn:.................................................................................................15
Cơ sở lí thuyết:..........................................................................................15
Bài làm......................................................................................................18
Bài 4:............................................................................................................................21
Đề bài......................................................................................................................21
Dạng tốn:.................................................................................................22
Cơ sở lí thuyết:..........................................................................................22
Bài làm......................................................................................................23
Bài 5:............................................................................................................................27
Đề bài......................................................................................................................27
Dạng bài:...................................................................................................28
Cơ sở lí thuyết:..........................................................................................28
Bài làm:.....................................................................................................32
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Bài 1.
a) Đề bài.
Trình bày ví dụ 3.4 trang 207 sách BT XSTK 2012(N.Đ.Huy)
Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo ba yếu
tố: pH (A), nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng sau:
Yếu tố A
Yếu tố B
B1
B2
B3
B4
A1
C1
9
C2
14
C3
16
C4
12
A2
C2
12
C3
15
C4
12
C1
10
A3
C3
13
C4
14
C1
11
C2
14
A4
C4
10
C1
11
C2
13
C3
13
Hãy đánh giá về ảnh hưởng của các yếu tố trên đến hiệu suất phản ứng?
Dạng bài.
Phân tích phương sai 3 yếu tố (A, B, C)
Cơ sở lý thuyết.
Phương pháp giải:
Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên các giá
trị quan sát G (i = 1, 2... r: yếu tố A; j = 1, 2...r: yếu tố B: k = 1, 2...r: yếu tố C).
Mơ hình:
Khi nghiên cứu ảnh hưởng của hai yếu tố, mỗi yếu tố có n mức, thì người ta dùng
mơ hình vng la tinh n×n. Ví dụ như mơ hình vng la tinh 4×4:
B
C
D
A
C
D
A
B
D
A
B
C
A
B
C
D
GVHD: GS-TS: NGUYỄN ĐÌNH HUY
1
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Mơ hình vng la tinh ba yếu tố được trình bày như sau:
Yếu tố B
Yếu tố
A
B1
B2
B3
B4
A1
C1
Y111
C2
Y122
C3
Y133
C4
Y144
T1..
A2
C2
Y212
C3
Y223
C4
Y234
C1
Y241
T2..
A3
C3
Y313
C4
Y324
C1
Y331
C2
Y342
T3..
A4
C4
Y414
C1
Y421
C2
Y432
C3
Y443
T4..
T.i.
T.1.
T.2.
T.3.
T.4.
Bảng ANOVA:
Nguồn
sai số
Yếu
A
Bậc tự do
tố
(r-1)
(Hàng)
Tổng số bình
phương
Bình phương
trung bình
2
Ti..2 T...
2
SSR= i 1 r r
r
T 2. j. T . . .2
∑ r − r2
j=1
MSR=
r
Yếu tố B
(r-1)
(Cột)
SSC=
T 2. . k T .. .2
∑ − r2
k =1 r
MSC=
r
Yếu tố C (r-1)
Sai số
(r-1)(r-2)
Tổng
cộng
(r -1)
SSC
(r −1)
SSF
(r −1)
SSF=
MSF=
SSE=SST –
MSE=
(SSF+SSR+SSC
)
SSR
(r −1)
Giá trị
thống kê
F R=
F C=
F=
MSR
MSE
MSC
MSE
MSF
MSE
SSE
(r−1)(r−2)
SST=
2
2
T .. .
2
ΣΣΣ Y ijk − 2
r
Trắc nghiệm
Giả thiết:
H0: μ1 = μ2 = ...= μk
¿
H1: μi
μj
↔ Các giá trị trung bình bằng nhau
↔ Có ít nhất hai giá trị trung bình khác nhau
Giá trị thống kê: FR, FC, F
Biện luận:
GVHD: GS-TS: NGUYỄN ĐÌNH HUY
2
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Nếu FR< Fα(r-1)(r-2)
→ Chấp nhận H0 đối với yếu tố A
Nếu FC < Fα(r-1)(r-2)
→ Chấp nhận H0 đối với yếu tố B
Nếu F < Fα(r-1)(r-2)
→ Chấp nhận H0 đối với yếu tố C
Bài làm.
Các bước thực hiện trên MS Excel:
Nhập số liệu bảng tính:
Tính tốn các giá trị
+ Tính các giá trị Ti
C20=SUM(C16:F16)
Dùng con trỏ ký tự cho các ơ từ C20:F20
+Tính các giá trị Tj
C21=SUM(C16:C19)
Dùng con trỏ ký tự cho các ơ từ C21:F21
+Tính các giá trị Tk
C22=SUM(C16,D19,E18,F17)
+Tính giá trị Tk
C23=SUM(C16:F19)
+ Gính các giá trị G
GVHD: GS-TS: NGUYỄN ĐÌNH HUY
3
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
H20=SUMSQ(C20:F20)
Kéo con trỏ cho các vị trí từ H20:H24
+ Tính các giá trị I
J20=SUMSQ(C20:F20)
Kéo con trỏ cho các vị trí từ J20:J22
J24=H24-H23/POWER(4,2)
J23=J24-SUM(J20:J22)
+Tính các giá trị K
L20==J20/(4-1)
Kéo con trỏ cho các vị trí L20:L22
L23=J23/((4-1)*(4-2))
+ Tính các giá trị M
N20=L20/$L$23
Kéo con trỏ cho các vị trí L20:L22
So sánh các giá trị và kết luận :
FR=3.10 < F0.05(3,6)=4.76
=> chấp nhận H0 (pH)
FC=11.95 > F0.05(3,6)=4.76
=> bác bỏ H0 (nhiệt độ)
F=30.05 > F0.05(3,6)=4.76=> bác bỏ H0 (chất xúc tác)
Vậy chỉ có nhiệt độ và chất xúc tác gây ảnh hưởng đến hiệu suất phản ứng
b) Đề bài.
Trình bày ví dụ 4.2 tr 216 BT XSTK
Người ta dùng ba mức nhiệt độ gồm 105, 120 và 135°C kết hợp với ba khoảng thời
gian là 15, 30 và 60 phút để thực hiện một phản ứng tổng hợp. Các hiệu suất của
phản ứng (%) được trình bày trong bảng sau:
Thời gian (phút)
Nhiệt độ (°C)
Hiệu suất (%)
X1
X2
Y
15
105
1.87
30
105
2.02
60
105
3.28
15
120
3.05
30
120
4.07
GVHD: GS-TS: NGUYỄN ĐÌNH HUY
4
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
60
120
5.54
15
135
5.03
30
135
6.45
Hãy cho biết yếu tố nhiệt độ và thời gian/hoặc yếu tố thời gian có liên quan tuyến
tính với hiệu suất của phản ứng tổng hợp? Nếu có thì điều kiện nhiệt độ 115°C
trong vịng 50 phút thì hiệu suất phản ứng sẽ là bao nhiêu?
Dạng bài:
Hồi quy tuyến tính đa tham số.
Cơ sở lý thuyết.
HỒI QUY TUYẾN TÍNH ĐA THAM SỐ
Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y có liên
quan đến k biến số độc lập Xi (i=1,2,...,k) thay vì chỉ có một như trong hồi quy
tuyến tính đơn giản.
Phương trình tổng quát
Ŷx0,x1,...,xk = B0 + B1X1 + ... + BkXk
Bảng ANOVA
Nguồn
sai số
Hồi
quy
Tổng số bình
phương
Bậc tự do
K
SSR
Bình phương
trung bình
MSR=
SSR
k
MSE
MSR
MSE
Sai số
N-k-1
SSE
Tổng
cộng
N-1
SST = SSR +
SSE
Giá trị
thống kê
F=
MSR
MSE
=
Giá trị thống kê
Giá trị R-bình phương:
R2 =
SSR
kF
=
SST ( N−k−1)+ kF
(
R2 ≥0 . 81
là khá tốt)
Độ lệch chuẩn:
GVHD: GS-TS: NGUYỄN ĐÌNH HUY
5
July 23, 2014
S=
√
SSE
( N −k −1)
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
(
S≤0 .30
là khá tốt)
Trắc nghiệm
Giá trị thống kê: F
Trắc nghiệm t:
H0: βi = 0 ↔ Các hệ số hồi quy khơng có ý nghĩa.
¿
H1: βi
0 ↔ Có ít nhất vài hệ số hồi quy có ý nghĩa.
tα
2
F < (r-1)(r-2) → Chấp nhận H0
Trắc nghiệm F
H0: βi = 0 ↔ Phương trình hồi quy khơng thích hợp.
¿
H1: βi
0 ↔ Phương trình hồi quy thích hợp với ít nhất vài hệ số Bi.
F
Bài làm.
Nhập dữ liệu vào bảng tính
Dữ liệu nhất thiết phải được nhập theo cột.
Áp dụng Regression
Nhấn lần lượt đơn lệnh Tools và lệnh Data Analysis
Chọn chương trình Regressiontrong hộp thoại Data Analysis rồi nhấp OK
GVHD: GS-TS: NGUYỄN ĐÌNH HUY
6
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Trong hộp thoại Regression, lần lượt ấn định các chi tiết:
Phạm vi của biến số Y (input Y range)
Phạm vi của biến số X (input X range)
Nhãn dữ liệu(Labels)
Mức tin cậy(Confidence level)
Tọa độ đầu ra(Output range)
Đường hồi quy (Line Fit Plots),…
Các giá trị đầu ra cho bảng sau:
GVHD: GS-TS: NGUYỄN ĐÌNH HUY
7
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Phương trình hồi quy:
Ŷx1=f(X1)
Ŷx1=2.73+0.04X1(R2=0.21, S=1.81)
t0=2.129< t0.05=2.365(hay Pv2=0.071>α=0.05)=>Chấp nhận giả thiết H0
t1=1.38<t0.05=2.365(hay Pv =0.209>α=0.05) =>Chấp nhận giả thiết H0
F=1.95<F0.05=5.590(hay Fs=0.209>α=0.05) =>Chấp nhận giả thiết H0
Vậy cả hai hệ số 2.73(B0) và 0.04(B1) củaphươngtrình hồi quyŶx1=2.73+0.04X1đều
khơng có ý nghĩa thống kê. Nói cách khác phương trình hồi quy này khơng thích hợp.
Phương trình hồi quy: Ŷx2=f(X2)
Ŷx2= -11.141 +0.129X2 (R2=0.76, S=0.99)
t0=3.418> t0.05=2.365(hay Pv2=0.011>α=0.05)
=>Bác bỏ giả thiết H0
t1= 4.757>t0.05=2.365(hay Pv =0.00206<α=0.05)
=>Bác bỏ giả thiết H0
F=22.631>F=5.590(hay Fs=0.00206<α=0.05)
=>Bác bỏ giả thiết H0
Vậy cả hai hệ số -11.141 (B0) và 0.129 (B1) của phương trình hồi quy Ŷx2=-11.141
+0.129X2 đều có ý nghĩa thống kê. Nói cách khác phương trình hồi quynày thích hợp.
Kết luận: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp.
GVHD: GS-TS: NGUYỄN ĐÌNH HUY
8
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Phương trình hồi quy: Ŷx1, x2=f(X1, X2)
Ŷx1, x2 =-12.70+0.04X1+0.13X2(R2=0.97; S=0.33)
Pv2=2.260.10-5<α=0.05
=>Bác bỏ giả thiết H0
Pv=0.00027<α=0.05
=>Bác bỏ giả thiết H0
Fs=1.112*10-5<α=0.05
=>Bác bỏ giả thiết H0
Vậy cả hai hệ số -12.70 (B 0),0.04(B1)và 0.13(B1)của phương trình hồi quy Ŷx1,x2 =-12.7
+0.04X1+0.13X2 đều có ý nghĩa thống kê. Nói cách khác, phương trình hồi quy này thích
hợp.
Kết luận: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố là
thời gian và nhiệt độ.
Sự tuyến tính của phương trình Ŷx1, x2 =-12.70+0.04X1+0.13X2. Có thể được trình bày
trong biểu đồ phân tán (scatterplots):
GVHD: GS-TS: NGUYỄN ĐÌNH HUY
9
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Biểu đồ phân tán
8
7
6
5
Y dự
4
đoán
3
2
1
0
0
2
4
6
8
Y
Nếu muốn dự đoán hiệu suất bằng phương trình hồi quy
Y=-12.70+0.04X1+0.13X2
chỉ cần chọn một ơ,ví dụ như:
E20,sau đó nhập hàm=E17+E18*50+E19*115 và được kết quả như sau:
Ghi chú: E17 tọa độ của B 0 ,E18 tọa độ của B1,E19 tọa độ của B2,50 là giá trị của X1(thời
gian) và 115 là giá trị của X2 (nhiệt độ)
Vậy hiệu suất phản ứng theo dự đoán ở 115°C trong vòng 50 phút là 4.3109%.
Bài 2:
Đề bài.
Bảng sau đây cho ta một mẫu gồm 11 quan sát (x i, yi) từ tập hợp chính các giá trị của cặp
ĐLNN (X,Y):
X
0,9
1,22 1,32 0,77 1,3
Y
-0,3
0,1
X
1,32
GVHD: GS-TS: NGUYỄN ĐÌNH HUY
0,7
0,95
1,2
0,02
0,28 0,25
1,45
1,3
1,2
10
July 23, 2014
Y
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
0,37
-0,70
0,55
0,35
0,32
a) Tìm đường hồi quy của Y đối với X.
b) Tính sai số tiêu chuẩn của đường hồi quy
c) Tính tỷ số F để kiểm định sự đúng đắn của giả thiết: Có hồi quy tuyến tính của Y
theo X.
Dạng bài.
Phân tích hồi quy tuyến tính
Cơ sở lý thuyết.
Phương trình hồi quy tuyến tính:
;
;
Kiểm định hệ số a, b:
Giả thuyết Ho: Hệ số quy hồi khơng có ý nghĩa (= 0)
H1: Hệ số hồi quy có ý nghĩa (≠ 0)
Trắc nghiệm t < tα, n-2: chấp nhận Ho
Kiểm định phương trình hồi quy:
Giả thuyết Ho: “Phương trình hồi quy tuyến tính khơng phù hợp”
H1: “Phương trình hồi quy tuyến tính phù hợp”
Trắc nghiệm F < Fα, 1, n-2: chấp nhận Ho
Bài làm.
Phần mềm sử dụng: Microsoft Excel
Làm bằng Excel, ta có các bước:
B1: Nhâp bảng số liệu
GVHD: GS-TS: NGUYỄN ĐÌNH HUY
11
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
B2: Chọn Data/Data Analysis/ Regression như trong hình:
Nhập dữ liệu vào như trong hình:
Input Y Range : khoảng dữ liệu của Y
Input X Range : khoảng dữ liệu của X
Confidence Level : mức ý nghĩa
Labels : Nhãn dữ liệu
Output Range : Khoảng dữ liệu xuất ra
GVHD: GS-TS: NGUYỄN ĐÌNH HUY
12
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
B3: Sau khi nhập đủ các thơng số, ta có được bảng sau:
GVHD: GS-TS: NGUYỄN ĐÌNH HUY
13
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
B4: Kết luận:
Đường quy hồi tuyến tính của Y đối với X là:
Y= 1.547892 X- 1.73948
a) Sai số tiêu chuẩn của đường hồi quy.
Sai số tiêu chuẩn của đường hồi quy là:
= 0.28965
GVHD: GS-TS: NGUYỄN ĐÌNH HUY
14
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
b) Tỷ số F = 0.289645
Với mức ý nghĩa a=0.05,
Ta thấy F=0.249645 > c=4.41 (bảng Fisher [1, 18])
Vậy có hồi quy tuyến tính giữa Y và X
c) Tỷ số F = 0.006169
Với mức ý nghĩa a=0.05, ta thấy F=0.006169 < 0.05
Vậy có hồi quy tuyến tính này khơng thích hợp.
Bài 3:
Đề bài.
Bảng sau đây cho ta phân bố thu nhập của 2 nhóm tuổi: Nhóm từ 40 – 50 tuổi và nhóm từ
50 – 60 tuổi trong số các cơng nhân lành nghề ở Thụy Điển năm 1930.
Thu nhập
Nhóm
tuổi
0–1
1–2
2–3
3–4
40 – 50
71
430
1072
1609
50 – 60
54
324
894
1202
Có sự khác nhau về phân bố thu nhập giữa hai nhóm tuổi
lành nghề hay khơng? Mức ý nghĩa = 2%.
4–6
>=6
1178
158
903
112
này trong số các công nhân
Dạng tốn:
Bài tốn kiểm định tính độc lập.
Cơ sở lí thuyết:
Ta sẽ xét bài tốn kiểm tra tính độc lập của hai dấu hiệu. Trước hết, chúng ta xét bài
toán
kiểm định tính độc lập của dấu hiệu định tính A và B.
Ta chia dấu hiệu A ra làm r mức độ A 1, A2,..., Ar, và chia đặc tính B làm k mức độ
B1, B2,..., Bk. Xét một mẫu ngẫu nhiên gồm n cá thể. Mỗi cá thể sẽ mang dấu hiệu A ở
mức Ai nào đó và mang dấu hiệu B ở mức B j nào đó. Giả sử nij là số cá thể có các dấu
hiệu Ai và Bj. Các số liệu nij được ghi trong bảng sau đây gọi là bảng liên hợp các dấu
hiệu (Contingency Table).
B
A
A1
A2
…
Ar
Tổng
B1
B2
...
Bk
Tổng
n11
n21
…
nr1
n01
n12
n22
…
nr2
n02
…
…
…
…
...
n1k
n2k
…
nrk
n0k
n10
n20
…
nr0
N
GVHD: GS-TS: NGUYỄN ĐÌNH HUY
15
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Trong đó ký hiệu pij là xác suất để một cá thể chọn ngẫu nhiên mang dấu hiệu A i và Bj ;
pjo và poj tương ứng là xác suất để cá thể mang dấu hiệu Ai và Bj.
Nếu giả thiết Ho “Hai dấu hiệu A và B độc lập” chúng ta có hệ thức sau:
pij = pio.poj
Các xác suất pio và poj được ước lượng bởi
Do đó Ho đúng thì
,
và số cá thể có đồng thời dấu hiệu Ai và Bj sẽ xấp xỉ bằng
Các số
được gọi là các tần số lý thuyết (TSLT), còn các số n ij được gọi là các tần
số quan sát (TSQS). Khoảng cách giữa các TSLT và TSQS được đo bằng đại lượng sau:
Người ta đã chứng minh được rằng nếu n lớn và các TSLT khơng nhỏ hơn 5 thì T
sẽ có phân bố xấp xỉ phân bố 2 với bậc tự do là (k–1).(r–1). Thành thử H o sẽ bị bác bỏ
ở mức ý nghĩa nếu T > c, trong đó c là phân vị mức của phân bố 2 với (k–1).(r–1)
bậc tự do.
Cách 2: Sử dụng hàm CHITEST trong Excel: CHITEST(nij,γij), với lưu ý số lượng các giá
trị của nij và γij phải bằng nhau.
Kết luận
2
Nếu
2
χ0 < χα
→ Chấp nhận giả thiết H0.
Hoặc kết quả hàm CHITEST > α =0.02 → Chấp nhận giả thiết H0
GVHD: GS-TS: NGUYỄN ĐÌNH HUY
16
July 23, 2014
GVHD: GS-TS: NGUYỄN ĐÌNH HUY
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
17
July 23, 2014
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Bài làm.
Tính bằng excel
Bước 1: Lập giả thiết H0: Phân bố thu nhập giữa hai nhóm tuổi này trong số các
công nhân lành nghề là như nhau.
Nhập bảng số liệu
Bước 2: Tính tổng hàng và tổng cột.
Đặt con trỏ tại ô B11 rồi giữ chuột kéo đến ô H13.
Sau đó nhấn nút
GVHD: GS-TS: NGUYỄN ĐÌNH HUY
trong Tab Home.
18