Tải bản đầy đủ (.pdf) (35 trang)

Báo cáo bài tập lớn xác xuất thống kê Đại Học Bách Khoa TP. Hồ Chí Minh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.03 MB, 35 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA  ĐHQG TP.HCM
KHOA KỸ THUẬT XÂY DỰNG
MÔN XÁC SUẤT THỐNG KÊ
---------------o0o---------------

BÁO CÁO BÀI TẬP LỚN
XÁC SUẤT THỐNG KÊ
NHÓM 10
GVHD: PGS.TS Nguyễn Đình Huy
Họ tên SV: Nguyễn Văn Tuấn
MSSV: 1414418
Nhóm_Lớp: L11_C (Sáng thứ 2)

TP. HCM tháng 11, năm 2015.


BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

Lời nói đầu
Thân chào Thầy cô và các bạn sinh viên!
Đây là quyển báo cáo Bài tập lớn do Nhóm 10 thực hiện.
Nội dung gồm 5 bài dưới sự hướng dẫn của thầy PGS.TS Nguyễn Đình Huy.
Báo cáo gồm 5 dạng:
+ Bài 1: Câu a) Kiểm định giá trị trung bình .......................................... Trang 2
Câu b) Phân tích tương quan và hồi quy tuyến tính ................. Trang 6
+ Bài 2: Phân tích tương quan và hồi quy tuyến tính ........................... Trang 14
+ Bài 3: Kiểm định so sánh 2 tỷ lệ. ....................................................... Trang 19
+ Bài 4: Kiểm định tính độc lập. ........................................................... Trang 23
+ Bài 5: Kiểm định giá trị trung bình. ................................................... Trang 29
Nhóm chúng em đã cố gắng trình bày nổi bật ý chính và cụ thể để bạn đọc có
thể dễ dàng hiểu rõ và đánh giá.


Thay mặt cả nhóm, Chúng em gửi lời cảm ơn chân thành nhất đến thầy
PGS.TS Nguyễn Đình Huy đã tận tình hướng dẫn và dạy bảo chúng em trong
học kì năm học 2015 này.

Chúng em mến chúc sức khỏe thầy!

GVHD: PGS-TS: NGUYỄN ĐÌNH HUY

1


BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

Bài 1a
1 Đề bài
Trình bày ví dụ 3.4 trang 207 sách BT XSTK 2012(N.Đ.Huy)
Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo ba yếu tố:
pH (A), nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng sau

Yếu tố A

`

Yếu tố B
B1

B2

B3


B4

A1

C1

9

C2

14

C3

16

C4

12

A2

C2

12

C3

15


C4

12

C1

10

A3

C3

13

C4

14

C1

11

C2

14

A4

C4


10

C1

11

C2

13

C3

13

2 Yêu cầu Hãy đánh giá về ảnh hưởng của các yếu tố trên đến hiệu suất phản ứng?
3 Dạng bài: Kiểm định giá trị trung bình;
Cơ sở lý thuyết.
 Phương pháp giải: Phân tích phương sai 3 yếu tố (A, B, C)
Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên các giá trị
quan sát G (i = 1, 2... r: yếu tố A; j = 1, 2...r: yếu tố B: k = 1, 2...r: yếu tố C).
Mô hình:
Khi nghiên cứu ảnh hưởng của hai yếu tố, mỗi yếu tố có n mức, thì người ta dùng mô
hình vuông la tinh n×n. Ví dụ như mô hình vuông la tinh 4×4:
B

C

D

A


C

D

A

B

D

A

B

C

A

B

C

D

Mô hình vuông la tinh ba yếu tố được trình bày như sau:
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY

2



BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

Yếu tố B

Yếu tố
A

B1

A1

C1

Y111

C2

Y122

C3

Y133

C4

Y144

T1..


A2

C2

Y212

C3

Y223

C4

Y234

C1

Y241

T2..

A3

C3

Y313

C4

Y324


C1

Y331

C2

Y342

T3..

A4

C4

Y414

C1

Y421

C2

Y432

C3

Y443

T4..


T.i.

B2

T.1.

B3

T.2.

B4

T.3.

T.4.

Bảng ANOVA:
Nguồn
sai số
Yếu tố A
(Hàng)
Yếu tố B
(Cột)
Yếu tố C

Tổng số bình
phương

Bậc tự do


2

(r-1)

Ti..2 T...
SSR=   2
r
i 1 r

(r-1)

SSC= 

SSR
(r  1)

FR=

MSR
MSE

MSC=

SSC
(r  1)

FC=

MSC
MSE


T2 T
SSF=  ..k  ...2
r
k 1 r

MSF=

SSF
(r  1)

F=

SSE=SST –

MSE=

r

j 1

T. 2j .
r

2



T...
r2


r

Sai số

(r-1)(r-2)

Tổng
cộng

(r2-1)

Giá trị
thống kê

MSR=

r

(r-1)

Bình phương
trung bình

2

(SSF+SSR+SSC)
SST= Yijk2 

MSF

MSE

SSE
(r  1)(r  2)

T...2
r2

Trắc nghiệm


Giả thiết:
H0: μ1 = μ2 = ...= μk
H1 : μ i  μ j

↔ Các giá trị trung bình bằng nhau

↔ Có ít nhất hai giá trị trung bình khác nhau



Giá trị thống kê: FR, FC, F



Biện luận:

Nếu FR< Fα[r-1,(r-1)(r-2)] → Chấp nhận H0 đối với yếu tố A
Nếu FC < Fα[r-1,(r-1)(r-2)] → Chấp nhận H0 đối với yếu tố B
Nếu F < Fα[r-1,(r-1)(r-2)] → Chấp nhận H0 đối với yếu tố C

 Bài làm.
Các bước thực hiện trên MS Excel:
 Nhập số liệu bảng tính:
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY

3


BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

 Tính toán các giá trị

+ Tính các giá trị Ti..
Chọn ô B7 nhập vào biểu thức=SUM(B2:E2)
Chọn ô C7 nhập vào biểu thức=SUM(B3:E3)
Chọn ô D7 nhập vào biểu thức=SUM(B4:E4)
Chọn ô E7 nhập vào biểu thức=SUM(B5:E5)
+Tính các giá trị T.j..
Chọn ô B8 nhập vào biểu thức=SUM(B2:B5)
Dùng con trỏ kéo kí hiệu tự điền từ ô B8 đến ô E8
+Tính các giá trị T..k
Chọn ô B9 nhập vào biểu thức=SUM(B2,C5,D4,E3)
Chọn ô C9 nhập vào biểu thức=SUM(B3,C2,D5,E4)
Chọn ô D9 nhập vào biểu thức=SUM(B4,C3,D2,E5)
Chọn ô E9 nhập vào biểu thức=SUM(B5,C4,D3,E2)
+Tính giá trị T…
Chọn ô B10 nhập vào biểu thức =SUM(B2:E5)
+ Tính các giá trị SUMSQTi.., SUMSQT.j., SUMSQT...k, SQT… SUMSOYijk
Chọn ô G7 nhập vào biểu thức=SUMSQ(B7:E7)
Dùng con trỏ kéo kí hiệu tự điền từ ô G7 đến ô G9

Chọn ô G10 nhập vào biểu thức=POWER(B10,2)
Chọn ô G11 nhập vào biểu thức=SUMSQ(B2:E5)
+ Tính các giá trị SSR, SSC, SSF, SST và SSE
Các giá trị SSR, SSC, SSF
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY

4


BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

Chọn ô I7 nhập vào biểu thức =G7/4-39601/POWER(4,2)
Dùng con trỏ kéo kí hiệu tự điền từ ô I7 đến ô I9
Giá trị SST
Chọn ô I11 nhập vào biểu thức =G11-G10/POWER(4,2)
Giá trị SSE
Chọn ô I10 nhập vào biểu thức =I11-SUM(I7:I9)
+ Tính các giá trị MSR, MSC, MSF và MSE
Chọn ô K7 nhập vào biểu thức =I7/(4-1)
Dùng con trỏ kéo kí hiệu tự điền từ ô K7 đến ô K9
Giá trị MSE
Chọn ô K10 nhập vào biểu thức =I10/((4-1)*(4-2))
+ Tính các giá trị FR, FC và F
Chọn ô M7 nhập vào biểu thức =K7/0,3958
Dùng con trỏ kéo kí hiệu tự điền từ ô M7 đến ô M9.

So sánh các giá trị và kết luận :
FR=3.10 < F0.05(3,6) = 4.76

=> chấp nhận H0 (pH)


FC=11.95 > F0.05(3,6) = 4.76

=> bác bỏ H0

(nhiệt độ)

F=30.05 > F0.05(3,6) = 4.76

=> bác bỏ H0

(chất xúc tác)

 Vậy chỉ có nhiệt độ và chất xúc tác gây ảnh hưởng đến hiệu suất phản ứng.

GVHD: PGS-TS: NGUYỄN ĐÌNH HUY

5


BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

Bài 1b
1 Đề bài:
Trình bày ví dụ 4.2 tr 216 BT XSTK
Người ta dùng ba mức nhiệt độ gồm 105, 120 và 135°C kết hợp với ba khoảng thời
gian là 15, 30 và 60 phút để thực hiện một phản ứng tổng hợp. Các hiệu suất của phản
ứng (%) được trình bày trong bảng sau:
Nhiệt độ (°C)


Thời gian (phút)

Hiệu suất (%)

X1

X2

Y

15

105

1.87

30

105

2.02

60

105

3.28

15


120

3.05

30

120

4.07

60

120

5.54

15

135

5.03

30

135

6.45

2 Yêu cầu Hãy cho biết yếu tố nhiệt độ và thời gian/hoặc yếu tố thời gian có liên quan
tuyến tính với hiệu suất của phản ứng tổng hợp?

Nếu có thì điều kiện nhiệt độ 115°C trong vòng 50 phút thì hiệu suất phản ứng sẽ là
bao nhiêu?
3 Dạng bài: Phân tích tương quan và hồi quy tuyến tính.
 Cơ sở lý thuyết.
 Phương pháp giải :Hồi quy tuyến tính đa tham số.
Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y có liên quan đến k
biến số độc lập Xi (i=1,2,...,k) thay vì chỉ có một như trong hồi quy tuyến tính đơn giản.
Phương trình tổng quát
Ŷx0,x1,...,xk = B0 + B1X1 + ... + BkXk

GVHD: PGS-TS: NGUYỄN ĐÌNH HUY

6


BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

Bảng ANOVA
Nguồn
sai số

Tổng số bình
phương

Bậc tự do

Hồi quy K

Bình phương
trung bình


SSR

MSR=

SSR
k

MSE =

SSE
( N  k  1)

Sai số

N-k-1

SSE

Tổng
cộng

N-1

SST = SSR + SSE

Giá trị thống

F=


MSR
MSE

Giá trị thống kê
Giá trị R-bình phương:
R2 

SSR
kF
( R 2  0.81 là khá tốt)

SST ( N  k  1)  kF

Độ lệch chuẩn:
SSE
( S  0.30 là khá tốt)
( N  k  1)

S

Trắc nghiệm


Giá trị thống kê: F



Trắc nghiệm t:
H0: βi = 0 ↔ Các hệ số hồi quy không có ý nghĩa.
H1: βi  0 ↔ Có ít nhất vài hệ số hồi quy có ý nghĩa.


t < t (N-k-1) → Chấp nhận H0


Trắc nghiệm F
H0: βi = 0 ↔ Phương trình hồi quy không thích hợp.
H1: βi  0 ↔ Phương trình hồi quy thích hợp với ít nhất vài hệ số Bi.

F
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY

7


BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

 Bài làm.
Nhập dữ liệu vào bảng tính
Dữ liệu nhất thiết phải được nhập theo cột.

Áp dụng Regression
Nhấn lần lượt đơn lệnh Tools và lệnh Data Analysis
Chọn chương trình Regressiontrong hộp thoại Data Analysis rồi nhấp OK

Trong hộp thoại Regression, lần lượt ấn định các chi tiết:








Phạm vi của biến số Y (input Y range)
Phạm vi của biến số X (input X range)
Nhãn dữ liệu(Labels)
Mức tin cậy(Confidence level)
Tọa độ đầu ra(Output range)
Đường hồi quy (Line Fit Plots),…

GVHD: PGS-TS: NGUYỄN ĐÌNH HUY

8


BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

Các giá trị đầu ra cho bảng sau:

Phương trình hồi quy: Ŷx1=f(X1)
Ŷx1=2.73+0.04X1 (R2=0.21, S=1.81)
t0= 2.129 < t0.05 = 2.365 (hay Pv2=0.071> α=0.05) =>Chấp nhận giả thiết H0
t1= 1.38 < t0.05 = 2.365 (hay Pv =0.209> α=0.05) =>Chấp nhận giả thiết H0
F= 1.95 < F0.05 = 5.590 (hay Fs=0.209 > α=0.05) =>Chấp nhận giả thiết H0
 Vậy cả hai hệ số 2.73(B0) và 0.04(B1) của phương trình hồi quy Ŷx1=2.73+0.04X1
đều không có ý nghĩa thống kê. Nói cách khác phương trình hồi quy này không thích hợp.
Kết luận 1: Yếu tố Thời gian không có liên quan tuyến tính với hiệu suất của phản ứng
tổng hợp.

GVHD: PGS-TS: NGUYỄN ĐÌNH HUY


9


BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

Phương trình hồi quy: Ŷx2=f(X2)
Ŷx2= -11.141 +0.129X2 (R2=0.76, S=0.99)
t0=3.418> t0.05=2.365(hay Pv2=0.011>α=0.05)

=>Bác bỏ giả thiết H0

t1= 4.757>t0.05=2.365(hay Pv =0.00206<α=0.05) =>Bác bỏ giả thiết H0
F=22.631>F=5.590(hay Fs=0.00206<α=0.05)

=>Bác bỏ giả thiết H0

Vậy cả hai hệ số -11.141 (B0) và 0.129 (B1) của phương trình hồi quy Ŷx2=-11.141 +0.129X2
đều có ý nghĩa thống kê.Nói cách khác phương trình hồi quy này thích hợp.
Kết luận 2: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp.

GVHD: PGS-TS: NGUYỄN ĐÌNH HUY

10


BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

Phương trình hồi quy: Ŷx1, x2=f(X1, X2)
Ŷx1, x2 =-12.70+0.04X1+0.13X2 (R2=0.97; S=0.33)

t0=11.528 > t0.05=2.365 (hay Pv2=2.260*10-5>α=0.05) => Bác bỏ giả thiết H0
t1= 7.583 > t0.05=2.365 (hay Pv =0.00027<α=0.05)

=> Bác bỏ giả thiết H0

-6

t2= 14.328 > t0.05=2.365 (hay Pv =7.233*10 <α=0.05) => Bác bỏ giả thiết H0
F=131.392 > F=5.140 (hay Fs=1.112*10-5<α=0.05)

=> Bác bỏ giả thiết H0

Vậy cả hai hệ số -12.70 (B0), 0.04(B1)và 0.13(B1)của phương trình hồi quy
Ŷx1,x2 =-12.7 +0.04X1+0.13X2 đều có ý nghĩa thống kê. Nói cách khác, phương trình hồi quy
này thích hợp.
Kết luận 3: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố là
thời gian và nhiệt độ.
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY

11


BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

Sự tuyến tính của phương trình Ŷx1, x2 =-12.70+0.04X1+0.13X2. Có thể được trình bày trong
biểu đồ phân tán (scatterplots):

Y
8
7

6
5
4
3
2
1
0
0

2

4

GVHD: PGS-TS: NGUYỄN ĐÌNH HUY

6

8

10

12


BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

Dự đoán hiệu suất bằng phương trình hồi quy
Y=-12.70+0.04X1+0.13X2
Ta chọn một ô,ví dụ như:
C21,sau đó nhập hàm =B17+B18*50+B19*115và được kết quả như sau:


Ghi chú: B17 tọa độ của B0 ,B18 tọa độ của B1, B19 tọa độ của B2, 50 là giá trị của X1 thời
gian) và 115 là giá trị của X2 (nhiệt độ)
 Vậy hiệu suất phản ứng theo dự đoán ở 115°C trong vòng 50 phút là 4.3109%.

GVHD: PGS-TS: NGUYỄN ĐÌNH HUY

13


BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

Bài 2
1 Đề bài
Bảng sau đây cho ta một mẫu gồm 11 quan sát (xi, yi) từ tập hợp chính các giá trị của cặp
ĐLNN (X,Y):
X
Y

0,9
-0,3

1,22
0,1
X
Y

1,32
0,7
1,32

0,37

0,77
-0,28
0,95
-0,70

1,3
-0,25
1,45
0,55

1,2
0,02
1,3
0,35

1,2
0,32

2 Yêu cầu
 Tìm đường hồi quy của Y đối với X.
 Tính sai số tiêu chuẩn của đường hồi quy
 Tính tỷ số F để kiểm định sự đúng đắn của giả thiết: Có hồi quy tuyến tính của Y theo
X.
3 Dạng bài
Phân tích tương quan và hồi quy tuyến tính.
 Cơ sở lý thuyết
 Phương pháp giải :Phân tích hồi quy tuyến tính
Phương trình hồi quy tuyến tính:


y x  a  bx ;

ar

Sy
Sx

;

b  y  ax

Kiểm định hệ số a, b:
Giả thuyết Ho: Hệ số quy hồi không có ý nghĩa (= 0)
H1: Hệ số hồi quy có ý nghĩa (≠ 0)
Trắc nghiệm t  t  N  2  chấp nhận Ho
Kiểm định phương trình hồi quy:
Giả thuyết Ho: “Phương trình hồi quy tuyến tính không phù hợp”
H1: “Phương trình hồi quy tuyến tính phù hợp”
Trắc nghiệm F  F 1, N  2  : chấp nhận Ho.

GVHD: PGS-TS: NGUYỄN ĐÌNH HUY

14


BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

 Bài làm.
Phần mềm sử dụng: Microsoft Excel

Làm bằng Excel, ta có các bước thực hiện:
Bước 1: Nhâp bảng số liệu

Bước 2: Chọn Data/Data Analysis/ Regression như trong hình:

N
h

p
d

l
i

Nhập số liệu vào như trong hình:
Input Y Range : khoảng dữ liệu của Y
Input X Range : khoảng dữ liệu của X
Confidence Level : mức ý nghĩa
Labels : Nhãn dữ liệu
Output Range : Khoảng dữ liệu xuất ra

GVHD: PGS-TS: NGUYỄN ĐÌNH HUY

15


BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

:Sau khi nhập đủ các thông số, ta có được bảng sau:


GVHD: PGS-TS: NGUYỄN ĐÌNH HUY

16


BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

Bước 3: Kết luận:

a) Đường quy hồi tuyến tính của Y đối với X là:
Y= 1.547892 X- 1.73948
b) Sai số tiêu chuẩn của đường hồi quy.

Sai số tiêu chuẩn của đường hồi quy là:
= 0.28965
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY

17


BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

c) Tỷ số F = 12.6267
Với mức ý nghĩa a=0.05,
Ta thấy F=12.6367 > 5.12 (bảng Fisher [1, 9])
Pv=0.006169 < 0.05 Bác bỏ giả thiết Ho
Vậy cả hai hệ số -1.73948(Bo) và 1.547892(B1) của phương trình hồi quy
Y= 1.547892 X- 1.73948 có ý nghĩa. Nói một cách khác, phương trình hồi quy này
thích hợp.
Kết luận: Y có liên quan tuyến tính với X.


GVHD: PGS-TS: NGUYỄN ĐÌNH HUY

18


BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

Bài 3
1. Đề bài
Bảng sau đây cho ta phân bố thu nhập của 2 nhóm tuổi: Nhóm từ 40 – 50 tuổi và nhóm từ 50
– 60 tuổi trong số các công nhân lành nghề ở Thụy Điển năm 1930.
Nhóm tuổi

0–1
71
54

40 – 50
50 – 60

1–2
430
324

Thu nhập
2–3
3–4
1072
1609

894
1202

4–6
1178
903

>=6
158
112

2. Yêu cầu: Có sự khác nhau về phân bố thu nhập giữa hai nhóm tuổi này trong số các công
nhân lành nghề hay không? Mức ý nghĩa  = 2%.
3. Dạng toán: Kiểm định so sánh - 2 tỷ lệ;
 Cơ sở lí thuyết:
Phương pháp: So sánh tỷ số.
Giả thiết
H0: P1= P1,0, P2= P2,0,…, Pk,0 <-> “Các cặp Pi và Pi,0 giống nhau”
H1 : “ít nhất có một cặp Pi và Pi,0 khác nhau”.
Giá trị thống kê
  Oi  Ei 2 

Ei
i 1 


h

2  


Oi - các tần số thực nghiệm (observed frequency)
Ei - các tần số lý thuyết (expected frequency).

Biện luận
Nếu  2  2 => bác bỏ giả thiết H0 (DF=k-1)
Trong chương trình MS-EXCEL có hàm số CHITESST có thể tính:
- Giá trị  2 thep biểu thức:
  Oi  Ei 2 
  

Ei
i 1 


h

2

Oi - các tần số thực nghiệm của ô thuộc hàng i và cột j
Ei - các tần số lý thuyết của ô thuộc hàng I với cột j; r – số hàng; c – số cột.

-

Xác suất P  X   2  với bậc tự do DF=(r-1)(c-1); trong đó: r là số hàng và c là số cột
trong bảng ngẫu nhiên (contingency table).
Nếu P  X   2    => chấp nhận giả thiết H0 và ngược lại.

GVHD: PGS-TS: NGUYỄN ĐÌNH HUY

19



BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

 Bài làm
Tính bằng excel
Bước 1: Lập giả thiết H0: Phân bố thu nhập giữa hai nhóm tuổi này trong số các công
nhân lành nghề là như nhau.
Nhập bảng số liệu

Bước 2: Tính tổng hàng và tổng cột.
Đặt con trỏ tại ô B11 rồi giữ chuột kéo đến ô H13.
Sau đó nhấn nút

trong Tab Home.

Ta được tổng hàng và tổng cột

Bước 3: Tính tần số lý thuyết.
Tần số = (tổng hàng * tổng cột) / tổng cộng.
Ô B23 nhập lệnh = $I3*C$5/$I$5 rồi enter.

GVHD: PGS-TS: NGUYỄN ĐÌNH HUY

20


BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

Sau đó ta kéo chọn từ C6:I7 , sau đó ta ấn tổ hợp phím F2+ctrl+enter.

Ta có bảng tần số lý thuyết

Bước 4: Dùng hàm CHITEST để tính.
Nhấn vào Tab Fomulas chọn Insert Function chọn CHITEST rồi nhấn OK

GVHD: PGS-TS: NGUYỄN ĐÌNH HUY

21


BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

Lúc đó sẽ xuất hiện hộp thoại Function Arguments
Nhập các giá trị tần số quan sát vào mục Actual_range
Rồi nhập các giá trị tần số quan sát vào mục Expected_range. Nhấn OK

Kết quả Ta được
P = 0.511582
Vì giá trị P > α = 2% => Chấp nhận giả thuyết H0
Kết luận: Phân bố thu nhập giữa hai nhóm tuổi này trong số các công nhân lành nghề là
như nhau.

GVHD: PGS-TS: NGUYỄN ĐÌNH HUY

22


BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

Bài 4

1 Đề bài.
Một nhóm gồm 105 nhà doanh nghiệp Mỹ được phân loại căn cứ theo thu nhập hằng năm và
tuổi thọ của họ. Kết quả thu được như hình sau:
Thu nhập
Tuổi

Dưới 100 000 $

Từ 100 000 $
đến 399 599 $

Trên 400 000 $

6

9

5

18

19

8

11

12

17


Dưới 40
Từ 40 đến
54
Trên 54

2 Yêu cầu: Với mức ý nghĩa 1%, kiểm định giả thiết cho rằng tuổi và mức thu nhập có
quan hệ với nhau hay không?
3 Dạng bài: Kiểm định tính độc lập;
 Cơ sở lí thuyết
 Phương pháp giải :kiểm tra tính độc lập
Ta sẽ xét bài toán kiểm tra tính độc lập của hai dấu hiệu. Trước hết, chúng ta xét bài toán
kiểm định tính độc lập của dấu hiệu định tính A và B.
Ta chia dấu hiệu A ra làm r mức độ A1, A2,..., Ar, và chia đặc tính B làm k mức độ
B1, B2,..., Bk. Xét một mẫu ngẫu nhiên gồm n cá thể. Mỗi cá thể sẽ mang dấu hiệu A ở mức
Ai nào đó và mang dấu hiệu B ở mức Bj nào đó. Giả sử nij là số cá thể có các dấu hiệu Ai
và Bj. Các số liệu nij được ghi trong bảng sau đây gọi là bảng liên hợp các dấu hiệu
(Contingency Table).
A

B1

B2

...

Bk

Tổng


n11
n21

n12
n22




n1k
n2k

n10
n20













Ar
Tổng


nr1
n01

nr2
n02


...

nrk
n0k

nr0
N

B
A1
A2

Trong đó ký hiệu pij là xác suất để một cá thể chọn ngẫu nhiên mang dấu hiệu Ai và Bj ; pjo
và poj tương ứng là xác suất để cá thể mang dấu hiệu Ai và Bj.
Nếu giả thiết Ho “Hai dấu hiệu A và B độc lập” chúng ta có hệ thức sau:
pij = pio.poj
Các xác suất pio và poj được ước lượng bởi
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY

23


BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ


n
ˆ
pio  io ,
n
noj
ˆ
poj 
n

Do đó Ho đúng thì
nio .noj
ˆ
ˆ ˆ
,
pij  pio .poj 
n2

và số cá thể có đồng thời dấu hiệu Ai và Bj sẽ xấp xỉ bằng
nio noj
ˆ
nij  npij 
n
ˆ
Các số n ij được gọi là các tần số lý thuyết (TSLT), còn các số nij được gọi là các tần

số quan sát (TSQS). Khoảng cách giữa các TSLT và TSQS được đo bằng đại lượng sau:
ˆ
(n ij  n ij )2
T

ˆ
n ij
j1 i 1
k

r



Người ta đã chứng minh được rằng nếu n lớn và các TSLT không nhỏ hơn 5 thì T sẽ
có phân bố xấp xỉ phân bố 2 với bậc tự do là (k–1).(r–1). Thành thử Ho sẽ bị bác bỏ ở
mức ý nghĩa  nếu T > c, trong đó c là phân vị mức  của phân bố 2 với (k–1).(r–1) bậc
tự do.
Cách 2: Sử dụng hàm CHITEST trong Excel: CHITEST (nij,γij), với lưu ý số lượng các giá
trị của nij và γij phải bằng nhau.
 Kết luận
Nếu  02  2 → Chấp nhận giả thiết H0.
Hoặc kết quả hàm CHITEST > α =0.01 → Chấp nhận giả thiết H0.

GVHD: PGS-TS: NGUYỄN ĐÌNH HUY

24


×