Tải bản đầy đủ (.doc) (19 trang)

BÁO CÁO BÀI TẬP LỚN-XÁC SUẤT THỐNG KÊ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (587.35 KB, 19 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
KHOA KHOA HỌC ỨNG DỤNG

BÁO CÁO BÀI TẬP LỚN
XÁC SUẤT THỐNG KÊ
GVHD: PGS.TS Nguyễn Bá Thi

Báo cáo Xác xuất thống kê
Đề 3
Giáo viên hướng dẫn: PGS.TS Nguyễn Bá Thi
Danh sách các thành viên:
Lê Đức Lộc MSSV: 41101939 (Nhóm Trưởng)
Lâm Phương MSSV: 41102653
Hà Vĩnh Phú MSSV: 41102570
Tài liệu tham khảo:
Giáo trình Xác xuất thống kê 2012 (PGS.TS Nguyễn Đình Huy)
Bài Tập Xác xuất thống kê 2012 (PGS.TS Nguyễn Đình Huy)
• Bài 1: Một xí nghiệp may sản xuất áo khoác với 4 màu: đỏ, xanh, vàng, và tím than. Số
khách hàng nam và nữ mua áo khoác với các màu được ghi trong bảng sau.
Đỏ Xanh Vàng Tím than
Nữ 62 34 71 42
Nam 125 223 52 54
Với mức ý nghĩa 1% hãy so sánh tỷ lệ khách hàng nam và nữ ưa chuộng các màu sắc nói trên.
1. Cơ sở lý thuyết:
Dạng: So sánh các phân số.
Giả thuyết H
0:
Sự chọn lựa của nam nữ không phụ thuôc vào màu sắc.
Ta tính giá trị thống kê theo công thức:
X
0


=
Trong đó :
O
ij
–tần số thực nghiệm của ô thuộc hàng i và cột j
E
ij
– tần số lý thuyết của ô thuộc hàng i và cột j
Kết quả ta được: X
o
=37.3839
Bậc tự do :

χ
2
0,05
(3-1)(5-1)=8 =>
χ
2
0,05
=15.51
Kết luận : - Vì X
0
>
χ
2
0,05
nên bác bỏ giả thiết H
0


- Độ dày lớp mạ phụ thuôc vào loại bể được dùng.
2. Giải toán bằng MS-EXCEL:
 Nhập dữ liệu vào bảng:
 Nhập thêm các dòng tổng hàng, tổng cột:
 Tính tổng hàng ,tổng cột:
 Chọn ô để nhập giá trị tổng sau đó dùng cú pháp sau:
=SUM(trị bảng ) > enter

 Tiếp theo tính các tần số lí thuyết

Sử dụng công thức: Tần số lý thuyết = (tổng hàng * tổng cột) / tổng cộng
• Gọi hàm CHITEST tính giá trị P
• Nhấp vào Formulas chọn Insert Fuction chọn Chitest nhấn OK
• Xuất hiện hộp thoại Fuction Agruments:
-Nhập các giá trị tần số quan sát vào mục Actual_range
-Nhập các giá trị tần số lí thuyết vào mục Expected_range.Nhấp OK
Kết luận:
P(X >
χ
2
0,05
) = 1.71514 x 10
-18
< α = 0.05  bác bỏ giả thuyết H
0
 Vậy ta có thể kết luận sự lựa chọn của nam nữ phụ thuộc vào màu sắc.
• Bài 2: Lượng sữa vắt được bởi 16 con bò cái khi cho nghe các loại nhạc khác nhau
(nhạc nhẹ, nhạc rốc, nhạc cổ điển, không có nhạc) được thống kê trong bảng sau đây:
Nhạc nhẹ 15 18 22 17
Nhạc rốc 13 20 16 15

Nhạc cổ điển 15 19 24 28
Không có nhạc 14 23 17 14
Với mức ý nghĩa 5%, nhận định xem lượng sữa trung bình của mỗi nhóm trên như nhau hay khác nhau.
Liệu âm nhạc có ảnh hưởng đến lượng sữa của các con bò hay không?
Dạng bài: phân tích phương sai một yếu tố
Giả thuyết H
0:
Ảnh hưởng của âm nhạc đến lượng sữa.
1. Cơ sở lý thuyết:
Khái niệm thống kê:
Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát Y
ij
(I
= 1. 2.… r: yếu tố A; j = 1. 2.… . c: yếu tố B).
Mô hình
Yếu tố A
Yếu tố B Tổng
cộng
Trung
bình
1 2 … c
1
2

r
Y
11
Y
21


Y
r1
Y
12
Y
22

Y
r2




Y
1c
Y
2c

Y
rc
Y
1.
Y
2.

Y
r
1
Y
2

Y

r
Y
Tổng cộng
Trung bình
T
.1
1.
Y
T
.2
2.
Y


T
c
c.
Y
T
Y
Bảng ANOVA
Nguồn
sai số
Bậc tự do Tổng số bình phương Bình phương
trung bình
Giá trị
thống kê
Yếu tố A

(Hàng)
(r-1)

=
−=
r
i
i
rc
T
c
T
SSB
1
2

2
)1r(
SSB
MSB

=
MSE
MSB
F
R
=
Yếu tố B
(Cột)
Sai số

(c-1)
(r-1)(c-1)

=
−=
c
1j
2

2
j
rc
T
r
T
SSB
SSE = SST – (SSF +
SSB)
)1c(
SSF
MSF

=
)1r(
SSB
MSB

=
MSE
MSF

F
C
=
Tổng
cộng
(rc-1)
∑∑
= =
−=
r
1i
c
1j
2

2
ij
r
T
YSST
Trắc nghiệm
* Giả thuyết:
H
0
:
k21

µ=µ=µ
⇔ “Các giá trị trung bình bằng nhau”
H

1
:
ji
µ≠µ
⇔ “Ít nhất có hai giá trị trung bình khác nhau”
* Giá trị thống kê:
MSE
MSB
F
R
=

MSE
MSF
F
C
=
* Biện luận:
Nếu
})1b)(1k(,1b[FF
aR
−−−<
⇒ Chấp nhận H
0
(yếu tố A)
Nếu
})1b)(1k(,1k[FF
aC
−−−<
⇒ Chấp nhận H

0
(yếu tố B).
2. Áp dụng MS-EXCEL:
 Nhập số liệu vào bảng tính:
 Áp dụng “Anova: single-Factor”
 Nhấp lần lượt đơn lệnh Tools và lệnh Data analysis:
 Chọn chương trình Anova: single-Factor trong hộp thoại Data analysis rồi nhấp nút OK
 Trong hộp thoại Anova: single-Factor, lần lượt ấn định các chi tiết
• Phạm vi đầu vào (input range)
• Cách sắp xếp theo hàng hay cột (Group by) “chúng ta làm theo hàng (chọn Rows)”
• Nhãn dữ liệu (label in First Row/Column)
 So sánh kết quả và biện luận:
Kết quả và biện luận:
P-value =0.30335303 > α = 0.05 và F=1.354679803 < F
Crit
= 3.40294819=> chấp nhận giả thuyết
H
0
 Vậy âm nhạc có ảnh hưởng đến lượng sữa của các con bò.
• Bài 3: Từ 12 cặp quan sát (x
i
,y
i
) sau đây của cặp hai biến (X,Y), tính tỷ số tương
quan, hệ số tương quan và hệ số xác định của Y đối với X. Với mức ý nghĩa α=5%, có kết
luận gì về mối tương quan giữa X và Y ( Có phi tuyến không? Có tuyến tính không?). Tìm
đường hồi quy của Y đối với X.
X 123 356 111 118 123 356 111 118 123 356 111 118
Y 4.2 4.1 3.7 3.9 4.5 4.1 3 3.8 2 3.1 3.4 3
1. Cơ sở lý thuyết

Đây là một bài toán hồi quy tuyến tính đa tham số, trong đó, Y (hiệu suất) liên quan đến hai biến
số X1(thời gian), X2 ( nhiệt độ).
Phương pháp: HỒI QUY TUYẾN TÍNH ĐA THAM SỐ
Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y có liên quan đến k biến
số độc lập X
i
(i=1,2, ,k) thay vì chỉ có một như trong hồi quy tuyến tính đơn giản.
Phương trình tổng quát
Ŷx
0
,x
1
, ,x
k
= B
0
+ B
1
X
1
+ + B
k
X
k
Bảng ANOVA
Nguồn sai số Bậc tự do
Tổng số bình
phương
Bình phương
trung bình

Giá trị thống

Hồi quy K SSR MSR=
k
SSR
F=
MSE
MSR
Sai số N-k-1 SSE MSE =
)1(
−−
kN
SSE
Tổng cộng N-1 SST = SSR + SSE
Giá trị thống kê
Giá trị R-bình phương:
kFkN
kF
SST
SSR
R
+−−
==
)1(
2
(
81.0
2

R

là khá tốt)
Độ lệch chuẩn:
)1(
−−
=
kN
SSE
S
(
30.0

S
là khá tốt)
Sau khi tìm các giá trị thống kê, ta sẽ có hai phần trắc nghiệm hồi quy gồm :
- Trắc nghiệm t: so sánh giá trị t với giá trị t
0,05
, bậc tự do là γ = N-k-1 (k là số biến) (tra
bảng Student)
Kiểm định các giả thuyết: H0: “ Các hệ số hồi quy không có ý nghĩa”
H1: “Có ít nhất vài hệ số hồi quy có ý nghĩa”
- Trắc nghiệm F: so sánh giá trị F với giá trị F
0,05
, bậc tự do là n1=1, n2= N-k-1
(tra bảng Fisher)
Kiểm định các giả thuyết: H0: “Phương trình hồi quy không thích hợp”
H1: “Phương trình hồi quy thích hợp”
2. Giải toán bằng MS-EXCEL:
 Nhập dữ liệu vào bảng tinh:
X Y
123 4.2

356 4.1
111 3.7
118 3.9
123 4.5
356 4.1
111 3
118 3.8
123 2
356 3.1
111 3.4
118 3
 Sử dụng lệnh Tools và lệnh Data Analysis:

 Chọn chương trình Regression trong hộp thoại Data Analysis:
 Ta chọn lần lượt các thuộc tính:
• Phạm vi biến số Y
• Phạm vi biến số X
• Nhãn dữ liệu
• Mức tin cậy 95%
• Tọa độ đầu ra (Output Range):
 Kết quả và biện luận:
Phương trình đường hồi quy:
Y
X1
= f(X
1
) = 3.3634 + 0.001145X
1
với R
2

= 0.0313636 và S = 0.720995747
t
0
= 8.154706311 > t
0.05
= 2.365 (tra bảng VII với n = 7, α = 0.025)
hay 9.95241E-06< α = 0.05
• Bài 4: Với mức ý nghĩa 0.05% hãy phân tích sự biến động của thu nhập
($/thang/người) trên cơ sở số liệu điều tra về thu nhập trung bình của 4 loại ngành nghề ở
4 khu vực khác nhau sau đây:
Loại ngành
nghề
Nơi làm việc
V1 V2 V3 V4
1 212 200 230 220
2 222 205 222 225
3 241 250 245 235
4 240 228 230 240
1. Cơ sở lý thuyết:
Phân tích phương sai hai nhân tố (không lặp)
Khái niệm thống kê:
Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát Yij
(i=1.2…r: yếu tố A; j=1.2…c: yếu tố B).
Mô hình
Yếu tố
A
Yếu tố B
1 2 … C
1 Y11 Y12 … Y1c Y1. Y1
2 Y12 Y22 … Y2c Y2. Y2

… … … … … … …
r Yr1 Yr2 … Yrc Yr. Yr
Tổng
cộng
T.1 T.2 … T.c T
Trung
bình
Y.1 Y.2 … Y.c Y
Bảng Anova:
Nguồn sai
số
Bậc tự do Tổng số bình phươg
Bình phương trung
bình
Giá trị thống kê
Yếu tố A
(hàng)
r-1 SSB=

=

r
i
i
rcr
TT
1
2

2

MSB=
1

r
SSB
F
R
=
MSE
MSB
Yếu tố B
(cột)
Sai số
r-1
(r-1)(c-1)
SSB=

=

c
j
j
rcr
T
T
1
2

2
SSE=SST – (SSF +

SSB)
MSF=
1−c
SSF
MSB=
1

r
SSB
F
C
=
MSE
MSF
Tổng
cộng
rc-1
SST=
∑∑
= =

r
i
c
j
ij
r
T
Y
1 1

2

2
Trắc nghiệm:
Giả thiết: H0: μ
1
= μ
2
= …=μ
k


“Các giá trị trung bình bằng nhau”
H1: μ
i
≠ μj

“Có ít nhất 2 giá trị trung bình khác nhau”
Giá trị thống kê: F
R
=
MSE
MSB
và F
C
=
MSE
MSF
Biện luận: Nếu F
R

< F
a
[b-1,(k-1)(b-1)] => chấp nhận H
0
(yếu tố A)
Nếu F
C
< F
a
[k-1,(k-1)(b-1)] => chấp nhận H
0
(yếu tố B)
2. Giải dùng MS-EXCEL:
 Nhập dữ liệu vào máy tính:
 Nhấp lần lượt đơn lệnh Tools và lệnh Data analysis:

 Chọn chương trình Anova: two-Factor without replication trong hộp thoại Data analysis
rối nhấp nút OK.
 Trong hộp thoại Anova: two-Factor without replication, lần lượt ấn định các chi tiết.
• Phạm vi đầu vào (input Range)
• Nhãn dữ liệu (label in First Row/Column)
• Ngưỡng tin cậy ( hoặc mức ý nghĩa): alpha
• Phạm vi đầu ra (output range)
 Sau đó so sánh kệt quả và biện luận
Kết luận:

- F(rows) = 8.7831 > F crit =3.862548 => Bác bỏ giả thiết H0
 Các loại ngành nghề tạo ra thu nhập trung bình không như nhau
- F(columns) = 1.232806 < F crit = 3.862548 => chấp nhận giả thiết H0
 Các nơi làm việc tạo ra thu nhập trung bình như nhau.

Vậy thu nhập khác nhau nếu xét các loại ngành nghề, còn thu nhập như nhau nếu xét về nơi làm
việc.

×