Tải bản đầy đủ (.pdf) (26 trang)

Báo cáo Bài Tập Lớn Xác Suất Thống Kê Nguyễn Bá Thi NHÓM 6Đại học Bách Khoa TPHCM

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.23 MB, 26 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA TPHCM


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Giáo viên hướng dẫn: Nguyễn Bá Thi
Sinh viên: Trần Đức Thắng
MSSV: 1413677
Nhóm: 6

NHÓM 6
1


CÂU 1
I.ĐỀ BÀI
Bảng sau đây cho ta phân bố thu nhập của hai nhóm tuổi : Nhóm từ 40-50 tuổi và
nhóm từ 50-60 tuổi trong số các công nhân lành nghề ở Thụy Điển năm 1930.
Nhóm
tuổi

Thu nhập

0-1
1-2
2-3
3- 4
4-6
>=6
40-50
71


430
1072
1609
1178
158
50-60
54
324
894
1202
903
112
Có sự khác nhau về tỷ lệ thu nhập giữa hai nhóm tuổi này trong số các công nhân
lành nghề hay không?
Mức ý nghĩa a = 5%.
II.Dạng bài
- So sánh tỷ số ( Kiểm định tỷ lệ )
III.Phương pháp giải
Giả thiết
H0 : P1 = P1,0 ,… ,Pk,0 ⇔" Các cặp Pi và Pi,0 giống nhau"
H1:"Ít nhất có một cặp Pi và Pi,0 khác nhau"
Giá trị thống kê

Oi - Các tần sô thực nghiệm (Observed Frequency)
Ei - Các tần số lý thuyết (Expacted Frequency)
Biện luận
Nếu χ2> χα2 => Bác bỏ giả thiết H0 (DF = k-1)
- Giá trị χ2 theo hàm CHITEST qua biểu thức :

2



Oij - tần số thực nghiệm của ô thuộc hàng i cột j
Eij - tần số lý thuyết của ô thuộc hàng i cột j ,
r- số hàng
c- số cột
- Xác suất P ( X > χ2 ) với bậc tự do DF = ( r-1)(c-1)
*Trong đó
r - số hàng ,
c - số cột trong bảng ngẫu nhiên(contingency table)
Nếu P ( X > χ2 ) > α => chấp nhận giả thiết H0 và ngược lại
IV.CÔNG CỤ GIẢI
Áp dụng MS -EXCEL
+ sử dụng hàm tính tổng Sum
và CHITEST
V.KẾT QUẢ VÀ CÁCH TÍNH
Giả thiết tỉ lệ hai nhóm tuổi là như nhau a = 5%
- Số liệu nhập vào

 Tính các tổng số:
+ Tổng hàng : chọn H14 và nhập =SUM(B14:G14)
Dùng con trỏ kéo nút tự điền từ H14 đến H15
+ Tổng cột : chọn B16 và nhập =SUM(B14:B15)
Dùng con trỏ keos nút tự điền từ B16 đến G16
+ Tổng cộng : chọn H16 và nhập =SUM(H14:H15)
Số liệu xuất ra :
Ta có bảng tần số thực nghiệm

3



Tính các tần số lý thuyết:
Tần số lý thuyết = ( tổng hàng*tổng cột )/tổng cộng
Nhóm 40 – 50 : chọn B19 và nhập =H14*B16/H16
Chọn C19 và nhập = H14*C16/H16
Chọn D19 và nhập =H14*D16/H16
Chọn E19 và nhập =H14*E16/H16
Chọn F19 và nhập =H14*F16/H16
Chọn G19 và nhập =H14*G16/H16
Nhóm 50 – 60 : chọn B20 và nhập =H15*B16/H16
Chọn C20 và nhập = H15*C16/H16
Chọn D20 và nhập =H15*D16/H16
Chọn E20 và nhập =H15*E16/H16
Chọn F20 và nhập =H15*F16/H16
Chọn G20 và nhập =H15*G16/H16
Ta được bảng tần số lý thuyết:

Áp dụng hàm số CHITEST
Chọn B22 và nhập = CHITEST(B14:G15,B19:G20)
4


Ta được kết quả P(X > X 2 )

Biện luận : P(X> X 2 )= 0.511582 > 0.05 = a Chấp nhận H0
VI.KẾT LUẬN
Không có sự khác nhau về tỷ lệ thu nhập giữa hai nhóm tuổi này trong số các
công nhân lành nghề

5



CÂU 2
I.ĐỀ BÀI
Trước một chiến dịch quảng cáo, tỷ lệ phòng có khách ở trong một khách sạn
được theo dõi ngẫu nhiên trong 15 ngày và thu được kết quả là 86 92 83 88 79 81
90 76 80 91 85 89 77 91 và 83 phần trăm.Sau khi kết thúc chiến dịch quảng cáo
người ta theo dõi tỷ lệ này trong 15 ngày và thu được kết quả là 88 94 97 99 89 93
92 98 89 90 97 91 87 80 và 96 phần trăm. Giả sử tỷ lệ phòng có khách là phân phối
chuẩn. Hãy ước lượng với độ tin cậy 95% tỷ lệ phòng có khách trước và sau chiến
dịch quảng cáo. Với mức ý nghĩa 5% hãy cho ý kiến là chiến dịch quảng cáo có
thành công hay không ?
II.DẠNG BÀI
+ Ước lượng trung bình
+ So sánh trung bình với từng cặp dữ liệu
III.PHƯƠNG PHÁP GIẢI
 Ước lượng trung bình:
Giá trị trung bình: x
̅

=

∑n
i=1 xi
n

Giới hạn tin cậy: 𝑡𝛼 . 𝑆𝑥̅

 So sánh trung bình với dữ liệu từng cặp:
Trong trường hợp hai mẫu nhỏ ( N < 30 ) phụ thuộc ( ví dụ : kết quả của một

nhóm chuột được xét nghiệm máu hai lần – trước và sau khi uống thuốc – hay
một nhóm bệnh nhân trải qua hai thí nghiệm – được thử thuốc trên tay này và
được thử thuốc trên tay kia ) và không giả định rằng phương sai của hai mẫu bằng
nhau, bạn có thể áp dụng trắc nghiệm t để so sánh giá trị trung bình của hai mẫu
dữ liệu tương ứng từng cặp.
Giả thiết
Tương tự trường hợp “hai mẫu với phương sai biết trước”
Giá trị thống kê
Di = Xi − Yi ( i = 1,2, … N )
6


̅=
D

∑N
i=1 Di
N

̅ )2
∑N
(Di − D
SD = √ i=1
(N − 1)
t=

̅ − μD
D
SD /√N


=

̅
D
SD /√N

có phân phối student với γ = N − 1

Biện luận
Nếu |t| < t α hay t α ( γ = N − 1) ⇒ Chấp nhận giả thiết H0
2

IV.CÔNG CỤ GIẢI.
Sử dụng MS-EXCEL
+ Ước lượng trung bình: Dùng chương trình Descriptive Statistics để tìm trung
bình (mean) và giới hạn tin cậy (Confidence Level)
+ So sánh trung bình với dữ liệu từng cặp: Dùng chương trình “t-TEST: PAIRED
TWO SAMPLE FOR MEANS” để tìm tiêu chuẩn kiểm định (t Stat) và phân vị hai
phía (t Critical two-tail)
VI.KẾT QUẢ VÀ CÁCH TÍNH
1.Ước lượng trung bình:
Nhập vào bảng số liệu :

7


Thiết lập bảng Descriptive Statistics
+ Data Data Analysis  Descriptive Statistics

+ Input range ( phạm vi đầu vào ) :$A$9:$B$24

+ Grouped By : columns
+ Confidence Level for Mean : 95%
8


Ta có bảng số liệu xuất ra:

9


Khoảng ước lượng:
Trước QC
Cách
tính
Kết quả

Sau QC

E11E11+E26 G11-G26 G11+G26
E26
81.7698 87.69687 89.17626 94.82374

2. So sánh trung bình với dữ liệu từng cặp
Thiết lập bảng t-Test:Paired Two Sample for Means
+ Data Data Analysis  t-Test:Paired Two Sample for Means

Ta nhập dữ liệu đầu vào như bảng với α = 0.05

10



Ta có bảng số liệu xuất ra

Giả thiết :
H0 : μ1 = μ2 Chiến dịch quảng cáo không thành công
Vì |t|=3,5399 > tα/2=2,1448 nên bác bỏ giả thiết H0
VI.KẾT QUẢ
Chiến dịch quảng cáo thành công

11


CÂU 3
I.ĐỀ BÀI
Tuổi X và huyết áp Y của bệnh nhân trẻ em (dưới 14 tuổi), chọn ngẫu nhiên được cho
trong bảng sau đây:
X 14 1 9
7
9
12 1 3 14 1 9
7
9
12 1 3
Y 100 83 112 152 104 90 92 85 110 73 132 122 134 98 82 65
Tính tỷ số tương quan,hệ số tương quan và hệ số xác định của Y đối với X. Với mức
ý nghĩa α =5%, có kết luận gì về mối tương quan giữa X và Y (Có phi tuyến không ?
Có tuyến tính không ?)? Tìm đường hồi quy tuyến tính của Y đối với X.
Tính sai số tiêu chuẩn của đường hồi quy.
II.DẠNG BÀI
Phân tích tương quan

Hồi quy tuyến tính
III.PHƯƠNG PHÁP GIẢI
Phân tích tương quan
Hệ số tương quan dùng để đo mức độ phụ thuộc tuyến tính giữa hai ĐLNN , tuy
nhiên chưa có một chỉ tiêu để đo mức độ phụ thuộc nói chung
Hệ số tương quan giữa X và Y rất bé thậm chí bằng không thì giữa X và Y vẫn có
một mối quan hệ phi tuyến tính rất chặt chẽ
Vậy để đo mức độ phụ thuộc của đại lượng ngẫu nhiên Y và đại lương ngẫu
nhiên X người ta đưa ra khái niệm tỷ số tương quan
Hệ số tương quan : R =

SXY
√SXX SYY

=

̅
̅
∑n
i=1(Xi −X)(Yi −Y)
̅ )2 ∑n (Y −Y
̅ )2
√∑n (Xi −X
i=1
i=1 i

12


Hệ số tương quan dùng trong việc đánh giá mức độ liên quan

+Nếu R < 0.7 thì mức độ liên quan nghèo nàn
+Nếu |R|nằm trong khoảng 0.7 – 0.8 thì mức độ liên quan khá
+Nếu |R| nằm trong khoảng 0.8 – 0.9 thì mức độ liên quan tốt
+Nếu |R|< 0.9 thì mức độ liên quan xuất sắc
Hệ số xác định : R2
Tỷ số tương quan được lý giải như là tỷ lệ biến động của Y do có sự phụ thuộc của
Y và X
Hồi quy đơn tuyến tính
̂X = B0 + BX
Phương trình tổng quát: Y
𝐵0 = 𝑌̅ − 𝐵𝑋̅
𝐵=

∑ 𝑋𝑖 𝑌𝑖 − ∑ 𝑋𝑖 𝑌𝑖 /𝑁
∑ 𝑋𝑖2 − 𝑁(𝑋̅)2

Với Y- Biến số phụ thuộc ( dependent/reponse variable )
X-biến cố độc lập ( independent/ predictor variable )
𝐵0 và B – các hệ số hồi quy ( regression coeficents )
Độ lệch chuẩn ( Standard Error ):
1
𝑆=√
∑(𝑌𝑖 − 𝑌′𝑖 )2
𝑁−2
Kiểm định hệ số phương trình hồi quy tuyến tính:
Giả thiết: H0 : βi = 0 hệ số hồi quy không có ý nghĩa
H1 : βi ≠ 0 hệ số hồi quy có ý nghĩa
+ Sử dụng kiểm định t ( phân phối Student)
ti =


|Bi −βi |
√S2n

S2

với Sn2 = ∑(X

̅)
i −X

2

13


Phân phối Student : γ = N − 2
Nếu ti < tα (N-2) thì chấp nhận H0 và ngược lại
+ Sử dụng kiểm định F ( phân phối Fischer)
Giả thiết: H0 : βi=0 phương trình hồi quy không thích hợp
H1 : βi ≠ 0 phương trình hồi quy thích hợp
̅ )2
∑(Y′i − Y′
F=
∑(Yi − Y′i )2 ⁄(N − 2)
Phân phối fischer : v1=1 và v2 = N-2
Nếu F < Fα(1,N-2) thì chấp nhận H0 và ngược lại

IV.CÔNG CỤ GIẢI
+ Phân tích tương quan : sử dụng chương trình Correlation để tìm hệ số tương
quan

+ Hồi quy đơn tuyến tính : sử dụng chương trình Regression
V.KẾT QUẢ VÀ CÁCH TÍNH
1.PHÂN TÍCH TƯƠNG QUAN TUYẾN TÍNH
Số liệu nhập vào :

14


Thiết lập bảng Correlation
Data  Analysis Correlation
Input range: phạm vi đầu vào ($A$9:$B$25)
Grouped by: nhóm dữ liệu theo hàng hoặc cột ( chọn Column – cột )
Labels in Firt Row : gắn nhãn ở hàng đầu tiên ( chọn )
Chọn New worksheet Ply ( hiện trong bảng tính mới )

15


Dữ liệu đầu ra

Hệ số tương quan R=0,466627
Hệ số xác định R2 = 0.218

Giả thiết : X và Y không tương quan tuyến tính
Tính toán:
n =16
T=

R√n − 2
√1 − R2


Suy ra T = 1.973631647
Phân phối Student với α =0.05 và bạc tự do n-2=14
Tra bảng ta có c=2.145 (=TINV(0.05,14) )
|𝑇| < c nên chưa có cơ sở để bác bỏ H0 -> chấp nhận H0
Vậy X Y không có tương quan tuyến tính
2.PHÂN TÍCH TƯƠNG QUAN PHI TUYẾN
Sắp xếp lại bảng số liệu
X
Y

1
73
82
83
92

3
65
85

7
122
152

9
104
112
132
134


12
90
98

14
100
110

Mở data analysis -> Anova :single Facter
16


+ Input Range ( Phạm vi đầu vào ) : $K$34$F$54
+ Grouped by ( Nhóm dữ liệu theo hàng hoặc cột ) : Column
+ Labels in Firt Row ( gắn nhãn ở hàng đầu tiên ) : chọn
Ouput Range ( phạm vi đầu ra ) : $B$44

Ta có bảng đầu ra :

17


Biện luận
n =16 , k = 6
Tổng bình phương các nhóm SSF = 6943.75
Tổng bình phương nhân tố SST = 8515.75
SSF

6943.75


η2Y/X = SST = 8515.75 = 0.815401
= > Tỷ số tương quan 𝜂𝑌/𝑋 = 0.903
η2Y/X − r 2 = 0.685
(η2Y −r2 )(n−k)

=>F=

X

(1−η2Y )(k−2)

=8.094031

X

18


Ta có : phân bố Fischer với 𝛼 = 0.05 và (k-2,n-k) = ( 4,10 )
Tra bảng c =FINV(𝜶,k-2,n-k) =FINV(0.05,4,10) = 3.47805
Giả thiết : H1 : X Y không có tương quan phi tuyến
Ta có : F = 8.094031 > c = 3.47805  Bác bỏ giả thiết H1
Vậy X với Y có tương quan phi tuyến
3.TÌM ĐƯỜNG HỒI QUY CỦA Y ĐỐI VỚI X
Nhập lại bảng tính

Thiết lập bảng Regression :
+ Data Data Analysis  regression
+ Input Y Range ( phạm vi đầu vào Y ) : $B$70:$B$85

+ Input X Range ( phạm vi đầu vào X ) : $A$70:$A$85
+ Labels (thêm nhãn dữ liệu )
19


+Output Range ( Phạm vi đầu ra ) : $A$87
+ Line Fit Plots (Vẽ đồ thị )

Dữ liệu xuất ra :

20


+ Hệ số góc : 2.335294
+ Hệ số tự do : 85.77794
 Vậy Y = 2.335294.X + 85.77794
Độ lệch chuẩn ( Standard Error ) : S = 21.81337478
Sai số tiểu chuẩn của đường hồi quy tuyến tính : S 2 = 475.82332
Giả thiết : Ho : Hệ số hồi quy không có ý nghĩa
+ t o = 8.6510546 > t 0.05 (14) = 2.145
Hay : giá trị P của hệ số tự do (p-value) : 5.45E-7 <  = 0.05  bác bỏ giả thiết Ho
 Hệ số tự do có ý nghĩa thống kê
+ t1 = 1.9740502 < t 0.05 (14) = 2.145
Hay Giá trị P của hệ số góc (p-value): 0.068444 >  = 0.05  chấp nhận giả thiết Ho
 hệ số góc không có ý nghĩa thống kê

21


Giả thiết : H1 : phương trình hồi quy không thích hợp

Significance F = 0.068444 >  = 0.05
⟹ Chấp nhận giả thiết H1
Vậy hệ số góc 2.335294 của phương trình hồi quy Y = 2.335294.X + 85.77794
không có ý nghĩa thống kê ,nói cách khác phương trình này không thích hợp
VI.KẾT QUẢ
+ Tỷ số tương quan : Y / X = 0.903
+ Hệ số tương quan : r = 0,466627
+ Hệ số xác định : r2 = 0,217741
+ X và Y không có tương quan tuyến tính với mức ý nghĩa 5%
+ Phương trình đường hồi quy tuyến tính Y = 2.335294X + 85.77794 là không thích
hợp.

22


CÂU 4
I.ĐỀ BÀI
Hãy phân tích tình hình kinh doanh của một số ngành nghề ở 4 quận nội thành
trên cơ sở số liệu vè doanh thu trung bình như sau :
Ngành nghề kinh doanh

Khu vực kinh doanh
Q1

Q2

Q3

Q4


Điện lạnh

5.7

3.1

4.4

5.0

Vật liệu xây dựng

5.0

15.0

9.5

17.5

Dịch vụ tin học

3.8

1.8

1.3

4.8


Mức ý nghĩa 10%
II.DẠNG BÀI
Phân tích phương sai hai nhân tố ( không lặp )
III.PHƯƠNG PHÁP GIẢI
Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan
sát Yij ( i =1.2…r : yếu tố A ; j = 1.2…c : yếu tố B )
Mô hình
Yếu tố A

Tổng cộng
trung bình

Yếu tố B
1
Y11
Y21

Yr1

2
Y12
Y22

Yr2








c
Y1c
Y2c

Yr

Tổng
cộng
Y1
Y2

Yr

T.1
̅Y̅̅.1̅

T.2
̅Y̅̅.2̅




T.c
̅̅̅
Y
.c

T...
Y̅..


Trung
bình
Y̅1
̅̅̅
Y2

Y̅r

23


Bảng ANOVA
Nguồn sai số

Bậc tự do

Yếu tố A ( hàng )

(r-1)

Tổng số bình phương
r

Ti 2 T 2
SSB = ∑

c
rc


Bình phương Giá trị thống kê
trung bình
SSB
MSB
MSB=
FR =
(r−1)
MSE

i=1

Yếu tố B ( cột )
Sai số

(c-1)
(r-1) (c-1)

r

Tj 2 T 2
SSB = ∑

r
rc
j=1

SSF

MSF =
MSB=


(c−1)
SSB

FC =

(r−1)

SSE = SST-(SSF+SSB)
Tổng cộng

(rc-1)

r

c

SST = ∑ ∑ Yij
i=1 j=1

2

T. .2

r

Trắc nghiệm
Giả thiết :
H0 : μ1 = μ2 =… μk  “các giá trị trung bình bằng nhau”
H1 : μ1 ≠ μ2  “ Ít nhất hai giá trị trung bình khác nhau”

 Giá trị thống kê :

FR =

MSB
MSE



MSF
MSE
 Biện luận :
FC =

24

MSF
MSE


+ Nếu FR < Fa [r-1,(r-1)(c-1)]  chấp nhận giả thiết H0 ( yếu tố A )
+ Nếu FC < Fa [c-1,(r-1)(c-1)]  chấp nhận giả thiết H0 ( yếu tố B )
IV.CÔNG CỤ GIẢI.
Sử dụng MS-EXCEL
Dùng lệnh ‘’Anova : Two-Factor Whithout Replication ‘’
VI.KẾT QUẢ VÀ CÁCH TÍNH
Giả thiết Ho : Các giá trị doanh thu trung bình bằng nhau
Nhập vào bảng số liệu :

Thiết lập bảng : Anova Two Factor Without Replication

DataData Analysis Anova Two Factor Without Replication
+ phạm vi đầu vào ( Input Range) : $A$9:$E$12
+ nhãn dữ liệu ( Labels in First Row/Column)
+ Alpha:0.1
+ phạm vi đầu ra ( Ouput range ) : $A$14

25


×