Tải bản đầy đủ (.docx) (27 trang)

báo cáo world XSTK đặng trung nguyên đã chỉnh sủa

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (590.22 KB, 27 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ





Giáo viên hướng dẫn: Nguyễn Bá Thi
Sinh viên: Đặng Trung Nguyên
MSSV: 1712369
Nhóm: 6

07/2018
1


CÂU 1
I.ĐỀ BÀI
Bảng sau đây cho ta phân bố thu nhập của hai nhóm tuổi : Nhóm từ 40-50 tuổi và
nhóm từ 50-60 tuổi trong số các công nhân lành nghề ở Thụy Điển năm 1930.
Nhóm
tuổi

Thu nhập

0-1
1-2
2-3
3- 4


4-6
>=6
40-50
71
430
1072
1609
1178
158
50-60
54
324
894
1202
903
112
Có sự khác nhau về tỷ lệ thu nhập giữa hai nhóm tuổi này trong số các công nhân
lành nghề hay không?
Mức ý nghĩa a = 5%.
II.Dạng bài
- So sánh tỷ số ( Kiểm định tỷ lệ )
III.Phương pháp giải
Giả thiết
H0 : P1 = P1,0 ,… ,Pk,0 ⇔" Các cặp Pi và Pi,0 giống nhau"
H1:"Ít nhất có một cặp Pi và Pi,0 khác nhau"
Giá trị thống kê

Oi – Các tần số thực nghiệm
Ei - Các tần số lý thuyết
Biện luận

Oij - tần số thực nghiệm của ô thuộc hàng i cột j
Eij - tần số lý thuyết của ô thuộc hàng i cột j
, r- số hàng
c- số cột
- Xác suất P ( X > χ2 ) với bậc tự do DF = ( r-1)(c-1)
*Trong đó
r - số hàng ,
c - số cột trong bảng ngẫu nhiên(contingency table)
Nếu P ( X > χ2 ) > α => chấp nhận giả thiết H0 và ngược lại

Nếu χ2> χα2 => Bác bỏ giả thiết
H0 (DF = k-1)
- Giá trị χ2 theo hàm CHITEST
qua biểu thức :
IV.CÔNG CỤ GIẢI
2


Áp dụng MS -EXCEL
+ sử dụng hàm tính tổng
Sum
và CHITEST
V.KẾT QUẢ VÀ CÁCH TÍNH
Giả thiết tỉ lệ hai nhóm tuổi là như nhau a = 5%
- Số liệu nhập vào

3


 Tính các tổng số:

+ Tổng hàng : chọn H11 và nhập =SUM(B11:G11)
Dùng con trỏ kéo nút tự điền từ H11 đến H12
+ Tổng cột : chọn B13 và nhập =SUM(B11:B12)
Dùng con trỏ kéo nút tự điền từ B13 đến G13
+ Tổng cộng : chọn H16 và nhập =SUM(H11:H12)
Số liệu xuất ra :
Ta có bảng tần số thực nghiệm

Tính các tần số lý thuyết:
Tần số lý thuyết = ( tổng hàng*tổng cột )/tổng cộng
Nhóm 40 – 50 : chọn B18 và nhập =H11*B13/H13
Chọn C18 và nhập = H11*C13/H13
Chọn D18 và nhập =H11*D13/H13
Chọn E18 và nhập =H11*E13/H13
Chọn F18 và nhập =H11*F13/H13
Chọn G18 và nhập =H11*G13/H13


Nhóm 50 – 60 : chọn B19 và nhập =H12*B13/H13
Chọn C19 và nhập = H12*C13/H13
Chọn D19 và nhập =H12*D13/H13
Chọn E19 và nhập =H12*E13/H13
Chọn F19 và nhập =H12*F13/H13
Chọn G19 và nhập =H12*G13/H13
Ta được bảng tần số lý thuyết:

Áp dụng hàm số CHITEST
Chọn B22 và nhập = CHITEST(B11:G13,B18:G29)

Ta được kết quả P(X > X2)

Biện luận : P(X> X2)= 0.511582 > 0.05 = a Chấp nhận H0
VI.KẾT LUẬN
Không có sự khác nhau về tỷ lệ thu nhập giữa hai nhóm tuổi này trong số các
công nhân lành nghề


CÂU 2
I.ĐỀ BÀI
Trước một chiến dịch quảng cáo, tỷ lệ phòng có khách ở trong một khách sạn
được theo dõi ngẫu nhiên trong 15 ngày và thu được kết quả là 86 92 83 88 79 81
90 76 80 91 85 89 77 91 và 83 phần trăm.Sau khi kết thúc chiến dịch quảng cáo
người ta theo dõi tỷ lệ này trong 15 ngày và thu được kết quả là 88 94 97 99 89 93
92 98 89 90 97 91 87 80 88 và 96 phần trăm. Giả sử tỷ lệ phòng có
khách là phân phối chuẩn. Hãy ước lượng với độ tin cậy 95% tỷ lệ phòng
có khách trước và sau chiến dịch quảng cáo. Với mức ý nghĩa 5% hãy cho
ý kiến là chiến dịch quảng cáo có thành công hay không ?
II. DẠNG BÀI

+ Ước lượng trung bình
+ So sánh trung bình với từng cặp dữ liệu
III.PHƯƠNG PHÁP GIẢI
 Ước lượng trung bình:
Giá trị trung bình:



n i=1

xx


xi Giới hạn tin cậy: �� . ��x

n

=
 So sánh trung bình với dữ liệu từng cặp:
Trong trường hợp hai mẫu nhỏ ( N < 30 ) phụ thuộc ( ví dụ : kết quả
của một nhóm chuột được xét nghiệm máu hai lần – trước và sau khi
uống thuốc – hay một nhóm bệnh nhân trải qua hai thí nghiệm – được
thử thuốc trên tay này và được thử thuốc trên tay kia ) và không giả định
rằng phương sai của hai mẫu bằng nhau, bạn có thể áp dụng trắc nghiệm t
để so sánh giá trị trung bình của hai mẫu dữ liệu tương ứng từng cặp.
Giả thiết
Tương tự trường hợp “hai mẫu với phương sai biết trước”
Giá trị thống kê
Di = Xi − Yi ( i = 1,2, … N )


Biện luận
Nếu |t| < tα hay tα/2 ( γ = N − 1) ⇒ Chấp nhận giả thiết H0

IV.CÔNG CỤ GIẢI.
Sử dụng MS-EXCEL
+ Ước lượng trung bình: Dùng chương trình Descriptive Statistics để tìm trung
bình (mean) và giới hạn tin cậy (Confidence Level)
+ So sánh trung bình với dữ liệu từng cặp: Dùng chương trình “t-TEST: TwoSample Asuming Unequal Variances” để tìm tiêu chuẩn kiểm định (t Stat) và
phân vị hai phía (t Critical two-tail)
VI.KẾT QUẢ VÀ CÁCH TÍNH
1.Ước lượng trung bình:
Nhập vào bảng số liệu :



Thiết lập bảng Descriptive Statistics
+ Data →Data Analysis → Descriptive Statistics

+ Input range ( phạm vi đầu vào ) :$A$35:$B$51
+ Grouped By : columns
+ Confidence Level for Mean : 95%


Ta có bảng số liệu xuất ra:

Khoảng ước lượng:


2. So sánh trung bình với dữ liệu từng cặp
Thiết lập bảng t-Test: Two-Sample Asuming Unequal Variances
+ Data →Data Analysis → t-Test: Two-Sample Asuming Unequal Variances

Ta nhập dữ liệu đầu vào như bảng với α = 0.05
Ta có bảng số liệu xuất ra


Giả thiết :
H0: μ1 = μ2 Chiến dịch quảng cáo không thành công
Vì |t|=3,75682 > tα/2=2,04523 nên bác bỏ giả thiết H0
VI.KẾT QUẢ
Chiến dịch quảng cáo thành công

CÂU 3

I.ĐỀ BÀI
Tuổi X và huyết áp Y của bệnh nhân trẻ em (dưới 14 tuổi), chọn ngẫu nhiên được
cho trong bảng sau đây:
X 14 1 9
7
9
12 1 3 14 1 9
7
9 12 1 3
Y 100 83 112 152 104 90 92 85 110 73 132 122 134 98 82 65
Tính tỷ số tương quan,hệ số tương quan và hệ số xác định của Y đối với X. Với
mức ý nghĩa α =5%, có kết luận gì về mối tương quan giữa X và Y (Có phi tuyến
không ? Có tuyến tính không ?)? Tìm đường hồi quy tuyến tính của Y đối với X.
Tính sai số tiêu chuẩn của đường hồi quy.
II.DẠNG BÀI
Phân tích tương quan
Hồi quy tuyến tính


III.PHƯƠNG PHÁP GIẢI
Phân tích tương quan
Hệ số tương quan dùng để đo mức độ phụ thuộc tuyến tính giữa hai ĐLNN , tuy
nhiên chưa có một chỉ tiêu để đo mức độ phụ thuộc nói chung
Hệ số tương quan giữa X và Y rất bé thậm chí bằng không thì giữa X và Y vẫn có
một mối quan hệ phi tuyến tính rất chặt chẽ
Vậy để đo mức độ phụ thuộc của đại lượng ngẫu nhiên Y và đại lương ngẫu nhiên X
người ta đưa ra khái niệm tỷ số tương quan

Hệ số tương quan dùng trong việc đánh giá mức độ liên quan
+Nếu R < 0.7 thì mức độ liên quan nghèo nàn

+Nếu |R|nằm trong khoảng 0.7 – 0.8 thì mức độ liên quan khá
+Nếu |R| nằm trong khoảng 0.8 – 0.9 thì mức độ liên quan tốt
+Nếu |R|> 0.9 thì mức độ liên quan xuất sắc
Hệ số xác định : R2
Tỷ số tương quan được lý giải như là tỷ lệ biến động của Y do có sự phụ thuộc của
Y và X
Hồi quy đơn tuyến tính

Với Y- Biến số phụ thuộc ( dependent/reponse variable )
X-biến cố độc lập ( independent/ predictor variable )


�0 và B – các hệ số hồi quy ( regression coeficents )


Kiểm định hệ số phương trình hồi quy tuyến tính:
Giả thiết: H0 : βi = 0 hệ số hồi quy không có ý
nghĩa
H1 : βi ≠ 0 hệ số hồi quy có ý nghĩa
+ Sử dụng kiểm định t ( phân phối Student)

Phân phối Student : γ = N − 2
Nếu ti < tα (N-2) thì chấp nhận H0 và ngược lại
+ Sử dụng kiểm định F ( phân phối Fischer)
Giả thiết: H0 : βi=0 phương trình hồi quy không thích hợp
H1 : βi ≠ 0 phương trình hồi quy thích hợp

Phân phối fischer : v1=1 và v2 = N-2
Nếu F < Fα(1,N-2) thì chấp nhận H0 và ngược lại
IV.CÔNG CỤ GIẢI

+ Phân tích tương quan : sử dụng chương trình Correlation để tìm hệ số tương quan
+ Hồi quy đơn tuyến tính : sử dụng chương trình Regression



V.KẾT QUẢ VÀ CÁCH TÍNH
1.PHÂN TÍCH TƯƠNG QUAN TUYẾN TÍNH
Số liệu nhập vào :

Thiết lập bảng Correlation
Data → Analysis→ Correlation
Input range: phạm vi đầu vào ($A$36:$B$50)
Grouped by: nhóm dữ liệu theo hàng hoặc cột ( chọn Column – cột )
Labels in Firt Row : gắn nhãn ở hàng đầu tiên ( chọn )
Chọn New worksheet Ply ( hiện trong bảng tính mới )


Dữ liệu đầu ra

Hệ số tương quan R=0,466627
Hệ số xác định R2 = 0.218
Giả thiết : X và Y không tương quan tuyến
tính Tính toán:
n =16

Suy ra T = 1.973631647
Phân phối Student với α =0.05 và bạc tự do n2=14 Tra bảng ta có c=2.145 (=TINV(0.05,14) )
|�| < c nên chưa có cơ sở để bác bỏ H0 -> chấp nhận H0
Vậy X Y không có tương quan tuyến tính
2.PHÂN TÍCH TƯƠNG QUAN PHI TUYẾN

Sắp xếp lại bảng số liệu
Y

1
73
82
83
92

3
65
85

7
122
152

9
104
112
132
134

12
90
98

14
100
110



Mở data analysis -> Anova :single Facter
+ Input Range ( Phạm vi đầu vào ) : $B$133$G$137
+ Grouped by ( Nhóm dữ liệu theo hàng hoặc cột ) : Column
+ Labels in Firt Row ( gắn nhãn ở hàng đầu tiên ) :
chọn Ouput Range ( phạm vi đầu ra ) : $A$142
Ta có bảng đầu ra :


Biện luận
n =16 , k = 6
Tổng bình phương các nhóm SSF = 6943.75
Tổng bình phương nhân tố SST = 8515.75
→Tỷ số

tương quan

Ta có : phân bố Fischer với � = 0.05 và (k-2,n-k) = ( 4,10
)
Tra bảng c =FINV(�,k-2,n-k) =FINV(0.05,4,10) = 3.47805


Giả thiết : H1 : X Y không có tương quan phi tuyến
Ta có : F = 8.094031 > c = 3.47805 → Bác bỏ giả thiết
H1
Vậy X với Y có tương quan phi tuyến
3.TÌM ĐƯỜNG HỒI QUY CỦA Y ĐỐI VỚI X
Thiết lập bảng Regression :
+ Data →Data Analysis → regression

+ Input Y Range ( phạm vi đầu vào Y ) : $A$102:$A$117
+ Input X Range ( phạm vi đầu vào X ) : $B$102:$B$117
+ Labels (thêm nhãn dữ liệu )
+Output Range ( Phạm vi đầu ra ) : $A$178
+ Line Fit Plots (Vẽ đồ thị )
Dữ liệu xuất ra :



+ Hệ số góc : 2.335294
+ Hệ số tự do : 85.77794
→ Y = 2.335294.X + 85.77794
Độ lệch chuẩn ( Standard Error ) : S = 21.81337478
Sai số tiểu chuẩn của đường hồi quy tuyến tính : S2= 475.82332 Giả
thiết : Ho : Hệ số hồi quy không có ý nghĩa
+ to = 8.6510546 > t0.05(14) = 2.145
Hay : giá trị P của hệ số tự do (p-value) : 5.45E-7 < α = 0.05 → bác bỏ giả thiết Ho
→ Hệ số tự do có ý nghĩa thống kê
+ t1 = 1.9740502 < t0.05(14) = 2.145
Hay Giá trị P của hệ số góc (p-value): 0.068444 > α = 0.05→ chấp nhận giả thiết Ho
→ hệ số góc không có ý nghĩa thống kê

Giả thiết : H1 : phương trình hồi quy không thích hợp
F = 0.068444 > α = 0.05
⟹ Chấp nhận giả thiết H1
Vậy hệ số góc 2.335294 của phương trình hồi quy Y = 2.335294.X + 85.77794
không có ý nghĩa thống kê ,nói cách khác phương trình này không thích hợp
V. KẾT QUẢ

+ Tỷ số tương quan : = 0.903

+ Hệ số tương quan : r = 0,466627
+ Hệ số xác định : r2 = 0,217741
+ X và Y không có tương quan tuyến tính với mức ý nghĩa 5%
+ Phương trình đường hồi quy tuyến tính Y = 2.335294X + 85.77794 là không thích
hợp.


CÂU 4
I.ĐỀ BÀI
Hãy phân tích tình hình kinh doanh của một số ngành nghề ở 4 quận nội thành
trên cơ sở số liệu vè doanh thu trung bình như sau :
Ngành nghề kinh doanh

Khu vực kinh doanh
Q1

Q2

Q3

Q4

Điện lạnh

5.7

3.1

4.4


5.0

Vật liệu xây dựng

5.0

15.0

9.5

17.5

Dịch vụ tin học

3.8

1.8

1.3

4.8

Mức ý nghĩa 10%
II. DẠNG BÀI

Phân tích phương sai hai nhân tố ( không lặp )
III.PHƯƠNG PHÁP GIẢI
Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan
sát Yij ( i =1.2…r : yếu tố A ; j = 1.2…c : yếu tố B )
Mô hình

Yếu tố A Yếu tố
1
Y11
Y21

c

Y12
Y22







Yr1

Yr2




T.1
̅xYx.1x

T.2
̅xYx.2x






Tổng cộng
trung bình

B
2



Tổng
cộng
Y

Y1c
Y2c

Trung
bình
Yx1
̅xYx2x

1



Y2

Yr


Yr

T.c
Yx.xc

T...
Yx..


Yxr


Bảng ANOVA

Giả thiết :
H0 : μ1 = μ2 =… μk � “các giá trị trung bình bằng nhau”
H1 : μ1 ≠ μ2 ��“ Ít nhất hai giá trị trung bình khác nhau
Giá trị thống kê :

 Biện luận :
+ Nếu FR < Fa [r-1,(r-1)(c-1)] → chấp nhận giả thiết H0 ( yếu tố A )
+ Nếu FC < Fa[c-1,(r-1)(c-1)] → chấp nhận giả thiết H0 ( yếu tố B )
IV.CÔNG CỤ GIẢI.
Sử dụng MS-EXCEL
Dùng lệnh ‘’Anova : Two-Factor Whithout Replication ‘’


VI.KẾT QUẢ VÀ CÁCH TÍNH
Giả thiết Ho : Các giá trị doanh thu trung bình bằng nhau

Nhập vào bảng số liệu :

Thiết lập bảng : Anova Two Factor Without Replication
Data→Data Analysis→ Anova Two Factor Without Replication
+ phạm vi đầu vào ( Input Range) : $D$232:$G$235
+ nhãn dữ liệu ( Labels in First Row/Column)
+ Alpha:0.1
+ phạm vi đầu ra ( Ouput range ) : $A$239
Số liệu xuất ra


×