Tải bản đầy đủ (.pdf) (15 trang)

BÀI TẬP LỚN Xác Suất Thống Kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (714.97 KB, 15 trang )

Câu 1 :
Một nghiên cứu được tiến hành ở thành phố công nghiệp X để xác định tỷ
lệ những người đi làm bằng xe máy, xe đạp và xe buýt. Việc điều tra được tiến
hành trên hai nhóm. Kết quả như sau:


Xe Máy
Buýt
Xe đạp
Nữ
25
100
125
Nam
75
120
205

Với mức ý nghĩa  = 5%, hãy nhận định xem có sự khác nhau về tỷ lệ sử dụng các
phương tiện giao thông đi làm trong hai nhóm công nhân nam và công nhân nữ
hay không.

Câu 2:
Một cửa hàng lớn có bán ba loại giày A, B, C.Theo dõi số khách hàng mua
các loại giày này trong 5 ngày, người quản lý thu được bản số liệu sau :

Loại giày
A
B
C
28


21
20
18
23
35
42
32
25
27
33
38
31
42
29

Với mức ý nghĩa  = 1%, hãy so sánh lượng tiêu thụ trung bình của ba loại giày nói
trên.


Câu 3:
Tính tỷ số tương quan của Y đối với X, hệ số tương quan và hệ số xác định
của tập số liệu sau đây, Với mức ý nghĩa  = 5% , có kết luận gì về mối tương quan
giữa X và Y (Có phi tuyến không? Có tuyến tính không?) Tìm đường hồi quy của Y
đối với X.
(X,Y) = (15,13), (25,22), (10,6), (15,17), (20,21), (10,10), (20,25), (25,18), (30,14),
(30,10)

Câu 4:
Trên cơ sở tập số liệu sau đây hãy phân tích xem tỷ lệ đỗ loại giỏi có phụ
thuộc vào trường phổ thông và ban hay không với mức ý nghĩa  = 0.05. Ở đây z

là tỷ lệ đỗ loại giỏi (%); f là trương phổ thông số 1,2,3,4; g là ban (1 = ban A; 2 =
ban B).




Câu 1:
Một nghiên cứu được tiến hành ở thành phố công nghiệp X để xác định tỷ lệ những người đi
làm bằng xe máy, xe đạp và xe buýt. Việc điều tra được tiến hành trên hai nhóm. Kết quả như
sau:


Xe Máy
Buýt
Xe đạp
Nữ
25
100
125
Nam
75
120
205

Với mức ý nghĩa  = 5%, hãy nhận định xem có sự khác nhau về tỷ lệ sử dụng các phương tiện
giao thông đi làm trong hai nhóm công nhân nam và công nhân nữ hay không.

1.Dạng bài:
* Nhận xét: có mức ý nghĩa =0,05.Vậy đây là bài toán kiểm địnhTa thấy trong mỗi cá
thể trong tập hợp chính chỉ có một tính trạng là phân bố cách đi làm trong tập hợp các dân cư

của khu công nghiệp X.
 Đây là bài toán so sánh các phân số, kiểm định giả thiết về tỷ lệ sử dụng các
phương tiện giao thông đi làm trong hai nhóm công nhân nam và nữ.

2.Cách giải:
 Giải thuyết H
0
: tỉ lệ sử dụng các phương tiên giao thông đi làm trong hai nhóm công nhân
nam và công nhân nữ.

Khoảng cách giữa TSTN và TSLT được đo bằng:


 

















- các tần số thực nghiệm


- các tần số lý thuyết
 Biện luận:

1
>

2
(a)  bác bỏ giả thiết H
o

Trong Excel có hàm Chitest có thể tính giá trị

2
theo biểu thức:


 
 




















- các tần số thực nghiệm của các ô thuộc hàng i cột j


- các tần số lý thuyết của các ô thuộc hàng i cột j.
r là số hàng và c là số cột. Xác xuất với bậc tự do DF = (r-1)(c-1)
Nếu

  

thì chấp nhận giả thiết và ngược lại.

3.Công cụ giải:
Áp dụng MS-Excel:
-Nhập bảng dữ liệu thực tế
-Sử dụng hàng SUM dùng con trỏ kéo từ B2 đến D2 để tình tổng hàng của nữ và tương
tụ ở các ô tổng hàng và tổng cột khác.


-Tính tấn số lý thuyết = tổng hàng * tổng cột /tổng cộng



 

 


-Nhập B8 = ($E2*B$4)/$E$4
-Sau đó kéo từ B7  D8 ta được bảng sau:



-Để tính P(X >

 ), ta dùng hàm CHITEST(actual_range ; expected_range)
-Sử dụng hàm CHITEST
Tính p = CHITEST(B2:D3 ; B8:D9)


-P(X >

 ) = 0.00218853 < 0.05
 Vậy bác bỏ giả thuyết H
0

 Kết luận
Vậy tỷ lệ sử dụng các phương tiện giao thông đi làm trong hai nhóm công nhân nam và
công nhân nữ là khác nhau.


Câu 2:

Một cửa hàng lớn có bán ba loại giày A, B, C.Theo dõi số khách hàng mua các loại giày
này trong 5 ngày, người quản lý thu được bản số liệu sau :

Loại giày
A
B
C
28
21
20
18
23
35
42
32
25
27
33
38
31
42
29

Với mức ý nghĩa  = 1%, hãy so sánh lượng tiêu thụ trung bình của ba loại giày nói trên.

1.Dạng toán : Phân tích phương sai một nhân tố, so sánh giá trị trung bình của nhiều tập hợp
chính.

2.Cơ sở lý thuyết :
 Giả thiết H

0
:      “Các giá trị trung bình bằng nhau”.
 Giả thiết H
1
:     “Ít nhất có hai giá trị trung bình khác nhau”.
Đặt:
 SST : tổng bình phương các độ lệch:

 SSA : tổng bình phương độ lệch riêng của các nhóm so với .
 SSA = SST – SSF
(SSF : tổng bình phương do sai số)
 MSF : trung bình , bình phương của các nhân tố
 

  

 MSE : trung bình bình phương của sai số
 

 

Nếu H
0
đúng thì  


có phân phối theo Fisher bậc tự do (k-1; n-k)
 F < F
α
(k-1; n-k)  chấp nhân giả thiết H

0
và ngược lại.


3.Công cụ giải:
Áp dụng MS Excel:
-Nhập dữ liệu vào Excel :



- Click vào Data  Data Analysis  Anova : Single Factor”
- Hộp thoại hiện lên, nhập vào thông tin :
 Phạm vi đầu vào (Input Range) : $A$1:$C$6
 Chọn cách sắp xếp theo cột
 Chọn label in first row
 Output Range : $A$8






-Nhấn OK. Ta được kết quả như sau:



 Biện luận:
F = 7.586441 > F(0.01) = 6.926608
 Vậy bác bỏ giả thiết H
0



 Kết luận:
Vậy lương tiêu thụ trung bình của ba loại giày nói trên là khác nhau.

Câu 3:
Tính tỷ số tương quan của Y đối với X, hệ số tương quan và hệ số xác định của tập số liệu sau
đây, Với mức ý nghĩa  = 5% , có kết luận gì về mối tương quan giữa X và Y (Có phi tuyến
không? Có tuyến tính không?) Tìm đường hồi quy của Y đối với X.
(X,Y) = (15,13), (25,22), (10,6), (15,17), (20,21), (10,10), (20,25), (25,18), (30,14), (30,10)

1) Dạng bài toán: Phân tích tương quan và hồi quy
2) Công cụ : Thực hiên bài tập bằng Exel:
 Phân tích tương quan tuyến tính
Giả thiết H
0
: X và Y không có tương quan
tuyến tính
-Nhập dữ liệu Excel:





-Click chuột vào Data  Data Analysis  Correlation. Trong hộp hội thoại Correlation:
 Phạm vi đầu vào (Input Range) : $A$1:$B$11
 Chọn cách sắp xếp thep cột
 Chọn Label in first Row
 Chọn Output Range $A$13




-Ấn OK.Ta được bảng sau:



 Biện luận:
 n = 10
 Theo bảng kết quả, ta tìm được hệ số tương quan r = 0.31984409
 Hệ số xác định r
2
= 0.10230024
 Giá trị T = 0.954811781 theo CT
 Phân phối Student mức  = 0.05 với bậc tự do n-2 = 8
 c = 2.306 (tra theo Student với (n-2 = 8) bậc tự do)
 |T| < c nên bác bỏ giả thiết H
0

 Kết luận:
Chưa kết luận được X và Y có tương quan phi tuyến tính


 Tính hệ số tương quan, phân tích mối tương quan phi tuyến:
Giả thiết H
0
: X và Y không có tương quan phi tuyến
-Sắp xếp lại các giá trị của X và Y theo bảng sau:




-Click chuột vào Data  Data Analysis  Anova Single Factor
-Hộp thoại Anova Single Factor hiện lên:
 Phạm vi đầu vào (Input Range) : $A$17:$E$19
 Chọn Alpha (mức ý nghĩa) : 0.05
 Chọn cách sắp xếp theo cột
 Chọn Label in first Row
 Chọn Output Range $A$21






-Ta được kết quả sau:


 Biện luận:
 n = 10, k = 5
 SST = 330.4
 SSF = 290.4
 η
2
Y/X

= SSF / SST = 0.878935
 Giá trị F = 10.69174 theo CT
 Mà: Tra bảng phân phối Fisher với bậc tự do (3,5) ở mức 5% bằng cách nhập hàm
c = FINV(0.05, 3, 5)  c = 5.40945
 F > c nên bác bỏ giả thiết H
1


 Kết luận:
X và Y có tương quan phi tuyến

 Phân tích đường hồi quy:
Giả thiết H
0
: X và Y không hồi quy tuyến tính.
-Click Data  Data Analysis  Regression.
-Hộp thoại hiện lên, điền vào hộp thoại với thông tin:
 Phạm vi đầu vào:
X : $A$1:$A$11
Y : $B$1:$B$11
 Chọn cách sắp xếp theo cột
 Chọn Label in first Row
o Confidence Level nhập : 95%
 Chọn Output Range $A$39
 Residual chọn Line Fit Plos





-Ấn OK. Ta được kết quả sau:



 Biện luận :
Đường hồi quy của Y đối với X là
Y = 10.4 + 0.24X (R

2
= 0.1023, S = 0.608892)
Sai số tiêu chuẩn là 6.08892

Ta thấy : F = 0.91167 < c = 5.317655
(Dùng hàm FINV với bậc tự do (1,8) ở mức 0.05)
 Chấp nhận giả thiết H
0

Vậy không có hồi quy tuyến tính giữa Y và X

Giả thiết H
0
: hệ số hồi quy không có ý nghĩa
Hệ số A: t= 1.80041 < t
0.025
8 nên chấp nhân H
0
(hệ số A không có ý nghĩa)
Hệ số B: t= 0.95481 < t
0.025
8 nên chấp nhận giả thiết H
0
(hệ số B không có ý nghĩa)

 
 Kết luân:
- Tỷ số tương quan : 

= 0.878935

- Hệ số tương quan r = 0.31984409
- Hệ số xác định r
2
= 0.10230024
- X và Y không có tương quan tuyến tính với mức ý nghĩa 5%
- X và Y có tương quan phi tuyến tính với mức ý nghĩa 5%
- Phương trình đường hồi quy của Y với X : Y = 10.4 + 0.24X là không thich hợp

Câu 4:
Trên cơ sở tập số liệu sau đây hãy phân tích xem tỷ lệ đỗ loại giỏi có phụ thuộc vào trường phổ
thông và ban hay không với mức ý nghĩa  = 0.05. Ở đây z là tỷ lệ đỗ loại giỏi (%); f là trương
phổ thông số 1,2,3,4; g là ban (1 = ban A; 2 = ban B).



1.Dạng toán : Phân tích phương sai hai yếu tố có lặp

2.Cơ sở lý thuyết:
 Giả thuyết:




 

 

 “Các giá trị trung bình bằng nhau”





 

 “Ít nhất có hai giá trị trung bình khác nhau”

 Giá trị thống kê:











 Biện luận:
Nếu 

 

  

  

  

 => Chấp nhận H

0
(yếu tố A)
Nếu 

 

  

  

  

 => Chấp nhận H
0
(yếu tố B).


3.Công cụ giải: Microsoft Excel
 Giả thiết H
A
: Tỷ lệ đậu loại giỏi không phụ thuộc vào ban
Giả thiết H
B
: Tỷ lệ đậu loại giỏi không phụ thuộc vào trường phổ thông.
Giả thiết H
C
: Tỷ lệ đậu loại giỏi giữa ban và trường phổ thông không liên quan nhau.

-Nhập dữ liệu :




-Click Data  Data Analysis  Anova : Two-Factor With Replication.
-Hộp thoại hiện lên, nhập vào thông tin:
 Input Range : $A$1:$E$5
 Row per sample : 2
 Nhập Alpha : 0.05
 Output Range : $A$7




Nhấn OK, ta được kết quả:

 Biện luận :
-F
A
= 11.571429 > F
0.05
= 5.317655  Bác bỏ giả thiết H
A
-F
B
= 55.380952 > F
0.05
= 4.066181  Bác bỏ giả thiết H
B

-F
C

= 0.9047619 < F
0.05
= 4.066181  Chấp nhận giả thiết H
C

 Kết luận:
Vậy cả 2 yếu tố trường và ban đều ảnh hưởng đến tỉ lệ đổ loại giỏi của học sinh,tuy
nhiên không có sự tương tác giữa hai yếu tố trường và ban lên tỉ lệ đó

×