Tải bản đầy đủ (.pdf) (22 trang)

btl xác suất thống kê thầy thi nhóm 2

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.02 MB, 22 trang )

Câu 1:
 Đề bài : Một nghiên cứu được tiến hành ở thành phố công nghiệp X để xác định tỉ
lệ những người đi làm bằng xe máy, xe đạp và xe buýt.Việc điều tra được tiến hành
trên 2 nhóm
Xe máy

Buýt

Xe Đạp

Nữ

25

100

125

Nam

75

120

205

Với mức ý nghĩa   5% hãy nhận định xem có sự khác nhau về tỉ lệ sử dụng các phương
tiện giao thơng đi làm trong 2 nhóm công nhân nam và công nhân nữ hay không ?
 Dạng toán: Kiểm định giả thiết về tỷ lệ
 Phương pháp giải


Giả thiết H 0 : Tỉ lệ sử dụng các phương tiện giao thơng đi làm trong 2 nhóm cơng








nhân nam và nữ là khác nhau
Tính tổng hàng và tổng cột
Tính tần số lý thuyết = (tổng hàng * tổng cột)/tổng cộng
Tính xác suất P( X > χ² ) bằng cách sử dụng hàm CHITEST
Kết luận: Nếu P( X > χ² ) <  thì chấp nhận giả thiết.
Nếu P( X > χ² ) >  thì bác bỏ giả thiết
Công cụ giải Áp dụng “ CHIPTEST ” của MS - Excel
Giải
Gọi H 0 là tỉ lệ sử dụng các phương tiện giao thơng đi làm trong 2 nhóm cơng nhân

nam và nữ là khác nhau
 Tính tổng hàng và tổng cột
 Tính tần số lý thuyết = tổng hàng * tổng cột / tổng cộng
- Phụ nữ chọn đi xe máy : chọn ô B6 và nhập biểu thức ==$E2*B$4/$E4
- Phụ nữ chọn đi xe buýt và xe đạp : chọn ô B6 và kéo con trỏ tự điền đến ô D6
- Nam giới chọn đi xe máy: chọn ô B7 và nhập biểu thức ==$E3*B$4/$E$4
- Nam giới chọn đi xe buýt và xe đạp: chọn ô B7 và kéo con trỏ tự điền đến ơ D7
 Tính xác suất P( X > χ² )=CHITEST (Bảng thực tế , Bản kỳ vọng)
Chọn ô B và nhập biểu thức =CHITEST(B2:D3,B6:D7)

1



 Kết luận:
Vì P( X > χ² ) <  thì chấp nhận giả thiết H 0 . Vậy tỉ lệ phụ nữ và nam giới chọn sử dụng
các loại phương tiện giao thông là khác nhau.

Câu 2
 Đề bài : Để nghiên cứu chiều cao của nam thanh niên ở nước A và B người ta lấy
ngẫu nhiên ở mỗi nước 28 thanh niên và tiến hành đo chiều cao ( tính bằng cm ) thì
được kết quả
Nước A
Chiều cao

163÷167

167÷171

171÷175

175÷179

179÷183

183÷187

Số người

3

5


8

6

4

2

Chiều cao

163÷167

176÷171

171÷175

175÷179

179÷183

183÷187

Số người

2

4

9


6

5

2

Nước B

a. Với độ tin cậy 95%,hãy ước lượng chiều cao trung bình của nam thanh niên ở mỗi
nước
b. Có ý kiến cho rằng độ đồng đều về chiều cao của nam thanh niên ở hai quốc gia trên
là khác nhau .Với mức ý nghĩa là 0,05 hãy nhận xét ý kiến này
Giả sử chiều cao nam thanh niên ở mỗi nước có quy luật phân phối chuẩn

2


a.
 Dạng bài
Ước lượng khoảng của trung bình tổng thể chưa biết phương sai với n < 30
 Phương pháp giải

 x  a

n

 T  n  1
S
1 ,  2  0   1   2  


Chọn G  T 



 P t1    T  t 2 
Xét

 T21  n 1 



 x  a
S

  1
n

 T2 2  n 1

S
S
T2 2  n 1  a  x 
T21  n 1
n
n
 Công cụ giải : Áp dụng “Descriptive Statistics ” của MS Excel
 x

 Giải

- Từ bảng đã có ở đề bài chuyển bảng về bảng sau

3


-

Tính cho nước A
Mở hộp thoại Data Analysis, chọn Descriptive Statistics

4


Nhập vào hộp thoại Descriptive Statistics các giá trị:
*
Input Range: Phạm vi dữ liệu nhập vào
*
Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn hàng)
*
Tích vào ơ Labels in first Row: nhãn ở cột đầu tiên
*
Output Range: Phạm vi xuất dữ liệu ra
*
Tích vào ơ Summary Statistics
*
Confidence Level for Mean (Độ tin cậy ): nhập 95%

Ta được kết quả

5



 Chiều cao trung bình của thanh niên nước A trong khoảng
172.0900402  a  176.4813884
-

Làm tương tự cho nước B
Mở hộp thoại Data Analysis, chọn Descriptive Statistics

6


Nhập vào hộp thoại Descriptive Statistics các giá trị:
*
Input Range: phạm vi dữ liệu nhập vào
*
Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn hàng)
*
Tích vào ơ Labels in first Row: nhãn ở cột đầu tiên
*
Output Range: phạm vi xuất dữ liệu ra
*
Tích vào ơ Summary Statistics
*
Confidence Level for Mean (Độ tin cậy ): nhập 95%

Ta có kết quả sau

7



 Kết luận
Chiều cao trung bình của thanh niên nước A trong khoảng
172.0900402  a  176.4813884
Chiều cao trung bình của thanh niên nước B trong khoảng
172.9105181  a  177.0894819
b.
 Dạng bài Đây là dạng bài so sánh giá trị trung bình với phương sai khác nhau
 Phương pháp giải
Trắc nghiệm bên phải
H 0 : u1  u2

H1 : u1  u2
Trắc nghiệm bên trái
H 0 : u1  u2

H1 : u1  u2
Trắc nghiệm hai bên
H 0 : u1  u2

H1 : u1  u2

8


Giá trị thống kê:
t

X


1



 X 2   1  2 
S12 S2 2

N1 N 2

;t 

X1  X 2
S12 S2 2

N1 N 2

Phân phối Student



 S12 S 2 2 



 N1 N 2 

2

 S12   S 2 2 


 

 N1    N 2 
N1  1 N 2  1

Biện luận
Nếu t  t hay t (  ước tính)  chấp nhận giả thiết H 0
2

Giả thiết
H 0 : u1  u2 : “Độ đồng đều về chiều cao của nam thanh niên ở hai quốc gia trên là giống
nhau”.
H 0 : u1  u2 : “Độ đồng đều về chiều cao của nam thanh niên ở hai quốc gia trên là khác nhau”
 Công cụ giải Áp dụng “ t-test:Two-Sample Assuming Unequal Variances” của MS
Excel 2013
 Giải
 Mở hộp thoại Data → Data Analysis →t-test:Two-Sample Assuming Unequal
Variances

Nhập vào hộp thoại các giá trị như sau
*
Variable 1 Range : dữ liệu nước A
*
Variable 2 Range : dữ liệu nước B
*
Chọn Labels
*
Alpha :0,05
*
Output Range : Chỗ xuất dữ liệu


9


Có kết quả

 Kết luận
Vì tqs  tstat  -0.483535644785699  tnguong  tCritical two-tail nên chấp nhận giả thiết H 0
Vậy độ đồng đều về chiều cao của nam thanh niên ở hai quốc gia A và B là như nhau
Chú ý Trong một số trường hợp thì có thế so sánh với t Critical one-tail

10


Câu 3:
 Đề bài
Tính tỉ số tương quan của Y đối với X, hệ số tương quan và hệ số xác định của tập số liệu
sau đây. Với mức ý nghĩa   5% ,có kết luận gì về mối tương quan giữa X và Y (có phi
tuyến khơng? Có tuyến tình khơng?). Tìm đường hồi quy của Y đối với X.
X
Y

15
13

25
22

10
6


15
17

20
21

10
10

20
25

25
18

30
14

 Dạng bài: Phân tích tương quan và hồi quy
Cơ sở lý thuyết:
PHÂN TÍCH TƯƠNG QUAN
Hai biến số ngẫu nhiên Y và X có thể: liên quan tuyến tính (a và b), có khuynh hướng
tuyến tính (c) hoặc khơng có liên quan (d và c).

Hệ số tương quan Pearson:

 X ,Y 

cov( X , Y )


2

; X 2 

1 N
1 N
2
X


;




Yi  Y 
 i X Y N
N i 1
i 1

2

 XY
Sự phân tích tương quan (correlation) khảo sát khuynh hướng và mức độ của sự liên
quan, trong sự phân tích hồi quy(regrestion) xác định sự liên quan định lượng giữa hai
biến số ngẫu nhiên Y và X. Hệ số tương quan có thể được ước tính bởi biểu thức:

 X
n




S XY
R

S XX SYY

i 1

 X

 X Yi  Y

i

X

n

i 1



i



 Y  Y 
2


2

i

11

30
10






Phương pháp và công cụ giải:
Phân tích tương quan tuyến tính:
Giả thiết 𝐻0 : X và Y có tương quan tuyến tính
Áp dụng "Correlation" của MS-Excel để tính hệ số tương quan và hệ số xác định



Ta tính t 



do (n=10)
Nếu t  t ;n2 thì chấp nhận giả thiết H 0

r n2

1 r2

và t ;n 2 là phân vị mức  của phân bố Student với n-2 bậc tự

- Phân tích tương quan phi tuyến:
 Sắp xếp lại bảng số liệu
 Áp dụng "Anova Single Factor" của MS-Excel để tính tỷ số tương quan
 Giả thiết: H 0 là X và Y khơng có tương quan phi tuyến

  r   n  k 
Ta tính: F 
1    k  2
2



2

Y X

2

và F là phân bố Fisher bậc tự do (k-2,n-k).

Y X

 Nếu F  F thì bác bỏ giả thiết H 0 .
- Phân tích hồi quy : Áp dụng: "Regression" của MS-Excel để tìm đường hồi quy
 Giải:
1. Phân tích tương quan tuyến tính

 Giả thiết 𝐻0 : X và Y có tương quan tuyến tính.
 Nhập vào bảng sau

12




Áp dụng: "Correlation" để tính hệ số tương quan và hế số xác định

Vào Data -> Data Analysics -> Correlation -> OK

*
*
*
*

Input Range: Phạm vi đầu vào
Group by: Columns
Chọn Label in first row
Out range: Phạm vi đầu ra



Hệ số tương quan r . Chọn ô C4 và nhập vào biểu thức = B3
Hệ số xác định r 2 Chọn ô C4 và nhập vào biểu thức = B3^2



Tính t 


r n2
1 r2

.Chọn ô C6 và nhập vào biểu thúc : =(C4*SQRT(10-2))/SQRT(1-

C5)


Dùng hàm TINV tính t
2

;n  2

là phân vị mức


2

của phân bố Student với n-2 bậc tự

do (n=10)
Chọn ô C7 và nhập vào =TINV(0.025,8)
13


Từ đó ta có kết quả




t  t
2

;n  2

 Chấp nhận giả thiết 𝐻0

 Kết luận: Vậy X và Y khơng có tương quan tuyến tính.
2. Phân tích tương quan phi tuyến:
 Sắp xếp lại bảng số liệu



Áp dụng: "Anova Single Factor" để tính tỷ số tương quan
Vào Data → Data Analysics → Anova: Single Factor → OK

*
*
*
*

Input Range: Phạm vi đầu vào
Group by: Columns
Chọn Label in first row
Output range: Phạm vi đầu ra

14


Ta có kết quả




Các kết quả
SSF . Chọn ơ L23 và nhập vào biểu thức = L18
SSE . Chọn ô L24 và nhập vào biểu thức = L21
SSF
. Chọn ô L25 và nhập vào biểu thức =L23/L24
Y X 2 
SSE
Tỉ số tương quan Y X . Chọn ô L26 và nhập vào biểu thức = =SQRT(L25)

15


Giả thiết

H 0 : X và Y có tương quan phi tuyến.

  r   n  k  . Chọn ô O23 và nhập vào biểu thức
F
1    k  2
2



Tính

2


Y X

2

Y X

=(L25-C5)*5/((1-L25)*3)
 Tính F là phân vị mức   0,05 của phân bố Fisher bậc tự do (k-2,n-k)
Với n = 10, k = 5 . Chọn ô O24 và nhập vào biểu thức = FINV(0.05,3,5)
 F  F nên bác bỏ giả thiết H 0
 Kết luận: Vậy X và Y khơng có tương quan phi tuyến
3. Phân tích hồi quy:
Giả thiết 𝐻0 : đường hồi quy có ý nghĩa.
 Nhập bảng dữ liệu



Áp dụng: "Regression" để tìm đường hồi quy
Vào Data → Data Analysics → Regression → OK

16


*
*
*
*

Input Y range: Phạm vi đầu vào của Y
Input X Range: Phạm vi đầu vào của X

Chọn Labels và Line Fit Plots
Output range: Phạm vi đầu ra

17


Ta có p-value > 0,05 nên bác bỏ giả thiết 𝐻0
18


 Kết luận : Vậy đường hồi quy Y đối với X: Y = 10,4 + 0.26X
Câu 4:
 Đề bài: Trên cơ sở tập số liêụ sau đây hãy phân tích xem tỉ lệ đổ loại giỏi có phụ
thuộc vào trường trung học phổ thông và ban hay không với mực ý nghĩa   0,05 Ở
đây z là tỉ lệ đổ loại giỏi (%); f là trường trung học phổ thông 1,2,3,4; g là ban (1 =
ban A; 2 = ban B)

STT
1
2
3
4
5
6
7
8

z
38
38

42
42
41
42
44
45

f
1
1
1
1
2
2
2
2

g
1
1
2
2
1
2
1
2

STT
9
10

11
12
13
14
15
16

z
35
32
33
34
31
33
33
35

f
3
3
3
3
4
4
4
4

g
2
1

1
2
1
1
2
2

 Dạng bài: Phân tích phương sai hai yếu tố có lặp
Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát
Yij (i=1, 2…r: yếu tố A; j= 1 ,2…c: yếu tố B)
 Phương pháp giải :
Giải thiết H 0 : µ1  µ2   µk  "Các giá trị trung bình bằng nhau”
H1 : µ1  µ2

 ”Ít nhất hai giá trị trung bình khác nhau”

Giá trị thống kê :
MSB
MSF
Fr 
và Fc 
MSE
MSE
Biện luận:
Nếu Fr  F  b  1,  k  1 b  1   chấp nhận H 0 (yếu tố A)
Nếu Fc  F  b  1,  k  1 b  1   chấp nhận H 0 (yếu tố B)
Ta giả thiết H 01 : Yếu tố Ban ảnh hưởng đến tỷ lệ đỗ loại giỏi của trường.
Ta giả thiết H 02 : Yếu tố trường phổ thông ảnh hưởng đến tỷ lệ đỗ loại giỏi của trường
đó.
 Cơng cụ giải: Sử dụng thanh cơng cụ "Anova : Two - Factor With Replication" của

MS-Excell
 Giải
 Sắp xếp lại bảng số liệu
19




Vào Data → Data Analysis → Anova: Two - Factor With Replication

·

*
*
*
*

Input range: quét chọn bảng số liệu ở bước 1
Rows per sample: 2
  0,05
Output Range: Phạm vi đầu ra

20


Kết quả hiển thị

 Biện luận:
Fr  F  Bác bỏ giả thiết H 01
Fc  F0,05  Bác bỏ giả thiết H 02


 Kết luận: Vậy cả 2 yếu tố trường phổ thông và ban đều ảnh hưởng tới tỉ lệ đỗ loại
giỏi của các trường .

21


22



×