Tải bản đầy đủ (.docx) (16 trang)

Báo cáo BTL Xác suất và thống kê ĐHBK TPHCM

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (419.21 KB, 16 trang )

ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM

BÁO CÁO BÀI TẬP LỚN XÁC SUẤT &
THỐNG KÊ
GV: Nguyễn Bá Thi
Họ và tên SV: Lê Đình Hiệp
Nhóm 2 lớp DT07-A

1


Bài 1: Một nghiên cứu được tiến hành ở thành phố công nghiệp X để xác định tỷ lệ
những người đi làm bằng xe máy, xe đạp và xe buýt. Việc điều tra được tiến hành
trên 2 nhóm, kết quả như sau:

Nữ

Xe máy

Xe buýt

Xe đạp

25

100

125

Nam


75
120
205
Với mức ý nghĩa α = 5%, hãy nhận định xem có sự khác nhau về tỷ lệ sử dụng các
phương tiện giao thông đi làm trong hai nhóm công nhân nam và công nhân nữ hay
không.
Bài giải
-

-

Dạng bài: Kiểm định giả thiết về tỷ lệ.
Phương pháp giải:
 Giả thuyết H0 : tỷ lệ công nhân nữ và công nhân nam trong việc sử dụng các
phương tiện giao thông đi làm là như nhau.
 Công cụ giải: Sử dụng hàm SUM, hàm CHITEST trong Excel.
Các bước thực hiện trong Excel:
 Nhập các số liệu vào bảng.

 Tính các tổng số:
 Tổng hàng: Chọn ô E3 và nhập biểu thức =SUM(B3:D3). Dùng con trỏ kéo
nút tự điền từ ô E3 tới ô E5.
 Tổng cột: Chọn ô B5 và nhập biểu thức =SUM(B3:B4). Dùng con trỏ kéo
nút tự điền từ ô B5 tới ô D5.

2


 Tính các tần số lý thuyết:
 Tần số lý thuyết = (tổng hàng x tổng cột)/tổng cộng.

 Nhập vào B8 biểu thức =B$5*$E3/$E$5, sau đó kéo nút tự điền đến D9, ta
có bảng:

 Áp dụng hàm số “CHITEST”:
 Cú pháp hàm CHITEST: CHITEST (actual_range, expected_range).
 Nhập vào ô C11 biểu thức = CHITEST(B3:D4, B9:D10).

-

Biện luận : vì P = 0.00219 < α = 0.05 nên bác bỏ giả thiết H0.
Kết luận : tỷ lệ công nhân nữ và công nhân nam trong việc sử dụng các phương
tiện giao thông đi làm là khác nhau.

3


Bài 2: Để nghiên cứu chiều cao của nam thanh niên của hai nước A và B, người ta
lấy ngẫu nhiên ở mỗi nước 28 nam thanh niên và tiến hành đo chiều cao (tính bằng
cm) thì được kết quả là:
Nước A:
Chiều cao

163-167

167-171

171-175

175-179


179-183

183-187

Số người

3

5

8

6

4

2

Chiều cao

163-167

167-171

171-175

175-179

179-183


183-187

Số người

2

4

9

6

5

2

Nước B:

a) Với độ tin cậy 95%, hãy ước lượng chiều cao trung bình của nam thanh niên ở mỗi
nước.
b) Có ý kiến cho rằng chiều cao của nam thanh niên ở hai quốc gia trên là khác nhau.
Với mức ý nghĩa 0,05 hãy nhận xét về ý kiến này.
Giả sử chiều cao nam thanh niên ở mỗi nước có quy luật phân phối chuẩn.
Bài giải
-

Dạng bài: Thống kê mô tả và phân tích phương sai 1 yếu tố.
Phương pháp giải:
 Câu a): Dùng “Descriptive Statistics” trong Excel để tính toán các giá trị
thống kê như giới hạn tin cậy 95%, độ lệch chuẩn (S) và hệ số phân tán (CV).

 Câu b): Dùng “Single Factor”:
Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng
của một yếu tố (nhân tạo hay tự nhiên) nào đó trên các giá trị quan sát.
* Giả thiết:
H0: µ1= µ2=…µk <=> ”Các giá trị trung bình bằng nhau”
H1: µ1≠ µ2 <=> ”Có ít nhất hai giá trị trung bình khác nhau”
* Giá trị thống kê: F =
* Biện luận :
Nếu F < Fα (k -1; N-k) => Chấp nhận giả thiết H0.

-

Các bước thực hiện trong Excel:
4


 Nhập dữ liệu vào bảng tính.

 Nhấp Data Analysis, hiện ra hộp thoại rồi chọn chương trình Descriptive
Statistics.

Trong hộp thư
thoại Data
Analysis:

Nhập Input
Range:

$A$29:$G$31.
 Chọn Grouped By: Rows.

 Output Range: $A$33.
 Đánh dấu Summary statistics và Confidence Level for Mean ghi 95%.

5


 Ta được bảng:

 Kết quả câu a): Vậy ta ước lượng được giá trị trung bình của chiều cao các thanh
niên là 175 ± 7,853.
 Sau đó sang câu b), dùng “Single Factor”:

6


 Trong hộp thoại Single Factor:
 Input Range: Nhập $A$15:$G$16.
 Grouped By: Rows.
 Đánh dấu Labels in first column.
 Output Range: Nhập $A$19.

7


 Ta được bảng:

 Biện luận: Ta thấy F =1,21.10-15 < F crit = 4,9646 => Chấp nhận giả thuyết H0 ở
mức ý nghĩa 5%.
 Kết luận: Vậy chiều cao của nam thanh niên ở hai quốc gia trên là như nhau.


8


Bài 3: Tính tỷ số tương quan của Y đối với X, hệ số tương quan và hệ số xác định của tập
số liệu sau đây. Với mức ý nghĩa α = 5%, có kết luận gì về mối tương quan giữa Y và X
(Có phi tuyến không? Có tuyến tính không?). Tìm đường hồi quy của Y đối với X.
X
Y
-

-

15
13

25
22

10
6

15
17

20
21

10
10


20
25

25
18

30
14

30
10

Dạng bài: Phân tích tương quan và hồi quy.
Phương pháp giải:
 Áp dụng “Correlation” trong Excel để tìm các hệ số tương quan.
 Kiểm định giả thiết H0: “X và Y không có tương quan tuyến tính” qua T.
 Sử dụng “Regression” trong Excel để kiểm định giả thiết H0: X và Y hồi quy
tuyến tính.
Các bước trình bày trong Excel:
 Nhập dữ liệu vào bảng tính.

9


 Áp dụng “Correlation”: Nhấp lần lượt đơn lệnh Tools và lệnh Data Analysis,
sau đó chọn phương trình Correlation trong hộp thoại Data Analysis rồi nhấp
nút OK.

 Trong hộp thoại Correlation, lần lượt ấn định các chi tiết:
 Phạm vi đầu vào (Input Range) nhập vùng $A$54:$B$64.

 Grouped By: Chọn Columns (sắp xếp theo cột).
 Đánh dấu Labels in first row.
 Phạm vi đầu ra (Output Range): Nhập $D$55.

10


 Ta được bảng như hình.
 Thu được hệ số tương quan r = 0.319844 và hệ số xác định r2 = 0.1023.
 Giả thiết H0: X và Y không có tương quan tuyến tính.
 Tính T = = 0.954811.
 Với c = 2,306. (Dùng hàm =TINV(0,05,10-2), bậc tự do n=10-2)
 |T| < c nên ta chấp nhận H0, vậy X và Y không có tương quan tuyến tính.
 Tiếp theo ta kiểm định giả thiết H0: Hệ số không thích hợp.

Vào
Data
Analysis
chọn

Regression
:

11




Trong hộp thoại Regression lần lượt ấn định:
 Phạm vi đầu vào Input Y Range quét ($B$54: $B$64), Input X Range quét

vùng ($A$54: $A$64).
 Đánh dấu Label
 Phạm vi đầu ra (Output Range), chọn ô $H$55
 Đánh dấu Line fit Plots trong Residuals để vẽ đường hồi quy.

12


 Ta được bảng:

Biện luận:
 Hệ số góc = 0,26.
 Hệ số tự do = 10,4.
 Giá trị P của hệ số tự do (P-value) = 0,109484317> α = 0,05 => Chấp nhận
giả thiết H0.
=>Hệ số tự do không có ý nghĩa thống kê
 Giá trị P của hệ số góc (P-value) = 0,36763004> α = 0,05 => Chấp nhận giả thiết
H0 .
=>Hệ số góc không có ý nghĩa thống kê
 Giá trị F (Significance F) = 0,36763> α = 0,05 => Chấp nhận giả thiết H0.
=>Phương trình đường hồi quy không thích hợp
Kết luận:





Hệ số tương quan r = 0,319844.
Hệ số xác định r² = 0,1023.
X và Y không có tương quan tuyến tính với mức ý nghĩa 5%.

Không có phương trình hồi quy thích hợp.

13


Bài 4: Trên cơ sở tập số liệu sau đây hãy phân tích xem tỷ lệ đỗ loại giỏi có phụ thuộc
vào trường phổ thông và ban hay không với mức ý nghĩa α = 0,05. Ở đây z là tỷ lệ đỗ loại
giỏi (%); f là trường phổ thông số 1, 2, 3, 4; g là ban (1 = Ban A, 2 = Ban B).
Stt
1
2
3
4
5
6
7
8

z
38
38
42
42
41
42
44
45

f
1

1
1
1
2
2
2
2

g
1
1
2
2
1
2
1
2

Stt
9
10
11
12
13
14
15
16

z
35

32
33
34
31
33
33
35

f
3
3
3
3
4
4
4
4

g
2
1
1
2
1
1
2
2

- Dạng bài: Bài toán phân tích phương sai hai yếu tố có lặp.
S phân tích này nhằm đánh giá s ảnh hưởng của hai yếu tố trên các giá trị

quan sát Yij(i=1, 2…r: yếu tố A; j= 1 ,2…c: yếu tố B).
* Giả thiết:
H0: µ1= µ2 =… µk <=> ”Các giá trị trung bình bằng nhau” H1: µ1≠ µ1 <=> ”ít
nhất hai giá trị trung bình khác nhau”
* Giá trị thống kê:
FR = và FC =
* Biện luận:
Nếu FR < Fα[b-1,(k-1)(b-1)] => chấp nhận H0 (yếu tố A).
Nếu FC < Fα[b-1,(k-1)(b-1)] => chấp nhận H0 (yếu tố B).
Ta giả thiết H01: yếu tố Ban không ảnh hưởng đến tỷ lệ đỗ loại giỏi của trường.
Ta giả thiết H02: yếu tố trường phổ thông không ảnh hưởng đến tỷ lệ đỗ loại giỏi của trường đó.

-

Phương pháp giải: Tính FR và FC bằng cách sử dụng “Anova: Two-Factor With Repli
cation”.

14


-

Các bước thực hiện:
 Nhập dữ liệu vào bảng tính.

 Áp dụng “Anova: Two-Factor With Repli cation”. Sau đó nhập vào các yếu
tố cần thiết trong hộp thoại như Input Range, Rows per sample (Số hàng trên
mỗi mẫu), Alpha, Output Range tương tự.

15



 Sau đó ta được kết quả.

Biện


luận:
 FR = 11,571429 > F0.05 = 5,317655 => Bác bỏ giả thiết H01.
 FC = 55,380952 > F0.05 =4,066181=> Bác bỏ giả thiết H02.

 Kết luận: Như vậy cả 2 yếu tố Ban và trường phổ thông đều ảnh hưởng đến
tỷ lệ đỗ loại giỏi của những trường 1, 2, 3, 4.

16



×