Bài tập lớn xác suất thống kê thầy Nguyễn Bá Thi

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (409.12 KB, 17 trang )

ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
…………oOo…………

BÁO CÁO BÀI TẬP LỚN
MÔN HỌC: XÁC SUẤT THỐNG KÊ
GVHD: Nguyễn Bá Thi.

Thành phố Hồ Chí Minh 2015

BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 2

Mục lục
Mục lục..................................................................................................................................................2

Câu 1. Bảng sau đây cho số liệu người chết về ung thư ở 3 nước Mỹ, Nhật và
Anh. Người chết được phân loại theo cơ quan bị ung thư.
Chỗ ung thư
Nước
Mỹ
Sinh viên: Nguyễn Đình Tài

Nhật

Anh

BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 3

Ruột

11

5

5

Ngực

15

3

7

Dạ dày

3

22

3

Bộ phận khác

41

30

15

a) Hãy tính tần số lý thuyết của bảng số liệu trên. Có thể dùng tiêu chuẩn χ2
không?
b) Với mức ý nghĩa α = 1% hãy so sánh phân bố tỉ lệ chết về ung thư của 3
nước trên.
Bài giải:
Dạng bài: Bài toán kiểm định giả thiết tỉ lệ.
Giả thiết H: phân bố tỉ lệ chết vì ung thư của 3 nước là như nhau.
Thực hiện bài toán bằng Excel:
1. Nhập bảng số liệu:

2. Tính toán các thông số:
- Tổng hàng: chọn ô E4 điền biểu thức =SUM(B4:D4) rồi kéo nút tự điền từ ô
E4 đến ô E7.
- Tổng cột: chon ô B8 điền biểu thức =SUM(B4:B7) rồi kéo nút tự điền từ ô
B8 đến ô D8.
- Tổng cộng: chọn ô E8 điền biểu thức =SUM(B8:D8).
Ta có bảng kết quả:

Sinh viên: Nguyễn Đình Tài

BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 4

3. Tính tần số lý thuyết:
- Người chết vì ung thư ruột ở Mỹ : chọn ô B11 và nhập biểu thức
=B8*E4/E8.
- Người chết vì ung thư ruột ở Nhật : chọn ô C11 và nhập biểu thức
=C8*E4/E8.
- Người chết vì ung thư ruột ở Anh : chọn ô D11 và nhập biểu thức

=D8*E4/E8.
- Người chết vì ung thư ngực ở Mỹ : chọn ô B12 và nhập biểu thức
=B8*E5/E8.
- Người chết vì ung thư ngực ở Nhật : chọn ô C12 và nhập biểu thức
=C8*E5/E8.
- Người chết vì ung thư ngực ở Anh : chọn ô D12 và nhập biể thức
=D8*E5/E8.
- Người chết vì ung thư dạ dày ở Mỹ : chọn ô B13 và nhập biểu thức
=B8*E6/E8.
- Người chết vì ung thư dạ dày ở Nhật : chọn ô C13 và nhập biểu thức
=C8*E6/E8.
- Người chết vì ung thư dạ dày ở Anh : chọn ô D13 và nhập biể thức
=D8*E6/E8.
- Người chết vì ung thư bộ phận khác ở Mỹ : chọn ô B14 và nhập biể thức
=B8*E7/E8.
- Người chết vì ung thư bộ phận khác ở Nhật : chọn ô C14 và nhập biểu thức
=C8*E7/E8.
- Người chết vì ung thư bộ phận khác ở Anh : chọn ô D14 và nhập biểu thức
=D8*E7/E8.
Ta có bảng kết quả:

Sinh viên: Nguyễn Đình Tài

BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 5

- Áp dụng hàm CHITEST để tính tần số lý thuyết: chọn ô B17 nhập biểu thức
=CHITEST(B4:D7,B11:D14). Ta được:

4. Biện luận:

- Không dùng được tiêu chuẩn χ2 vì các tần số trên bảng có các tần số không
lớn hơn 5.
- Vì P(χ > χ2)=4.364E-05 < α=0.01 nên bác bỏ giả thiết H.
Kết luận:
- Không dùng được tiêu chuẩn χ2.
- Tỉ lệ chết vì ung thư của 3 nước là khác nhau.
Câu 2. Để thử nghiệm hiệu quả của một số loại thuốc trừ sâu người ta áp dụng
thử loại thuốc này đối với 5 thửa ruộng đang bị sâu phá hoại. Số lượng sâu bắt
được trước và sau khi dùng loại thuốc trừ sâu nói trên được cho ở bảng sau:
Thửa ruộng
Trước khi phun thuốc
Sau khi phun thuốc
1

109

107

2

68

72

3

82

88

4

104

101

5

93

97

Với độ tin cậy 95% hãy ước lượng số sâu trung bình trước và sau khi dùng
thuốc. Với mức ý nghĩa 5% hãy cho ý kiến về tác dụng của loại thuốc trừ sâu
này. Giả sử số lượng sâu tại mỗi thửa ruộng có phân phối chuẩn.
Bài giải:
Phần 1. Với độ tin cậy 95% hãy ước lượng số sâu trung bình trước và sau khi
dùng thuốc.
Dạng bài: Ước lượng trung bình.
1. Nhập dữ liệu vào bảng tính:
Sinh viên: Nguyễn Đình Tài

BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 6

2.
3.
-

Mở Data Analysis chọn Descriptive Statistics.

Hộp thoại Descriptive Statistics xuất hiện:
Input Range: Phạm vi đầu vào (từ ô B2 đến ô C7).
Grouped By: Nhóm dữ liệu theo hàng hoặc cột (chọn cột).
Labels in first row: Nhãn ở hàng đầu tiên (chọn).
Output Range: phạm vi dữ liệu đầu ra (ô A8).
Sumary statistics: chọn.
Confidence Level for Mean: chọn 95.

4. Ta cá bảng kết quả:

Sinh viên: Nguyễn Đình Tài

BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 7

Kết luận:
Số sâu trùng bình trước khi phun thuốc là 91.2 ± 20.65421382.
Số sâu trung bình sau khi dùng thuốc là 93 ± 16.91126.
Phần 2. Với mức ý nghĩa 5% hãy cho ý kiến về tác dụng của loại thuốc trừ sâu
này.
Dạng bài: Kiểm định so sánh 2 trung bình với dữ liệu từng cặp (được dùng khi
mẫu bé , phụ thuộc, phương sai 2 mẫu không bằng nhau và mỗi phần tử khảo
sát có 2 chỉ tiêu).
Giả thiết H0: Thuốc trừ sâu trên không có hiệu quả khi các giá trị trung bình
bằng nhau.

-

1. Sử dụng bảng số liệu như ở phần 1.
2. Mở Data Analysis chọn t-Test: Paired Two Sample for Means.

3. Hộp thoại t-Test: Paired Two Sample for Means xuất hiện:
Variable 1 Range: chọn từ ô B2 đến ô B7.
Variable 2 Range: chọn từ ô C2 đến ô C7.
Labels: Nhãn (chọn).
Alpha: chọn 0.05.
Output Range: Phạm vi xuất dữ liệu ra (ô A27).

Sinh viên: Nguyễn Đình Tài

BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 8

4. Ta được bảng kết quả:

Biện luận:
- Vì |t| = 1 < tα = 2.131846786 nên chấp nhận giả thiết H0.
Kết luận:
Thuốc trừ sâu trên không có hiệu quả.

Sinh viên: Nguyễn Đình Tài

BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 9

Câu 3. Một công ty nhỏ quan tâm tới việc phân tích hiệu quả của việc quảng
cáo. Trong thời gian 5 tháng công ty thu được kết quả sau:
X 5
8
10 15 22 5
8

10 15 22 5
8
10 15 22
Y

6

15

20

30

39

4

11

18

28

33

4

13

22

33

36

trong đó X là số tiền chi vào quảng cáo (đơn vị là trăm USD) còn Y là tổng
doanh thu (đơn vị là nghìn USD). Tính tỉ số tương quan của Y đối với X, hệ số
tương quan và hệ số xác định của tập số liệu trên. Với mức ý nghĩa α = 5%, có
kết luận gì về mối tương quan giữa X và Y (Có phi tuyến không? Có tuyến tính
không?). Tìm đường hồi quy tuyến tính của Y đối với X. Tính sai số tiêu chuẩn
của đường hồi quy tuyến tính.
Bài giải:
Dạng bài: Bài toán kiểm định tương quan và hồi quy.
Thực hiện bài toán bằng Excel:
• Phân tích tương quan tuyến tính:
Giả thiết H0: X và Y không có tương quan tuyến tính.
1. Nhập số liệu vào bảng tính:

2. Mở Data Analysis chọn Correlation.
3. Hộp thoại Correlation xuất hiện.
- Input Range: Phạm vi đầu vào (từ ô A2 đến ô P3).
- Grouped By: Nhóm dữ liệu theo hàng hoặc cột (chọn hàng).
- Labels in first column: Nhãn ở cột đầu tiên (chọn).
- Output Range: Phạm vi dữ liệu xuất ra (ô A4).

4. Ta có bảng kết quả:

Sinh viên: Nguyễn Đình Tài

BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 10

Biện luận:
- n = 15.
- Từ bảng kết quả ta tìm được hệ số tương quan r = 0.951997.
- Hệ số xác định r2 = 0.906298.
- Giá trị T = 11.21331.(Giá trị quan sát)

- Phân phối Student mức α = 0.05 với bậc tự do n – 2 = 13:
c = T.INV.2T(0.05,13) = 2.160369.(Giá trị ngưỡng)
|T| > c nên bác bỏ giả thuyết H0.
Kết luận: Vậy X và Y có tương quan tuyến tính.
• Phân tích tương quan phi tuyến:
Giả thiết H1: X và Y không có tương quan phi tuyến.
1. Nhập dữ liệu vào bảng tính sau khi đã sắp xếp lại:

-

2. Mở Data Analysis chọn Anova Single Factor.
3. Hộp thoại Anova Single Factor xuất hiện:
Input Range: Phạm vi đầu vào (B12:F15).
Grouped By: Nhóm dữ liệu theo hàng hoặc cột (chọn cột).
Labels in first column: Nhãn ở cột đầu tiên (chọn).
Alpha: giá trị α (0.05).
Output Range: Phạm vi xuất dữ liệu ra (ô A16).

Sinh viên: Nguyễn Đình Tài

BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 11

4. Ta nhận được bảng kết quả:

-

Biện luận:
n = 15, k = 5.
Tổng bình phương giữa các nhóm SSF = 1931.067.
Tổng bình phương nhân tố SST = 1980.4.
η2Y/X = SSF/SST = 0.975089. Tỷ số tương quan: ηY/X = 0.987466.
Giá trị F = 9.204969.

- Phân bố Fisher mức α = 0.05 với bậc tự do (k-2,n-k) = (3,10)
c = F.INV.RT(0.05,3,10) = 3.708265.
F > c nên bác bỏ giả thiết H1.
Sinh viên: Nguyễn Đình Tài

BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 12

Kết luận: X và Y có tương quan phi tuyến.
• Phân tích đường hồi quy:
Giả thiết H: Hệ số không thích hợp.
1. Nhập dữ liệu vào bảng tính theo cột dọc:

-

2. Mở Data Analysis chọn Regression.
3. Hộp thoại Regression xuất hiện:
Input Y Range: phạm vi đầu vào (B39:B54).

Input X Range: phạm vi đầu vào (A39:A54).
Labels: nhãn (chọn).
Line Fit Plots: vẽ đồ thị (chọn).
Output Range: phạm vi dữ liệu xuất ra (ô A55).

Sinh viên: Nguyễn Đình Tài

BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 13

4. Ta nhận được bảng kết quả:

Sinh viên: Nguyễn Đình Tài

BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 14

-

Biện luận:
Hệ số góc = 1.833333.
Hệ số tự do = -1.2.
Giá trị P của hệ số tự do (P-value) = 0.593196 > α = 0.05 nên chấp nhận giả
thiết H. Hệ số tự do không có ý nghĩa thống kê.
Giá trị P của hệ số góc (P-value) = 4.69x10-8 < α = 0.05 nên bác bỏ giả thiết
H. Hệ số góc có ý nghĩa thống kê.
Giá trị F (Significance F) = 4.69x10-8 < α = 0.05 nên bác bỏ giả thiết H.
Phương trình đường hồi quy thích hợp.

Sinh viên: Nguyễn Đình Tài

BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 15

Kết luận phân tích đường hồi quy: Phương trình đường hồi quy thích hợp.
Kết luận:
Tỷ số tương quan ηY/X = 0.899721.
Hệ số tương quan r = 0.951997.
Hệ số xác định r2 = 0.906298.
X và Y có tương quan tuyến tính với mức ý nghĩa 5%.
X và Y có tương quan phi tuyến với mức ý nghĩa 5%.
Phương trình đường hồi quy của Y đối với X: Y = 1.833333X – 1.2 là thích
hợp.
Sai số tiêu chuẩn của đường hồi quy là 3.778142.
Câu 4. Sau đây là số liệu về số lượng một loại báo ngày bán được ở 5 quận nội
thành:
Ngày khảo Quận nội thành
sát
Q1
Q2
Q3
Q4
Q5
Thứ hai

22

18

22

18

18

Thứ ba

21

18

22

18

19

Thứ tư

25

25

25

19

20

Thứ năm

24

24

18

20

22

Thứ sáu

28

19

15

22

25

Thứ bảy

30

22

28

25

25

Lượng báo bán được ở 5 quận có khác nhau thực sự không? Lượng báo bán ra
có chịu tác động của yếu tố ngày trong tuần không? Chọn α = 15%.
Bài giải:
Dạng bài: Kiểm định trung bình.
Phương pháp: Phân tích phương sai hai yếu tố không lặp.
Giả thiết H: Các giá trị trung bình bằng nhau.
Thực hiện bài toán bằng Excel:
1. Nhập bảng số liệu:

Sinh viên: Nguyễn Đình Tài

BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 16

2.
3.
-

Mở Data Analysis chọn Anova: Two-Factor Without Replication.
Hộp thoại Anova: Two-Factor Without Replication xuất hiện.
Input Range: Phạm vi đầu vào (từ ô A3 đến ô F9).
Labels: Nhãn (chọn).
Alpha: hệ số α = 0.15.
Output Range: Phạm vi dữ liệu xuất ra (ô A10)

4. Ta có bảng kết quả:

Sinh viên: Nguyễn Đình Tài

BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 17

Biện luận:
- FR = 3.567227 > Fα = 1.843305 nên ta bác bỏ giả thiết H. Vậy lượng báo bán
ra chịu tác động của yếu tố ngày trong tuần.
- FC = 2.47479 > Fα = 1.899151 nên ta bác bỏ giả thiết H. Vậy lượng báo bán
được ở 5 quận là khác nhau.
Kết luận:
Lượng báo bán ra chịu tác động của yếu tố ngày trong tuần.
Lượng báo bán được ở 5 quận là khác nhau.

Sinh viên: Nguyễn Đình Tài

Bài tập lớn xác suất thống kê thầy Nguyễn Bá Thi

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về