Tải bản đầy đủ (.doc) (17 trang)

Bài tập lớn xác suất thống kê thầy Nguyễn Bá Thi

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (409.12 KB, 17 trang )

ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
…………oOo…………

BÁO CÁO BÀI TẬP LỚN
MÔN HỌC: XÁC SUẤT THỐNG KÊ
GVHD: Nguyễn Bá Thi.

Thành phố Hồ Chí Minh 2015


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 2

Mục lục
Mục lục..................................................................................................................................................2

Câu 1. Bảng sau đây cho số liệu người chết về ung thư ở 3 nước Mỹ, Nhật và
Anh. Người chết được phân loại theo cơ quan bị ung thư.
Chỗ ung thư
Nước
Mỹ
Sinh viên: Nguyễn Đình Tài

Nhật

Anh


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 3

Ruột



11

5

5

Ngực

15

3

7

Dạ dày

3

22

3

Bộ phận khác

41

30

15


a) Hãy tính tần số lý thuyết của bảng số liệu trên. Có thể dùng tiêu chuẩn χ2
không?
b) Với mức ý nghĩa α = 1% hãy so sánh phân bố tỉ lệ chết về ung thư của 3
nước trên.
Bài giải:
Dạng bài: Bài toán kiểm định giả thiết tỉ lệ.
Giả thiết H: phân bố tỉ lệ chết vì ung thư của 3 nước là như nhau.
Thực hiện bài toán bằng Excel:
1. Nhập bảng số liệu:

2. Tính toán các thông số:
- Tổng hàng: chọn ô E4 điền biểu thức =SUM(B4:D4) rồi kéo nút tự điền từ ô
E4 đến ô E7.
- Tổng cột: chon ô B8 điền biểu thức =SUM(B4:B7) rồi kéo nút tự điền từ ô
B8 đến ô D8.
- Tổng cộng: chọn ô E8 điền biểu thức =SUM(B8:D8).
Ta có bảng kết quả:

Sinh viên: Nguyễn Đình Tài


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 4

3. Tính tần số lý thuyết:
- Người chết vì ung thư ruột ở Mỹ : chọn ô B11 và nhập biểu thức
=B8*E4/E8.
- Người chết vì ung thư ruột ở Nhật : chọn ô C11 và nhập biểu thức
=C8*E4/E8.
- Người chết vì ung thư ruột ở Anh : chọn ô D11 và nhập biểu thức

=D8*E4/E8.
- Người chết vì ung thư ngực ở Mỹ : chọn ô B12 và nhập biểu thức
=B8*E5/E8.
- Người chết vì ung thư ngực ở Nhật : chọn ô C12 và nhập biểu thức
=C8*E5/E8.
- Người chết vì ung thư ngực ở Anh : chọn ô D12 và nhập biể thức
=D8*E5/E8.
- Người chết vì ung thư dạ dày ở Mỹ : chọn ô B13 và nhập biểu thức
=B8*E6/E8.
- Người chết vì ung thư dạ dày ở Nhật : chọn ô C13 và nhập biểu thức
=C8*E6/E8.
- Người chết vì ung thư dạ dày ở Anh : chọn ô D13 và nhập biể thức
=D8*E6/E8.
- Người chết vì ung thư bộ phận khác ở Mỹ : chọn ô B14 và nhập biể thức
=B8*E7/E8.
- Người chết vì ung thư bộ phận khác ở Nhật : chọn ô C14 và nhập biểu thức
=C8*E7/E8.
- Người chết vì ung thư bộ phận khác ở Anh : chọn ô D14 và nhập biểu thức
=D8*E7/E8.
Ta có bảng kết quả:

Sinh viên: Nguyễn Đình Tài


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 5

- Áp dụng hàm CHITEST để tính tần số lý thuyết: chọn ô B17 nhập biểu thức
=CHITEST(B4:D7,B11:D14). Ta được:

4. Biện luận:

- Không dùng được tiêu chuẩn χ2 vì các tần số trên bảng có các tần số không
lớn hơn 5.
- Vì P(χ > χ2)=4.364E-05 < α=0.01 nên bác bỏ giả thiết H.
Kết luận:
- Không dùng được tiêu chuẩn χ2.
- Tỉ lệ chết vì ung thư của 3 nước là khác nhau.
Câu 2. Để thử nghiệm hiệu quả của một số loại thuốc trừ sâu người ta áp dụng
thử loại thuốc này đối với 5 thửa ruộng đang bị sâu phá hoại. Số lượng sâu bắt
được trước và sau khi dùng loại thuốc trừ sâu nói trên được cho ở bảng sau:
Thửa ruộng
Trước khi phun thuốc
Sau khi phun thuốc
1

109

107

2

68

72

3

82

88


4

104

101

5

93

97

Với độ tin cậy 95% hãy ước lượng số sâu trung bình trước và sau khi dùng
thuốc. Với mức ý nghĩa 5% hãy cho ý kiến về tác dụng của loại thuốc trừ sâu
này. Giả sử số lượng sâu tại mỗi thửa ruộng có phân phối chuẩn.
Bài giải:
Phần 1. Với độ tin cậy 95% hãy ước lượng số sâu trung bình trước và sau khi
dùng thuốc.
Dạng bài: Ước lượng trung bình.
1. Nhập dữ liệu vào bảng tính:
Sinh viên: Nguyễn Đình Tài


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 6

2.
3.
-

Mở Data Analysis chọn Descriptive Statistics.

Hộp thoại Descriptive Statistics xuất hiện:
Input Range: Phạm vi đầu vào (từ ô B2 đến ô C7).
Grouped By: Nhóm dữ liệu theo hàng hoặc cột (chọn cột).
Labels in first row: Nhãn ở hàng đầu tiên (chọn).
Output Range: phạm vi dữ liệu đầu ra (ô A8).
Sumary statistics: chọn.
Confidence Level for Mean: chọn 95.

4. Ta cá bảng kết quả:

Sinh viên: Nguyễn Đình Tài


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 7

Kết luận:
Số sâu trùng bình trước khi phun thuốc là 91.2 ± 20.65421382.
Số sâu trung bình sau khi dùng thuốc là 93 ± 16.91126.
Phần 2. Với mức ý nghĩa 5% hãy cho ý kiến về tác dụng của loại thuốc trừ sâu
này.
Dạng bài: Kiểm định so sánh 2 trung bình với dữ liệu từng cặp (được dùng khi
mẫu bé , phụ thuộc, phương sai 2 mẫu không bằng nhau và mỗi phần tử khảo
sát có 2 chỉ tiêu).
Giả thiết H0: Thuốc trừ sâu trên không có hiệu quả khi các giá trị trung bình
bằng nhau.

-

1. Sử dụng bảng số liệu như ở phần 1.
2. Mở Data Analysis chọn t-Test: Paired Two Sample for Means.

3. Hộp thoại t-Test: Paired Two Sample for Means xuất hiện:
Variable 1 Range: chọn từ ô B2 đến ô B7.
Variable 2 Range: chọn từ ô C2 đến ô C7.
Labels: Nhãn (chọn).
Alpha: chọn 0.05.
Output Range: Phạm vi xuất dữ liệu ra (ô A27).

Sinh viên: Nguyễn Đình Tài


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 8

4. Ta được bảng kết quả:

Biện luận:
- Vì |t| = 1 < tα = 2.131846786 nên chấp nhận giả thiết H0.
Kết luận:
Thuốc trừ sâu trên không có hiệu quả.

Sinh viên: Nguyễn Đình Tài


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 9

Câu 3. Một công ty nhỏ quan tâm tới việc phân tích hiệu quả của việc quảng
cáo. Trong thời gian 5 tháng công ty thu được kết quả sau:
X 5
8
10 15 22 5
8

10 15 22 5
8
10 15 22
Y

6

15

20

30

39

4

11

18

28

33

4

13

22


33

36

trong đó X là số tiền chi vào quảng cáo (đơn vị là trăm USD) còn Y là tổng
doanh thu (đơn vị là nghìn USD). Tính tỉ số tương quan của Y đối với X, hệ số
tương quan và hệ số xác định của tập số liệu trên. Với mức ý nghĩa α = 5%, có
kết luận gì về mối tương quan giữa X và Y (Có phi tuyến không? Có tuyến tính
không?). Tìm đường hồi quy tuyến tính của Y đối với X. Tính sai số tiêu chuẩn
của đường hồi quy tuyến tính.
Bài giải:
Dạng bài: Bài toán kiểm định tương quan và hồi quy.
Thực hiện bài toán bằng Excel:
• Phân tích tương quan tuyến tính:
Giả thiết H0: X và Y không có tương quan tuyến tính.
1. Nhập số liệu vào bảng tính:

2. Mở Data Analysis chọn Correlation.
3. Hộp thoại Correlation xuất hiện.
- Input Range: Phạm vi đầu vào (từ ô A2 đến ô P3).
- Grouped By: Nhóm dữ liệu theo hàng hoặc cột (chọn hàng).
- Labels in first column: Nhãn ở cột đầu tiên (chọn).
- Output Range: Phạm vi dữ liệu xuất ra (ô A4).

4. Ta có bảng kết quả:

Sinh viên: Nguyễn Đình Tài



BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 10

Biện luận:
- n = 15.
- Từ bảng kết quả ta tìm được hệ số tương quan r = 0.951997.
- Hệ số xác định r2 = 0.906298.
- Giá trị T = 11.21331.(Giá trị quan sát)

- Phân phối Student mức α = 0.05 với bậc tự do n – 2 = 13:
c = T.INV.2T(0.05,13) = 2.160369.(Giá trị ngưỡng)
|T| > c nên bác bỏ giả thuyết H0.
Kết luận: Vậy X và Y có tương quan tuyến tính.
• Phân tích tương quan phi tuyến:
Giả thiết H1: X và Y không có tương quan phi tuyến.
1. Nhập dữ liệu vào bảng tính sau khi đã sắp xếp lại:

-

2. Mở Data Analysis chọn Anova Single Factor.
3. Hộp thoại Anova Single Factor xuất hiện:
Input Range: Phạm vi đầu vào (B12:F15).
Grouped By: Nhóm dữ liệu theo hàng hoặc cột (chọn cột).
Labels in first column: Nhãn ở cột đầu tiên (chọn).
Alpha: giá trị α (0.05).
Output Range: Phạm vi xuất dữ liệu ra (ô A16).

Sinh viên: Nguyễn Đình Tài


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 11


4. Ta nhận được bảng kết quả:

-

Biện luận:
n = 15, k = 5.
Tổng bình phương giữa các nhóm SSF = 1931.067.
Tổng bình phương nhân tố SST = 1980.4.
η2Y/X = SSF/SST = 0.975089. Tỷ số tương quan: ηY/X = 0.987466.
Giá trị F = 9.204969.

- Phân bố Fisher mức α = 0.05 với bậc tự do (k-2,n-k) = (3,10)
c = F.INV.RT(0.05,3,10) = 3.708265.
F > c nên bác bỏ giả thiết H1.
Sinh viên: Nguyễn Đình Tài


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 12

Kết luận: X và Y có tương quan phi tuyến.
• Phân tích đường hồi quy:
Giả thiết H: Hệ số không thích hợp.
1. Nhập dữ liệu vào bảng tính theo cột dọc:

-

2. Mở Data Analysis chọn Regression.
3. Hộp thoại Regression xuất hiện:
Input Y Range: phạm vi đầu vào (B39:B54).

Input X Range: phạm vi đầu vào (A39:A54).
Labels: nhãn (chọn).
Line Fit Plots: vẽ đồ thị (chọn).
Output Range: phạm vi dữ liệu xuất ra (ô A55).

Sinh viên: Nguyễn Đình Tài


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 13

4. Ta nhận được bảng kết quả:

Sinh viên: Nguyễn Đình Tài


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 14

-

Biện luận:
Hệ số góc = 1.833333.
Hệ số tự do = -1.2.
Giá trị P của hệ số tự do (P-value) = 0.593196 > α = 0.05 nên chấp nhận giả
thiết H. Hệ số tự do không có ý nghĩa thống kê.
Giá trị P của hệ số góc (P-value) = 4.69x10-8 < α = 0.05 nên bác bỏ giả thiết
H. Hệ số góc có ý nghĩa thống kê.
Giá trị F (Significance F) = 4.69x10-8 < α = 0.05 nên bác bỏ giả thiết H.
Phương trình đường hồi quy thích hợp.

Sinh viên: Nguyễn Đình Tài



BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 15

Kết luận phân tích đường hồi quy: Phương trình đường hồi quy thích hợp.
Kết luận:
Tỷ số tương quan ηY/X = 0.899721.
Hệ số tương quan r = 0.951997.
Hệ số xác định r2 = 0.906298.
X và Y có tương quan tuyến tính với mức ý nghĩa 5%.
X và Y có tương quan phi tuyến với mức ý nghĩa 5%.
Phương trình đường hồi quy của Y đối với X: Y = 1.833333X – 1.2 là thích
hợp.
Sai số tiêu chuẩn của đường hồi quy là 3.778142.
Câu 4. Sau đây là số liệu về số lượng một loại báo ngày bán được ở 5 quận nội
thành:
Ngày khảo Quận nội thành
sát
Q1
Q2
Q3
Q4
Q5
Thứ hai

22

18

22


18

18

Thứ ba

21

18

22

18

19

Thứ tư

25

25

25

19

20

Thứ năm


24

24

18

20

22

Thứ sáu

28

19

15

22

25

Thứ bảy

30

22

28


25

25

Lượng báo bán được ở 5 quận có khác nhau thực sự không? Lượng báo bán ra
có chịu tác động của yếu tố ngày trong tuần không? Chọn α = 15%.
Bài giải:
Dạng bài: Kiểm định trung bình.
Phương pháp: Phân tích phương sai hai yếu tố không lặp.
Giả thiết H: Các giá trị trung bình bằng nhau.
Thực hiện bài toán bằng Excel:
1. Nhập bảng số liệu:

Sinh viên: Nguyễn Đình Tài


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 16

2.
3.
-

Mở Data Analysis chọn Anova: Two-Factor Without Replication.
Hộp thoại Anova: Two-Factor Without Replication xuất hiện.
Input Range: Phạm vi đầu vào (từ ô A3 đến ô F9).
Labels: Nhãn (chọn).
Alpha: hệ số α = 0.15.
Output Range: Phạm vi dữ liệu xuất ra (ô A10)


4. Ta có bảng kết quả:

Sinh viên: Nguyễn Đình Tài


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ – NHÓM 9 17

Biện luận:
- FR = 3.567227 > Fα = 1.843305 nên ta bác bỏ giả thiết H. Vậy lượng báo bán
ra chịu tác động của yếu tố ngày trong tuần.
- FC = 2.47479 > Fα = 1.899151 nên ta bác bỏ giả thiết H. Vậy lượng báo bán
được ở 5 quận là khác nhau.
Kết luận:
Lượng báo bán ra chịu tác động của yếu tố ngày trong tuần.
Lượng báo bán được ở 5 quận là khác nhau.

Sinh viên: Nguyễn Đình Tài



×