Tải bản đầy đủ (.docx) (20 trang)

Báo cáo Bài tập Lớn Xác suất thống kê trường ĐH Bách Khoa TP.HCM

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (467.7 KB, 20 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
…………..o..O..o…………..

BÁO CÁO BÀI TẬP LỚN
XÁC SUẤT THỐNG KÊ
Giáo viên hướng dẫn : Nguyễn Bá Thi
Sinh viên : Hồ Duy Anh
MSSV : 1610043
Nhóm 13 - Lớp A01-D


1. Một xí nghiệp may sản xuất áo khoác với 4 màu: đỏ, xanh, vàng và tím
than. Số khách hàng nam và nữ mua áo khoác với các màu được ghi trong
bảng sau:
Đỏ

Xanh

Vàng

Tím than

Nữ

62

34

71


42

Nam

125

223

52

54

Với mức ý nghĩa = 1%, hãy so sánh tỷ lệ nam và nữ ưa chuộng các
màu sắc nói trên?
Bài giải:
- Dạng bài : Bài toán kiểm định giả thuyết về tỉ lệ gồm nhiều mẫu.
- Giả thuyết H0 : tỷ lệ nam và nữ ưa chuộng các màu sắc áo khoác là như
nhau.
- Giả thuyết : tỷ lệ nam và nữ ưa chuộng các màu sắc áo khoác là khác
nhau.
- Phương pháp giải: dung tiêu chuẩn để so sánh.
- Công cụ giải: dùng công thức Chitest để giải.
- Quy trình thực hiện bằng EXCEL
+ Nhập dữ liệu vào bảng tính :

+ Tính các tổng số trên bảng
Theo hàng : nhập vào F15 biểu thức “=SUM(B15:E15)”, sau đó kéo
nút tự điền đến F17.
Theo cột : nhập vào B17 biểu thức “=SUM(B15:B16)”, sau đó kéo
nút tự điền đến E17.



Ta được bảng :

+ Tính các tần số lí thuyết :
Nhập vào B20 biểu thức =B17*F15/F17, sau đó kéo nút tự điền đến E21
Ta có bảng:

+ Áp dụng hàm Chitest để tìm kết quả :
Cú pháp hàm chitest : CHITEST (actual_range, expected_range)
Điền vào ô H33 biểu thức
=CHITEST(B15:E16,B20:E21)
Ta được kết quả của P(X
- Biện luận : vì P = 1,72E-18< α = 0.01 nên bác bỏ giả thuyết H0.


- Kết luận :Với mức ý nghĩa 1%: Tỷ lệ nam và nữ trong việc ưa chuộng màu
sắc là khác nhau.


2: Điểm môn toán của một học sinh khối 5 của hai trường có số liệu như sau:
Trường A:
Điểm
5
6
7
8
Số học sinh
2

4
6
5
Trường B:
Điểm
5
6
7
8
Số học sinh
2
5
7
6
Với độ tin cậy 95%, hãy ước lượng điểm trung bình môn toán của hai trường . Với
mức ý nghĩa 5% hãy xem xét trung bình môn toán của hai trường có thực sự khác
nhau không? Gỉa sử môn Toán có quy luật phân phối chuẩn.
Bài làm:
- Dạng bài: Ước lượng khoảng trung bình tổng thể và kiểm định sự khác biệt giữa hai
trung bình tổng thể.
- Phương pháp giải: Ước lương đối xứng (không biết phương sai tổng thể; n<30) và
tiêu chuẩn Student
- Công cụ giải: Descriptive statistics và t-test : Two-Sample Assuming Equal
Variance ttrong cửa sổ Data Analysis
- Quy trình thực hiện bằng EXCEL:
+ Nhập số liệu vào bảng tính:

Mở hộp thoại Data Analysis chọn Descriptive Statistics (2 lần ứng với 2 trường A
và B)


-

-

Nhập vào hộp thoại Desciptive Statistics.
+Lần 1
-Input Range: phạm vi dữ liệu nhập vào (ô A36 → Z36).
-Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn hàng).
-Labels in first row: nhãn ở cột đầu tiên (chọn).
-Output Range: phạm vi dữ liệu xuất ra (ô A40).
-Tích dấu chọn vào Summary statistics.
- Confidence Level for Mean: Nhập 95 (%)
+Lần 2
-Input Range: phạm vi dữ liệu nhập vào (ô A37 → Z37).
-Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn hàng).
-Labels in first row: nhãn ở cột đầu tiên (chọn).
-Output Range: phạm vi dữ liệu xuất ra (ô A57).
-Tích dấu chọn vào Summary statistics.
- Confidence Level for Mean: Nhập 95 (%)

9
6
9
4


3) Ta được bảng kết quả.


Kết luận:

- Điểm trung bình môn toán của trường A là : 7,6 ± 0,595796.
- Điểm trung bình môn toán của trường B là : 7,32 ± 0,542404.
Phần 2: KIỂM ĐỊNH ĐIỂM TRUNG BÌNH TOÁN CỦA HAI TRƯỜNG
- Gỉa thuyết H0 : Điểm trung bình môn Toán của hai trường là như nhau
- Gỉa thuyết : Điểm trung bình môn Toán của hai trường là khác nhau
- Quy trình thực hiện bằng EXCEL:


+ Vào thẻ Data chọn
và chọn hộp thoại t-Test Two-Sample Assuming
Equal Variances
+ Hộp thoại t-Test Two-Sample Assuming Equal Variances xuất hiện

 Variable 1 Range: Nhập “$A$36:$E$36” (ô A36 → Z36).
Variable 2 Range: Nhập “$A$37:$E$37” (ô A37 → Z37).
Labels: Chọn.
 Alpha: giá trị α =0,05
 Output Range: phạm vi dữ liệu xuất ra D57

-Ta thu được bảng sau:


+ Biện luận : Ta có : | t (Stat) |=0,717242 < t (Critical two-tail) =2,010635 nên ta chấp nhận giả
thuyết H0
+ Kết luận : Điểm trung bình Toán của hai trường A và B là như nhau.
-Tổng kết: Với độ tin cậy là 95% ta được
+ Điểm trung bình môn toán của trường A là : 7,6 ± 0,595796.
+Điểm trung bình môn toán của trường B là : 7,32 ± 0,542404.
. Với mức ý nghĩa 5% ta được : Điểm trung bình Toán của hai trường A và B là như
nhau.

3.Từ 12 cặp quan sát (xi,yi) sau đây của hai cặp biến (X,Y). Tính tỷ số tương quan
của Y đối với X ,hệ số tương quan và hệ số xác định của tập số liệu sau đây. Với
mức ý nghĩa = 5%, có kết luận gì về mối tương quan giữa X và Y (Có phi tuyến
không ? Có tuyến tính không ?).Tìm đường hồi quy của Y đối với X.
11
X 123 356 111 118 123 356 111 118 123 356
1 118
Y 4,2 4,1 3,7 3,9 4,5 4,1 3 3,8 2 3,1 3,4
3
Bài giải
- Dạng bài : Bài toán kiểm định tương quan và hồi quy.
- Phương pháp giải: tiêu chuẩn Student và Fisher
- Công cụ giải : Correlation, Anova Single Factor và Regression trong Data
Analysis
- Quy trình thực hiện bằng EXCEL
1)Phân tích tương quan tuyến tính
- Giả thuyết H0 : X và Y không có tương quan tuyến tính.
- Nhập dữ liệu vào máy tính

Mở hộp thoại

trong thẻ Data, chọn Corelation


-Nhập vào hộp thoại Correlation.
+Input Range: phạm vi đầu vào (ô A81 → M82).
+Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn hàng).
+Labels in first row: nhãn ở cột đầu tiên (chọn).
+Output Range: phạm vi dữ liệu xuất ra (ô A84).




Ta nhận được bảng kết quả.

Biện luận :
n = 12
Từ bảng, ta có hệ số tương quan r = 0,177098


Hệ số xác định = 0,031364
Giá trị của T = 0,578165497 xác định theo công thức
T=
Phân phối Student mức α = 0,05 với bậc tự do n-2 = 10, dung hàm TINV trong excel để
tính ta được c = 2,22813885 (với cú pháp sử dụng hàm Tinv như sau =tinv(0,05;12-2) )
Vì |T|Kết luận : X và Y không có tương quan tuyến tính.
2) Phân tích tương quan phi tuyến :
-Giả thiết H1: X và Y không có tương quan phi tuyến.
-Copy dòng 81 và 82 đến dòng 88 ,89
-Chọn vùng dữ liệu số cần sắp xếp lại, và sắp xếp theo dòng X

Nhập dữ liệu vào bảng tính sau khi đã sắp xếp lại.

Mở hộp thoại

chọn Anova Single Factor.

Nhập vào hộp thoại Anova Single Factor.









Input Range: phạm vi đầu vào (ô A91 → E94).
Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn cột)
Labels in first column: nhãn ở cột đầu tiên (chọn)
Alpha: giá trị α =0,05
Output Range: phạm vi dữ liệu xuất ra A96

Ta nhận được bảng kết quả :








n = 12 , k = 4
Tổng bình phương giữa các nhóm SSF = 0,24
Tổng bình phương nhân tố SST = 5,366667
η2Y/X = SSF/SST = 0,044720494  Tỷ số tương quan : ηY/X=0,211472206
Giá trị F = 0,055929
Phân bố Fisher mức α = 0,05 với bậc tự do (k-2, n-k) = (2,4)
Dùng hàm FINV tính được
c = 3.68749867 (cú pháp hàm Finv được sử dụng như sau


=finv(0,05;2;8) )

Vì F < c nên chấp nhận giả thuyết H1
Kết luận:


Vậy X và Y không có tương quan phi tuyến.
3) Phân tích hồi quy (sử dụng Regression).
Giả thiết H: Hệ số không thích hợp.
Nhập dữ liệu theo cột dọc bằng cách copy vùng dữ liệu từ
A81:M82 . Chọn special paste rồi tích vào ô transpose rồi bấm
OK.


Ta sẽ được bảng sau :

Mở Data Analysis chọn Regression

Hộp thoại Regression xuất hiện
Input Y Range: B113:B125
Input X Range: A113:A125
Labels: nhãn (chọn)
Line Fit Plots: vẽ đồ thị (chọn)
Output Range: A127


Ta được bảng kết quả:


Biện luận:

Hệ số góc = 0,001145
Hệ số tự do =3,363998
Giá trị P của hệ số tự do (P-value) = 99,05E-06< α = 0,05 => chấp
nhận giả thiết H
->Hệ số tự do không có ý nghĩa thống kê
Giá trị P của hệ số góc (P-value) = 0,581892> α = 0,05 => bác bỏ giả thiết
H
->Hệ số góc có ý nghĩa thống kê
Giá trị F (Significance F) = 0,581892224> α = 0,05 => Chấp nhận giả
thiết H
->Phương trình đường hồi quy tuyến tính thích hợp
Kết luận:
Tỷ số tương quan ηY/X =0,211472206
Hệ số tương quan r = 0,177098
Hệ số xác định r² = 0,031364
X và Y không có tương quan tuyến tính với mức ý nghĩa 5%.
X và Y không có tương quan phi tuyến với mức ý nghĩa 5%.
Phương trình đường hồi quy của Y đối với X: Y = 0,001145X


4. Với mức ý nghĩa 0,05 , hãy phân tích sự biến động của thu nhập ($/tháng/người) trên
cơ sở số liệu điều tra về thu nhập cả 4 loại ngành nghề ở 4 khu vực khác nhau sau đây:
Nơi làm việc
Loại ngành nghề

V1

V2

V3


V4

1

212

200

230

220

2

222

205

222

225

3

241

250

245


235

4

240

228

230

240

Bài giải:
- Dạng bài: Bài toán phân tích phương sai hai nhân tố không lặp.
- Phương pháp giải: Phân tích phương sai hai nhân tố không lặp
- Công cụ giải: Anova: Two-Factor Without Replication trong Data Analysis
Giả thiết H0: -Trung bình thu nhập tại 4 nơi làm việc bằng nhau
-Trung bình thu nhập cuả 4 loại ngành nghề bằng nhau
- Không có sự tương tác giữa loại ngành nghề và nơi làm việc
Quy trình thực hiện bằng EXCEL. Nhập dữ liệu :

Mở hộp thoại

trong thẻ Data, chọn Anova : Two-Factor without replication


Hộp thoai Anova: Two-Factor Without Replication xuất hiện,ta chọn:
Input range: A174:E178
Labels: chọn

Alpha: 0.05
Output range: A180

Ta được bảng kết quả sau:


Biện luận :
Frows (Loại ngành nghề) 8,7831 F3;9;0,95  3.862548 nên bác bỏ giả thuyết H0
Fcol (Nơi làm việc) 1,232806  F3;9;0,05  3.862548 nên chấp nhận giả thuyết H0

Kết luận : Với mức ý nghĩa 5%
-Loại ngành nghề ảnh hướng đến mức thu nhập
-Nơi làm việc không ảnh hướng đến mức thu nhậ




×