ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
…………..o..O..o…………..
BÁO CÁO BÀI TẬP LỚN
XÁC SUẤT THỐNG KÊ
Giáo viên hướng dẫn : Nguyễn Bá Thi
Sinh viên : Hồ Duy Anh
MSSV : 1610043
Nhóm 13 - Lớp A01-D
1. Một xí nghiệp may sản xuất áo khoác với 4 màu: đỏ, xanh, vàng và tím
than. Số khách hàng nam và nữ mua áo khoác với các màu được ghi trong
bảng sau:
Đỏ
Xanh
Vàng
Tím than
Nữ
62
34
71
42
Nam
125
223
52
54
Với mức ý nghĩa = 1%, hãy so sánh tỷ lệ nam và nữ ưa chuộng các
màu sắc nói trên?
Bài giải:
- Dạng bài : Bài toán kiểm định giả thuyết về tỉ lệ gồm nhiều mẫu.
- Giả thuyết H0 : tỷ lệ nam và nữ ưa chuộng các màu sắc áo khoác là như
nhau.
- Giả thuyết : tỷ lệ nam và nữ ưa chuộng các màu sắc áo khoác là khác
nhau.
- Phương pháp giải: dung tiêu chuẩn để so sánh.
- Công cụ giải: dùng công thức Chitest để giải.
- Quy trình thực hiện bằng EXCEL
+ Nhập dữ liệu vào bảng tính :
+ Tính các tổng số trên bảng
Theo hàng : nhập vào F15 biểu thức “=SUM(B15:E15)”, sau đó kéo
nút tự điền đến F17.
Theo cột : nhập vào B17 biểu thức “=SUM(B15:B16)”, sau đó kéo
nút tự điền đến E17.
Ta được bảng :
+ Tính các tần số lí thuyết :
Nhập vào B20 biểu thức =B17*F15/F17, sau đó kéo nút tự điền đến E21
Ta có bảng:
+ Áp dụng hàm Chitest để tìm kết quả :
Cú pháp hàm chitest : CHITEST (actual_range, expected_range)
Điền vào ô H33 biểu thức
=CHITEST(B15:E16,B20:E21)
Ta được kết quả của P(X
- Biện luận : vì P = 1,72E-18< α = 0.01 nên bác bỏ giả thuyết H0.
- Kết luận :Với mức ý nghĩa 1%: Tỷ lệ nam và nữ trong việc ưa chuộng màu
sắc là khác nhau.
2: Điểm môn toán của một học sinh khối 5 của hai trường có số liệu như sau:
Trường A:
Điểm
5
6
7
8
Số học sinh
2
4
6
5
Trường B:
Điểm
5
6
7
8
Số học sinh
2
5
7
6
Với độ tin cậy 95%, hãy ước lượng điểm trung bình môn toán của hai trường . Với
mức ý nghĩa 5% hãy xem xét trung bình môn toán của hai trường có thực sự khác
nhau không? Gỉa sử môn Toán có quy luật phân phối chuẩn.
Bài làm:
- Dạng bài: Ước lượng khoảng trung bình tổng thể và kiểm định sự khác biệt giữa hai
trung bình tổng thể.
- Phương pháp giải: Ước lương đối xứng (không biết phương sai tổng thể; n<30) và
tiêu chuẩn Student
- Công cụ giải: Descriptive statistics và t-test : Two-Sample Assuming Equal
Variance ttrong cửa sổ Data Analysis
- Quy trình thực hiện bằng EXCEL:
+ Nhập số liệu vào bảng tính:
Mở hộp thoại Data Analysis chọn Descriptive Statistics (2 lần ứng với 2 trường A
và B)
-
-
Nhập vào hộp thoại Desciptive Statistics.
+Lần 1
-Input Range: phạm vi dữ liệu nhập vào (ô A36 → Z36).
-Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn hàng).
-Labels in first row: nhãn ở cột đầu tiên (chọn).
-Output Range: phạm vi dữ liệu xuất ra (ô A40).
-Tích dấu chọn vào Summary statistics.
- Confidence Level for Mean: Nhập 95 (%)
+Lần 2
-Input Range: phạm vi dữ liệu nhập vào (ô A37 → Z37).
-Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn hàng).
-Labels in first row: nhãn ở cột đầu tiên (chọn).
-Output Range: phạm vi dữ liệu xuất ra (ô A57).
-Tích dấu chọn vào Summary statistics.
- Confidence Level for Mean: Nhập 95 (%)
9
6
9
4
3) Ta được bảng kết quả.
Kết luận:
- Điểm trung bình môn toán của trường A là : 7,6 ± 0,595796.
- Điểm trung bình môn toán của trường B là : 7,32 ± 0,542404.
Phần 2: KIỂM ĐỊNH ĐIỂM TRUNG BÌNH TOÁN CỦA HAI TRƯỜNG
- Gỉa thuyết H0 : Điểm trung bình môn Toán của hai trường là như nhau
- Gỉa thuyết : Điểm trung bình môn Toán của hai trường là khác nhau
- Quy trình thực hiện bằng EXCEL:
+ Vào thẻ Data chọn
và chọn hộp thoại t-Test Two-Sample Assuming
Equal Variances
+ Hộp thoại t-Test Two-Sample Assuming Equal Variances xuất hiện
Variable 1 Range: Nhập “$A$36:$E$36” (ô A36 → Z36).
Variable 2 Range: Nhập “$A$37:$E$37” (ô A37 → Z37).
Labels: Chọn.
Alpha: giá trị α =0,05
Output Range: phạm vi dữ liệu xuất ra D57
-Ta thu được bảng sau:
+ Biện luận : Ta có : | t (Stat) |=0,717242 < t (Critical two-tail) =2,010635 nên ta chấp nhận giả
thuyết H0
+ Kết luận : Điểm trung bình Toán của hai trường A và B là như nhau.
-Tổng kết: Với độ tin cậy là 95% ta được
+ Điểm trung bình môn toán của trường A là : 7,6 ± 0,595796.
+Điểm trung bình môn toán của trường B là : 7,32 ± 0,542404.
. Với mức ý nghĩa 5% ta được : Điểm trung bình Toán của hai trường A và B là như
nhau.
3.Từ 12 cặp quan sát (xi,yi) sau đây của hai cặp biến (X,Y). Tính tỷ số tương quan
của Y đối với X ,hệ số tương quan và hệ số xác định của tập số liệu sau đây. Với
mức ý nghĩa = 5%, có kết luận gì về mối tương quan giữa X và Y (Có phi tuyến
không ? Có tuyến tính không ?).Tìm đường hồi quy của Y đối với X.
11
X 123 356 111 118 123 356 111 118 123 356
1 118
Y 4,2 4,1 3,7 3,9 4,5 4,1 3 3,8 2 3,1 3,4
3
Bài giải
- Dạng bài : Bài toán kiểm định tương quan và hồi quy.
- Phương pháp giải: tiêu chuẩn Student và Fisher
- Công cụ giải : Correlation, Anova Single Factor và Regression trong Data
Analysis
- Quy trình thực hiện bằng EXCEL
1)Phân tích tương quan tuyến tính
- Giả thuyết H0 : X và Y không có tương quan tuyến tính.
- Nhập dữ liệu vào máy tính
Mở hộp thoại
trong thẻ Data, chọn Corelation
-Nhập vào hộp thoại Correlation.
+Input Range: phạm vi đầu vào (ô A81 → M82).
+Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn hàng).
+Labels in first row: nhãn ở cột đầu tiên (chọn).
+Output Range: phạm vi dữ liệu xuất ra (ô A84).
Ta nhận được bảng kết quả.
Biện luận :
n = 12
Từ bảng, ta có hệ số tương quan r = 0,177098
Hệ số xác định = 0,031364
Giá trị của T = 0,578165497 xác định theo công thức
T=
Phân phối Student mức α = 0,05 với bậc tự do n-2 = 10, dung hàm TINV trong excel để
tính ta được c = 2,22813885 (với cú pháp sử dụng hàm Tinv như sau =tinv(0,05;12-2) )
Vì |T|
Kết luận : X và Y không có tương quan tuyến tính.
2) Phân tích tương quan phi tuyến :
-Giả thiết H1: X và Y không có tương quan phi tuyến.
-Copy dòng 81 và 82 đến dòng 88 ,89
-Chọn vùng dữ liệu số cần sắp xếp lại, và sắp xếp theo dòng X
Nhập dữ liệu vào bảng tính sau khi đã sắp xếp lại.
Mở hộp thoại
chọn Anova Single Factor.
Nhập vào hộp thoại Anova Single Factor.
Input Range: phạm vi đầu vào (ô A91 → E94).
Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn cột)
Labels in first column: nhãn ở cột đầu tiên (chọn)
Alpha: giá trị α =0,05
Output Range: phạm vi dữ liệu xuất ra A96
Ta nhận được bảng kết quả :
n = 12 , k = 4
Tổng bình phương giữa các nhóm SSF = 0,24
Tổng bình phương nhân tố SST = 5,366667
η2Y/X = SSF/SST = 0,044720494 Tỷ số tương quan : ηY/X=0,211472206
Giá trị F = 0,055929
Phân bố Fisher mức α = 0,05 với bậc tự do (k-2, n-k) = (2,4)
Dùng hàm FINV tính được
c = 3.68749867 (cú pháp hàm Finv được sử dụng như sau
=finv(0,05;2;8) )
Vì F < c nên chấp nhận giả thuyết H1
Kết luận:
Vậy X và Y không có tương quan phi tuyến.
3) Phân tích hồi quy (sử dụng Regression).
Giả thiết H: Hệ số không thích hợp.
Nhập dữ liệu theo cột dọc bằng cách copy vùng dữ liệu từ
A81:M82 . Chọn special paste rồi tích vào ô transpose rồi bấm
OK.
Ta sẽ được bảng sau :
Mở Data Analysis chọn Regression
Hộp thoại Regression xuất hiện
Input Y Range: B113:B125
Input X Range: A113:A125
Labels: nhãn (chọn)
Line Fit Plots: vẽ đồ thị (chọn)
Output Range: A127
Ta được bảng kết quả:
Biện luận:
Hệ số góc = 0,001145
Hệ số tự do =3,363998
Giá trị P của hệ số tự do (P-value) = 99,05E-06< α = 0,05 => chấp
nhận giả thiết H
->Hệ số tự do không có ý nghĩa thống kê
Giá trị P của hệ số góc (P-value) = 0,581892> α = 0,05 => bác bỏ giả thiết
H
->Hệ số góc có ý nghĩa thống kê
Giá trị F (Significance F) = 0,581892224> α = 0,05 => Chấp nhận giả
thiết H
->Phương trình đường hồi quy tuyến tính thích hợp
Kết luận:
Tỷ số tương quan ηY/X =0,211472206
Hệ số tương quan r = 0,177098
Hệ số xác định r² = 0,031364
X và Y không có tương quan tuyến tính với mức ý nghĩa 5%.
X và Y không có tương quan phi tuyến với mức ý nghĩa 5%.
Phương trình đường hồi quy của Y đối với X: Y = 0,001145X
4. Với mức ý nghĩa 0,05 , hãy phân tích sự biến động của thu nhập ($/tháng/người) trên
cơ sở số liệu điều tra về thu nhập cả 4 loại ngành nghề ở 4 khu vực khác nhau sau đây:
Nơi làm việc
Loại ngành nghề
V1
V2
V3
V4
1
212
200
230
220
2
222
205
222
225
3
241
250
245
235
4
240
228
230
240
Bài giải:
- Dạng bài: Bài toán phân tích phương sai hai nhân tố không lặp.
- Phương pháp giải: Phân tích phương sai hai nhân tố không lặp
- Công cụ giải: Anova: Two-Factor Without Replication trong Data Analysis
Giả thiết H0: -Trung bình thu nhập tại 4 nơi làm việc bằng nhau
-Trung bình thu nhập cuả 4 loại ngành nghề bằng nhau
- Không có sự tương tác giữa loại ngành nghề và nơi làm việc
Quy trình thực hiện bằng EXCEL. Nhập dữ liệu :
Mở hộp thoại
trong thẻ Data, chọn Anova : Two-Factor without replication
Hộp thoai Anova: Two-Factor Without Replication xuất hiện,ta chọn:
Input range: A174:E178
Labels: chọn
Alpha: 0.05
Output range: A180
Ta được bảng kết quả sau:
Biện luận :
Frows (Loại ngành nghề) 8,7831 F3;9;0,95 3.862548 nên bác bỏ giả thuyết H0
Fcol (Nơi làm việc) 1,232806 F3;9;0,05 3.862548 nên chấp nhận giả thuyết H0
Kết luận : Với mức ý nghĩa 5%
-Loại ngành nghề ảnh hướng đến mức thu nhập
-Nơi làm việc không ảnh hướng đến mức thu nhậ