ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
BÁO CÁO BÀI TẬP
XÁC SUẤT THỐNG KÊ
GVHD: Thầy Nguyễn Bá Thi
Lớp: 13-B - Nhóm: 3
Họ và tên: MSSV
1.Nguyễn Hoàng Nguyên 80901754
2.Phan Nguyễn Thành Nhân 80901819
3.Lê Trí Nhơn 60601701
4.Võ Quang Nghị 80901713
5.Võ Thành Nam 80901646
6.Trần Vân Phát 80901919
7.Cao Thọ Huy Ngọc 80901714
8.Trần Thế Mỹ 80901602
9.Phạm Trọng Nghĩa 80901703
10.Phan Minh Nhã 80901790
11.Nguyễn Hoàng Long 50801132
12.Phạm Hoài Nam 80901634
13.Đào Ngọc Hoàng Phi 80901924
1
Bài 1
Một xí nghiệp may sản xuất áo khoác với 4 màu: đỏ, xanh, vàng và
tím than. Số khách hàng nam và nữ mua áo khoác với các màu được ghi
trong bảng sau:
Đỏ Xanh Vàng Tím than
Nữ 62 34 71 42
Nam 125 223 52 54
Với mức ý nghĩa 1% hãy so sánh tỷ lệ khách hàng nam và nữ ưa
chuộng các màu sắc nói trên.
Bài làm
Nhận xét : Đây là bài toán kiểm định giả thiết về tỷ lệ.
Giả thiết H
o
: Tỷ lệ khách hàng nam và nữ ưa chuộng các màu sắc là
như nhau.
Thực hiện bài toán bằng Excel
• Nhập giá trị vào bảng tính :
• Tính các tổng số :
• Tổng hàng: chọn F4 và nhập =SUM(B4:E4),
dùng con trỏ kéo nút tự điền từ F4 đến F5.
• Tổng cột: chọn B6 và nhập =SUM(B4:B5),
dùng con trỏ kéo nút tự điền từ B6 đến E6.
• Tổng cộng: chọn F8 và nhập =SUM(F4:F5).
2
• Tính các tần số lý thuyết :
• Nữ : chọn B12 và nhập =B6*$F$4/$F$8,
dùng con trỏ kéo nút tự điền từ B12 đến E12.
• Nam : chọn B13 và nhập =B6*$F$5/$F$8,
dùng con trỏ kéo nút tự điền từ B13 đến E13.
• Áp dụng hàm số CHITEST :
• Chọn B15 và nhập =CHITEST(B4:E5,B12:E13).
• Ta sẽ có được kết quả của P(X>X²).
• Biện luận : P(X>X²) = 1,71514e-18 < α = 0,01
=> Bác bỏ giả thiết H
o
.
• Kết luận : Tỉ lệ khách hàng nam và nữ ưa chuộng các màu sắc
là khác nhau.
3
Bài 2
Lượng sữa vắt được bởi 16 con bò cái khi cho nghe các loại nhạc
khác nhau (nhạc nhẹ, nhạc rốc, nhạc cổ điển, không có nhạc) được thống
kê trong bảng sau đây:
Với mức ý nghĩa 5%, nhận định xem lượng sữa trung bình của mỗi
nhóm trên như nhau hay khác nhau. Liệu âm nhạc có ảnh hưởng đến
lượng sữa của các con bò hay không?
Bài làm
Nhận xét: Đây là bài toán phân tích phương sai một nhân tố.
Giả thiết H
o
: Lượng sữa trung bình của mỗi nhóm là như nhau.
Thực hiện bài toán bằng Excel
• Nhập dữ liệu vào bảng tính :<
4
Nhạc nhẹ 15 18 22 17
Nhạc rốc 13 20 16 15
Nhạc cổ điển 15 19 24 28
Không có nhạc 14 23 17 14
• Vào Tools /Data analysis, chọn Anova: Single Factor.
• Trong hộp thoại Anova: Single Factor lần lượt ấn định :
• Phạm vi đầu vào: Input Range, quét chọn vùng (A3:E6).
• Cách nhóm theo hàng hay cột: Group By, chọn Rows
(nhóm theo hàng).
• Chọn Labels in first column (nhãn dữ liệu nằm ở cột đầu).
• Mức ý nghĩa α: Alpha (ấn định α=0,05).
• Phạm vi đầu ra: Output Range, chọn ô A9.
5
• Nhấn OK, ta sẽ có bảng kết quả sau:
• Biện luận : F = 1.354679803 < F
0.05
= 3.490295
Chấp nhận giả thiết H
o
• Kết luận : Lượng sữa trung bình của các nhóm là như nhau.
Hay âm nhạc không ảnh hưởng đến lượng sữa của các con bò.
6
Bài 3
Từ 12 cặp quan sát (x
i
,y
i
) sau đây từ cặp hai biến (X,Y), tính tỷ số
tương quan,hệ số tương quan và hệ số xác định của Y đối với X. Với
mức ý nghĩa α = 5%, có kết luận gì về mối tương quan giữa X và Y (phi
tuyến hay tuyến tính )?
Bài làm
Nhận xét : đây là bài toán phân tích tương quan.
Thực hiện bài toán bằng Excel
3.1 Phân tích tương quan tuyến tính.
Nhập giá trị vào bảng tính:
7
X 123,0 356,9 111,1 118,
0
123,0 356,9 111,1 118,
0
123,0 356,9 111,1 118,0
Y 4,15 4,10 3,74 3,89 4,5 4,1 3 3,8 2 3,1 3,4 3
Thiết lập bảng Correlation.
• Vào Tools /Data analysis , chọn Correlation.
• Trong hộp thoại Correlation lần lượt ấn định:
• Phạm vi đầu vào: Input Range, quét vùng (A3:B15).
• Cách nhóm theo hang hay cột: Group By, chọn Columns
(nhóm theo cột).
• Chọn Labels in first row (nhãn dữ liệu ở hàng đầu).
• Phạm vi đầu ra: Output Range, chọn ô D6.
8
• Nhấn OK, ta sẽ có bảng kết quả sau:
• Ta tìm được hệ số tương quan r = 0.17875
Và hệ số xác định r
2
= 0.03195
* Giả thiết H
o
: X và Y không có tương quan tuyến tính.
Ta có: T = 0.574506 với
Mà: c = 2,228
(c là phân vị mức α/2=0.025 của phân bố Student với n-2=10 bậc tự do).
Vì lTl < c nên chưa có cơ sở bác bỏ giả thiết H
o
.
Vậy: Chưa kết luận được X và Y có tương quan tuyến tính.
9
2
2
1
r n
T
r
−
=
−
3.2 Phân tích tương quan phi tuyến.
Sắp xếp lại các giá trị của X và Y theo bảng sau:
Thiết lập bảng Anova: Single Factor.
• Vào Tools /Data analysis , chọn Anova: Single Factor.
• Trong hộp thoại Anova: Single Factor lần lượt ấn định :
• Phạm vi đầu vào: Input Range, quét vùng (B22:E25).
• Cách nhóm theo hàng hay cột: Group By, chọn Columns (nhóm
theo cột).
• Chọn Labels in first row (nhãn dữ liệu nằm ở hàng đầu).
• Mức ý nghĩa α: Alpha (ấn định α=0,05).
• Phạm vi đầu ra: Output Range, chọn ô G17.
10
• Nhấn OK, ta sẽ có bảng kết quả sau:
11
• Rút ra được từ bảng Anova:
SSF = 0,22537
SST = 5,3115
Tỷ số tương quan : η
2
Y/X
= SSF/SST = 0,04243
Suy ra : η
2
Y/X
- r² = 0,01048 ≠ 0
* Giả thiết H
o
: X và Y không có tương quan phi tuyến.
Ta có: F = 0,04378 với
Mà: c = 4,46
(c là phân vị mức α=0,05 của phân bố Fisher bậc tự do (k-2,n-k)=(2,8)).
Vì: F < c nên chấp nhận giả thiết H
o
.
Vậy: X và Y không có tương quan phi tuyến.
• Kết luận :
Hệ số tương quan: r = 0.178749
Hệ số xác định: r² = 0.03195
Tỷ số tương quan: η
2
Y/X
= 0.04243
• T = 0,574506 < c = 2,228.
(c là phân vị mức 0.025 của phân bố Student bậc tự do 10).
=> Chưa kết luận được X và Y có tương quan tuyến tính.
• F = 0,04378 < c = 4,46
(c là phân vị mức 0,05 của phân bố Fisher bậc tự do (2,8)).
=> X và Y không có tương quan phi tuyến với mức ý nghĩa 5%.
12
( )
( )
( )
( )
2 2
/
2
/
2
Y X
Y X
r n k
F
k
η − −
=
1− η −
Bài 4
Đo đường kính X và chiều cao Y của 20 cây ta thu được số liệu sau:
X 4,1 4,2 4,4 4,7 5,1 5,5 5,8 6,2 6,9 6,9
Y 7 8 7 9 10 13 7 11 11 16
a_Tìm đường hồi quy của Y đối với X.
b_Kiểm định giả thiết có hồi quy tuyến tính giữa Y và X.
Bài làm
Nhận xét : Đây là bài toán phân
tich hồi quy tuyến tính .
Giả thiết H
o
: X và Y khong co hồi quy
tuyến tính.
Thực hiện bài toán bằng Excel
Thiết lập bảng tính Regression :
• Nhập dữ liệu vào bảng tính :
• Sau đó vào Tools /Data analysis, chọn Regression.
13
X 2,3 2,5 2,6 3,1 3,4 3,7 7,3 3,9 4 4,1
Y 7 8 4 4 6 6 14 12 8 5
• Trong hộp thoại Regression lần lượt ấn định:
• Phạm vi đầu vào: Input Y Range, quét vùng (C3:C23).
Input X Range, quét vùng (B3:B23).
• Chọn Labels (thêm nhãn dữ liệu).
• Phạm vi đầu ra: Output Range, chọn ô E3.
• Chọn Line Fit Plots trong Residuals để vẽ đường hồi quy.
• Sau đó nhấn OK ta có kết quả :
14
• Kết luận :
Đường hồi quy của Y đối với X là : Y=1.67689X+1.045276
Sai số tiêu chuẩn của đường hồi quy : 2,22
Ta thấy: F = 24,3 > c = 4,41
=> Bác bỏ giả thiết H
0
( Tra bảng phân tố Fisher với bậc tự do (1,18) ở mức 0,05)
Vậy: có hồi quy tuyến tính giữa Y với X.
15