BÀI TẬP LỚN MÔN XÁC SUẤT THỐNG KÊ
Bài 1: Bảng sau đây cho ta phân bố thu nhập của hai nhóm tuổi:
Nhóm từ 40-50 tuổi và nhóm từ 50-60 tuổi trong tất cả các công
nhân viên chức của Thụy Điển năm 1930 (đơn vị:1000 curon)
Nhóm tuổi Thu nhập
0-1 1-2 2-3 3-4 4-6
≥
6
40-50 7831 26740 35572 20009 11527 6919
50-60 7858 20685 24186 12280 6776 4222
Có sự khác nhau về phân bố thu nhập giữa hai nhóm tuổi này
không? Mức ý nghĩa α=1%
Bài làm:
Dạng bài: So sánh các phân số
Phần mềm: Microsoft Excel 2007
Hàm: CHITEST
Giả thiết :
0
H
: Sự phân bố thu nhập giữa 2 nhóm tuổi 40-50 và
50-60 là như nhau
Bước 1: Nhập bảng dữ liệu thực tế và tính các tổng ni, mj:
i
n
=SUM(hàng)
j
m
=SUM(cột)
Bước 2: Tính dữ liệu kỳ vọng γij theo công thức γij= ni* nj/n ta
được bảng sau:
Bước 3: Tính P(X > χ²) = CHITEST(Bảng_thực_tế,Bản_kỳ_vọng)
=CHITEST(C2:H3,C7:H8)
Bước 4: Phân tích kết quả:
'
α
= P(X > χ²) = 3.73E-204 < = 0.01.
= = > = 15.09 nên ta bác bỏ
Bước 5 : Kết luận
Vậy, phân bố thu nhập của hai nhóm tuổi này trong các công
nhân viên chức là khác nhau
Bài 2 :Số kilomet đi được nhờ 1 lít xăng của 4 loại xe ôtô A, B, C,
D được ghi lại như sau trên các xe chạy thí nghiệm :
Loại A : 25, 23, 20, 27, 20 Loại B : 28, 31, 27, 28, 26
Loại C : 32, 33, 30, 28, 32 Loại D : 24, 24, 23, 27, 22
Với mức ý nghĩa = 5% , hãy so sánh mức tiêu thụ xăng trung
bình của 4 loại xe nói trên
Bài làm :
Dạng bài : Phân tích phương sai 1 nhân tố :
Phần mềm : Microsoft Excel
Phương pháp giải bài toán :
Giả thiết : : số kilomet đi được nhờ 1 lít xăng của 4 loại xe A,
B, C, D là như nhau
Bảng ANOVA
Nguồn Tổng bình
phương
Bậc tự do Trung bình
bình phương
Tỷ số F
Nhân tố SSF k-1 MSF MSF/MSE
Sai số SSE n-k MSE
Tổng số SST n-1
Nếu làm bằng Excel , ta có các bước sau :
Bước 1 : 1. Nếu trong menu Tools chưa có mục Data
Analysis… thì tiến hành cài Analysis ToolPak như sau: Tools \
Add-Ins \ chọn Analysis ToolPak\ OK
Bước 2 : Nhập dữ liệu theo cột :
B3 : Chọn Tools\ Data Analysis … như trong hình :
Chọn ANOVA : Single Factor
Nhập dữ liệu như trong hình :
+ Input Range : khoảng dữ liệu đầu vào
+ Group by : Cách sắp xếp theo dòng hay cột
+ Nhãn dữ liệu : (Labels First Row/Column)
+ Out put range : phạm vi dữ liệu ra
+ Alpha : mức ý nghĩa
B4: Sau khi nhập đủ các thông số , bảng số liệu ANOVA được
gọi ra như sau :
B5 : Kết luận :
nên ta bác bỏ : số kilomet đi
được nhờ 1 lít xăng của 4 loại xe ôtô A, B ,C ,D là như nhau
Vậy mức tiêu thụ xăng trung bình của 4 loại xe A, B, C, D
là không giống nhau
Bài 3: Tính tỷ số tương quan của Y đối với X, hệ số tương quan và
hệ số xác định của tập số liệu sau đây. Với mức ý nghĩa α = 5%, có
kết luận gì về mối tương quan giữa X và Y (phi tuyến hay tuyến
tính)?
X 0.9 1.22 1.32 0.77 1.3 1.2
Y -0.3 0.1 0.7 -0.28 -0.25 0.02
X 0.9 1.22 1.32 0.77 1.3 1.2
Y 0.3 0.5 0.4 -0.2 -0.3 0.08
Bài làm:
Dạng bài: Phân tích tương quan và hồi quy
Phần mềm: Microsoft Excel
Hàm: FINV, chương trình Correlation, Anova: Single Factor
Bước 1: Nhập bảng số liệu:
Bước 2 : Tính STT, SSF và tỷ số tương quan của Y đối với X:
Áp dụng “ANOVA: Single Factor”
• Nhấp lần lượt đơn lệnh Data (hoặc Tools đối với MS
Excel 2003) và lệnh Data Analysis rồi nhấn nút OK,
• Chọn chương trình Anova: Single Factor trong hộp
thoại Data Analysis rồi nhấn nút OK,
• Trong hộp thoại Anova: Single Factor lần lượt ấn định:
o Phạm vi đầu vào (Input Range),
o Cách sắp xếp theo hang hay cột (Group By),
o Nhãn dữ liệu (Labels in First Row/Column),
o Rồi nhấn OK.
Ta được bảng ANOVA: Single Factor
ả
Từ bảng Anova: Single Factor ta rút ra được STT và SSF:
STT = 1.3182917(= Total)
SSF = 1.00704166666667 (=Between Groups)
Từ đó ta tính được tỷ số tương quan:
η = 0.763898985
Bước 3 : Tính hệ số tương quan R, hệ số xác định R²:
Áp dụng Correlation:
+ Click Data trên thanh công cụ.
+ Click hộp thoại Data Analysic và chọn Conrelation:
+ Trong Correlation, lần lượt ấn định các chi tiết:
• Phạm vi đầu vào (Input Range),
• Cách xắp xếp theo hàng hay cột (Group By),
• Nhãn dữ liệu (Labels First Row/Column),
• Phạm vi đầu ra (Output Range)
Ta có được Hệ số tương quan r và hệ số xác định r²:
Bước 4 : Phân tích mối tương quan giữa X và Y:
Phân tích mối tương quan tuyến tính :
Giả thiết
0
H
: X , Y không có tương quan tuyến tính ( )
Tính : = = 1.519
Tra bảng phân vị mức =0.025 của phân bố Student với n-2 = 10
bậc tự do , ta được c = 2.228
Kết luận : nên ta chấp nhận , nghĩa là giữa X và Y không
có mối tương quan tuyến tính với mức ý nghĩa 5%
Phân tích mối tương quan phi tuyến :
Ta có: (η²-ρ²) ~ (η²-r²) (do ρ được ước lượng bởi r)
Kiểm định giả thiết H0: Không có tương quan phi tuyến, với đối
thiết
H1: Có tương quan phi tuyến
Ta có: (η²-r²) = 0.7639-0.3855 = 0.3784 ≠ 0
F = 3.662078
Tra bảng phân phối Fisher với bậc tự do (4,6) ở mức 5%
bằng cách nhập hàm =FINV(0.05,4,6) ta được giá trị c = 4.533677
Kết luận :
F c<
nên ta chấp nhận
0
H
, nghĩa là không tồn tại mối
tương quan phi tuyến giữa X và Y , với mức ý nghĩa 5%
Bước 5: Kết luận
Vậy giữa X và Y không có mối tương quan phi tuyến và tuyến
tính , khả năng sai lầm của khẳng định này là 5%
Bài 4 : Cho bảng số liệu sau :
X 2.3 2.5 2.6 3.1 3.4 3.7 7.3
Y 7 8 4 4 6 6 14
X 3.9 4 4.1 4.1 4.2 4.4
Y 12 8 5 7 8 7
X 4.7 5.1 5.5 5.8 6.2 6.9 6.9
Y 9 10 13 7 11 11 16
a ) Tìm đường hồi quy tuyến tính của Y đối với X :
b ) Tính sai số tiêu chuẩn của đường hồi quy
c ) Tính tỷ số F để kiểm định giả thiết có hồi quy tuyến tính giữa Y
với X
Bài Làm :
Dạng bài toán : Phân tích hồi quy tuyến tính
Phần mềm : Microsoft Excel
Giả thiết :
0
H
: Hệ số góc
α
của đường thẳng hồi quy lý thuyết
của Y đối với X bằng 0
Làm bằng Excel , ta có các bước :
B1 : Nhập bảng số liệu :
B2 : Chọn Tool\Data Analysis…như trong hình :
Chọn Regression :
Nhập dữ liệu vào như trong hình :
+ Input Y Range : khoảng dữ liệu của Y
+ Input X Range : khoảng dữ liệu của X
+ Confidence Level : mức ý nghĩa
+ Labels : Nhãn dữ liệu
+Output Range : Khoảng dữ liệu xuất ra
B3 : Sau khi nhập đủ các thông số , ta gọi ra được bảng sau :
B4 : Kết luận :
1.Đường hồi quy tuyến tính của Y đối với X là : Y = 1.676896*X
+ 1.045276
2.Sai số tiêu chuẩn của đường hồi quy là :
.Y X
s
= 2.220412283
3.Tỷ số F = 24.30025
Với mức ý nghĩa
α
= 5%, tra bảng phân bố Fisher với bậc tự do
( 1, 18) ta được c = 4.41
F > c do đó ta bác bỏ
0
H
Vậy hệ số góc
α
của đường thẳng hồi quy lý thuyết của Y
đối với X là khác 0