Tải bản đầy đủ (.docx) (19 trang)

BÀI BÁO CÁO -BÀI TẬP LỚN MÔN XÁC SUẤT THỐNG KÊ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (504.5 KB, 19 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ
MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
BÁO CÁO:
BÀI TẬP LỚN MÔN XÁC SUẤT
THỐNG KÊ

GVHD: TS.Nguyễn Bá Thi
SVTH: Nguyễn Minh Quang
MSSV: 81202940
Nhóm :A12-B
Nhóm: 6
Mục lục
2
BÀI 1
Bảng sau đây cho ta phân bố thu nhập của hai nhóm tuổi: Nhóm từ 40 – 50
tuổi và nhóm từ 50 – 60 tuổi trong số các công nhân lành nghề ở Thụy Điển
năm 1930.
Nhóm
tu iổ
Thu nh pậ
0 – 1 1 – 2 2 – 3 3 – 4 4 – 6 ≥ 6
40 – 50 71 430 1072 1609 1178 158
50 – 60 54 324 894 1202 903 112
Với mức ý nghĩa
5%
α
=
. Có sự khác nhau về tỷ lệ thu nhập giữa hai
nhóm tuổi này trong số các công nhân lành nghề hay không?
Giải


Dạng bài: Kiểm định tính độc lập của nhân tố
- Đối với một thí nghiệm có nhiều kết quả (ở bài này là xem xét sự khác
nhau giữa thu nhập của hai nhóm tuổi) cần sử dụng phương pháp kiểm
định giả thiết độc lập.
Giả thuyết H
0
: Phân bố thu nhập của hai nhóm tuổi trong số các công nhân
lành nghề là như nhau
Thực hiện bài toán bằng Excel
• 1.Nhập dữ liệu vào bảng tính :
• 2.Tính các tổng số

Tổng hàng: chọn ô H3 và nhập biểu thức =SUM(B3:G3),
Dùng con trỏ kéo nút tự điền từ ô H3->H4
3
Tổng cột& Tổng cộng: chọn ô B5 và nhập biểu thức =SUM(B3:B4),
Dùng con trỏ kéo nút tự điền từ ô B5->H5
4
3.Tính các tần số lý thuyết:(Tổng hàng*Tổng cột)/Tổng
Ở ô B9 nhập =B$5*$H3/$H$5 rồi kéo từ B9 đến G10
Ta có bảng tần số
Áp dụng hàm số CHITEST
Chọn ô B12 và nhập vào =CHISQ.TEST(B3:G4;B9:G10)
Ta có kết quả của P(X<
2
χ
)
Biện luận: P(X<
2
χ

)= 0.511582 > 0.05 => Chấp nhận giả thuyết H
0
.
4.Kết luận: Phân bố thu nhập của hai nhóm tuổi trong số các công nhân lành nghề là
như nhau.
5
BÀI 2:
Đề bài:
So sánh giá trị trung bình của các đại lượng với bảng số liệu sau đây:
Mẫu thứ nhất: 22 19 13 19 23 15 16 18 20 20
Mẫu thứ hai: 27 25 22 27 19 23 21 28 23 25 27
Mẫu thứ ba: 20 18 21 21 16 17 20 18 17 19 18
Mẫu thứ tư: 18 16 24 19 22 22 24
Mức ý nghĩa α = 5%.
Giải
Dạng toán : Đây là bài toán kiểm định trung bình bằng phân tích phương sai một yếu
tố.
Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá
trị trung bình của hai hay nhiều mẫu được lấy từ các phân số. Đây có thể được xem
như phần mở rộng của trắc nghiệm t hay z (so sánh hai giá trị trung bình).
Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của
một yếu tố( nhân tạo hay tự nhiên) nào đó trên các giá trị quan sát, Y
i
, (i = 1,2,…, k).
Giải
Giả thuyết H
0
: Giá trị trung bình của các đại lượng là như nhau.
Nhập dữ liệu vào bảng tính
Áp dụng “Anova: Single Factor”

a) Vào lệnh Data Analysis.
b) Chọn chương trình Anova: Single Factor trong hộp thoại Data Analysis
rồi nhấp nút OK.
c) Trong hộp thoại Anova: Single Factor, lần lượt ấn định:
- Phạm vi đầu vào (Input Range): $A$1:$L$4
- Cách sắp xếp theo hàng hay cột (Group By): Rows
6
- Nhãn dữ liệu (Labels in First Column).

7
Hình Hôp thoại Anova:Single Factor
Bảng giá trị
Áp dụng Anova :Single Factor:
Hộp thoại Anova Single Factor
Kết quả: F quan sát=10,67926 >F ngưỡng =2,874187
 Bác bỏ giả thiết H
0
Kết luận Vậy giá trị trung bình của các mẫu không như nhau.
8
BÀI 3
Đề bài:
Tuổi X và huyết áp Y của bệnh nhân trẻ em (dưới 14 tuổi), chọn ngẫu
nhiên được cho trong bảng sau đây:
X 14
1 9 7 9
12 1 3 14 1 9 7 9
1
2
1
Y

10
0
8
3
112 152 10
4
90
9
2
8
5
110 73
13
2
122 134
9
8
8
2
Tính tỷ số tương quan,hệ số tương quan và hệ số xác định của Y đối với X. Với
mức ý nghĩa α = 5%, có kết luận gì về mối tương quan giữa X và Y (Có phi
tuyến không ? Có tuyến tính không ?)? Tìm đường hồi quy tuyến tính của Y đối
với X. Tính sai số tiêu chuẩn của đường hồi quy.
Dạng toán : Bài toán kiểm định tương quan và hồi quy
• Phân tích tương quan tuyến tính
Giả thiết H
0
: X và Y không có tương quan tuyến tính.
a) Nhập dữ liệu vào bảng tính
9

b) Vào Data Analysis, chọn mục Correlation
c) Trong hộp thoại Anova: Single Factor, lần lượt ấn định:
- Phạm vi đầu vào (Input Range): $A$1:$B$17
- Cách sắp xếp theo hàng hay cột (Group By): Column
- Nhãn dữ liệu (Labels in First Row).
Bảng giá trị:
10
Biện luận:
• n=16
• r=0.466627
• Ta có
2
2
1.97405
1
r n
T
r

= =


• Phân phối Student với α=0.05 và bậc tự do n-2=14
c= T.INV.2T(0,05;14)=2.144787
 T<c nên chấp nhận giả thiết H
0
Kết luận: Giữa X và Y không có mối tương quan tuyến tính.
 Phân tích tương quan phi tuyến
Giả thiết H
1

:X và Y không có tương quan phi tuyến
a) Nhập bảng số liệu được sắp xếp lại:
b) Vào Data analysis, chọn Single Factor.
c) Trong hộp thoại Anova: Single Factor, lần lượt ấn định:
• Phạm vi đầu vào (Input Range): $B$1:$G$5
• Cách sắp xếp theo hàng hay cột (Group By): Column
• Nhãn dữ liệu (Labels in First Row).
11
Bảng kết quả:
Biện luận:
• n=16;k=6
• SSF=6943.75;SST=8515.75

2
/
0.8154
Y X
SSF
SST
η
= =


2 2
/
2
/
( )( )
8.0940
(1 )( 2)

Y X
Y X
r n k
F
k
η
η
− −
= =
− −

• Phân bố Fisher với bậc tự do (4,10) với mức α=0.05:
c= F.INV.RT(0,05;4;10)= 3,478049691
 F>c
 Bác bỏ giả thiết H
1

Kết luận: Giữa X và Y có tương quan phi tuyến.
12
 Phân tích đường hồi quy
Giả thiết: Phương trình hồi quy không thích hợp
a) Nhập bảng số liệu:
b) Data Analysis-> chọn Regression
c) Trong hộp thoại Regression, lần lượt ấn định:
• Phạm vi đầu vào Y/X (Input Range Y/X
• Nhãn dữ liệu (Labels)
• Độ tin cậy (1-α): 95%
• Đồ thị đường hồi quy (Line Fit Plots)
13
14

Bảng số liệu:
Biện luận:
• Hệ số tự do a=85.77794118
• Hệ số góc b=2.335294118
 Phương trình đường hồi quy Y=2.335294118X+85.77794118
• P-value của hệ sô tự do=5.45*10
-7
< α=0.05=> Bác bỏ giả thiết H
0
• P-value của hệ số góc =0.06844 > α=0.05 =>Chấp nhận giả thiết H
0
 Hệ số tự do có ý nghĩa thống kê, hệ số góc không có ý nghĩa thống kê
15

4
0,0684440115> =0.05
S
F
α
=
=> Chấp nhận giả thiết H
0
 Phương trình đường hồi quy không thích hợp.
16
Kết luận:
 Tần số tương quan
2
/
0.8217
Y X

η
=

 Hệ số tương quan r= 0.46627
 Hệ số xác định r
2
=0.2177405
 X và Y không có tương quan tuyến tính với mức ý nghĩa 5%
 X và Y có tương quan phi tuyến với mức ý nghĩa 5%
 Phương trình đường hồi quy Y=2.335294118X+85.77794118 là không
thích hợp
17
BÀI 4
Hãy phân tích tình hình kinh doanh của một số ngành nghề ở 4 quận nội thành
trên cơ sở số liệu về doanh thu trung bình như sau:
Ngành nghề kinh
doanh
Khu vực kinh doanh
Q1 Q2 Q3 Q4
Điện lạnh
Vật liệu xây dựng
Dịch vụ tin học
5.7
5.0
3.8
3.1
15.0
1.8
4.4
9.5

1.3
5.0
17.5
4.8
Mức ý nghĩa 10%.
Giải
Dạng toán: Phân tích phương sai hai yếu tố không lặp
Giả thiết H: Các giá trị trung bình là như nhau.
Thực hiện bài toán bằng Excel:
a) Nhập bảng số liệu
b) Vào Data Analysis-> Anova: Two Factions Without Replication
18
c) Trong hôp thoại Anova: Two Factions Without Replication, nhập liệu như
hình vẽ:
Bảng số liệu:
Biện luận:
• F
R
=7.4196 > F
0.1
=3.4633 => Bác bỏ giả thiết H (Ngành nghề kinh doanh)
• F
C
=0.9734 < F
0.1
=3.2888 => Chấp nhận giả thiết H (Khu vực kinh doanh)
Kết luận:
Ngành nghề kinh doanh gây ảnh hưởng đến doanh thu trung bình, còn khu vực
kinh doanh không gây anh hưởng đến doanh thu trung bình.
19

×