BÀI TẬP Xác suất thống kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (161.28 KB, 10 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
BỘ MÔN KHOA HỌC ỨNG DỤNG
 
Bài Tập Lớn
Xác suất thống kê
Nhóm thực hiện: Nhóm VIII
Lớp : DT01

Năm học 2008-2009
Danh sách sinh viên thực hiện:
1. Lê an thanh 60402156
2. Khâu thành lễ 40401317
3. Ngô văn thọ 40402988
4. Lưu trần sang 60502350
5. Nguyễn huy thỏa G0074479
6. Dương xuân hòa G0700824
7. Nguyễn quang tùng 20702855
8. Nguyễn anh hải 80500760
9. Nguyễn ngọc nam 80501753
10.Nguyễn ngô dũng tuyến 40303222
11. Nguyễn hải vương 60403234
12.Nguyễn quang tuyến 80504318
13. Huỳnh hải phận 40502026
-
- Chọn chương trình Anova: two-Factor without replication trong hộp thoại
data analysis rồi nhấp nút OK
- Trong hộp thoại Anova: two-Factor without replication, lần lượt ấn định
các chi tiết
- Phạm vi đầu vào (input range)
- Nhãn dữ liệu (label in First Row/column)

- Ngưỡng tin cậy ( hoặc mức ý nghĩa): alpha
- Phạm vi đầu ra (output range)
- Sau đó so sánh kết quả và biện luận
4. Kết quả bài toán 1:
 Áp dụng phương pháp tính toán thông thường:
Từ số liệu của bai toán ta có:
địa phương mức độ đau mắt hột
T1 T2 T3 T4
A 47 189 807 1768
B 53 746 1387 946
C 16 228 438 115
Theo công thức ta tính được: X
2
qs
= 5.6
Tra bảng phân vị X
2
ta có : X
2
=
16.8
 Áp dụng MS-EXCEL:
Anova: Two-Factor Without
Replication
SUMMARY Count Sum Average Variance
A 4 2811 702.75 613190.9167
B 4 3132 783 308551.3333
C 4 797 199.25 32835.58333
T1 3 116 38.66666667 394.3333333
T2 3 1163 387.6666667 96682.33333

T3 3 2632 877.3333333 228860.3333
T4 3 2829 943 683109
ANOVA
Source of
Variation SS df MS F P-value F crit
Rows 800955.1667 2 400477.5833 1.974195041 0.219379 10.92477
Columns 1646596.667 3 548865.5556 2.705688665 0.138374 9.779538
Error 1217136.833 6 202856.1389
Total 3664688.667 11
 Kết quả và biện luận:
F
R
=1.974195 < F
Crit
=10.92477: Bệnh đau mắt hột phụ thuộc vào từng thời kì.
F
C
=2.705688 < F
Crit
=9.779538: Bệnh đau mắt hột phụ thuộc vào từng vùng.
Bài 2
Một nhà tâm lý học nghiên cứu ảnh hưởng của quê quán đối với thời gian
(tính bằng phút) để 1 sinh viên có thể trả lời 1 câu đố. Bốn nhóm sinh viên từ 4
vùng khác nhau (nội thành, ngoại thành, thị trấn, nông thôn) được khỏa sát với kết
quả như sau:
Nội thành 16.5 5.2 12.1 14.3
Ngoại thành 10.9 5.2 10.8 8.9 16.1
Thị trấn 18.6 8.1 6.4
Nông thôn 14.2 24.5 14.8 24.9 5.1
Hãy lập bảng ANOVA cho số liệu trên:

Giải:
Áp dụng MS-EXCEL:
- Nhập dữ liệu vào bảng tính
- Áp dụng “Anova : single-Factor”
- Nhấp lần lượt đơn lệnh tools và lệnh Data analysis
- Chọn chương trình Anova: single-Factor trong hộp thoại data analysis rồi
nhấp nút OK
- Trong hộp thoại Anova: single-Factor, lần lượt ấn định các chi tiết
- Phạm vi đầu vào (input range)
- Cách sắp xếp theo hàng hay cột (Group by)
- Nhãn dữ liệu (label in First Row/column)
Anova: Single Factor
SUMMARY
Groups Count Sum Average Variance
16.5 3 31.6 10.53333333 22.54333333
10.9 4 41 10.25 20.61666667
18.6 2 14.5 7.25 1.445
14.2 4 69.3 17.325 88.22916667
ANOVA
Source of Variation
SS df MS F P-value F crit
Between Groups
177.2385256 3 59.07950855 1.425246642 0.298396541 3.862548358
Within Groups
373.0691667 9 41.45212963
Total 550.3076923 12
Bài 3: một trường đại học thu nhập các số liệu về chứng số chứng chỉ mà một sinh
viên theo học và số giờ học ở nhà của anh ta trong một tuần:
X 20 25 30 50 20 23
Y 12 13 12 15 16 16

ở đó X là số giờ học, Y là số chứng chỉ. Tìm hệ số tương quan giữa X và Y. ở mức
ý nghĩa 5%, có sự tương quan giữa hai biến tuyến tính nói trên không.
Bài giải:
Nhập dữ liệu:
x y
20 12
25 13
30 12
50 15
20 16
23 16
Sữ dụng lệnh Tools và lệnh Data Analysis, chọn chương trình Regression
trong hộp thoại Data Analysis.
Và ta chọn lần lược các thuộc tính:
Phạm vi biến số Y
Phạm vi biến số X
Nhãn dữ liệu
Mức tin cậy 5%
Tọa độ đầu ra
Kết quả:
Phương trình hồi quy: Y = f(X
1
)
Y
x1
= 2.73 + 0.04X
1
(R
2
= 0.01; S = 2.11)

SUMMARY OUTPUT
Regression Statistics
Multiple R 0.101695
R Square 0.010342
Adjusted R
Square
-0.23707
Standard
Error
2.110323
Observations 6
ANOVA
df SS MS F
Significanc
e F
Regression 1 0.186154
0.18615
4
0.0418 0.847983
Residual 4 17.81385
4.45346
2
Total 5 18
Coefficient
s
Standard
Error
t Stat P-value Lower 95%
Upper
95%

Lower
95.0%
Upper
95.0%
Intercept 13.52615 2.472611
5.47039
4
0.00543
3
6.661086
20.3912
2
6.66108
6
20.3912
2
x 0.016923 0.082774 0.20445
0.84798
3
-0.21289 0.24674 -0.21289 0.24674
P
v
2
= 0.005 < 0.05
Không chấp nhận giả thiết H
0
.
Vậy cả hai hệ số 2.37 và 0.04 của phương trình hồi quy đều có ý nghĩa thống kê.
Kết luận: số giờ học có liên quantuyến tính với số chứng chỉ.
Bài 4: Một nhà xã hội học chọn ngẫu nhiên gồm 500 người để trao một bản thăm

dò với các câu hỏi như sau:
 Ông bà có đi nhà thờ không?
 Mức độ thành kiến về chủng tộc của ông (bà) thế nào?
Kết quả được ghi lại trong báng sau:
Đi nhà thờ
Mức độ thành kiến chủng tộc
cao Đôi khi không
Có 70 160 170
không 20 50 30
Với mức ý nghĩa 5% có nhận định gì về mối tương quan về việc đi nhà thờ và vấn
đề thành kiến củng tộc?
Bài làm:
1. Cơ sở lý thuyết:
Đây là bài toán kiểm định tính độc lập ( trang 112-113/sgk)
Cho X và Y là 2 dấu hiệu trên cùng 1 tổng thể. Từ một mẫu kích thước n ta có số
liệu:
Y
X
y
1
y
2
… y
h
n
i
x
1
n
11

n
12
… n
1h
n
1
x
2
n
21
n
22
… n
2h
n
2
… … … … … …
x
k
n
k1
n
k2
… n
kh
n
k
m
j
m

1
m
2
… m
h
∑=n
Trong đó x
i
(i=1,…k) các dấu hiệu mà X nhận
y
j
(j=1,…h) các dấu hiệu mà Y nhận
n
i
(i=1,…k) số lần X nhận x
i
m
j
(j=1,…h) số lần Y nhận y
j
n
i,j
(i=1,…k; j=1,…h) số lần đồng thời X nhận x
i
và Y nhận y
j
2. Thuật toán sử dụng:
Áp dụng lý thuyết theo sách giáo khoa phương pháp giải như sau:
− Tìm : bằng cách tra bảng
2

α
χ
= [(h-1)(k-1)] từ bảng phân vị
− Tính theo công thức sau:
Nếu < : thì chấp nhận giả thuyết H
Nếu > : thì bác bỏ H
3. Áp dụng MS-EXCEL:
- Nhập dữ liệu vào bảng tính
- Áp dụng “Anova: two-Factor without replication”
- Nhấp lần lượt đơn lệnh tools và lệnh Data analysis
- Chọn chương trình Anova: two-Factor without replication trong hộp thoại
data analysis rồi nhấp nút OK
- Trong hộp thoại Anova: two-Factor without replication, lần lượt ấn định
các chi tiết
- Phạm vi đầu vào (input range)
- Nhãn dữ liệu (label in First Row/column)
- Ngưỡng tin cậy ( hoặc mức ý nghĩa): alpha
- Phạm vi đầu ra (output range)
- Sau đó so sánh kết quả và biện luận
4. Kết quả bài toán 4:
 Áp dụng phương pháp tính toán thông thường:
Từ số liệu của bai toán ta có:
Y
X
cao Đôi khi không n
có 70 160 170 400
không 20 50 30 100
m 90 210 200 500
Theo công thức ta tính được:
308.5

2
=
qs
χ
Trang bảng phân vị ta có
So sánh và kết luận việc đi nhà thờ phụ thuộc vào thành kiến chủng tộc
 Áp dụng MS-EXCEL
Anova: Two-Factor Without Replication
SUMMARY Count
Su
m Average Variance
có 3 400 133.3333 3033.333
không 3 100 33.33333 233.3333
cao 2 90 45 1250
đôi khi 2 210 105 6050
không 2 200 100 9800
ANOVA
Source of
Variation SS df MS F P-value F crit
Rows 15000 1 15000 14.28571 0.063414 18.51282
Columns 4433.333 2 2216.667 2.111111 0.321429 19
Error 2100 2 1050
Total 21533.33 5
• Kết quả và biện luận: F
R
=14.28 < F
crit
= 18.51 : => Việc đi nhà thờ phụ
thuộc vào mức độ thành kiến chủng tộc.

BÀI TẬP Xác suất thống kê

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về