Tải bản đầy đủ (.docx) (17 trang)

So 10 XÁC SUẤT THỐNG KÊ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (672.29 KB, 17 trang )

.

TRƯỜNG ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ MINH

BÁO CÁO BÀI TẬP LỚN
XÁC SUẤT THỐNG KÊ

Giáo viên hướng dẫn: NGUYỄN KIỀU DUNG
Nhóm 10:
Sinh viên thực hiện:
1. Lê Bá Bảo
1410198 L05-A
2. Nguyễn Mạnh Cường
1410452 L05-A
3. Trần Quang Khôi
1411875 L05-A
4. Nguyễn Nhật Linh
1412027 L10-B
5. Nguyễn Hữu Phúc
1412962 L05-A
6. Trần Hoàng Tiến
1414003 L05-A

Dĩ An, tháng 5 năm 2016


BÀI 1 :
Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng các dữ liệu đó
cho các yêu cầu sau:
1. Thực hiện phương pháp phân tổ dữ liệu (A).
2. Vẽ đồ thị phân phối tần số và đa giác tần số (A).


3. Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy
96% (A).
4. Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
5. Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với một phân bố xác suất nào đó hay
khơng?
TRÌNH BÀY :
Dạng bài: Thống kê mô tả
Dữ liệu (A): Khảo sát tuổi thọ của 40 lốp máy bay Airbus A320 của hãng Delay
Airline tại hangar, ta có bảng số liệu sau (đơn vị: giờ)
23
22
30
98
13
82
21
16
54
19
76
30
54
19
76
19
21
21
25
59
48

89
66
14
40
19
48
35
45
19
73
19
56
32
30
56
13
82
65
49
Dữ liệu (B): Thống kê số chuyến bay quốc tế trong tháng 1/2016 tại sân bay Tân
Sơn Nhất.
Đích đến
Số chuyến
Nagasaki

15

Bình Nhưỡng

15


Tel Aviv

105

Bắc Kinh

90

Dubai

30

Melbourne

30

Marseille

50

1/Thực hiện phương pháp phân tổ dữ liệu (A).
 Nhập dữ liệu A vào excel:



Xác định số tổ cần chia:
Chọn ô D7 nhập vào biểu thức: =(2*COUNT(A1:H5))^(1/3) Kết quả:
4.31
Ta chọn k=4



 Xác định trị số khoảng cách h theo công thức:

 Kết quả: h=21,25
 Ta xác định được các cận trên và cận dưới các tổ lần lượt là:

+ Tổ 1 : 13 - 34,25
+ Tổ 2 : 34,25 – 55,5
+ Tổ 2 : 55,5 – 76,75
+ Tổ 2 : 76,75 – 98
 Nhập vào các ô từ A11 đến A14 lần lượt các giá trị như sau:

 Chọn Data/ Data Analysis/ Histogram:







Input Range: địa chỉ tuyệt đối chứa dư liệu.
Bin Range: địa chỉ chứa bảng phân nhóm.
Output options: vị trí xuất kết quả.
Confidence Level for Mean: độ tin cậy cho trung bình. Chọn
Cumulative Percentage để tính tần suất tích lũy nếu khơng Excel chỉ
tính tần số.

Kết quả sau khi hiệu chỉnh:



2/ Vẽ đồ thị phân phối tần số và đa giác tần số (A).
 Vẽ đồ thị phân phối tần số
+ Quét chọn bảng tần số B19:B22
+ Dùng chức năng Insert Column Chart trên menu Insert.
 Kết quả sau khi hiệu chỉnh:

 Vẽ đa giác tần số:

+
+

Sử dụng bảng phân phối tần số của dữ liệu (A):
Thêm giá trị 0 vào đầu và cuối bảng phân phối tần số:

+ Quét chọn B17:B22; dùng chức năng Insert Line Chart trên menu Insert

 Kết quả sau chỉnh sửa:


3/ Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan
sát với độ tin cậy 96% (A).
 Nhập dữ liệu vào bảng tính:

 Chọn chức năng Data/Data Analysis/Descriptive Statistics.

+
+
+


Input Range: địa chỉ tuyệt đối chứa dư liệu.
Output options: vị trí xuất kết quả.
Confidence Level for Mean: độ tin cậy cho trung bình.


4/ Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
 Nhập dữ liệu và bảng tính:

 Tính tỷ lệ số chuyến bay cho các địa điểm :
 Nhập vào C3: =B3/$B$10, copy cho các ô còn lại.

 Vẽ biểu đồ đứng thể hiện số lượng chuyến bay đến các địa điểm

+ Quét chọn cột số chuyến bay (B3:B9)
+ Dùng chức năng Insert /Insert Column Chart/2-D Column trên menu
Insert.

 Kết quả thu được:


 Vẽ biểu đồ tròn thể hiện số lượng chuyến bay đến các địa điểm

+
+

Quét chọn cột Số sinh viên (C3:C9)
Dùng chức năng Insert/Insert Pie/2-D Pie trên menu Insert.

 Kết quả thu được:



BÀI 2 :
Một máy sơn tự động được thiết kế để phun sơn 1 xe ô tô với mức trung bình là 4 kg sơn. Dữ
liệu dưới đây thể hiện lượng sơn thực tế đã sử dụng để sơn cùng một loại xe trong 2 ngày liên
tiếp :
Ngày 1 : 3,8 4,2 3,6 4,1 3,9 4,3 4,1 3,8 3,95 4
Ngày 2 : 4,5 3,8 4,1 3,9 4,5 3,8 4 4,2
đơn vị : kg
Hãy kiểm định xem máy phun sơn có sử dụng lượng sơn trung bình khác nhau giữa 2
ngày hay khơng, với mức ý nghĩa 1%.
TRÌNH BÀY :
Dạng bài : Bài tốn kiểm định trung bình 2 tổng thể chưa biết giả thiết 2 phương sai.
Cơ sở lí thuyết :
Bước 1 : Kiểm tra giả thiết 2 phương sai, dùng công cụ F-Test Two-Sample for Variances
o Giả thiết : H 0 :σ 21=σ 22 H 1 :σ 12 ≠ σ 22
o Giá trị thống kê : F=s21 /s 22
o Phân phối Fisher : γ 1=N 1−1 ; γ 2=N 2 −1
o Biện luận : Nếu F< F α (γ 1 , γ 2 )  Chấp nhận giả thiết H0 với xác xuất (1-)100%.
Bước 2 : Sau khi xác định giả thiết 2 phương sai, ta chọn công cụ T-Test thích hợp.
Nếu σ 21=σ 22 , dùng cơng cụ T-Test Two-Sample Assuming Equal Variances
o Giả thiết :
H 0 : μ1=μ2 H 1 : μ1 > μ2 (trắc nghiệm bên phải)
H 0 : μ1=μ2 H 1 : μ1 < μ2 (trắc nghiệm bên trái)
H 0 : μ1=μ2 H 1 : μ1 ≠ μ2 (trắc nghiệm 2 bên)
o Giá trị thống kê :
t=

( X 1− X 2 )−(μ1−μ2 )




S2p

( N1 + N1 )
1

=

2



X 1− X 2
S2p

o Phân phối Student với γ=N 1+ N 2 −2 bậc tự do
2

S p=

( N1 + N1 )
1

2

( N 1 −1 ) S12+( N 2−1) S12
N 1 + N 2−2

o Biện luận : Nếu t Nếu σ 21 ≠ σ 22, dùng công cụ T-Test Two-Sample Assuming Unequal Variances

o Giả thiết : H0 H1 như trường hợp trên
o Giá trị thống kê : t như trường hợp trên
o Phân phối Student
γ=

(

2

)

2 2

S1 S 2
+
N1 N2

( S21 / N 1 )2 ( S22 / N 2)2
+
N 1 −1
N 2−1

o Biện luận : Nếu t Thực hiện bài toán bằng Excel :
 Nhập dữ liệu vào bảng tính:


 Vào Data/ Data Analysis/ F-Test Two-Sample for Variances
 Chọn các mục như hình :


 Kết quả hiện thị:

 Biện luận đầu tiên :
Giả thiết :
H 0 :σ 21=σ 22“Lượng sơn phun từ máy là đồng đều ở 2 ngày.”
2
2
H 1 : σ 1 >σ 2 “Lượng sơn phun từ máy là không đồng đều ở 2 ngày.”
Miền bác bỏ : W α =(0,17892 ;+∞ )
F = 0,5503 > F0,01 = 0,1782  Bác bỏ giả thiết H0, tức là phương sai của máy phun sơn
ở 2 ngày là khác nhau.
 Tiếp tục vào Data/ Data Analysis/ T-Test Two-Sample Assuming Unequal Variances
 Chọn các mục như hình :


 Kết quả hiển thị :

 Biện luận cuối cùng :
Giả thiết :
H 0 : μ1=μ2“Máy phun sơn sử dụng lượng sơn giữa 2 ngày là giống nhau.”
H 1 : μ 1 ≠ μ2 “Máy phun sơn sử dụng lượng sơn giữa 2 ngày là không giống nhau.”
t = 1,0416 < t0,01 = 3,0123  Chập nhận giả thiết H0, tức là máy phun sơn sử dụng
lượng sơn giữa 2 ngày là giống nhau.
BÀI 3 :
Một nhà nghiên cứu muốn khảo sát thời gian phản ứng của nam giới và nữ giới đối với các
loại tín hiệu khác nhau. Các đối tượng (15 nam, 15 nữ) tham gia thí nghiệm được u cầu
nhấn nút ngay khi nhận biết có tín hiệu. Đây là bảng số liệu ghi lại thời gian (giây) từ khi tín
hiệu được phát đi cho đến khi đối tượng khảo sát có tín hiệu trả lời.
Âm thanh
Ánh sáng

Xung
10,0
6,0
9,1
7,2
3,7
5,8
Nam
6,8
5,1
6,0
6,0
4,0
4,0
5,0
3,2
5,1
Nữ
10,5
6,6
7,3
8,8
4,9
6,1
9,2
2,5
5,2


8,1

4,2
2,5
13,4
1,8
3,9
Hãy áp dụng bài tốn phân tích phương sai 2 yếu tố thích hợp với cơ sở số liệu trên và
mức ý nghĩa  = 5%; trình bày các kết luận thu được.
TRÌNH BÀY :
Dạng bài : Bài tốn phân tích phương sai 2 yếu tố (có lặp)
Cơ sở lí thuyết :


Bảng ANOVA
Nguồn sai số

Bậc tự do

Tổng số bình phương

Yếu tố A
(hàng)
Yếu tố B
(cột)
Sai số
Tổng cộng
*Giả thiết :
“Các giá trị trung bình bằng nhau”.
“ít nhất có hai giá trị trung bình bằng nhau”.
*Giá trị thống kê :


*Biện luận:
Nếu

chấp nhận

(yếu tố A)

Nếu
chấp nhận
(yếu tố B)
Thực hiện bài toán bằng excel :
 Nhập số liệu bảng tính :
 Sử dụng cơng cụ “Anova : Two-Factor With Replication”

 Kết quả hiển thị :

Bình phương
trung bình

Giá trị
thống kê


 Biện luận :
F R =0,6410< F 0,05=4,2597  Chấp nhận giả thiết H0.
F C =14,6119> F 0,05=3,4028  Bác bỏ giả thiết H0.
F 1=3,4952> F0,05 =3,4028  Bác bỏ giả thiết H0.

BÀI 4 :
Một nghiên cứu được tiến hành ở thành phố công nghiệp X để xác định tỉ lệ những người đi

làm bằng xe máy, xe đạp, xe buýt. Việc điều tra được tiến hành trên 2 nhóm và có kết quả như
sau:
Xe máy
Buýt
Xe đạp
Nữ
25
100
125
Nam
75
120
205
Với mức ý nghĩa  = 5%, hãy nhận định xem có sự khác nhau về cơ cấu sử dụng các phương
tiện giao thông đi làm trong 2 nhóm người lao động nam và nữ hay khơng.
TRÌNH BÀY :
Dạng bài : Kiểm định giả thiết về tỉ lệ.
Cơ sở lí thuyết :
o Giả thiết :
H0 : P1 = P1,0, P2 = P2,0, ... Pk,0  “Các cặp Pi và Pi,0 giống nhau.”
H1 : “Ít nhất có 1 cặp Pi và Pi,0 khác nhau.”
o Giá trị thống kê :
r

k

χ =∑ ∑
2

j=1 j =1


[

( Oij −Eij )
Eij

2

]

Oij là tần số quan sát thực tế của ô ở địa chỉ ij
Eij là tần số lý thuyết của ô ở địa chỉ ij , được tính theo công thức:
Eij=((Tổng hàng i)(Tổng cột j))/(cỡ mẫu)
r là số hàng của bảng.
c là số cột của bảng.
i là kí hiệu của hàng (i=1,2,…,r)
j là kí hiệu của cột (j=1,2,…,c)
Số bậc tự do của đại lượng chi bình phương la df=(r-1)(c-1)
o Biện luận :
Nếu P ( X > χ 2 ) > α  Chấp nhận H0 và ngược lại.
Thực hiện bài tốn bằng Excel :
 Nhập dữ liệu vào bảng tính và tính các tổng hàng, tổng cột :

 Tính các giá trị tần số lí thuyết và dùng hàm Chitest để tính giá trị P :
=CHITEST(B2:D3;B7:D8)


 Biện luận :
o Giả thiết :
H0 : “Việc chọn phương tiện đi làm có cơ cấu khơng phụ thuộc vào giới tính 2 nhóm

lao động nam và nữ.”
H1 : “Việc chọn phương tiện đi làm có cơ cấu phụ thuộc vào giới tính 2 nhóm lao động
nam và nữ.”
o Kết quả : P(X>2) = 0,0022 > =0,05 chấp nhận giả thiết H0, tức là việc chọn phương
tiện đi làm có cơ cấu khơng phụ thuộc vào giới tính 2 nhóm lao động nam và nữ.


BÀI 5 :
Tìm một dữ liệu ngẫu nhiên 2 chiều (X, Y) có kích thước n >10 để sử dụng mơ hình hồi
quy tuyến tính đơn. Thực hiện các u cầu:
1) Tìm hệ số tương quan giữa X,Y.
2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay khơng? Hãy ước
lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ.
3) Tìm sai số chuẩn của ước lượng.
TRÌNH BÀY :
Khi nghiên cứu lực nâng hình thành trên biên dạng cánh, người ta quan sát lực nâng theo góc
tấn  (angle of attack), là góc hợp bởi phương của vận tốc gió và dây cung cánh.

Từ đó, rút ra bảng hệ số lực nâng theo góc tấn  (deg) đối với 1 biên dạng cánh nào đó.

0
1
2
3
4
5
6
7
8
9

10
11
Cl 0,24 0,35 0,46 0,56 0,65 0,76 0,87 0,97 1,07
1. Tìm hệ số tương quan giữa X và Y, ở đây là giữa  và Cl :
o Cơ sở lí thuyết :
Hệ số tương quan :
R=

1,16

1,26

∑ x i y i− ∑ x i ∑ y i
√¿¿¿

 Nếu R > 0 thì X, Y tương quan thuận.
 Nếu R < 0 thì X, Y tương quan nghịch.
 Nếu R = 0 thì X, Y khơng tương quan.
 Nếu | R |= 1 thì X, Y có quan hệ hàm bậc nhất.
 Nếu | R |→ 1 thì X, Y có tương quan chặt (tương quan mạnh).
 Nếu | R |→ 0 thì X, Y có tương quan khơng chặt (tương quan yếu).
o Thực hiện trên Excel :
 Nhập dữ liệu vào bảng tính :

 Chọn chức năng Data/Data Analysis/Correlation :

1,35

12
1,44



o Kết quả :

Hê số tương quan R = 0,999655 ≈ 1, chứng tỏ góc tấn  và hệ số lực nâng Cl có quan hệ hàm
bậc nhất.
2. Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay khơng ? Hãy ước
lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ.
Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay khơng ?
o Cơ sở lí thuyết :
Giả thiết H0 : X, Y khơng có tương quan tuyến tính.
T=

R √n−2
√ 1−R 2

o Thực hiện trên Excel :
Tính T : chọn ô B12 và nhập biểu thức =C10*SQRT(12-2)/SQRT(1-C10*C10)
Tính c : chọn ô B13 và nhập biểu thức =TINV(0.05,10) (c là phân vị mức α/2=0.025
của phân bố Student với n-2=10 bậc tự do).

Vì |T| > c nên bác bỏ giả thiết H0.
Vậy: X và Y có tương quan tuyến tính.
Ước lượng đường hồi quy tuyến tính Y theo X :
o Phương trình hồi quy tuyến tính :
y s =a+bx , a=r

Sy
,b= y−ax
S


o Kiểm định hệ số a, b :
Giả thiết H0 : Hệ số hồi quy khơng có ý nghĩa (=0).
H1 : Hệ số hồi quy có ý nghĩa (≠0).
Trắc nghiệmt o Kiểm định phương trình hồi quy :


Giả thiết H0 : “Phương trình hồi quy tuyến tính khơng thích hợp”.
H1 : “Phương trình hồi quy tuyến tính thích hợp”.
Trắc nghiệm F< F α ,1 , n−2: chấp nhận H0.
o Thực hiện trên Excel :
Dùng chức năng Data/Data Analysis/Regression.

Cl Line Fit Plot
15

a

10

a
Predicted a

5
0
-5

0


0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

Cl

o Biện luận:
Phương trình hồi quy: y s =−2,5399+9,9657 x
Hệ số hồi quy: 1,50587E-12 < 0.05  Hệ số tự do khơng có ý nghĩa.
9,64802E-19 < 0.05  Hệ số của x khơng có ý nghĩa.
 Phương trình hồi quy tuyến tính này khơng thích hợp vì 9,64802E-19 < 0.05.
3) Tìm sai số chuẩn của ước lượng :
Dùng kết quả từ bảng SUMMARY OUTPUT từ câu trên ta xác định được sai số chuẩn của
ước lượng:
Đối với biến tự do: SE = 0,073853139
Đối với biến X: SE = 0,078943999




×