TRƯỜNG ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ MINH
KHOA CƠ KHÍ
BÁO CÁO BÀI TẬP LỚN
XÁC SUẤT THỐNG KÊ
ĐỀ TÀI 6
GVHD: NGUYỄN KIỀU DUNG
THỰC HIỆN: NHÓM 06 – L08
1) 1410272 Hồng Thái Bình
2) 1410611 Phan Thái Duy
3) 1411564 Phạm Hồng Hùng (L06)
4) 1412373 Nguyễn Hữu Nam
5) 1412449 Lê Trung Nghĩa
6) 1412854 Từ Tấn Phát
(L10)
7) 1414174 Nguyễn Quốc Khánh Triều
8) 1414402 Nguyễn Bá Tuấn
Thành phố Hồ Chí Minh, tháng 5 năm 2016
1
Mục lục:
Bài
Trang
Bài 1
3-8
Bài 2
8 - 10
Bài 3
10 - 15
Bài 4
16 - 17
Bài 5
18 - 23
2
Bài 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp,
sử dụng các dữ liệu đó cho các yêu cầu sau:
1)Thực hiện phương pháp phân tổ dữ liệu (A).
2)Vẽ đồ thị phân phối tần số và đa giác tần số (A).
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu
quan sát với độ tin cậy 96% (A).
4)Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác
suất nào đó hay khơng.
Bài làm:
1) Thực hiện phương pháp phân tổ dữ liệu A:
A: Khảo sát thời gian hoàn thành một sản phẩm tiện của 40 sinh viên khi
học thực tập Cơ khí ta có bảng số liệu: Thời gian (phút).
-
Xác định số tổ cần chia:
k =( 2× n )
1
3
Biểu thức nhập vào Excel: =(2*COUNT(A1:J4))^(1/3)
Kết quả 4,31
Chọn k = 4
-
Xác định trị số khoảng cách h:
h=
( X max −X min )
k
Biểu thức trong Excel: =(MAX(A1:J4)-MIN(A1:J4))/4
Kết quả: 4,25
-
Các tổ lần lượt là:
o Tổ 1: 12 - 16
o Tổ 2: 16 - 20
o Tổ 3: 20 - 24
o Tổ 4: 24 - 29
3
-
-
Chọn chức năng Data/ Data Analysis/Histogram
o Trong ô Input Range nhập địa chỉ của khu vực chứa dữ liệu vào:
A1:J4
o Trong ô Bin Ran Range đưa địa chỉ phạm vi chứa các giá trị cận
trên vào: A10:A13
o Trong mục Output option chọn Cumulative percentage (tính tần
số và tần suất tích lũy). Nhấn Ok
Kết quả:
2) Vẽ đồ thị phân phối tần số và đa giác tần số (A)
- Đồ thị phân phối tần số:
o Chọn bảng: A15:C19
o Chọn Insert/ Insert Column Chart/Chọn chart
o Chỉnh sửa
o Kết quả:
-
Đa giác tần số:
4
o Thêm 0 vào đầu và cuối hàng của bảng phân phối tần số
o
o
o
o
Chọn bảng: A16:B21
Chọn Insert/ Insert Line Chart/Chọn chart
Chỉnh sửa
Kết quả
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát
với độ tin cậy 96% (A).
- Nhập lại dữ liệu:
5
-
-
Chọn Data/ Data Analysis/ Descriptive Statistics. Nhấn OK
o Trong ô Input Range nhập địa chỉ của khu vực chứa dữ liệu vào
o Mục Grouped by chọn Columns
o Chọn Summary statistics
o Confidence level for mean( độ tin cậy): chọn 96%.
Kết quả:
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
B: Phân ngành sinh viên khoa Cơ khí khóa 2014 của trường Đại học Bách
Khoa thành phố Hồ Chí Minh.
6
-
Chọn bảng A1:B8
Chọn Insert/ Insert Pie:
Chỉnh sửa:
Kết quả:
5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất
nào đó hay khơng.
Ho : Mẫu phù hợp phân phối chuẩn
H1 : Mẫu không phù hợp phân phối chuẩn
Tính các đặc trưng mẫu:
n = 40 ; x=18,375=a ; s^ =4,46=σ x là ước lượng hợp lý cực đại cho a
2
2
còn ^s làước lượng hợp lý cực đại cho σ
Tra bảng Chi-BP với k = 4 ; r = 2 ; α =0,04
7
2
¿> χ 0,04 ( k−r −1 )=3,5575 ¿> Miền bác bỏW α =( 3,5575;+ ∞)
ni ≡O i
(α ; β)
(-∞ ; 16 ¿
(16;20)
(20;24)
(24;+∞ ¿
Pi=∅
16
11
7
6
n=40
α −a
−∅(
)
( β−a
)
σ
σ
0.2972
0.3475
0.2542
0.1036
=1
n
1
Do χ 2qs= {∑ i }−n=3.8087 ∈ W α ¿> Bác bỏ H o
n i pi
¿> Mẫu khơng tn theo phân phốichuẩn
Dùng hàm tính pi
2
Hàm NORMDIST
Vd: C3=NORMDIST(20,18.375,4.46,TRUE)NORMDIST(16,18.375,4.46,TRUE)
C6=1-NORMDIST(20,18.375,4.46,TRUE)
Bài 2:
Người ta dùng 2 loại nguyên liệu A và B để sản xuất thử đế của 10 đôi giày trẻ
em, các đơi có trọng lượng ban đầu như nhau. Sau đó người ta cho cho các em
đi thử trong vòng 6 tháng với cường độ sử dụng tương tự như nhau. Sau thử
nghiệm, trọng lượng đế giày còn lại được cho trong bảng sau:
Thứ tự
Loại vật liệu
Giày trái
Giày phải
1
A
180
183
2
A
162
154
3
A
203
189
4
A
194
181
5
A
205
200
6
B
189
185
7
B
168
171
8
B
185
179
9
B
176
175
10
B
169
173
8
Với mức ý nghĩa 0,07 có thể cho rằng dùng loại nguyên liệu A làm đế giày bền
hơn dùng loại ngun liệu B hay khơng? Tìm thêm giá trị P trong kiểm định.
Bài làm:
1) Nhận dạng: bài toán thuộc dạng kiểm định so sánh hai trung bình khi chưa biết
σ 12 và σ 22 .
2) Cơ sở lý thuyết
- Được dùng khi mẫu bé,độc lập và có phương sai khác nhau.
-
√
X 1 −X 2
Tiêu chẩn kiểm định: t= S12 S 22
n1
+
n2
-
Phân vị 2 phía t ∝/2 là : t Critical two-tail
-
Nếu |t |> t ∝/2 thì bác bỏ H 0, chấp nhận H 1
-
Nếu |t |≤ t ∝/2 thì chấp nhận H 0, bác bỏ H 1
-
Giá trị P:
-
P=∫ f ( x ) dx , với
+∞
|t |
k +1
(
2 )
x
f ( x )=
1+ )
(
k
k
√ kπ Γ ( )
2
Γ
2 k+ 1
2
3) Thực hiện trên Excel
- Gọi a 1, a 2là độ bền của đề giày được làm từ vật liệu A và B.
- Giả thuyết kiểm định: H o :a1 =a2
- Giả thuyết đối: H 1 : a1 >a2
- Nhập số liệu vào bảng tính:
-
-
Chọn Data/ Data Analysis/ T-Test: Two-Sample Assuming Unequal
Variances. Nhấn Ok
Hộp thoại T-Test: Two-Sample Assuming Unequal Variances hiện ra.
Trong đó:
o Phạm vi của dữ liệu 1( variable 1 range): Chọn B2:K2
o Phạm vi dữ liệu 2 ( variable 2 range): Chọn B3:K3
o Alpha (độ tin cậy): 0,07
Kết quả:
9
- Ta thấy t = 1,3894 < t ∝/2 = 1,9889 nên chấp nhận H 0, bác bỏ H 1
Hay đế giày dùng nguyên liệu A hoặc B đều bền như nhau.
Bài 3:
Doanh số bán hàng ( triệu đồng) của 4 cửa hàng trong 6 tuần đầu của mùa hè
được cho trong bảng số liệu:
Tuần
Cửa hàng 1 Cửa hàng 2
Cửa hàng 3 Cửa hàng 4
1
1430
980
1780
2300
2
2200
1400
2890
2682
3
1140
1200
1500
2000
4
880
1300
1470
1900
5
1670
1350
2380
1540
6
990
650
1930
1900
Hãy sử dụng mức ý nghĩa 5% để so sánh doanh thu của các cửa hàng có như
nhau khơng; và có sự liên quan giữa yếu tố doanh thu và yếu tố thời gian hay
không.
Bài làm:
a) So sánh doanh thu của các cửa hàng
Cơ sở lý thuyết :
- Dạng bài toán: Kiểm định về giá trị trung bình (Kiểm định giả thuyết có tham
số)
10
-
Phương pháp: PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ
Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá
trị trung bình của hai hay nhiều mẫu được lấy từ các phân số.Đây có thể được xem
như phần mở rộng các trắc nghiệm t hay z (so sánh hai giá trị trung bình).
Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của
một yếu tố (nhân tạo hay tự nhiên) nào đó trên các giá trị quan sát, Yi(i=0,1,2,…,k).
-
Mơ hình:
Yếu tố thí nghiệm
1
2
…..
K
Y11
Y21
…..
Yk1
Y12
Y22
…..
Yk2
…..
…..
…..
…..
Y1N
Y2N
…..
YkN
T1
T2
Tk
___
___
…..
…..
Yk
Tổng cộng
trung bình
Y2
Y1
___
T
___
Y
Bảng ANOVA:
Nguồn sai
số
Bậc sai
số
Yếu tố
k-1
Sai số
N-k
Tổng số bình phương Bình phương trung
bình
k
∑
i=1
SSF=
T
i2
N
−
T2
N
MSF=
SSE=SST-SSF
MSE=
Tổng cộng
N-1
k
n
∑∑Y
SST=
i=1 j =1
2
n
−
SSF
k−1
SSE
N −k
T2
N
Trắc nghiệm:
H0:
H1:
Giả thiết:
μ1 =μ2 =.. . ..=μ k ⇔
μi ≠μ j ⇔
“Các giá trị trung bình bằng nhau”
“Ít nhất có hai giá trị trung bình khác nhau”
11
Giá trị thống
kê
F=
MSF
MSE
MSF
MSE
Giá trị thống kê: F=
Biện luận: Nếu F < Fα(k-1;N-k) => chấp nhận giả thiết H0
Bài làm:
Giả thiết:
-
H0 : doanh thu của các cửa hàng là như nhau
Đối giả thiết:
-
H1 : Ít nhất có hai giá trị trung bình doanh thu khác nhau
Nhập dữ liệu vào bảng:
Áp dụng “ Anova: Single Factor”
a. Nhấn lần lượt đơn lệnh Data và lệnh Data Analysis.
b. Chọn trương trình Anova: Single Factor trong hộp thoại Data Analysis rồi
nhấn nút OK
c. Trong hộp thoại Anova: Single Factor lần lượt ấn định
- Phạm vi đầu vào (Input range)
- Cách xắp xếp theo hàng hay cột (Group by)
- Nhãn dử liệu (Labels in fisrt row/column)
- Phạm vi đầu ra (Output range)
12
Bảng Anova:
Từ giá trị trong bảng Anova:
13
F= 6.16276> Fα=3.098391 => Không chấp nhận H0
Kết luận: Doanh số bán hàng của các cửa hàng là không như nhau.
b) Xét sự liên quan giữa yếu tố doanh thu và yếu tố thời gian
Bài làm:
Giả thiết:
H0: Doanh thu và yếu tố thời gian có liên quan với nhau
Đối giả thiết:
H1: Doanh thu và yếu tố thời gian không liên quan với nhau.
Nhập dữ liệu vào bảng tính:
Áp dụng “Anova: Two-Factor Without Replication”
a) Nhập lần lượt đơn lệnh Tools và lệnh Data Analysis
b) Chọn chương trình Anova: Two- trong hộp thoại Data Anylysis rồi nhấp
OK
c) Trong hộp thoại Anova: Two-Factor Without Replication, lần lượt ấn định
các chi tiết:
- Phạm vi đầu vào ( Input Range)
- Nhãn dữ liệu (Labels in Fisrt Row/ Column)
- Ngưỡng tin cậy (Alpha)
- Phạm vi đầu ra ( Output Range).
14
Từ giá trị trong bảng Anova:
FR= 4.879478 > F0.05=2.901295 => Khơng chấp nhận giả thiết H0
Kết luận:
Khơng có sự liên quan giữa yếu tố doanh thu và yếu tố thời gian.
15
Bài 4:
Trong một thí nghiệm khoa học, người ta nghiên cứu dộ dày của lớp mạ kền khi
dùng ba loại bể mạ khác nhau. Sau một thời gian mạ, người ta đo độ dày của
lớp mạ nhận được ở các bể:
Độ dày lớp mạ
kền tính bằng µm
4-8
8 - 12
12 - 16
16 - 20
20 - 24
Số lần đo ở bể mạ
B
51
108
26
24
20
A
32
123
10
41
19
C
68
80
26
28
28
Với mức ý nghĩa α = 0.05, hãy kiểm định giả thiết: độ dày lớp mạ sau khoảng thời
gian nói trên không phụ thuộc loại bể mạ được dùng.
Bài làm:
Dạng bài: Kiểm Định Tính Độc Lập
Ta giả thiết:
H0: Độ dày lớp mạ không phụ thuộc vào bể mạ được dùng.
Ta tiến hành tính tốn các tỉ số và so sánh để có thể kết luận được rằng độ dày lớp
mạ khơng phụ thuộc vào bể mạ được dùng.
Giải tốn trên Excel:
Nhập dữ liệu và tính tổng ni và mj vào bảng như sau:
ni = SUM (hàng)
mj = SUM (cột)
Tính dữ liệu kỳ vọng ij theo công thức ij = ni* mj /n ta được bảng sau:
16
Tính P(X > ²) = CHITEST (Bảng thực tế, Bảng kỳ vọng)
= CHITEST (C3:E7,C13:E17)
= 8.67E-06
Phân tích kết quả: P(X > ²) = 8.67E-06 < = 0.05
Do đó giả thuyết Ho không được chấp nhận.
Kết luận: Vậy độ dày lớp mạ phụ thuộc vào bể mạ được dùng.
Bài 5:
17
Tìm một dữ liệu ngẫu nhiên 2 chiều (X, Y) có kích thước n >10 để sử dụng mơ hình
hồi quy tuyến tính đơn. Thực hiện các u cầu:
1) Tìm hệ số tương quan giữa X,Y.
2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay khơng? Hãy ước
lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ.
3) Tìm sai số chuẩn của ước lượng.
Bài làm:
Dữ liệu:
Bảng số liệu về thời gian thao tác trên máy tiện so với khối lượng phoi thải
của gia công tiện được lấy ngẫu nhiên ở một số máy tiện của xưởng C1:
1) Tìm hệ số tương quan giữa X, Y.
- Cơ sở lý thuyết:
o Hệ số tương quan:
R=
o
o
o
o
o
o
-
∑ x i y i −∑ x i ∑ y i
√ [ n∑ x2i −( ∑ x i )2 ][ n ∑ y2i −(∑ yi )2 ]
Nếu R > 0 thì X, Y tương quan thuận
Nếu R < 0 thì X, Y tương quan nghịch
Nếu R = 0 thì X, Y khơng tương quan
Nếu |R| = 1 thì X, Y có quan hệ hàm bậc nhất
Nếu |R| → 1 thì X, Y có tương quan chặt (tương quan mạnh)
Nếu |R| → 0 thì X, Y có tương quan không chặt (tương quan yếu)
Thực hiện trên Excel
o Chọn Data/Data Analysis/Correlation
18
o Kết quả:
R = 0,790711973 > 0 và R → 1 nên thời gian và khối lượng phoi thải có tương quan
chặt và tương quan thuận
2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay khơng? Hãy ước
lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ.
Xét quan hệ giữa X, Y:
- Cơ sở lý thuyết:
Giả thiết Ho: X và Y khơng có tương quan tuyến tính:
T=
-
r √ n−2
√ 1−r 2
Thực hiện trên Excel
o Tính T: =B8*SQRT(12-2)/SQRT(1-B8^2)
o Tính c: =TINV(0.05,10)
(c là phân vị mức α/2 = 0,025 của phân bố Student với n – 2 = 10 bậc tự
do).
o Vì |T| > c nên bác bỏ Ho
o Vậy X và Y có tương quan tuyến tính.
Ước lượng đường hồi quy tuyến tính Y theo X:
- Cơ sở lý thuyết:
19
o Phương trình hồi quy tuyến tính:
y x =a+bx , a=r
Sy
,b= y−a x
Sx
o Kiểm định hệ số a, b:
Giả thiết Ho: Hệ số hồi quy khơng có ý nghĩa ( = 0 )
H1: Hệ số hồi quy có ý nghĩa ( ≠ 0 )
Trắc nghiệm t
o Kiểm định phương trình hồi quy:
Giả thiết Ho: “Phương trình hồi quy tuyến tính khơng thích
hợp”
H1: “Phương trình hồi quy tuyến tính thích hợp”
Trắc nghiệm F< F α ,1 , n−2: chấp nhận Ho
-
Thực hiện trên Excel
o Nhập lại số liệu:
o Chọn Data/Data Analysis/Regression
20