Tải bản đầy đủ (.docx) (34 trang)

Báo cáo xác suất thống kê XÁC SUẤT THỐNG KÊ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (864.71 KB, 34 trang )

ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA KHOA HỌC ỨNG DỤNG
BỘ MƠN: TỐN ỨNG DỤNG
--------------o0o--------------

BÁO CÁO BÀI TẬP LỚN
XÁC SUẤT THỐNG KÊ

GVHD: Nguyễn Kiều Dung
Nhóm 9 - L08
1. Lê Quang Đức

L08-A 1510787

2. Trần Văn Đức

L08-A 1510818

3. Nguyễn Kinh Khoa

L08-A 1411833

4. Nguyễn Trung Hiếu

L08-A 1511027

5. Hoàng Thanh Huỳnh L08-B 1511330
6. Nguyễn Hoài Nam (NT) L08-B
7. Phan Thế Nam


L08-B

1512083

1512100

8. Phan Phạm Quốc Thái

L08-C 1513029

9.Phạm Minh Tuấn

L08-C 1513862

1


2


MỤC LỤC:
Bài 1:................................................................................................................................3
Bài 2:..............................................................................................................................15
Bài 3:..............................................................................................................................18
Bài 4:..............................................................................................................................23
Bài 5:..............................................................................................................................29
TÀI LIỆU THAM KHẢO:............................................................................................34

3



Bài 1:
Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng các dữ
liệu đó cho các yêu cầu sau:
1) Thực hiện phương pháp phân tổ dữ liệu (A).
2) Vẽ đồ thị phân phối tần số và đa giác tần số (A).
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với
độ tin cậy 96% (A).
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào đó
hay khơng.
Dạng bài: thống kê mơ tả.
Dữ liệu A: Khảo sát thời gian hoàn thành một sản phẩm mạch điện của 36 sinh viên
khi học thực tập Điện điện tử ta có bảng số liệu: Thời gian (phút).
16
28
22
15

17
24
15
17

Dữ liệu B :

14
16
18
18


12
23
28
24

19
15
16
23

20
18
13
28

18
14
16
21

17
22
21
20

22
25
24
20


Dữ liệu định tính: Kết quả khảo sát ngẫu nhiên 60 sinh viên có thành
thạo một ngơn ngữ lập trình nào đó hay khơng (1: thành thạo, 0:
không thành thạo)
1

1

1

0

1

0

1

1

1

0

1

1

1


0

0

1

1

0

1

1

0

0

0

1

1

1

0

0


1

0

0

0

1

1

0

1

0

1

1

1

1

1

0


1

1

1

1

1

1

0

1

1

1

1

0

0

0

0


0

1

Bài làm: Sử dụng dữ liệu A.
1. Phân tổ dữ liệu:
Nhập dữ liệu:

4


1

+ Xác định số tổ cần chia: k = (2 x n) 3 .
Chọn ô A6 nhập vào biểu thức =(2*COUNT(A2:I5))^(1/3).
Kết quả: 4.160167646
Chọn k = 4.
+ Xác định trị số khoảng cách h theo công thức: h =

( Xmax −Xmin)
.
k

Chọn ô A7 nhập vào biểu thức =(MAX(A2:I5)-MIN(A2:I5))/4.
Kết quả: 3.5
Chọn h =4.
+ Ta xác định được các cận trên và cận dưới các tổ lần lượt là:
Tổ 1: 12 – 16.
Tổ 2: 16 – 20.
Tổ 3: 20– 24.

Tổ 4: 24 - 28
Nhập vào các ô từ A8 đến A11 lần lượt các giá trị:

Chọn chức năng Data/ Data Analysis/Histogram.
+ Input Range: địa chỉ tuyệt đối chứa dư liệu.
+ Bin Range: địa chỉ chứa bảng phân nhóm.
+ Output options: vị trí xuất kết quả.
+ Confidence Level for Mean: độ tin cậy cho trung bình.
+ Chọn Cumulative Percentage để tính tần suất tích lũy nếu khơng Excel chỉ
tính tần số.
5


Ta được kết quả: ( đã chỉnh sửa khung Khoảng thời gian ( Bin)).

2. Vẽ đồ thị phân phối tần số và đa giác tần số (A):

_ Vẽ đồ thị phân phối tần số:
+ Quét chọn bảng tần số
+ Dùng chức năng Insert Column Chart trên menu Insert.

6


_ Vẽ đa giác tần số:
+ Sử dụng bảng phân phối tần số của dữ liệu (A):
+ Thêm giá trị 0 vào đầu và cuối bảng phân phối tần số:

+ Quét chọn B12:B18, dùng chức năng Insert Line Chart trên menu Insert


7


Ta được kết quả

+ Quét chọn B12:B18, dùng chức năng Insert 2D – column trên menu Insert

8


3.Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát
với độ tin cậy 96% (A).
_ Nhập dữ liệu vào bảng tính:

Chọn chức năng Data/Data Analysis/Descriptive Statistics.
+ Input Range: địa chỉ tuyệt đối chứa dư liệu.
+ Output options: vị trí xuất kết quả.
+ Confidence Level for Mean: độ tin cậy cho trung bình.

9


Ta được kết quả:

10


4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.

a. Dữ liệu định tính: Kết quả khảo sát ngẫu nhiên 60 sinh viên

có thành thạo một ngơn ngữ lập trình nào đó hay khơng (1:
thành thạo, 0: không thành thạo)
1

1

1

0

1

0

1

1

1

0

1

1

1

0


0

1

1

0

1

1

0

0

0

1

1

1

0

0

1


0

1

0

1

0

1

1

1

1

1

0

1

1

1

0


1

1

1

1

0

0

0

0

0

1

0
1

0

1

1

1


 Bảng phân phối tần số, tần suất:

x

n

f

0

23

0,38333
3

1

37

0,61666
7



60

1

Đặc trưng mẫu:

11


Biểu đồ phân phối tần số:

5. Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào
12


đó hay khơng.
Kiểm định A: Với mức ý nghĩa 4%, có thể coi mẫu A phù hợp với phân phối chuẩn hay
không? (độ tin cậy 96%)
Giả thuyết kiểm định H0: Mẫu phù hợp với phân phối chuẩn.
Giả thuyết đối kiểm định H1: Mẫu khơng phù hợp với phân phối chuẩn.
Tính các đặc trưng mẫu: n = 36
= 19.4167
= 4.2582=(STDEVP(A1:A36))
+

là ước lượng hợp lý cực đại cho a => a=19.4167

+ s^2 là ước lượng hợp lý cực đại cho
Với k = 4, r = 2 =>
Miền bác bỏ:

=> σ = 4.2582

= 4.2179 (=CHIINV(0.04,1)

= (4.2179; +∞)


Tiêu chuẩn kiểm định:

Khoảng

ni

(-∞;16)

11

(16;20)

11

(20;24)

10

(24;+∞)

4

Pi= P(
) – P(
)
(Hàm NORMSDIST)
=NORM.S.DIST((16-D5)/D6,TRUE)-0
=NORM.S.DIST((20-D5)/D6,TRUE)- NORM.S.DIST((16D5)/D6,TRUE)
=NORM.S.DIST((24-D5)/D6,TRUE) - NORM.S.DIST((20D5)/D6,TRUE)

=1 - NORM.S.DIST((24-D5)/D6,TRUE)

13


=

==(1/36)*(SUM(G9:G12))-36

=

= 1.0980112

=> Chấp nhận H0

Vậy dữ liệu A phù hợp với phân phối chuẩn.

14


Bài 2:
Hai máy cùng gia công một loại chi tiết. Để kiểm tra xem 2 máy này có củng độ
chính xác như nhau hay không, người ta lấy ngẫu nhiên từ mỗi máy 7 chi tiết, đem đo
và thu được kết quả sau (đơn vị mm):
Máy A

137

138


135

140

138

137

139

Máy B

142

135

140

138

136

138

141

Có thể cho rằng 2 máy có độ chính xác như nhau hay khơng, với mức ý nghĩa 2%? Giả
thiết rằng kích thước chi tiết có phân phối chuẩn.
Bài làm:
Cơ sở lý thuyết:

Dạng bài: Kiểm định giảthuyết cho phương sai hai tổng thể.
Công cụ: F-Test Two-Sample for Variances.
Khi cần kiểm định hai tổng thểcó mức độ đồng đều nhưnhau hay khơng chúng ta dùng
phương pháp kiểm định phương sai của hai tổng thể độc lập dựa trên một đại lượng F
như sau:

Trong đó:

S1 là phương sai của mẫu thứ nhất, mẫu này có cỡ n1
S2 là phương sai của mẫu thứ hai, mẫu này có cỡ n2.

Thơng thường để xác định mẫu nào là mẫu thứ nhất và mẫu nào là mẫu thứ hai
ta làm như sau, trong khi tính đại lượng F thì giá trị phương sai lớn hơn sẽ được
đặt ở tử số,và như vậy mẫu tương ứng với phương sai đó là mẫu thứnhất.
- Giả thiết đặt ra là kiểm định hai bên:
H:
0

vàH1:

Nếu tỉ số F rất lớn hoặc rất nhỏ ta có thể suy diễn bằng hai phương sai tổng thể
khó mà bằng nhau, ngược lại nếu tỉ số này gần đến 1 ta sẽ có bằng chứng ủng h ộ gi ả
thuyết HoNếu tổng thể lấy mẫu được giả định có phân phối bình thường thì tỉ lệ F có
phân phối xác suất gọi tên là phân phối Fisher. Các giá trị tới hạn của phân phối F phụ
thuộc và hai giá trị bậc tự do, bậc tự do tử số (d𝑓1=n1-1 gắn liền với mậu thứ nhất và
bậc tự do mẫu số gắn liền với mẫu thứ hai (d𝑓2=n2-1)

15



Quy tắc thực sự để bác bỏ 𝐻o với kiểm định hai bên khi d𝑓1=n1-1 và d𝑓2=n2-1
mức ý nghĩa α là: giả thiết 𝐻0 bị bác bỏ nếu giá trị kiểm định F lớn hơn giá trị tới hạn
trên FU=Fdf1;df2;α/2 của phân phối F hoặc bé hơn giá trị tới hạn dưới FL=Fdf1;df2;α/2 tức là
Ftt<Fdf1;df2;-α/2 hoặc Ftt>Fdf1;df2;α/2
Nếu chúng ta kiểm định bên phải:
H:
0

và H1:

Quy tắc bác bỏ 𝐻 o là khi:
2 2

F=

Giá trị thống kê:
Giả thiết:

2

2

2

σ 2 s1
2 2

σ 1 s2

2


=

s1
2

s2

2

H 0 :σ 1=σ 2 và H 1 : σ 1 >σ 2

.

Phân phối Fischer: Y1=N1 -1 Y2=N2 -1 .
Biện luận:
Nếu F <Fα(Y1 ;Y2) => Chấp nhận giả thuyết Ho với xác suất (1-α)100%.
Thực hiện.
Vào Data/ Data Analysis/ F-Test Two-Sample for Variances.
Chọn các mục như hình:
+ Input: địa chỉ tuyệt đối chứa dư liệu tương ứng của mẫu 1 và 2.
+ Output options: vị trí xuất kết quả.

+ Apha: mức ý nghĩa α (chọn tại ô alpha).

16


Kết quả:


17


Biện luận.
Giả thiết:
Ho: σ12 = σ22 “Độ chính xác chi tiết của 2 máy là giống nhau”.
H1: σ12≠ σ22 “Độ chính xác chi tiết của 2 máy là khác nhau”.
F=2,57>1 vì F < F critical (2,57< 6,39 )
 Chấp nhận Ho , bác bỏ H1
Kết luận: Độ chính xác chi tiết của máy là giống nhau.
.

Bài 3:
Theo giới thiệu của nhà phân phối, mức tiêu thụ nhiên liệu trung bình của 4 loại
xe ô tô là như nhau. Sau một thời gian chạy xe, người ta đo lại trên các quãng đường
như nhau thì được kết quả sau:
Loại xe
Mức tiêu thụ nhiên liệu
I
20
21,2 18,7 19,5 20,1 22
21
21,7
II
21,2
21,2 20,4 19.6 22
21,1
20
III
21,5

21,2 21
21,5 22
20,7
IV
19,9
22
21
23
21,2 20,6
21,3
Có thể coi mức tiêu thụ nhiên liệu của 4 loại xe này cịn giống nhau hay khơng,
với mức ý nghĩa 4%? Tìm hệ số xác định R2 của bài tốn và giải thích ý nghĩa của nó.
Bài làm:
 Dạng bài: Kiểm định giá trị trung bình một nhân tố.
 Phương pháp giải: Phân tích phương sai một nhân tố.
 Công cụ giải: Anova single factor.
Cơ sở lý thuyết:
Giả sử nhân tố A có k mức X1, X2, …, Xk với Xj có phân phối chuẩn N(a,σ2) có
mẫu điều tra:

18


X1

X2



Xk


X11

X12

X1k

X21

X22

X2k








Xn(1)1

Xn(2)2

Xn(k)k

Với mức ý nghĩa α ta kiểm định giả thiết:
- H0: a1=a2=…=ak
H1: “Tồn tại j1≠j2 sao cho aj1≠aj2
Đặt:

Tổng quan sát:
Trung bình mẫu thứ j (j=1, 2, …, k):

Trung bình chung

v ới

v ới
Tổng bình phương độ lệch do nhân tố Sum of Squares for Factor:
Tổng bình phương độ lệch do sai số Sum of Squares for Error

Tổng bình phương độ lệch chung Total Sum of Squares:

19


hay SST=SSF+SSE
Trung bình bình phương của nhân tố Mean Square for Error:
Trong đó, k-1 là bậc tự do của nhân tố.
Trung bình bình phương của sai số Mean Square for Error:

Tỷ số F:
- Bảng ANOVA
Nguồn
Nhân tố
Sai số
Tổng số

Tổng bình
phương

SSF
SSE
SST

Bậc tự do
k-1
n-k
n-1

Trung bình
bình phương
MSF
MSE

Tỷ số F
MSF/MSE

So sánh F ở trên với F lý thuyết tra từ bảng phân phối F với k-1 bậc tự do ở tử
số và n-k bậc tự do ở mẫu số với mức ý nghĩa α, ta kết luận:
-

Nếu F > F lý thuyết, ta bác bỏ Ho.
Nếu F < F lý thuyết, Ho đúng.

Hệ số xác định R2
chính là tỷ lệ hay số phần trăm chiếm trong tổng số
100% của toàn bộ sự sai lệch của Xij so với giá trị trung bình của chúng.
Thực hiện bài toán:

o Vào Data/ Data Analysis/Anova: Single Factor.

20



×