Tải bản đầy đủ (.pdf) (44 trang)

BÁO cáo bài tập lớn xác SUẤT THỐNG kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.16 MB, 44 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

BÁO CÁO BÀI TẬP LỚN
XÁC SUẤT THỐNG KÊ
Giảng viên hướng dẫn:

ThS. Nguyễn Kiều Dung

Nhóm sinh viên thực hiện:

7
Nhó

STT

Họ tên SINH VIÊN

MSSV

m

Ngành học

/Tổ
Nguyễn Trọng Đồng

1913130

1


dự

Điện-Điện tử
L04

Nguyễn Quốc Đạt

1913054

2

Điện-Điện tử
L04

Ngô Minh Đạt

1913041

Lê Văn Hợp

1913485

3

Điện-Điện tử
L04

4

Điện-Điện tử

L04

Nguyễn Minh Công

1912804

5

Điện-Điện tử
L04

Võ Quốc Hưng

1913656

6

Điện-Điện tử
L04

Nguyễn Hoàng Luân

1911551

Phạm Hồng Thái

1915119

7


Xây dựng
L04

8

Điện-Điện tử
L04

Lương Ngọc Nam Huy 1913523
9

Ký tên tham

Điện-Điện tử
L04

1|Page


Phụ lục
Bài 1

---------------------------------------------------------------------------------------------4
A. Lập bài toán------------------------------------------------------------------------4
B. Cơ sở lý thuyết----------------------------------------------------------------------4
C. Tính tốn bằng tay----------------------------------------------------------------5
D. Tính bằng excel---------------------------------------------------------------------7

Bài 2


-------------------------------------------------------------------------------------------10
A. Lập bài tốn-----------------------------------------------------------------------10
B. Cơ sở lý thuyết--------------------------------------------------------------------11
C. Tính tốn bằng tay---------------------------------------------------------------12
D. Tính bằng excel-------------------------------------------------------------------13

Bài 3

-------------------------------------------------------------------------------------------16
A. Lập bài toán-----------------------------------------------------------------------16
B. Cơ sở lý thuyết--------------------------------------------------------------------18
C. Tính tốn bằng tay---------------------------------------------------------------19
D. Tính bằng excel-------------------------------------------------------------------20

Bài 4

-------------------------------------------------------------------------------------------23
A. Lập bài tốn-----------------------------------------------------------------------23
B. Cơ sở lý thuyết--------------------------------------------------------------------25
C. Tính tốn bằng tay---------------------------------------------------------------26
D. Tính bằng excel-------------------------------------------------------------------27

Bài 5

-------------------------------------------------------------------------------------------29
A. Lập bài toán-----------------------------------------------------------------------29
B. Cơ sở lý thuyết--------------------------------------------------------------------29
C. Tính tốn bằng tay---------------------------------------------------------------32
2|Page



D. Tính bằng excel-------------------------------------------------------------------33
Bài 6

-------------------------------------------------------------------------------------------35

A. Lập bài tốn-----------------------------------------------------------------------------------------35
B. Cơ sở lý thuyết--------------------------------------------------------------------36
C. Tính tốn bằng tay---------------------------------------------------------------37
D. Tính bằng excel-------------------------------------------------------------------38

3|Page


Câu 1: Chọn 1 biến định lượng nào đó và thực hiện:
-

Tìm các đặc trưng từ mẫu dữ liệu
Tìm các khoảng tin cậy cho giá trị trung bình và phương sai của tổng thể.

A. Lập bài toán
* Chọn biến định lượng: Chi phí trung bình cho các hoạt động giải trí của sinh viên.
Bài tốn: Dựa và số liệu thu thập được từ khảo sát, hãy tìm các đặc trưng mẫu của dữ liệu “Chi
phí trung bình cho các hoạt động giải trí của sinh viên. “. Với độ tin cậy 99%, tìm các khoảng tin
cậy cho giá trị trung bình và phương sai của tổng thể.
B. Cơ sở lý thuyết
Mẫu dữ liệu bao gồm một số đặc trưng như: Giá trị trung bình, phương sai, độ lệch chuẩn,....
Tính tốn các giá trị đặc trưng của mẫu là công việc cần thiết nhất trong phân tích số liệu ở thống
kê.



Trung bình mẫu:
n

´x =

1
∑x
n i=1 i


Phương sai mẫu hiệu chỉnh:
n

1
2
S=
x i−´x )

(
n−1 i=1
2



Độ lệch mẫu hiệu chỉnh:

S= √ S2
Tìm khoảng tin cậy cho giá trị trung bình và phương sai của tổng thể với độ tin cậy 99%:



Khoảng tin cậy cho giá trị trung bình:

Bài tốn thuộc trường hợp n>30 , ( n=123 )
Ta có: P ¿) = P
Đặt Z α =


ꜫ √n
=1−α
√ n<
( ⌊ X−a
s
s )

ꜫ √n
, ta có
s

X−a
N (0,1) nên 2 Φ(Z α )=1−α
s
Tra bảng ta tìm được Z α

4|Page


ε=

Zα . S

và khoảng ước lượng của a là (x−ꜫ ; x + ꜫ)
√n


Khoảng tin cậy cho phương sai tổng thể:

( n−1 ) S 2 2
χ (n−1)
Ta có :
σ2

1   2   , theo định lí 6.4, ta có:

Với

(

2
P χ 1−α
( n−1 ) α <
1

( n−1 ) S 2 2
< χ α ( n−1 ) =1−α
σ2
2

)

2

Từ đó, với mơt mẫu cụ thể ta có khoảng ước lượng của  là:

(

( n−1 ) . S 2 ( n−1 ) . S 2
;
)
χ 2α ( n−1 ) χ 21−α ( n−1 )
2

1

Để thuận tiện ta luôn xét

1   2 


2 .Khi đó khoảng ước lượng là:

( n−1 ) . S 2 ( n−1 ) . S2
( 2
;
)
χ α ( n−1 ) χ 2 α ( n−1 )
1−

2

2


C. Tính tốn bằng tay:
Từ các số liệu khảo sát ta có bảng thống kê chi phí trung bình cho các hoạt động giải trí của sinh
viên như sau.

Số lượng phần tử của mẫu:
n=123
Trung bình chi phí cho các hoạt động giải trí của sinh viên:
n

´x =

1
25+25+ 25+…+175+200+200+ 200+200
x i=
=97.3577 (nghìn đồng)

n i=1
123

Trung vị của mẫu dữ liệu:

5|Page


Med=75 (nghìn đồng)
Yếu vị của mẫu dữ liệu:
Mod=75 (nghìn đồng)
Phương sai mẫu hiệu chỉnh:

( 25−97.3577 )2 + ( 25−97.3577 )2 +…+ ( 200−97.3577 )2 + ( 200−97.3577 )2

S=
=3102.592 (nghìn
123−1
đồng2)
2

Độ lệch mẫu hiệu chỉnh:
S= √3102.592=55.70092 (nghìn đồng)
Giá trị lớn nhất của mẫu:
Max=200 (nghìn đồng)
Giá trị bé nhất của mẫu:
Min=25 (nghìn đồng)
Khoảng tin cậy cho giá trị trung bình:
Ta có: n=123>30
Gọi x là trung bình chi phí cho các hoạt động giải trí của sinh viên:
x=97.3577 (nghìn đồng)
S=55.70092 (nghìn đồng)
Do mẫu n>30 ,độ tin cậy đặt ra của bài toán là 99% tức là:
1−α=0.99
Φ ( Z α )=

0.99
=0.495
2

Dựa vào bảng ta có được:
Z α =2.61
ε =Z α .

S 2.61. 55.3577

=
=13.0276 (nghìn đồng)
√n
√123

( ´x −ε ; x´ + ε)=(97.3577−13.0276 ; 97.3577+13.0276) (nghìn đồng)
Khoảng tin cậy cho phương sai tổng thể:
Ta có 1−α=99 %

6|Page


α
=0.005
2
Từ mẫu ta có S2=3102.592. Tra bảng phân phối χ 2 với n−1=122, ta có:
χ 0.005 ( 122 )=165.9795; χ 0.995 ( 122 )=85.520
Vậy khoảng tin cậy là:
122.3102.592
;
=(2280.4999 ; 4426.0291) (Nghìn đồng )
( 122.3102.592
165.9795
85.5205 )
2

D. Tính tốn bằng Excel:
*Phương pháp: Tại phần mềm Excel, chức năng Descriptive Statistics hổ trợ trong việc tính tốn
các giá trị đặc trưng của mẫu. Để mở chức năng này trong Excel, thực hiện các bước: Data →
Data Analysis → Hộp option xuất hiện, chọn Descriptive Statistics rồi nhấn OK.


Hộp Data Analysis

7|Page


Hộp Descriptive Statistics
Tại hộp Descriptive Statistics ta nhập các dữ liệu sau






Input range: Nhập đầu vào dữ liệu.
Grouped by: Dữ liệu được sắp xếp theo cột (Columns) hay hàng (Rows).
Output Range: Tích chọn để chọn vị trí xuất dữ liệu đầu ra.
Summary statistics: Thống kê tóm tắt.
Confidence Level for Mean: Độ tin cậy cho giá trị trung bình.

(Lưu ý: Dữ liệu đầu vào phải ở định dạng Number thì Excel mới có thể xử lý.)

Sau khi nhập dữ liệu ta nhấn OK, kết quả nhận được như sau:
8|Page


Các giá trị nhận được được liệt kê dưới bảng sau:
Statistic
Mean
Standard Error


Describle
Giá trị trung bình của mẫu dữ liệu
Giá trị sai số tiêu chuẩn của mẫu (thước đo khác nhau giữa dự đoán và

Median
Mode
Standard

thực tế)
Trung vị của mẫu dữ liệu
Mốt của mẫu dữ liệu
Độ lệch chuẩn

Deviation
Sample Variance
Kurtosis
Skewness
Range
Minimum
Maximum
Sum
Count
Confidence Level

Phương sai
Giá trị KURT
Giá trị SKEW
Khoảng khảo sát
Giá trị nhỏ nhất

Giá trị lớn nhất
Tổng giá trị các phần tử của mẫu dữ liệu
Tổng số lượng các phần tử của mẫu
Khoảng tin cậy cho giá trị trung bình.

Nhận xét: Giá trị Confidence Level nhận được chính là ε =13,142.22 (đồng)
Để tìm khoảng tin cậy cho phương sai của dữ liệu:
Trong Excel để tìm khoảng tin cậy cho phương sai của dữ liệu ta sử dụng hàm CHISQ.INV.RT
2
2
để tính χ α (n−1) và hàm CHISQ.INV để tính χ α (n−1).
2

1−

2

9|Page


2
Nhập hàm vào ơ nhập hàm để tìm giá trị χ α (n−1):
2

.
Kết quả nhận được:
2
Ta cũng làm tương tự để tìm giá trị χ 1− α (n−1):
2


Kết quả nhận được:
Dựa vào hai hết quả vừa có được ta có thể tính ra được khoảng tin cậy của phương sai:

Ta có được khoảng tin cậy của phương sai:
Nhận xét: khoảng tin cậy của phương sai là (2280.50; 4426.03) (Nghìn đồng2)
Câu 2: Chọn dữ liệu 2 biến định lượng (hoặc xử lý số liệu theo nhóm cho phù hợp)
để lập bài tốn kiểm định so sánh 2 trung bình tổng thể.
A. Lập bài toán:
* Chọn 2 biến định lượng: Chỉ số đánh giá mức độ ưu tiên của sinh viên với hoạt động chơi thể
thao và chơi game (thể thao điện tử ).

10 | P a g e


Bài toán: Dựa vào số liệu đã được xử lý sau khi thu thập từ khảo sát của các sinh viên đại học,
hãy so sánh trunh bình tổng thể của hai dữ liệu: “Mức độ ưu tiên cho các hoạt động thể thao và
chơi game của sinh viên”. Với mức độ tin cậy là 95% hãy kết luận xem mức độ ưu tiên cảu sinh
viên với hai hoạt động này là giống nhau hay không.

11 | P a g e


B. Cơ sở lý thuyết:
Dạng bài: Kiểm định giả thuyết trung bình (bài tốn hai mẫu).
Giả sử tổng thể I có trung bình a 1; tổng thể II có trung bình a 2. Từ tổng thể I có mẫu kích thước
n1, trung bình mẫu X´ 1 , phương sai mẫu hiệu chỉnh S21. Từ tổng thể II có mẫu kích thước n2 , trung
bình mẫu X´ 2 , phương sai mẫu hiệu chỉnh S22. Vì mẫu lớn (n>30) nên phương sai mẫu S21 , S 22 được
xem là phương sai của tổng thể σ 12 , σ 22 . Khi ấy, ta áp dùng trắc nghiệm z để so sánh giá trị trung
bình của hai mẫu với phương sai biết trước.
Phương pháp giải: So sánh trung bình 2 tổng thể với phương sai biết trước (n>30).

Giả thuyết:
H0: a 1=a2 “Chỉ số đánh giá mức độ ưu tiên hoạt động chơi thể thao và chơi game là như nhau”.
H1: a 1 ≠ a2 “Chỉ số đánh giá mức độ ưu tiên hoạt động chơi thể thao và chơi game là khác nhau”.
Kích thước mẫu lớn (n>30) Nên ta xem chỉ số đánh giá mức độ ưu tiên hoạt động chơi thể thao
và chơi game là phân phối chuẩn.
Giá trị thống kê:

Z qs=

( X´ 1− X´ 2)



σ 21 σ 22
+
N 1 N2

Miền bác bỏ: Wα =(−∞ ;−Z α ) ∪( Z α ;+ ∞)
C. Tính tốn bằng tay:
12 | P a g e


Đặt a 1, a2 lần lượt là trung bình mức độ ưu tiên của sinh viên với hoạt động thể thao và hoạt động
chơi game.
Đặt giả thuyết kiểm định:
H0: a 1=a2 “Chỉ số đánh giá mức độ ưu tiên hoạt động chơi thể thao và chơi game là như nhau”.
H1: a 1 ≠ a2 “Chỉ số đánh giá mức độ ưu tiên hoạt động chơi thể thao và chơi game là khác nhau”.
Với bảng dữ liệu thu thập được ta tìm được các đặt điểm của hai dữ liệu như sau:
Mức độ ưu tiên hoạt động
chơi thể thao

2.1301
0.5567
123

Trung bình mẫu X´
Phương sai mẫu σ 2
Số lượng mẫu N

Mức độ ưu tiên hoạt động
chơi game
1.8617
0.6119
123

Vì N > 30, nên với mức ý nghĩa 5% ta tìm được miền bác bỏ bằng cách tra ngược bảng tích phân
Laplace:
Z α =Φ ( Z α ) =

1−0.05
=0.475 ⟹ Z α =1,96
2

Ta có miền bác bỏ: W α =(−∞;−1.96)∪( 1.96; +∞)

Tiêu chuẩn kiểm định:

Z qs=

( X´ 1− X´ 2)




2
1

2
2

σ
σ
+
N 1 N2

=

( 2.1301−1.8617)
=2.7536
0.5567 0.6119
+
123
123



Ta thấy Z qs ∈W α ⟹ Bác bỏ H0, chấp nhận H1. Vậy chỉ số đánh giá mức độ ưu tiên hoạt động
chơi thể thao và chơi game (thể thao điện tử) là khác nhau.
D. Tính tốn bằng Excel:
Cơng cụ giải: Descriptive Statistics và z-Test: Two Sample for Means.
Quy trình thực hiện Excel:
Bước 1: Đầu tiên, ta sử dụng công cụ Descriptive Statistics trong Data/Data Analysis lần lượt tìm

các đặc trưng cho 2 mẫu.

13 | P a g e


Bước 2: Chọn các mục như trong ảnh:

+ Input: Phạm vi đầu vào.
+ Group By: Cách sắp xếp dữ liệu theo hàng hay cột.
+ Output Range: Phạm vi đầu ra.
+ Labels in first row: Nhãn dữ liệu.
+ Summary statistics: Kết quả tóm tắt.
+ Confidence Level for Mean: Mức tin cậy 95%.
Ta được kết quả:

14 | P a g e


Xác định phương sai mẫu của việc đánh giá mức độ ưu tiên hoạt động chơi thể thao và chơi
game là:
σ 12=0.5567
σ 22=0.6119
Bước 3: Tiếp theo, ta sử dụng công cụ “z-Test: Two Sample for Means” trong Data/ Data
Analysis để so sánh trung bình hai tổng thể.

Bước 4: Chọn các mục như trong ảnh:

+ Input: Phạm vi đầu vào.
+ Output Range: Phạm vi đầu ra.
15 | P a g e



+ Variable 1 Variance (known): 0.5567
+ Variable 2 Variance (known): 0.6119
+ Labels: Nhãn dữ liệu.
+ Alpha: Mức ý nghĩa 5%.
Ta được kết quả:

Bước 5: Biện luận
Miền bác bỏ: Wα =(−∞ ;−1.96) ∪(1.96 ;+ ∞)
Tiêu chuẩn kiểm định: Zqs = 2.7525 ∈ Wα.
Kết luận: Bác bỏ H0, chấp nhận H1. Vậy chỉ số đánh giá mức độ ưu tiên hoạt động chơi thể thao
và chơi game (thể thao điện tử) là khác nhau.
Câu 3: Chọn dữ liệu cho k biến (k ≥ 3) (hoặc xử lý số liệu theo nhóm cho phù hợp) để lập
bài tốn so sánh về trung bình k tổng thể.
A. Lập bài toán cụ thể:
Từ mẫu dữ liệu đã thu thập và xử lý được, chọn ra ba thông số về mức độ ưu tiên tham gia các
hoạt động giải trí của sinh viên để kiểm định so sánh trung bình tổng thể với mức ý nghĩa 5%, từ
đó kết luận về mức độ ưu tiên với các hoạt động giải trí này là khác hay giống nhau:
Hoạt động thứ nhất: Tán gẫu, ăn uống với bạn bè.
Hoạt động thứ hai: Chơi các môn thể thao, vận động.
Hoạt động thứ ba: Nghe nhạc, đọc sách.
Chú thích:

16 | P a g e


17 | P a g e



B. Cơ sở lý thuyết:


Lý thuyết phân tích phương sai
Phép phân tích phương sai là so sánh trung bình của hai hay nhiều nhóm dựa trên các giá
trị trung bình của các mẫu quan sát từ các nhóm này, và thông qua kiểm định giả thiết để
kết luận và sự bằng nhau của các trung bình tổng thể này.



Phương pháp phân tích phương sai 1 yếu tố
Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trị trung
bình của hai hay nhiều biến mẫu được lấy từ các phân số. Đây có thể được xem như phần
mở rộng các trắc nghiệm t hay z (so sánh hai giá trị trung bình).
Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu
tố (nhân tạo hay tự nhiên) nào đó trên các giá trị quan sát, Yi(i=0,1,2,…,k).

Mơ hình

18 | P a g e


Yếu tố thí nghiệm
1

2

…..

K


Y11

Y21

…..

Yk1

Y12

Y22

…..

Yk 2

…..

…..

…..

…..

Y1N

Y2N

…..


YkN

Tổng cộng

T1

T2

…..

Tk

T

Trung bình

Y1

Y2

…..

Yk

Y

Bảng ANOVA:
Nguồn sai
số


Bậc sai
số

Yếu tố

k 1

Sai số

Nk

Tổng cổng

N 1

Bình phương trung

Giá trị thống

bình



Tổng số bình phương

SSF
k 1
SSE
MSE 

Nk
MSF 

T 2 T2
SSF   i 
N
i 1 N
SSE  SST  SSF
k

k

n

SST   Yn 2 
i 1 j1

F

MSF
MSE

T2
N

Các bước thực hiện:
Bước 1: Đặt giả thuyết :
H0:

1   2     k  “Các giá trị trung bình bằng nhau”


H1:

1   k  “Ít nhất có hai giá trị trung bình bằng nhau”

Bước 2: Tính tốn giá trị kiểm định:
Bước 3: Biện luận: Nếu

F

MSF
MSE

F  F  k  1; N  k 

→ Chấp nhận giả thuyết H0

C. Tính tốn bằng tay:
Gọi a1, a2, a3 lần lượt là các giá trị trung bình mức độ ưu tiên của sinh viên với các hoạt động tán
19 | P a g e


gẫu, ăn uống; thể thao; nghe nhạc, đọc sách.
Giả thuyết:
H0: a1 = a2 = a3; “Các giá trị trung bình bằng nhau” (chọn k = 3).
H1: ai = aj “Tồn tại ít nhất hai giá trị trung bình khác nhau”; i, j ∈ {1 ; 2 ; 3 }
Tính tốn các giá trị kiểm định:
T 12 T 2
∑ N −N
MSF= i=1

=2.9837
k−1
k

MSE=¿ ¿
F=

MSF 2.9837
=
=6.1865
MSE 0.4822

Giá trị ngưỡng:
F α ( k −1; N −k ) =F0.05 ( 3−1 ; 366 ) =3.0204
Nhận xét:
Ta thấy: F> F α =3.0204 → Bác bỏ giả thuyết H0.
Vậy mức độ ưu tiên của sinh viên với các hoạt động giải trí này là khác nhau.
D. Tính tốn bằng Excel:
Dạng bài: Kiểm định trung bình (Bài tốn nhiều mẫu)
Phương pháp giải: Phân tích phương sai 1 yếu tố.
Công cụ giải: Anova: Single Factor.
Bước 1: Nhập k dữ liệu đã được xử lý từ dữ liệu khảo sát (k = 3) vào Excel

20 | P a g e


Bước 2: Chọn công cụ Data Analysis trên thanh công cụ, sau đó chọn “Anova:Single Factor” để
tiến hành lấy kết quả kiểm định, sau đó cài đặt dữ liệu như Bước 3

Bước 3: Trong hộp thoại Anova: Single Factor lần lượt chọn:



Input Range (Phạm vi đầu vào): Nhấp chuột và kéo vùng dữ liệu muốn tính tốn.



Columns/Rows: Sắp xếp dữ liệu theo cột hay hàng.



Labels in Fisrt Row/Column: Nhãn dữ liệu



Alpha: Mức ý nghĩa.
21 | P a g e




Output Options: Tùy chọn đầu ra.

Xuất kết quả ra Excel:

Bước 4: Biện luận
Giá trị quan sát: F= 6.1865 > Giá trị ngưỡng F crit= 3.0204
22 | P a g e


⟹ Bác bỏ giả thuyết H0, chấp nhận gải thuyết H1.

Kết luận: vậy mức độ ưu tiên của các bạn sinh viên với các hoạt động giải trí là khác nhau.
Câu 4: Chọn dữ liệu cho 2 biến (hoặc xử lý số liệu theo nhóm cho phù hợp) để lập bài tốn
kiểm định so sánh về sự phân tán. Trình bày các bước thực hiện và nhận xét kết quả.
A. Lập bài toán cụ thể:
Khảo sát số lần tham gia vào các hoạt động giải trí trong tuần và thời gian tham gia các hoạt
động giải trí trong ngày của các bạn sinh viên. Với mức ý nghĩa là 5% hãy so sánh mức độ phân
tán về số lần tham gia và thời gian tham gia của các bạn sinh viên. Giả thiết các biến này phân bố
theo quy luật chuẩn.
Với các đặt trưng mẫu cho trong bảng sau:

23 | P a g e


24 | P a g e


B. Cơ sở lý thuyết:


Lý thuyết kiểm định phương sai hai tổng thể

Khi cần kiểm định hai tổng thể có mức độ đồng đều như nhau hay không chúng ta dùng phương
pháp kiểm định phương sai của hai tổng thể độc lập dựa trên một đại lượng F như sau:

F  S12 / S2 2 (Lưu ý: Luôn đặt S21 > S22).
Trong đó:

S12 là phương sai của mẫu thứ nhất, mẫu này có cỡ n .
1
S2 2 là phương sai của mẫu thứ hai, mẫu này có cỡ n .

2

25 | P a g e


×