Tải bản đầy đủ (.docx) (32 trang)

(TIỂU LUẬN) báo cáo bài tập lớn xác SUẤT THỐNG kê tìm các đặc trưng từ mẫu dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.97 MB, 32 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ MINH
-----***-----

BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
GVHD: Nguyễn Kiều Dung
Nhóm: 07
Danh sách thành viên
STT
1
2
3
4
5
6
7
8
9

TP.HCM, ngày 5 tháng 12 năm 2020

1


Câu 1: Chọn 1 biến định lượng nào đó và thực hiện:
- Tìm các đặc trưng từ mẫu dữ liệu.
- Tìm các khoảng tin cậy cho giá trị trung bình và phương sai của tổng thể.
A. Lập bài toán cụ thể

Khảo sát 100 sinh viên K19 của trường đại học học Bách Khoa trong vấn đề chi tiêu
cho việc ăn uống, ta được bảng số liệu sau.


Khóa
Số tiền

a. Tìm các đặt trưng từ bảng số liệu trên.

b.
- Với độ tin cậy 95%, hãy tìm khoảng tin cậy cho việc chi tiêu trung bình của
K19.
- Với độ tin cậy 95%, hãy tìm khoảng tin cậy cho phương sai tổng thể.

B. Cơ sở lý thuyết.


-

Đặc trưng mẫu.
Trung bình mẫu:
̅=

-

Phương sai mẫu:

2

=( 1− ̅)2 1+( 2− ̅)2 2+⋯+(

=

(


1

− ̅)2

1

+(

2

− ̅)2

2

2

− ̅)
+ ⋯ + ( − ̅)2

Đặt:
̅

2

Theo tính chất của phương sai ta có:

2

̅ ̅2


2

()

= | − ̅ |

2


-

Phương sai mẫu hiệu chỉnh:
2

=

 Ước lượng mẫu.
- Ước lượng khoảng trung bình mẫu.
Trường hợp > 30

Ta có:

Đặt:

Tra bảng tìm được
Từ đó:

.


.

=

-

à ℎ ả

ướ

ượ

à ( ̅− ; +
̅
)

Ước lượng khoảng phương sai
Phương pháp giải trong trường hợp tổng thể có phân phối chuẩn.

Với

1

+

2

= ta có:

(


2

1− 1

Từ đó, với một mẫu cụ thể ta có thể có khoảng ước lượng của phương sai .

(
2

2

Để thuận tiện cho tra bảng, trong các bài tốn tìm khoảng ước lượng của
phương sai ta ln xét
là:
1=

2

= 2. Khi đó, khoảng ước lượng của phương sai

(


3


C. Lời giải tính tay

Bảng số liệu:

0.25
0.75
1.25
1.75
2.25
2.75
3.25
3.75
4.25
4.75
Tổng
160

̅= 100 = 1.6
̅ ̅2

301.25

=

2
100 × 0.4525
2

-

100

= 3.0125


= 3.0125 − 1.62 = 0.4525

=

= 0.457071

Tính khoảng ước lượng trung bình.

Đặc trưng mẫu: = 100 ; ̅= 1.6 ; = 0.6761

Φ(



=

1.96×0.6761

= 0.1325

√100

Vậy khoảng ước lượng trung bình là

(1.6 − 0.1325; 1.6 + 0.1325) = (1.4675 ; 1.7325)

-

Tính khoảng ước lượng phương sai.


Ta có: = 0.457.
Tra bảng phân phối chuẩn
2

2
0 .025(99)

Vì giá trị

2
0 .025(99)



2
0 .975(99)

2

với − 1 = 99,ta có:
= 128.422 , 02.975(99) = 73.361

khơng có trong bảng tra nên ta sử dụng hàm CHIINV( ,n-1)

4


Vậy khoảng ước lượng cần tìm là:
(


Hay (0.3523; 0.6167)

99 × 0.457 99 × 0.457
;
)

128.422

73.361

D. Lời giải từ việc sử dụng exel

Step1: Nhập số liệu:

Step2: Sử dụng chức năng Data Analysis



Chọn Descriptive Statistics

5


Step3: Sử dụng hàm CHIINV và các công thức để tính khoảng ước lượng của phương
sai.
Kết quả:

Câu 2: Chọn dữ liệu 2 biến định lượng (hoặc xử lý số liệu theo nhóm cho phù hợp) để
lập bài tốn kiểm định so sánh 2 trung bình tổng thể.
A. Lập bài tốn cụ thể


Khảo sát 100 sinh viên K19 và 200 sinh viên K20 về mức chi tiêu cho việc ăn uống
hàng tháng của trường Đại Học Bách Khoa Tp.HCM được bảng số liệu sau :

6


Phải chăng số tiền trung bình cho việc chi tiêu ăn uống hàng tháng của sinh viên K19
và K20 như nhau với mức ý nghĩa 5% ?
B. Cơ sở lý thuyết
-

Kiểm định so sánh trung bình 2 tổng thể:

Giả thiết điều kiện H0: a1=a2
Giả thiết đối điều kiện H1: a1≠a2
n1 và n2 đều lớn hơn 30 nên sử dụng bảng tra Laplace: ϕ(Zα)=(1-α)/2 => Zα
Miền bác bỏ khi giả thiết đối là : Wα=(-∞;-Zα) ∪ (Zα;+∞)

Giá trị trung bình: = ∑
Phương sai mẫu hiệu chỉnh:
Tiêu chuẩn kiểm định:
1

=1

=

2


=

1
− 1



=1(

− )2

| 1− 2|
√ 12+

22

1

2

Nếu thuộc miền bác bỏ thì bác bỏ giả thuyết và chất nhận giả thuyết điều kiện 1
C. Lời giải tính tay

Gọi a1 và a2 là trung bình chi tiêu cho việc ăn uống của khóa K19 và
K20 Giả thiết H0: a1=a2
Giả thiết đối H1: a1≠a2
-

Mức ý nghĩa α=5% => ϕ(Zα)=(1-0.05)/2=0.475 => Zα=1.96
Miền bác bỏ: Wα=(-∞;-1.96) ∪ (1.96;+∞)


Đặc trưng mẫu:

K19: n1=100
Trung bình mẫu:
Phương sai mẫu hiệu chỉnh: = 4.5707 × 10
Độ lệch chuẩn mẫu hiệu chỉnh:
K20: n2=200
Trung bình mẫu:
Phương sai mẫu hiệu chỉnh: = 5.3718 × 10
1=

1.600.000vnđ

2
1

11

1 = 676070.05

2=

1.397.500vnđ

2
2

11


7


Độ lệch chuẩn mẫu hiệu chỉnh: 2 = 732925.6

Ta thấy thuộc miền bác bỏ nên bác bỏ giả thiết và có thể chấp nhận giả thiết H 1 Kết
luận chi tiêu cho việc ăn uống của khóa K19 và K20 là khác nhau.

D. Lời giải từ việc sử dụng exel

Giả sử a1 và a2 lần lượt là trung bình số tiều chi tiêu cho việc ăn uống của
sinh viên K19, K20 của đại học Bách Khoa
Giải thuyết Ho: a1= a2
Giải thuyết đối H1: a1≠a2

Với mức ý nghĩa α = 5% và n1 và n2 đều lớn hơn 30 => ϕ(Zα) =
Zα=1.96

1−0 .05
2

= 0.475 =>

Vậy miền bác bỏ wα = ( −∞; −1.96) ∪ (1.96; +∞)
a. Tìm các thơng số cần tính trên exel
Step 1: Nhập số liệu vào excel
Step 2: Sử dụng Data Analysis




Descriptive statistics

Step 3: Chọn vùng dữ liệu và vùng xuất

8


Theo đề ta tính được các được trưng mẫu của khóa K19:
- Trung bình mẫu:
1=1.600.000

(vnđ)

- Phương sai mẫu hiệu chỉnh : s 2 =4.57x1011 1

- Độ lệch chuẩn mẫu hiệu chỉnh

1=676070.05

9


Tương tự ta cũng tính cho khóa K20 :
-Trung bình mẫu
2 =1.397.500

11

2
2


-Phương sai mẫu hiệu chỉnh s =5.3718x10

( vnđ )

-Độ lệch chuẩn mẫu hiệu chỉnh 2=732925.4

| 1− 2|

Vậy theo công thức ta tính được
=

√ 12+ 22

=2.37742223
1

2

b. Sử dụng Data Analysis trên excel để tìm

Step 1: Nhập dữ liệu:
Step 2: Vào Data



Chọn Data Analysis




Chọn z-Test: Two Sample for Means

10


Step 3: Chọn vùng dữ liệu:
-

Nhóm 1 vào Variable 1 Range
Nhóm 2 vào Variable 2 Range

Step 3: OK
-

Kết quả

Vì thuộc khoảng

α nên

ta có thể bác bỏ

0 tạm

thời chấp nhận giả thiết đối

1.

Kết luận số tiền chi tiêu trung bình cho việc ăn uống của sinh viên K19, K20 là
khác nhau.


11


Câu 3: Chọn dữ liệu cho k biến (k >= 3) (hoặc xử lý số liệu theo nhóm cho phù hợp)
để lập bài tốn so sánh về trung bình k tổng thể.
A. Lập bài toán cụ thể

Với mức ý nghĩa 5%. Kiểm định so sánh trung bình số tiền chi tiêu mỗi tháng cho
việc giải trí của sinh viên K18, K19, K20 của trường Đại học Bách Khoa Tp.HCM với
số liệu khảo sát được ở bảng sau (giả sử các tổng thể phân phối bình thường):
Khóa
Số tiền
(Triệu đồng)
0.25
0.75
1.25
1.75
2.25
2.75
3.25
3.75
4.25
4.75
Tổng
B. Cơ sở lý thuyết

Giả sử chúng ta muốn so sánh trung bình k tổng thể (với ví dụ trên k=3) dựa trên
các mẫu ngẫu nhiên độc lập n1, n2, …, nk quan sát từ k tổng thể này. Ta có 3 giả định
về các nhóm tổng thể được tiến hành phân tích ANOVA.

-

Các tổng thể này phân phối bình thường
Các phương sai tổng thể bằng nhau
Các quan sát được lấy mẫu độc lập với nhau

Nếu trung bình các tổng thể được kí hiệu là a 1, a2, …, ak thì các giả định trên đươc đáp
ứng, mơ hình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng kiểm
định giả thuyết như sau:
H0: a1 =a2=…=ak
Giả thuyết H0 cho rằng trung bình k tổng thể đều bằng nhau ( Giả thuyết cho rằng các
yếu tố ngun nhân khơng có tác động gì đến các vấn đề ta đang nghiêm cứu). Và giả
thuyết đó là:
H1: Tồn tại ít nhất một cặp trung bình tổng thể khác nhau.
Dựa vào  Miền bác bỏ: = ( ( − 1; − ); +∞)
Phương sai trong nội bộ nhóm: MSW.
12


Phương sai giữa các nhóm: MSG.
Cuối cùng



Tỷ số F:

&

Sau đó so sánh




Kết luận giả thuyết.

(Lời giải chi tiết ở phần tiếp theo).

C. Lời giải tính tay
Gọi 1, 2,

3

lần lượt là trung trung bình số tiền chi tiêu trên tháng cho việc giải trí của sinh viên K18, K19, K20.

GTKĐ
Giả thiết đối
Trung bình từng nhóm:
0: 1= 2= 3

1:

tồn tại ít nhất một cặp trung bình tổng thể khác nhau.

̅ ̅

1

Bình phương chênh lệch trong nội bộ các nhóm:

 Tổng các bình phương chệnh lệch trong nội bộ các nhóm:
= 1+ 2+ 3=115.21


 Tổng bình phương chênh lệch giữa các nhóm:

Tính các phương sai:
Phương sai trong nội bộ nhóm:
13


115.21
=

=350−3=0.332



Phương sai giữa các nhóm:
=

Tiêu chuẩn kiểm định

−1

:

= ( ( −1;

Miền bác bỏ:
Sử dụng hàm FINV trong exel :

=


25.8686
2 =12.9343

=

= 38.9587

− );+∞)

0.05(2;

347) = 3.022

Vậy: ∈ nên bác bỏ giả thuyết số tiền chi tiêu trung bình trên tháng cho việc giải trí của sinh viên ba khóa K18, K19, K20 là bằng nhau.

D. Lời giải từ việc sử dụng excel

1. Nhập số liệu:

14


1. Dùng Data Analysis



chọn Anova: Single Factor

2. Chọn vùng dữ liệu và vùng xuất:

15


3. Xuất ra kết quả như sau:

Câu 4: Chọn dữ liệu cho 2 biến (hoặc xử lý số liệu theo nhóm cho phù hợp) để lập
bài tốn kiểm định so sánh về sự phân tán. Trình bày các bước thực hiện và
nhận xét kết quả.
16


A. Lập bài toán cụ thể

Khảo sát về số tiền sinh viên chi tiêu cho việc ăn uống hàng tháng giữa sinh viên
K19 và K20 (Trường Đại học Bách Khoa Tp.HCM). Chọn ngẫu nhiên 200 sinh
viên để khảo sát, kết quả thu được cho ở bảng sau:
Số tiền (VNĐ)

Với mức ý nghĩa 5%, hãy nêu kết luận về sự đồng đều của số tiền chi tiêu cho việc
ăn uống hàng tháng giữa sinh viên K19 và sinh viên K20.
B. Cơ sở lý thuyết giải bài toán
 Dạng bài: Kiểm định giả thuyết cho phương sai hai tổng thể.
 Công cụ giải: chức năng F-Test Two-Sample for Variances trên Excel.
 Phương pháp:

Khi cần kiểm định hai tổng thể có mức độ đồng đều như nhau hay không chúng ta
dùng phương pháp kiểm định phương sai của hai tổng thể độc lập dựa trên một đại
lượng F như sau:
2
1


là phương sai của mẫu thứ nhất, có kích cỡ

trong đó:

1

là phương sai của mẫu thứ nhất, có kích cỡ

2

2 2
1 2

Thơng thường, để xác định mẫu nào là mẫu thứ nhất và mẫu nào là mẫu thứ hai
ta làm như sau: Trong khi tính đại lượng F thì giá trị phương sai lớn hơn sẽ được đặt ở
tử số, và như vậy mẫu tương ứng với phương sai đó là mẫu thứ nhất.

17


Giả thiết đặt ra kiểm định một bên:
2
2
0: 1 = 2

2
2
1: 1 > 2


Nếu tỉ số F rất lớn hoặc rất nhỏ ta có thể suy diễn bằng hai phương sai tổng thể khó mà bằng nhau được, ngược lại nếu tỉ
số này gần đến 1 ta sẽ có bằng chứng ủng hộ giả thiết 0. Nếu tổng thể lấy mẫu được giả định có phân phối bình thường thì tỉ lệ có
phân phối xác suất gọi tên là phân phối Fisher. Các giá trị tới hạn của phân phối
Fisher phụ thuộc vào hai giá trị bậc tự do, bậc tự do của tử số (

Miền bác bỏ bên phải:
Quy tắc để bác bỏ

0

1

=

1

− 1) gắn liền với mẫu thứ nhất và bậc tự do của mẫu số (
1;

=( (

với kiểm định một bên với mức ý nghĩa là: Giả thiết

0

2);

2

=


2

− 1) gắn liền với mẫu thứ hai.

+∞)

bị bác bỏ nếu giá trị kiểm định thuộc miền bác bỏ hay là giá trị kiểm định lớn hơn giá trị tới hạn ( 1; 2).

Nếu không thuộc miền bác bỏ hay < ( 1; 2), chấp nhận giả thiết 0 với xác suất (1 − ).

C. Lời giải tính tay và nhận xét kết quả
Gọi



1

2



2

2

lần lượt là phương sai của số tiền chi tiêu cho việc ăn uống hàng tháng của sinh viên K20 và K19.

Mức ý nghĩa 5% ⇒ = 0,05


 Đặt giả thiết kiểm định:
2

:
0

khóa K19 và K20 là như nhau.”

1

2

:

1

1

lớn hơn sinh viên K19.”
 Tìm miền bác bỏ:
(

1;

2)

= (

1


− 1;

2

− 1) =

0.05(116;

82) = 1,4091

(vì khơng
có giá =trị
0.05(116; 82) trong bảng nên kết quả được lấy từ hàm FINV(0,05;116;82) trong Excel để tăng tính chính xác khi tính tốn)
⟹ Miền bác bỏ
(1,4091; +∞)

 Tiêu chuẩn kiểm định:
2
1



747,55

2

Biện luận: vì không thuộc miền bác bỏ nên chấp nhận

0,


bác bỏ

1.

 Kết luận: Độ đồng đều về chi phí ăn uống hàng tháng của sinh viên K19 và K20

là như nhau.

18


D. Lời giải từ việc sử dụng Excel
 Nhập dữ liệu vào Excel:

 Chi tiêu cho việc ăn uống hàng tháng của sinh viên K19: A2 ⟹ A84


Chi tiêu cho việc ăn uống hàng tháng của sinh viên K20: C2 ⟹ C118

 Chi tiêu cho việc ăn uống từng khoảng được lấy giá trị trung bình:



< 500.000



500.000 – 1.000.000 ⟹ 750.000











1.000.000 – 1.500.000 ⟹ 1.250.000

1.500.000 – 2.000.000 ⟹ 1.750.000

2.000.000 – 2.500.000 ⟹ 2.250.000

2.500.000 – 3.000.000 ⟹ 2.750.000

3.000.000 – 3.500.000 ⟹ 3.250.000

3.500.000 – 4.000.000 ⟹ 3.750.000

4.000.000 – 4.500.000 ⟹ 4.250.000

4.500.000 – 5.000.000 ⟹ 4.750.000

19


 Mở Data Analysis chọn F-Test Two-Sample for Variances

 Hộp thoại F-Test Two-Sample for Variances


 Input
-

Variable 1 Range: Phạm vi dữ liệu biến 1 (Chi tiêu cho việc ăn uống của sinh viên K20:C2⇒C118).

-

Variable 2 Range: Phạm vi dữ liệu biến 2 (Chi tiêu cho việc ăn uống
của sinh viên K19: A2⇒A84).

-

Lable : Nhãn (“K19”, “K20”): tick chọn.

Alpha : Mức ý nghĩa (0,05).
 Output options
-

- Output Range: Phạm vi xuất dữ liệu (G2)
 Kết quả thu được:

20


Tiêu chuẩn kiểm định: = 1,10774041 (H9)
Giá trị tới hạn một bên:

= 1,40913369 (H11)
Miền bác bỏ:

Từ bảng trên, ta thấy được ∉
= (1,40913369; +∞)

⇒ Chấp nhận , bác bỏ .
 Kết luận: Độ đồng đều về chi tiêu cho việc ăn uống hàng tháng của sinh viên
0

1

K19 và sinh viên K20 là như nhau.

Câu 5: Chọn dữ liệu phù hợp để lập bài toán so sánh các tỉ lệ ( hay là bài tốn kiểm
định tính độc lập). Trình bày các bước thực hiện và nhận xét kết quả.
A. Lập bài toán cụ thể

Khảo sát 100 sinh viên K19 và 200 sinh viên K20 của trường đại học Bách Khoa
Tp.HCM trong vấn đề chi tiêu cho việc ăn uống hàng tháng ta có bảng số liệu như sau:
Khóa
Số tiền
Dưới 200.000đ
Trên 200.000đ
Với mức ý nghĩa 5%, so sánh tỉ lệ sinh viên chi tiêu trên 200.000đ của hai khóa trên có
như nhau hay khơng?
B. Cơ sở lý thuyết
Bài tốn kiểm định giả thiết thống kê gồm một cặp giả thiết

0

và giả thiết đối 1. Dựa vào thông tin mẫu lấy được từ tổng thể ta phải đưa ra quyết định bác bỏ hay


21


chấp nhận giả thiết
-

0,

Điều kiện số quan sát mỗi mẫu

việc chấp nhận giả thiết
1,

2≥

0

tương đương với bác bỏ đối thiết

1 và

ngược lại.

30.

- Tóm tắt cơng thức:

GT Kđ
H0
BT 2

mẫu
n1≥30 P1=P2
n2≥30
mẫu gộp:
=

:Bác bỏ giả thuyết
: Chưa bác bỏ



0,

̅

1. 1 + 2. 2

1+ 2

chấp nhận giả thuyết

1.

0.



C. Lời giải tính tay
-


Gtkđ . :
Gtkđ đối

Gọi 1, 2 lần lượt là tỉ lệ chi phí đi lại cao của sinh viên K19, K20.
1=

0

= 0,05 => (

)=

:
1−0,05

2
1≠

1.

2

2

= 0,475 =>

= 1,96 (tra bảng laplace)

 Miền bác bỏ= ( −∞ ; −1,96 ) ∪ ( 1,96 ; +∞)


1=100; 1

-

Tiêu chuẩn kiểm định:





nên ta bác bỏ được giả thuyết


Vậy tỉ lệ chi phí đi lại cao ở K19 cao hơn K20.
22

0

, có thể chấp nhận giả th


D. Lời giải từ việc sử dụng excel

So sánh tỉ lệ chi phí đi lại cao giữa K19 và K20.
1,

2

lần lượt là tỉ lệ chi phí đi lại cao của SV K19,K20.


-

Giả thiết kiểm định
Giả thiết đối

1

:

1



0

:

1

=

2

2

Lấy từ số liệu chung cột chi phí đi lại của K19 và K20, tạo bảng số liệu mới về chi
phí đi lại. Trong đó chi phí đi lại trên 200 nghìn đồng sẽ kí hiệu là 1, dưới 200 nghìn
đồng sẽ kí hiệu là 0. Như hình dưới:

- Thao tác trên Excel: Data/ Data Analysis/ t-Test: two-sample Assuming Equal


Variances
- Sau đó nhập số liệu theo từng ô:

23


+Hai ô đầu tiên là nhập lần lượt cột số liệu của K19 và
K20 +Dưới là sự khác nhau của trung bình nhập là 0
+

Nhập = 0.05:

-

Kết quả:

- Bảng cụ thể:
Mean
Variance
Observations
Pooled Variance
Hypothesized Mean
Difference
df
t Stat
P(T<=t) one-tail
t Critical one-tail
P(T<=t) two-tail
t Critical two-tail

- t Stat =

= 2,309114106

24


×