Tải bản đầy đủ (.docx) (20 trang)

BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (503.76 KB, 20 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
…………..o..O..o…………..

BÁO CÁO BÀI TẬP LỚN
XÁC SUẤT THỐNG KÊ
Giáo viên hướng dẫn : Nguyễn Bá Thi
Sinh viên : Lê Anh Duy
MSSV : 1410560
Nhóm 1 - Lớp DT04


1. Một

hãng sản xuất ôtô tiến hành một nghiên cứu nhằm xác định xem có sự
khác nhau giữa tỷ lệ đàn ông và đàn bà trong việc chọn mua các loại ôtô
của hãng hay không. Kết quả thu được như sau:
Loại ôtô
Phụ nữ
Nam giới

A
70
40

B
80
60

C
150


100

Với mức ý nghĩa = 5%, ta cần phải đưa ra kết luận gì?
Bài giải:
-

Dạng bài : bài toán kiểm định giả thuyết tỉ lệ.
Giả thuyết H0 : tỷ lệ đàn ông và đàn bà trong việc chọn mua các loại ôtô là
như nhau.
Quy trình thực hiện bằng EXCEL
+ Nhập dữ liệu vào bảng tính :

+

Tính các tổng số trên bảng

Theo hàng : nhập vào J23 biểu thức “=SUM(G22:I23)”, sau đó kéo nút tự
điền đến J25.
Theo cột : nhập vào G25 biểu thức “=SUM(G23:G24)”, sau đó kéo nút tự
điền đến I25.
Ta được bảng :

+ Tính các tần số lí thuyết :
Nhập vào G30 biểu thức =G$25*$J23/$J$25, sau đó kéo nút tự điền đến I31


Ta có bảng:

+ Áp dụng hàm Chitest để tìm kết quả :
Cú pháp hàm chitest : CHITEST (actual_range, expected_range)

Điền vào ô H33 biểu thức
=CHITEST(G23:I24,G30:I31)
2

Ta được kết quả của P(X
-

Biện luận : vì P = 0.5820927> α = 0.05 nên chấp nhận giả thuyết H0.
Kết luận : Tỷ lệ đàn ông và đàn bà trong việc chọn mua các loại ôtô là như nhau.


Bài 2:
Để xác định hiệu quả của một loại thức ăn phụ đối với sự tăng trọng của bò, người ta
lấy ngẫu nhiên 8 con bò cùng trọng lượng chia thành hai nhóm, mỗi nhóm 4 con, một
nhóm ăn bình thường, một nhóm cho ăn thêm thức ăn phụ. Sau 6 tháng thu được kết
quả sau:
Nhóm ăn thêm thức ăn phụ
Nhóm thức ăn bình thường
(A)
(B)
330
290
360
320
400
340
350
370
Với mức ý nghĩa 5% hãy cho kết luận về tác dụng của loại thức ăn phụ đó, biết rằng

trọng lượng của bò là biến ngẫu nhiên phân phối chuẩn. Với độ tin cậy 95% hãy ước
lượng trọng lượng trung bình của các con bò với mỗi loại thức ăn trên.
Bài làm:
- Dạng bài: Kiểm định giá trị trung bình với phương sai bằng nhau & Ước lượng hai
trung bình tổng thể.
- Quy trình thực hiện bằng EXCEL:
Phần 1: Tìm kết luận về tác dụng của loại thức ăn phụ.
◦ Giả thuyết H0: Trọng lượng trung bình của bò ở nhóm ăn thêm thức ăn phụ (A) và
nhóm thức ăn bình thường (B) là như nhau.
◦ Nhập dữ liệu vào bảng tính.

Assuming

Mở hộp thoại

chọn t-Test Two-Sample

4)

Nhập vào hộp thoại t-Test Two-Sample Assuming Equal Variances.
 Variable 1 Range: Nhập “$A$13:$E$13” (ô A13 → E13).


Variable 2 Range: Nhập “$A$14:$E$14” (ô A14 → E14).



Labels: Chọn.






Alpha: Nhập 0,05.

Output Range: phạm vi dữ liệu xuất ra (ô I13)
.
5) Ta được bảng kết quả.

5)

Kết luận:
Vì t Stat = 1,341640786 < tα/2 = 2,446911851 nên chấp nhận giả thuyết
H0.
Vậy thức ăn phụ không có tác dụng đối với số cân nặng của bò.

Phần 2: Ước lượng trọng lượng trung bình của các con bò với mỗi loại thức ăn.

Mở hộp thoại Data Analysis chọn Descriptive Statistics

3)

Nhập vào hộp thoại Desciptive Statistics.
 Input Range: phạm vi dữ liệu nhập vào (ô A13 → E13).


Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn hàng).


4)





Labels in first row: nhãn ở cột đầu tiên (chọn).



Tích dấu chọn vào Summary statistics.



Confidence Level for Mean: Nhập 95 (%).

Output Range: phạm vi dữ liệu xuất ra (ô I29).

Ta được bảng kết quả.





Kết luận:
Trọng lượng trung bình của các con bò ở nhóm ăn thêm thức ăn phụ (A) là:


360 ± 46,84434123.
5)

Mở hộp thoại


chọn Descriptive Statistics.

6)

Nhập vào hộp thoại Desciptive Statistics.


Input Range: phạm vi dữ liệu nhập vào (ô A14 → E14).



Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn hàng).




Labels in first row: nhãn ở cột đầu tiên (chọn).



Tích dấu chọn vào Summary statistics.



Confidence Level for Mean: Nhập 95 (%).

Output Range: phạm vi dữ liệu xuất ra (ô I47).




7)

Ta được bảng kết quả.






Tổng kết:
Thức ăn phụ không có tác dụng đối với số cân nặng của bò.
 Trọng lượng trung bình của các con bò ở nhóm ăn thêm thức ăn phụ
(A) là: 360 ± 46,84434123.
 Trọng lượng trung bình của các con bò ở nhóm thức ăn bình thường (B) là: 330 ±
53,56855363.
·



Kết luận:
Trọng lượng trung bình của các con bò ở nhóm thức ăn bình
thường (B) là: 330 ± 53,56855363.


3. Tính tỷ số tương quan của Y đối với X ,hệ số tương quan và hệ số xác định của
tập số liệu sau đây. Với mức ý nghĩa α = 5%, có kết luận gì về mối tương quan giữa
X và Y (Có phi tuyến không ? Có tuyến tính không ?).Tìm đường hồi quy của Y đối
với X.
X

Y

210 90 240 50 240 270 130 270 90 240 130 170 50 170 210
255 115 255 35 275 315 135 355 135 295 175 235 75 195 235

Bài giải
 Dạng bài : bài toán kiểm định tương quan và hồi quy.
 Quy trình thực hiện bằng EXCEL
1)Phân tích tương quan tuyến tính

Giả thuyết H0 : X và Y không có tương quan tuyến tính.
• Nhập dữ liệu vào máy tính

Mở hộp thoại

trong thẻ Data, chọn Corelation



Nhập vào hộp thoại Correlation.



Input Range: phạm vi đầu vào (ô B7 → Q8).



Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn hàng).




Labels in first row: nhãn ở cột đầu tiên (chọn).



Output Range: phạm vi dữ liệu xuất ra (ô B12).




Ta nhận được bảng kết quả.

Biện luận :
n = 15
Từ bảng, ta có hệ số tương quan r = 0.974356
Hệ số xác định = 0,9493696147
Giá trị của T = 15,61290524 xác định theo công thức

T=
Phân phối Student mức α = 0,05 với bậc tự do n-2 = 13, dung hàm TINV trong
excel để tính ta được c = 2,16036865646279
Vì |T|>c nên bác bỏ H0.
Kết luận : X và Y tương quan tuyến tính.
2) Phân tích tương quang phi tuyến :

Giả thiết H1: X và Y không có tương quan phi tuyến.
o Nhập dữ liệu vào bảng tính sau khi đã sắp xếp lại.


o

o






Mở hộp thoại

chọn Anova Single Factor.

Nhập vào hộp thoại Anova Single Factor.

Input Range: phạm vi đầu vào (ô F20 → L23).
Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn cột)
Labels in first column: nhãn ở cột đầu tiên (chọn)
Alpha: giá trị α =0,05
Output Range: phạm vi dữ liệu xuất ra E26

Ta nhận được bảng kết quả :











n = 15 , k = 7
Tổng bình phương giữa các nhóm SSF = 114693.33
Tổng bình phương nhân tố SST = 119093.33
η2Y/X = SSF/SST = 0.963054187  Tỷ số tương quan : ηY/X 0.981353243
Giá trị F = 0.592653396
Phân bố Fisher mức α = 0,05 với bậc tự do (k-2, n-k) = (5,8)
Dùng hàm FINV tính được
C = 3.68749867
Vì F < c nên chấp nhận giả thuyết H1
Kết luận:
Vậy X và Y không có tương quan phi tuyến.

3) Phân tích hồi quy (sử dụng Regression).

Giả thiết H: Hệ số không thích hợp.
Nhập bảng:


Mở Data Analysis chọn Regression

Hộp thoại Regression xuất hiện
Input Y Range: $C$55:$C$70
Input X Range: $B$55:$B$70
Labels: nhãn (chọn)
Line Fit Plots: vẽ đồ thị (chọn)
Output Range: $E$55


Ta được bảng kết quả:



Biện luận:
Hệ số góc = 1.169300226
Hệ số tự do = 6.10609480812639
Giá trị P của hệ số tự do (P-value) = 0.668535974062108> α = 0,05 =>
chấp nhận giả thiết H
->Hệ số tự do không có ý nghĩa thống kê
Giá trị P của hệ số góc (P-value) = 8.41537970890307E-10< α = 0,05 =>
bác bỏ giả thiết H
->Hệ số góc có ý nghĩa thống kê
Giá trị F (Significance F) = 8.41537970890307E-10< α = 0,05 => Bác
bỏ giả thiết H
->Phương trình đường hồi quy thích hợp
Kết luận:
Tỷ số tương quan ηY/X =0.9813532
Hệ số tương quan r = 0.9743558
Hệ số xác định r² = 0.9493691
X và Y có tương quan tuyến tính với mức ý nghĩa 5%.


X và Y có tương quan phi tuyến với mức ý nghĩa 5%.
Phương trình đường hồi quy của Y đối với X: Y = 01.169300226X + 6

4. Hãy phân tích vai trò ngành nghề (chính, phụ) trong hoạt động kinh tế của các hộ
gia đình ở một vùng nông thôn trên cơ sở bảng số liệu về thu nhập của một số hộ
tương ứng với các ngành nghề nói trên như sau(mức ý nghĩa 5 %):


Nghề chính


Nghề phụ
(1)

(2)

(3)

(4)

Trồng lúa (1)

3.5:3.4:4.0

7.4:7.6:7.1

8.3:8.1:8.0

3.5:3.4:3.7

Trồng cây ăn quả (2)

5.6:5.2:5.8

4.1:4.4:3.9

6.1:6.4:5.8

9.6:9.7:9.2

Chăn nuôi (3)


4.1:4.4:3.8

2.5:2.5:2.7

1.8:1.6:1.4

2.1:2.3:2.0

Dịch vụ (4)

7.2:7.0:7.7

3.2:3.5:3.1

2.2:2.6:2.3

1.5:1.7:1.4

Bài giải:

 Dạng bài: bài toán phân tích phương sai hai yếu tố không lặp.

 Giả thiết H: Các giá trị trung bình bằng nhau
 Quy trình thực hiện bằng EXCEL. Nhập dữ liệu :

Tách xuất dữ liệu:
Nhập vào ô B165 phép toán “=(VALUE(LEFT(C7,FIND(":",C7)-1))
+VALUE(MID(C7,FIND(":",C7)+1,FIND(":",C7,FIND(":",C7)+1)-FIND(":",C7)-1))
+VALUE(RIGHT(C7,LEN(C7)-FIND(":",C7,FIND(":",C7)+1))))/3”

Ta được bảng số liệu trung bình:


Mở hộp thoại

trong thẻ Data, chọn Anova : Two-Factor without replication

Hộp thoai Anova: Two-Factor Without Replication xuất hiện,ta chọn:
Input range: $B$16:$F$21
Labels: chọn
Alpha: 0.05
Output range: $B$24

Ta được bảng kết quả sau:


Biện luận :
Frows (Nghề chính)= 2.004372056 < F0.05 = 3.862548 nên chấp nhận giả thuyết H(nghề chính)
Fcol (Nghề phụ)= 0.119184704 < F0.05 = 3.862548 nên chấp nhận giả thuyết H(Nghề phụ)

Kết luận :
Vậy cả nghề chính và nghề phụ đều ảnh hưởng đến thu nhập




×