Tải bản đầy đủ (.docx) (18 trang)

Báo cáo bài tập lớn xstk nhóm 3

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (453.37 KB, 18 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HỒ CHÍ MINH

BÁO CÁO
BÀI TẬP LỚN
Bộ môn:

XÁC SUẤT THỐNG KÊ
GVHD:Nguyễn Bá Thi

Tên : Trần Văn Huy
MSSV:
Lớp

:

Nhóm : L02-A.
Nhóm : 03


Câu 1:
Một xí nghiệp may sản xuất áo khoác với 4 màu: đỏ, xanh, vàng và
tím than. So khách hàng nam và nữ mua áo khoác với các màu được
ghi trong bảng sau.
Đỏ
Xanh
Vàng
Tím
than
Nữ
62


34
71
42
Nam
125
223
52
54
Với mức ý nghĩa 1% hãy so sánh tỷ lệ khách hàng nam và nữ ưa chuộng
các màu sắc nói trên.
Dạng bài:
bài toán kiểm định giả thiết tỷ lệ.
Phương pháp giải:
Giả thiết H0: Tỷ lệ khách hàng ưa chuộng các màu sắc nói trên là
như nhau trong 2 nhóm.
Giá trị thống kê:
Oi – các tần số thực nghiệm (TSTN).
Ei – các tần số lý thuyết (TSLT).
Trong Excel có hàm CHITEST có thể nhận giá trị theo công thức:

Oij – các tần số thực nghiệm của các ô thuộc hàng i cột j.
Eij - các tần số lý thuyết của các ô thuộc hàng i cột j.
r là số hàng và c là số cột.
Xác suất P (X>χ²) với bậc tự do DF = (r-1)(c-1)
Biện luận: nếu P (X>χ²) > α => chấp nhận giả thuyết :
Công cụ giải: Microsolf Excel
Cú pháp hàm CHITEST(actual_range,expected_range)
Trong đó:
- actual_range: Phạm vi dữ liệu chứa các giá trị cần đối chiếu với giá trị dự kiến, là
tham số bắt buộc.



- expected_range: Phạm vi dữ liệu chứa tỷ lệ của phép nhân tổng hàng và tổng cột với
tổng cộng.
Ý nghĩa của hàm CHITEST: trả về giá trị của hàm xác suất từ phân phối chisquared và số bậc tự do tương ứng

Thực hiện bài toán bằng Excel:
Nhập số liệu vào Excel:

Tính các tổng số:
Tổng hàng: chọn ô F2 và nhập biểu thức = SUM(B2:E2)
Dùng con trỏ kéo nút tự điền từ ô F2->F3
Tổng cột: chọn ô B4 và nhập biểu thức =SUM(B2:B3)
Dùng con trỏ kéo nút tự điền từ ô B4->E4
Tổng cộng: chọn ô F4 và nhập biểu thức = SUM(B4:E4)

Tính các tần số lý thuyết:
Nữ thích màu đỏ: chọn ô B7 và nhập biểu thức = B4*F2/F4.
Nữ thích màu xanh: chọn ô C7 và nhập biểu thức = C4*F2/F4.
Nữ thích màu vàng: chọn ô D7 và nhập biểu thức = D4*F2/F4.
Nữ thích màu tím than: chọn ô E7 và nhập biểu thức =
E4*F2/F4.
Nam thích màu đỏ: chọn ô B8 và nhập biểu thức =B4*F3/F4.
Nam thích màu xanh: chọn ô C8 và nhập biểu thức =C4*F3/F4.
Nam thích màu vàng: chọn ô D8 và nhập biểu thức
=D4*F3/F4.
Nam thích màu tím than: chọn ô E8 và nhập biểu thức
=E4*F3/F4.
Áp dụng hàm số CHITEST:



Chọn ô B10 và nhập vào =CHITEST(B2:E3,B7:E8)
Ta sẽ có được kết quả của P(X>X²):

Biện luận: Giá trị P = 0.0000000000000000017151444 < α =
0.01 => bác bỏ giả thiết H0.
Kết luận: Tỷ lệ khách hàng ưa chuộng các màu sắc nói trên là
khác nhau trong 2 nhóm nam và nữ.


Câu 2:
Điểm môn toan của một học sinh khối 5 của hai trường có số liệu như sau:

Với độ tin cậy 95%, hãy ước lượng điểm trung bình mon toán của hai
trường . Với mức ý nghĩa 5%,haỹ xem xét trung bình môn toán của
hai trường có thực sự khác nhau không ? Giả sử điểm môn toán co
quy luật phân phối chuẩn.
Dạng bài: Kiểm định giả thiết về giá trị trung bình,.
Giả thiết: điểm trung bình môn toán hai trường giống nhau
Thực hiện bài toán bằng Excel:
Nhập dữ liệu:

Vào Data-Data Analysis-Descriptive Statistics
Thiết lập như hình:


Ta được kết quả:

Theo công thức: - ξ , + ξ.
Ta có khoảng ước lượng điểm trung bình môn toán của Trường A

là:
(7.6 - 0.5958; 7.6 + 0.5958)
Ta có khoảng ước lượng điểm trung bình môn toán của Trường B
là:


(7.32 – 0.5424 ; 7.32 +0.5424)
Xét giả thiết điểm trung bình môn toán của hai trường có thực sự
khác nhau không
Vào Data-Data Analysis-(t-Test:Two-Sample Assuming Unequal
Variances)-Ok


Ta thấy rằng giá trị Tqs < Tα(n1 + n2 -2)  0.71724 < 2.01063
 vậy nên điểm môn toán trung bình của 2 trường là giống nhau.


Câu 3
Từ 12 cặp quan sát (xi, yi) sau đây của cặp hai biến (X, Y), tính tỷ số tương
quan, hệ số tương quan và hệ số xác định của Y đối với X. Với mức ý nghĩa
α = 5%, có kết luận gì về mối tương quan giữa X và Y (Có phi tuyến
không? Có tuyến tính không?). Tìm đường hồi quy của Y đối với X.
X
Y

12
3
4,2

35

6
4,1

11
1
3,7

11
8
3,9

12
3
4,5

35
6
4,1

11
1
3

11
8
3,8

12
3
2


35
6
3,1

11
1
3,4

11
8
3

Dạng bài:Phân tích tương quan và hồi quy
Phương pháp giải:
Phân tích tương quan tuyến tính:
Tìm hệ số tương quan r
Tìm hệ số xác định r2
Tính giá trị T theo công thức

So sánh T với c tra từ bảng với bậc tự do (n-2) và mức ý nghĩa α =
5% để đưa ra kết luận.
Phân tích tương quan phi tuyến :
TÌm F theo công thức:

- Tính tỉ số tương quan :
Với là tổng bình phương do nhân tố.
là tổng bình phương chung.
=> Tỷ số tương quan: ηY/X
Sử dụng Phân bố Fisher

Sau đó xét F so với c để đưa ra kết luận
Phân tích đường hồi quy:
Tìm đường hồi quy từ Excel. Dạng y=A+Bx


Công cụ giải: Excel- Data Analysis
Phân tích tương quan tuyến tính
Giả thuyết H0: X và Y không tương quan tuyến tính

Nhập bảng số liệu sau:

Mở Data Analysis chọn Correlation
Hộp thoại Correlation xuất hiện
Input Range: phạm vi đầu vào (ô A1  ô M2)
Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn hàng)
Labels in first column: nhãn ở cột đầu tiên (chọn)
Output Range: phạm vi dữ liệu xuất ra (ô A4)

Ta được kết quả:

Biện luận:






n = 12
Từ bảng kết quả, ta tìm được hệ số tương quan r = 0,177098
Hệ số xác định r² = 0,031364

Giá trị T = 0,569028
Phân phối Student mức α = 0,05 với bậc tự do n-2 = 10:
c = T.INV.2T(0,05;10) = 2,228139

 |T| < c nên chưa bác bỏ giả thiết H0 (chấp nhận giả thiết H0)
Kết luận:
Vậy X và Y không có tương quan tuyến tính.


 Phân tích tương quan phi tuyến

Giả thiết H1: X và Y không có tương quan phi tuyến.
Nhập dữ liệu vào bảng tính sau khi đã sắp xếp lại:

Mở Data Analysis chọn Anova Single Factor
Hộp thoại Anova Single Factor xuất hiện
Input Range: phạm vi đầu vào (ô B8  ô E11)
Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn cột)
Labels in first row: nhãn ở cột đầu tiên (chọn)
Alpha: giá trị α (0,05)
Output Range: phạm vi dữ liệu xuất ra (ô A13)

Ta được kết quả:


Biện luận:
n = 12 , k = 4
Tổng bình phương giữa các nhóm SSF = 0,24
Tổng bình phương nhân tố SST = 5,366667
η2Y/X = SSF/SST = 0,04472  Tỷ số tương quan : ηY/X =

0,211472
 Giá trị F = 0,055929
 Phân bố Fisher mức α = 0,05 với bậc tự do (k-2, n-k) = (2, 8)





c = F.INV.RT(0,05; 2; 8) = 4,45897
 F < c chấp nhận giả thiết H1
Kết luận:
X và Y không có tương quan phi tuyến.
 Phân tích đường hồi quy

Giả thiết H: Hệ số không thích hợp.
Nhập dữ liệu vào bảng tính theo cột dọc:


Mở Data Analysis chọn Regression
Hộp thoại Regression xuất hiện
Input Y Range: phạm vi đầu vào (ô B30  ô B42)
Input X Range: phạm vi đầu vào (ô A30  ô A42)
Labels: nhãn (chọn)
Line Fit Plots: vẽ đồ thị (chọn)
Output Range: phạm vi dữ liệu xuất ra (ô A44)

Ta được kết quả:


Biện luận:

 Hệ số góc = 0,001145
 Hệ số tự do = 3,363998
 Giá trị P của hệ số tự do (P-value) = 9,95x10-6 < α = 0,05 =>

Bác bỏ giả thiết H
 Hệ số tự do có ý nghĩa thống kê
 Giá trị P của hệ số góc (P-value) = 0,581892 > α = 0,05 =>

Chấp nhận giả thiết H
 Hệ số góc không có ý nghĩa thống kê
 Giá trị F (Significance F) = 0,581892 > α = 0,05 => Chấp

nhận giả thiết H
 Phương trình đường hồi quy không thích hợp

Kết luận phân tích đường hồi quy:
Phương trình đường hồi quy không thích hợp.
Kết luận:


Tỷ số tương quan ηY/X = 0,211472
Hệ số tương quan r = 0,177098
Hệ số xác định r² = 0,031364
X và Y không có tương quan tuyến tính với mức ý nghĩa 5%.
X và Y không có tương quan phi tuyến với mức ý nghĩa 5%.
Phương trình đường hồi quy của Y đối với X: Y = 0,001145X +
3,363998 là không thích hợp.


Câu 4.

Với mức ý nghĩa 0,05 , hãy phân tích sự biến động của thu nhập
($/tháng/người) trên cơ sở số liệu điều tra về thu nhập trung bình của 4
loại ngành nghề ở 4 khu vực khác nhau sau đây:
Loại ngành
nghề
1
2
3
4

V1
212
222
241
240

Nơi làm việc
V2
V3
200
230
205
222
250
245
228
230

V4
220

225
235
240

Dạng bài: bài toán phân tích phương sai hai yếu tố không lặp.
Giả thiết H: Các giá trị trung bình bằng nhau.
Thực hiện bài toán bằng Excel:
Nhập dữ liệu bảng:

Áp dụng chương trình Anova : Two Factor Without Replication
trong thẻ Data => Data Analysis

Ta được kết quả:


Biện luận:
FR = 8.78 > F0.05 = 3.86
FC = 1.23 < F0.05 = 3.86

=> Bác bỏ giả thiết H ( Ngành nghề )
=> Chấp nhận giả thiết H ( Nơi làm việc )

Kết luận:
Chỉ có Ngành nghề ảnh hưởng đến thu nhập trung bình.




×