Tải bản đầy đủ (.docx) (23 trang)

báo cáo xstk thầy nguyễn bá thi

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (515.56 KB, 23 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
………………∞∞∞∞∞……………..

BÁO CÁO BÀI TẬP LỚN
MÔN: XÁC SUẤT THỐNG KÊ
Giáo viên hướng dẫn: Nguyễn Bá Thi
Tên sinh viên:
MSSV:
Lớp: DT-05-C Nhóm: 10

ĐỀ TÀI NHÓM 10:


Bài 1: Một nông trường nuôi ba giống bò sữa A, B, C. Lượng sữa của các con bò này được thống
kê trong bảng sau đây:
Ngày trong

Loại bòtuần
Ít
A Thứ hai
92
B Thứ tư
53
CThứ sáu
75

Trường PTTH

Lượng sữa
TrungA


bình
375
154
194

Nhiều
B
46
4
19
5
12
3

4

4

Thứ bảy

C
5
3
4
3

D
7
2
5

2

Với mức ý
nghĩa α = 0.05 , hãy nhận định xem có phải ba giống bò này có phân bố tỉ lệ như nhau về phương
diện sản lượng sữa hay không?
Bài 2: Điều tra ý kiến của 6 nhà kinh tế đang làm việc trong các cơ quan của chính phủ về mức
lạm phát trong năm tới thu được các giá trị 4.2% , 5.1% , 3.9% , 4.7% , 4.9% và 5.8%. Trong khi
đó hỏi ý kiến 6 nhà kình tế đang làm việc tại các công ty về cùng vấn đề trên thì thu được kết quả
là 5.7%, 6.1%, 5.2%, 4.9%, 4.6%, và 5.5%.
Với độ tin cậy 95% hãy ước lượng mức lạm phát do các nhà kinh tế làm việc trong hai khu vực
kinh tế nói trên dự báo. Với mức ý nghĩa 5% hãy cho ý kiến về sự khác biệt của các dự đoán
trên. Giả thiết mức lạm phát là biến ngẫu nhiên phân phối chuẩn .
Bài 3 Tính tỷ số tương quan của Y đối với X, hệ số tương quan giữa X và Y, hệ số tương quan
và hệ số xác định của tập số liệu sau đây. Với mức ý nghĩa α = 5%, có kết luận gì về mối tương
quan giữa X và Y( Có phi tuyến không ? Có tính tuyến không?) .
Tìm đường hồi quy tuyến tính của Y đối với X.
X
50
130
210
240
90
210

Y
75
235
255
195
115

295

X
90
90
270
130
50
270

Y
135
175
115
255
15
75

X
50
240
170
270
210
50

Y
35
235
295

135
315
55

X
170
210
270
170
170
90

Y
355
275
95
335
315
155

Bài 4: Theo dõi số học sinh đến lớp muộn của 4 trường PTTH người ta thu được số liệu về số
lượng học sinh trung bình đến lớp muộn của các trường đó như sau:


Bạn có nhận xét gì về số lượng học sinh đến lớp muộn của các trường. Chọn α = 10%.

BÁO CÁO

Bài 1: Một nông trường nuôi ba giống bò sữa A, B, C. Lượng sữa của các con bò này được thống
kê trong bảng sau đây:

Loại bò
A
B
C

Ít
92
53
75

Lượng sữa
Trung bình
37
15
19

Nhiều
46
19
12

Với mức ý nghĩa α = 0.05 , hãy nhận định xem có phải ba giống bò này có phân bố tỉ lệ như nhau
về phương diện sản lượng sữa hay không?
BÀI LÀM
 Dạng bài: Kiểm định giả thuyết tỷ lệ.
 Phương pháp giải: Áp dụng kiểm định khi bình phương �2
+ Giả thiết:
H0 : P1=P1.0; P2=P2.0; …..;Pk=Pk.0 ↔ Các cặp Pi và Pi.0 giống nhau.
Hi : có ít nhất một cặp Pi và Pi.0 khác nhau.
+ Giá trị thống kê:

k

(O  E ) 2 �
 2  �� i i �
Ei
i 1 �

Oi: các tần số thực nghiệm.
Ej: các tần số lý thuyết.
Biện luận:
�2 > �� 2 => bác bỏ giả thiết H0( DF=k-1)
 Theo hàm Chitest có thể tính giá trị �2 theo biểu thức:


r

c

(Oij  Eij ) 2

  ��
2

Eij
�ij - các tần số thực nghiệm của ô thuộc hàng i và cột j
�ij - các tần số lý thuyết của ô thuộc hàng I với cột j; r – số hàng; c – số cột.
i 1 j 1

 Xác suất P ( X > �2) với bậc tự do DF= ( r-1)(c-1)
Trong đó: r - số hàng

c - số cột trong bảng ngẫu nhiên ( contingency table)
 Nếu P ( X > �2) > α => chấp nhận giả thiết H0 và ngược lại
 Công cụ giải: Áp dụng MS-EXCEL : Sử dụng hàm tính tổng SUM và CHITEST.
 Bảng số liệu nhập vào; xuất ra; công thức tính, các kết quả tính sẵn, tra sẵn.
Giả thuyết H0 : Tỷ lệ sữa của ba giống bò này có phân bố tỉ lệ như nhau.
THỰC HIỆN BÀI TOÁN BẰNG EXCEL
Nhập giá trị vào bảng tính:

Tính tổng các số:
 Theo hàng: Chọn E3, nhập =SUM(B3:D3), sau đó dùng trỏ chuột kéo nút tự điền
từ E4 đến E5.
 Theo cột: Chọn B6, nhập =SUM(B3:B5), sau đó dùng trỏ chuột kéo nút tự điền từ
C6 đến E6.

Tính các tần số lý thuyết:
Tần số lý thuyết = (Tổng hàng * Tổng cột/ Tổng cộng)


Chọn B11 nhập =$E3*B$6/$E$6 , , sau đó dùng trỏ chuột kéo nút tự điền từ ô B11 đến D3 ta
tính được tần số lý thuyết của các ô còn lại.

Tính xác suất P ( X > �2) áp dụng hàm số “ CHITEST” trong Excel:
Chọn ô B15 nhập =CHITEST(B3:D5,B11:D13)


Kết quả P ( X > �2)=0.022515147 < α=0.05 => Bác bỏ giả thiết H0
 Kết luận: Ba giống bò này có tỉ lệ khác nhau về phương diện sữa.

Bài 2: Điều tra ý kiến của 6 nhà kinh tế đang làm việc trong các cơ quan của chính phủ về mức
lạm phát trong năm tới thu được các giá trị 4.2% , 5.1% , 3.9% , 4.7% , 4.9% và 5.8%. Trong khi

đó hỏi ý kiến 6 nhà kình tế đang làm việc tại các công ty về cùng vấn đề trên thì thu được kết quả
là 5.7%, 6.1%, 5.2%, 4.9%, 4.6%, và 5.5%.
Với độ tin cậy 95% hãy ước lượng mức lạm phát do các nhà kinh tế làm việc trong hai khu vực
kinh tế nói trên dự báo. Với mức ý nghĩa 5% hãy cho ý kiến về sự khác biệt của các dự đoán
trên. Giả thiết mức lạm phát là biến ngẫu nhiên phân phối chuẩn .
BÀI LÀM
 Dạng bài: Kiểm định giá trị trung bình với phương sai bằng nhau và ước lượng hai
trung bình tổng thể
 Phương pháp giải:
 Ước lượng giá trị trung bình:
Ta tính khoảng ước lượng trung bình theo công thức sau:
S
x �t x
n
t

Sx

n là độ chính xác.
Với x là giá trị trung bình, còn
So sánh giá trị trung bình với phương sai bằng nhau.
 Giả thiết:
Trường hợp hai mẫu có dữ liệu tương ứng từng cặp:
H0: Mức lạm phát do các nhà kinh tế làm việc trong hai khu vực kinh tế
trên dự báo là giống nhau.
H1: Mức lạm phát do các nhà kinh tế làm việc trong hai khu vực kinh tế
trên dự báo là khác nhau.
Giá trị thống kê:
( X  X 2 )  ( 1  2 )
( X1  X 2 )

t 1

1
1
1
1
S2p( 
)
S2p ( 
)
N1 N 2
N1 N 2



  N1  N 2  2 bậc tự do
Có phân phối Student với
( N  1).S12  ( N 2  1).S2 2
S p2  1
N1  N 2  2

t (  N1  N 2  2)
t  t
Biện luận: Nếu
hay 2
=> Chấp nhận giả thiết H0


THỰC HIỆN THUẬT TOÁN BẰNG EXCEL
Nhập dữ liệu vào EXCEL


Phần 1 Ước lượng mức lạm phát do các nhà kinh tế làm việc trong hai khu vực kinh tế
nói trên dự báo.
a. Tính ước lượng trung bình mức lạm phát do các nhà kinh tế làm việc trong chính
phủ dự đoán
 Mở hộp thoại Data Analysis chọn Descriptive Statistics



Nhập vào hộp thoại vừa mở như sau:
+ Input Range: phạm vi dữ liệu nhập vào ( ô A1 -> G1).
+ Grouped By: nhóm dữ liệu theo hang hoặc cột. Chọn hàng.
+ Labels in first now: phạm vi cột đầu tiên ( chọn).
+ Output Range: phạm vi dữ liệu xuất ra ( H15).
+ Tích dấu chọn vào Summary statistics.
+ Confidence Level for Mean: Nhập 95%.




Từ cách làm trên ta thu được kết quả như sau

 Kết luận: ước lượng trung bình mức lạm phát do các nhà kinh tế làm việc trong chính
phủ dự đoán là 0.047666667 ± 0.007076237
b. Tính ước lượng trung bình mức lạm phát do các nhà kinh tế làm việc trong tư
nhân dự đoán
Áp dụng cách tính tương tự như cách tính ước lượng trung bình mức giới hạn lạm
phát do các nhà kinh tế làm việc trong chính phủ dự đoán như ở trên, ta tính được kết
quả như sau:



 Kết luận: ước lượng trung bình mức làm phát do các nhà kinh tế làm việc trong tư
nhân dự đoán là: 0.053333333 ± 0.005735208
Tổng kết:
+ Ước lượng trung bình mức lạm phát do các nhà kinh tế làm việc trong chính phủ dự đoán
là 0.047666667 ± 0.007076237.
+ Ước lượng trung bình mức làm phát do các nhà kinh tế làm việc trong tư nhân dự đoán là:
0.053333333 ± 0.005735208.
Phần 2 So sánh sự về sự khác biệt các dự đoán về mức lạm phát trong hai lĩnh vực dự đoán
Mở hộp thoại Data Analysis, sau đó chọn t-Test: Two-Sample Assuming Equal
Variances.

Nhập vào hộp thoại t-Test: Two-Sample Assuming Equal Variances.
+ Variable 1 Range: Nhập “ $A$1:$G$1” ( ô A1 -> G1).
+ Variable 2 Range: Nhập “ $ A$2:$G$2” ( ô A2 -> G2).


+ Labels: Chọn.
+ Alpha: Nhập 0,05.
+ Output Range: Phạm vi dữ liệu xuất ra ( ô H1).

Ta thu được kết quả


Kết luận: Vì t Start = -1,599225476 < 2 = 2,228138852 nên chấp nhận giả thuyết Ho.
 Mức lạm phát do các nhà kinh tế làm việc trong hai khu vực kinh tế trên dự báo
là giống nhau.
t

Bài 3 Tính tỷ số tương quan của Y đối với X, hệ số tương quan giữa X và Y, hệ số tương quan

và hệ số xác định của tập số liệu sau đây. Với mức ý nghĩa α = 5%, có kết luận gì về mối tương
quan giữa X và Y( Có phi tuyến không ? Có tính tuyến không?) .
Tìm đường hồi quy tuyến tính của Y đối với X.


X
50
130
210
240
90
210

Y
75
235
255
195
115
295

X
90
90
270
130
50
270

Y

135
175
115
255
15
75

X
50
240
170
270
210
50

Y
35
235
295
135
315
55

X
170
210
270
170
170
90


Y
355
275
95
335
315
155

BÀI LÀM
 Dạng bài: Bài toán kiểm định tương quan và hồi quy.
 Phương pháp giải:
Xét tương quan tuyến tính
+ Bước 1: Xét giả thuyết H0: X và Y không có tương quan tuyến tính.
+ Bước 2: Tìm hệ số tương quan r
+ Bước 3: Xác định T theo công thức:
r n2
T
1 r2
+ Bước 4: Tìm c với phân phối Student mức α = 0.05 với bậc tự do n-2
T
+ Bước 5: Nếu
> c thì bác bỏ H0 và ngược lại.
 Xét tương quan phi tuyến tính.
+ Bước 1: Xét giả thiết H1: X và Y không có tương quan phi tuyến tính.
+ Bước 2: Xét công thức:
( 2Y / X  r 2 )(n  k )
F
(1   2Y / X )(k  2)
+ Bước 3: Phân phối Fisher mức α = 0.05 với bậc tự do ( k-2, n-k)

+ Bước 4: Xét F Xét phân tích hồi quy:
Xét giả thiết H: hệ số không thích hợp.
 Công cụ giải: Chương trình MS-EXCEL, hộp thoại Correlation, Anova: Single Factor và
Regression.

THỰC HIÊN BÀI TOÁN BẰNG EXCEL
I. Phân tích tương quan tuyến tính
Giả thuyết H0: X và Y không có tương quan tuyến tính.
+Nhập giá trị vào bảng excel:


+ Mở hộp thoại Data Analysis , chọn Correlation:


+ Nhập vào hộp thoại Regression các số liệu như hình sau:

Ta thu được bản kết quả:


Ta có các giá trị:
n = 24
Hệ số tương quan r = 0.342484725
Hệ số xác định r2 = 0.117295787
Giá trị của T xác định theo công thức:
r n2
T
1 r2
Trong EXCEL, ta nhập hàm tính T như sau: =F8*SQRT(F11-2)/SQRT(1-F9)
Ta tính được T= 1.709798563

Phân phối Student mức α = 0.05 với bậc tự do n-2=24-2=22, dùng hàm T.INV.2T(0.05,22) trong
EXCEL để tính ra được c = 2.073873068
 Vì T < c nên chấp nhận giả thuyết H0
 Kết luận X, Y không tương quan tuyến tính.
II. Phân tích tương quan phi tuyến
+ Giả thuyết H0: X và Y không có tương quan phi tuyến.
+ Sắp xếp lại bảng số liệu

+ Mở hộp thoại Data Analysis , chọn Anova: Single Factor.

+ Nhập vào hộp thoại Anova: Single Factor các số liệu như hình sau:


Ta thu được bảng số liệu:


+ Rút ra được số liệu từ bảng:
SSF = 237383.3
SST = 248383.3
Tính được:
SSF
 2Y / X 
 0.955714
SST
( 2Y / X  r 2 )(n  k )
 64.36788
(1   2Y / X )(k  2)
Phân phối Fíher mức α = 0.05 với bậc tự do (k-2, n-k)=(7-2=5, 24-7=17) =(5,17), dùng hàm
FINV(0.05,5,17) trong EXCEL để tính ra được c = 2.809996
Vì F>c nên không chấp nhận giả thuyết H0.

 Kết luận Vậy X và Y có tương quan phi tuyến.
F

III.
Tìm đường hồi quy của X và Y
+ Giả thuyết H0: X và Y không có tương quan phi tuyến.


+ Nhập số liệu vào excel

+ Mở hộp thoại Data Analysis , chọn Regression.

+ Nhập vào hộp thoại Regression các số liệu như hình sau:


Ta thu được bản kết quả:


 Kết luận: Đường hồi quy của Y đới với X là: Y = 115.3657817 + 0.454159292X


Bài 4: Theo dõi số học sinh đến lớp muộn của 4 trường PTTH người ta thu được số liệu về số
lượng học sinh trung bình đến lớp muộn của các trường đó như sau:
Ngày trong
tuần
Thứ hai
Thứ tư
Thứ sáu
Thứ bảy


Trường PTTH
A
5
4
4
4

B
4
5
3
4

C
5
3
4
3

D
7
2
5
2

Bạn có nhận xét gì về số lượng học sinh đến lớp muộn của các trường. Chọn α = 10%.

BÀI LÀM
 Dạng bài: Phân tích phương sai 2 yếu tố không lặp
 Phương pháp giải: Giả sử nhân tố A có n mức a1 , a2 , … , an (nhân tố hàng) ;

B có m mức b1 , b2 , … , bm (nhân tố cột) .
Mẫu điều tra như bảng:

Giả thiết H0:
� “Các giá trị trung bình bằng nhau”
� “Ít nhất có hai giá trị trung bình khác nhau”
Tiến hành tính toán theo bảng dưới đây:


Bảng ANOVA:

Giá trị thống kê:



Kết luận:

 Công cụ giải: Sử dụng hộp thoại Anova: Two-Factor Without Replication


THỰC HIỆN BÀI TOÁN BẰNG EXCEL
Giả sử giả thuyết:
+ H01 : Số lượng học sinh đi muộn theo ngày là như nhau.
+ H02 : Số lượng học sinh đi muộn theo trường là như nhau.
 Nhập bảng số liệu vào EXCEL, ta được bảng số liệu sau:



Sau đó chọn Data ~> Data Analysis ~> Two-Factor Without Replication.


Sau đó mình nhập như sau:


Từ trên ta được kết quả như sau:



Biện luận:

+Frow ( theo ngày) = 2.035714 < F0.1 = 2.812863 nên chấp nhận giả thuyết H01
+Fcol ( theo trường) = 0.107143 < F0.1 = 2.812863 nên chấp nhận giả thuyết H02


Kết luận: Số lượng học sinh đi muộn theo ngày là như nhau và số lượng học
sinh đi muộn theo trường là như nhau



×