Report Group 6 - XSTK ppsx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (640.63 KB, 18 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
oOo
BÁO CÁO BÀI TẬP LỚN
XÁC SUẤT THỐNG KÊ
Nhóm 8C – TỔ 6
Tp. HCM Tháng 8 - 2009
BÀI 1:
Bảng sau đây cho ta phân phối thu nhập của 2 nhóm tuổi: Nhóm từ 40 – 50 tuổi và nhóm từ
50 – 60 tuổi trong tổng số các công nhân lành nghề ở Thụy Điển năm 1930.
Có sự khác nhau về phân bố thu nhập giữa hai nhóm tuổi này trong số các công nhân lành nghề
hay không? Mức ý nghĩa α = 5%.
1. Cơ sở lý thuyết:
a. Dạng bài toán: Phân tích so sánh tỉ lệ
b. Khái niệm thống kê:
Đối với một thí nghiệm có hai kết quả (binomial experiment) - thí dụ, đối với một thuốc
được kê đơn: có hay không – bạn thường so sánh hai tỉ số với nhau (thực nghiệm với lí
thuyết hay thực nghiệm với thực nghiệm). Song đối với một thí nghiệm có nhiều kết quả
(multinomial experiment) – thí dụ, bác sĩ đánh giá tình trạng của các bệnh nhân được điều trị
bởi thuốc trong một khoảng thời gian – bạn cần so sánh nhiều tỉ số. Trắc nghiệm “khi” bình
phương (χ
2
) cho phép bạn so sánh không những hai mà còn nhiều tỉ số (hay tỉ lệ hoặc xác suất)
một cách tiện lợi. χ
2
là phân phối về xác suất, không có tính đối xứng và chỉ có giá trị ≥ 0. Giả
sử bạn có một công trình nghiên cứu với N thử nghiệm độc lập, mỗi thử nghiệm có k kết quả và
mỗi kết quả mang một trong các xác suất thực nghiệm là Pi (i = 1, 2, … k). Nếu gọi P
i,0
là các
giá trị lý thuyết tương ứng với P
i

thì các tần số lí thuyết sẽ là E
i
= NP
i,0
. Điều kiện để áp
dụng trắc nghiệm χ
2
một cách thành công là các tần số lí thuyết E
i
phải ≥ 5.
c. Giả thuyết:
H
0
: P
1
= P
1,0
; P
2
= P
2,0
; … ; P
k
= P
k,0
⇔ “Các cặp P
i
và P
i,0
giống nhau”.

H
1
: “Ít nhất có một cặp P
i
và P
i,0
khác nhau”.
Giá trị thống kê:
2
ij ij
2
1
ij
( )
k
i
O E
E
χ
=
 
−
=
 
 
 
∑
O
i
: các tần số thực nghiệm (observed frequency);

E
i
: các tần số lý thuyết (expected frequency).
Biện luận:
• Nếu
2 2
α
χ χ
>
⇒ Bác bỏ giả thuyết H
0
(DF = k-1)
2
Bài tập lớn – Xác suất thống kê
Trong chương trình MS-EXCEL có hàm CHITEST có thể tính:
- Giá trị χ
2
theo biểu thức:
2
ij ij
2
1 1
ij
( )
[
r c
j i
O E
E
χ

= =
−
=
∑∑
O
ij
: tần số thực nghiệm của ô thuộc hàng i và cột j;
E
ij
: tần số lý thuyết của ô thuộc hàng i với cột j;
r: số hàng;
c: số cột.
- Xác suất P(X > χ
2
) với bậc tự do DF = (r-1)(c-1); trong đó, r là số hàng và c là số cột
trong bảng ngẫu nhiên (contingency table).
• Nếu P(X > χ
2
) > α ⇒ Chấp nhận giả thuyết H
0
và ngược lại.
d. Giải thuật:
- Tính các tổng số
- Tổng hàng (row totals)
- Tổng cột (column totals)
-Tổng cộng (grand total)
- Tính các tần số lý thuyết
- Tần số lý thuyết = tổng hàng x tổng cột / tổng cộng
2. Áp dụng Excel:
- Bảng số liệu:

P(X > χ
2
) = 0.5116 > α = 0.01 ⇒ Nhận giả thuyết H
0
.
3
Bài tập lớn – Xác suất thống kê
BÀI 2:
Hãy tiến hành phân tích phương sai đối với các số liệu sau đây :
Mẫu thứ nhất : 22 19 13 19 23 15 16 18 20 20
Mẫu thứ hai : 27 25 22 27 19 23 21 28 23 25 27
Mẫu thứ ba : 20 18 21 21 16 17 20 18 17 19 18
Mẫu thứ tư : 18 16 24 19 22 22 24
1.Cơ sở lý thuyết :
a. Dạng bài toán: Phân tích phương sai một nhân tố
b. Khái niệm thống kê và giả thuyết bài toán:
Giả sử ta có k ĐLNN có phân bố chuẩn X
1
, X
2
, … X
k
, trong đó X
i
: N (
2
,
i i
µ σ
).

Các giá trị trung bình
i
µ
và phương sai
2
i
σ
đều chưa biết. tuy nhiên chúng ta giả thiết rằng
các phương sai bằng nhau:
2
1
σ
=
2
2
σ
= … =
2
k
σ
Chúng ta muốn kiểm định xem liệu các giá trị trung bình
i
µ
này có như nhau hay không:
1
µ
=
2
µ
= … =

k
µ
Trong thống kê các vấn đề trên thường được xem xét dưới góc độ sau đây:
Giả sử chúng ta quan tâm đến một nhân tố X (factor) nào đó. Nhân tố X có thể xem xét ở k
mức khác nhau. Ký hiệu X
i
là hiệu quả của việc tác động nhân tố X ở mức I đối với cá thể. Như
vậy
i
µ
là hiệu quả trung bình của nhân tố X ở mức i. Chúng ta muốn biết khi cho nhân tố X thay
đổi các mức khác nhau thì điều đó có ảnh hưởng hay không tới hiệu qua trung bình.
Ta có bảng số liệu sau :
Các mức nhân tố
1 2 … k
n=
∑
=
k
i
n
1
1
x
11
x
12
… x
1k
x

21
x
22
… x
2k
… … … …
x
1N
x
2N
… x
kN
Tổng số T
1
T
2
… T
k
T =
∑
=
k
i
k
T
1
4
Bài tập lớn – Xác suất thống kê
Trung bình
x

1
x
2
…
K
x
T
x
n
=
 Ta đưa ra một số kí hiệu sau đây:
+ Trung bình của mẫu thứ i:
1
i
n
ji
j
i
i
i i
x
T
x
n n
=
= =
∑
Trung bình chung ở đó:
1 1
j

n
k
ij
ji i j
x
x
T
x
n n n
= =
= = =
∑∑
∑∑
Với :
n = n
1
+ n
2
+ … + n
k
T = T
1
+ T
2
+ … + T
3
+ Tổng bình phương chung. Kí hiệu là SST được tính theo công thức
sau:
( ) ( ) ( )
∑

−
∑
−
∑
−
===
+++=
k
n
i
n
i
n
i
xxxxxx
ik
L
ii
SST
1
2
1
2
1
2
21
21
( )
∑∑
−

= =
=
k
j
n
j
n
i
xx
ij
1 1
2
Có thể chứng minh rằng:
5
Bài tập lớn – Xác suất thống kê

n
T
x
n
T
xLxxSST
ji
ij
n
i
ik
n
i
ik

n
i
ij
k
2
,
2
2
1
2
1
2
1
2
21
−=
−+++=
∑
∑∑∑
===

+ Tổng bình phương do nhân tố kí hiệu là SSF được tính theo công thức sau:

( )
n
T
n
T
L
n

T
n
T
i
nSSF
k
k
k
i
I
xx
2
2
2
2
2
1
2
1
1
2
−+++=
=
∑
−
=
+ Tổng bình phương do sai số kí hiệu là SSE được tính theo công
thức:
( ) ( ) ( )







++−=
−++−+−=
+++=
∑∑
∑∑∑
∑
−
∑
−
∑
−
===
===
k
k
ij
k
k
n
i
ik
n
i
i
n

i
i
n
i
n
i
n
i
n
T
L
n
T
x
n
T
xL
n
T
x
n
T
x
kik
L
ii
SSE
k
k
xxxxxx

2
1
2
1
2
2
1
2
2
2
2
1
2
2
1
2
1
1
2
1
1
2
1
2
1
2
21
11
2211
+ Từ công thức trên ta thấy: SST = SSF+SSE

Trung bình bình phương của nhân tố, kí hiệu là MSF được tính bởi công thức:

1
SSF
MSF
k
=
−
k – 1 được gọi là bậc tự do của nhân tố.
Trung bình bình phương của sai số, kí hiệu là MSE được tính bởi công thức:
6
Bài tập lớn – Xác suất thống kê
SSE
MSE
n k
=
−
n – k được gọi là bậc tự do của sai số.
Tỉ số F được tính bởi công thức:
F=
MSE
MSF
Các kết quả nói trên được trình bày trong bảng sau đây gọi là ANOVA.
Bảng ANOVA
Nguồn Tổng bình phương Bậc tự do Trung bình bình phương Tỷ số F
Nhân tố SSF k – 1 MSF MSF/MSE
Sai số SSE n – k MSE
Tổng số SST n - 1
Người ta chứng minh được rằng nếu giả thuyết H0 đúng thì tỉ số F sẽ có phân bố Fisher
với bậc tự do là (k – 1,n – k)

Thành thử giả thuyết Ho sẽ bị bác bỏ ở mức ý nghĩa của phân bố Fisher với bậc tự do là
(k – 1,n – k). k – 1 được gọi là bậc tự do ở mẫu số.
Giả thuyết : H
0
: μ
1
= μ
2
=…= μ
k
: “ Các giá trị trung bình bằng nhau”
Bảng ANOVA được tiến hành theo trình tự sau đây:
Bước 1: Tính SSF
Bứớc 2: Tính SST
Bước 3: Tính SSE=SST – SSF
Bứoc 4: Tính MSF=SSF/K – 1
Bước 5: Tính MSE=SSE/N – 1
Bước 6: Tính F=MSF/MSE
Bước 7: Tra bảng phân bố F để tìm c rồi so sánh với F và rút ra kết luận:
Nếu F > Fα thì bác bỏ giả thuyết H
0
và ngược lại.
7
Bài tập lớn – Xác suất thống kê
2. Áp dụng MS-EXCEL :
a. Nhập dữ liệu vào bảng tính :
Áp dụng “Anova: Single factor”(MS-EXCEL 2003)
b. Nhấp lần lượt Data tab và Data Analysis tab.
c. Chọn chương trình Anova: Single Factor trong hộp thoại Data Analysis rồi
nhấp nút OK.

d. Trong hộp thoại Anova: Single Factor lần lượt xác định:
- Phạm vi đầu vào (Input Range)
- Cách sắp xếp theo hàng hay cột (Group by)
- Nhãn dữ liệu (Label in First Row/Column).
8
Bài tập lớn – Xác suất thống kê
e. Nhấn OK, ta có bảng kết quả sau
3. Kết quả:
F = 10.36 > F0.05 = 2.87
⇒ Bác bỏ giả thuyết H
0
.
9
Bài tập lớn – Xác suất thống kê
BÀI 3:
Tuổi và huyết áp của của 10 bệnh nhân trẻ em ( dưới 14 tuổi) , chọn ngẫu nhiên được cho trong
bảng dưới đây :
Trong đó X là tuổi còn Y là huyết áp. Tính tỉ số tương quan, hệ số tương quan, hệ số xác định của
Y đối với X. Với mức ý nghĩa alpha = 5%, có kết luận gì về mối tương quan giữa X và Y( phi
tuyến hay tuyến tính) ? Tìm đường hồi quy mẫu của Y đối với X. Tính sai số tiêu chuẩn của
đường hồi quy.
I.CƠ SỞ LÍ THUYẾT
1. Tỉ số tương quan:
Để đo mức độ phụ thuộc của ĐLNN X vào ĐLNN Y, ta dùng khái niệm ti số tương quan. Tỉ
số tương quan lí thuyết được kí hiệu
2
/Y X
η
:
2 2

2
/
( ( / )) ( ( / ))
1
Y X
E Y E Y X DY E Y E Y X
DY DY
η
− − −
= − =

Trong đó E[Y/X] : kỳ vọng của Y với điều kiện X.
Người ta chứng minh được 0
≤
2
/Y X
η
≤
1 và
2 2
/Y X
ρ η
≤
.
Hiệu số
2
/Y X
η
-
2

ρ
càng lớn thì sự tương quan phi tuyến càng mạnh.
Ta có bảng tương quan sau:
(1)
X
(2)
X
…
(4)
X
( )k
X
1
11
21
1

n
y
y
y
2
12
22
2

n
y
y
y

….
….
….
….
1
2

k
k
k
n k
y
y
y
1
n
2
n
….
k
n
n=
i
n
∑
1
T
2
T
…

k
T
T=
i
T
∑
Ký hiệu:
1
i
n
i ji
i
T y
=
=
∑
( tổng các số liệu
ji
y
ở cột
( )i
x
)
T =
i
T
∑
i
n
là số các số liệu ở cột

( )i
x
.
+ Tổng bình phương chung:
10
Bài tập lớn – Xác suất thống kê
Y
X
SST =
2
2
ij
T
y
n
−
∑∑
+Tổng bình phương do nhân tố:
SSF =
2
2
1
k
i
i
i
T
T
n n
=

−
∑
Đại lượng sau được xem như ước lượng của tỷ số tương quan:
2
/Y X
SSF
SST
ζ
η
=
được gọi la tỉ số tương quan của Y đối với X.
2.Hệ số tương quan:
Để đo mức độ phụ thuộc tuyến tính giữa hai ĐLNN X và Y, ta dựa vào hệ số tương quan.
Hệ số tương quan lí thuyết của X và Y được xác định :
( )( )
X Y
X Y
E X Y
µ µ
ρ
σ σ
− −
=
Trong đó:

,X Y
µ µ
:giá trị trung bình của X và Y;
,X Y
σ σ

:độ lệch tiêu chuẩn của X và Y;
ρ
nằm trong đoạn [-1,1]. Khi
ρ
= 0 thì không có tương quan tuyến tính giữa X và Y.
Nếu X và Y có phân bố chuan thì
ρ
= 0 khi va chỉ khi X và Y độc lập. Khi |
ρ
| càng gần 1 thì
sự phụ thuộc tuyến tính giữa X và Y càng mạnh. Nếu |
ρ
| =1 thì Y là hàm tuyến tính của X.
Trong thực tế đại lượng sau được sử dụng như ước lượng cho
ρ
:
_ _
1
_ _
2 2
1 1
( )( )
( ) ( )
n
i i
i
n n
i i
i i
x x y y

r
x x y y
=
= =
− −
=
− −
∑
∑ ∑
r được gọi là hệ số tương quan.
Để tính toán ta thường sử dụng công thức:
2 2 2 2
( ) ( )( )
( ) ( )
n xy x y
r
n x x n y y
−
=
− −
∑ ∑ ∑
∑ ∑ ∑ ∑
;
r cũng thuộc đoạn [-1,1].
Hệ số xác định là bình phương của hệ số tương quan.
Hệ số xác định =
2
r
.
3.Xác định mối tương quan giữa 2 đại lượng ngẫu nhiên:

→
Kiểm định xem giữa X và Y có tương quan phi tuyến hay không:

0
H
:
2 2
0
η ρ
− ≠
(không có tương quan phi tuyến)

1
H
:
2 2
0
η ρ
− f
( có tương quan phi tuyến )
Ta có test thống kê:
2
2
2 2
2
2
( )( )
2
1 (1 )( 2)
r

r n k
k
F
k
n k
ζ
ζ
ζ ζ
η
η
η η
−
− −
−
= =
− − −
−
Gọi c là phân vị mức
α
của phân bố Fisher với bậc tự do là (k-2,n-k).
Nếu F > c thì giả thuyết
0
H
bị bác bỏ.
4.Đường hồi quy mẫu của Y đối với X:
Giả sử X là một biến nào đó, còn Y là 1 ĐLNN phụ thuộc vào X theo cách:
Nếu X=x, thì Y sẽ có kì vọng là
α
x +
β

,
11
Bài tập lớn – Xác suất thống kê
Phương sai là
2
σ
không phụ thuộc x.
Đường thẳng có phương trình
α
x +
β
b được goi là đường hồi quy mẫu của Y đối với X.
Ước lượng các hệ số lí thuyết
α
và
β
trên 1 mẫu quan sát. a và b sẽ là ước lượng của
α

và
β
nếu nó làm cực tiểu tổng sau:
Q(A,B) =
2
1
( )
n
i i
i
y Ax B

=
− −
∑
Hệ phương trình tìm điểm dừng
1
2 ( ) 0
n
i i i
i
Q
x y Ax B
A
=
∂
= − − − =
∂
∑
1
2 ( ) 0
n
i i
i
Q
y Ax B
B
=
∂
= − − − =
∂
∑

Giải hệ này ta tìm được:
2 2
( )( )
( ) ( )
n xy x y
a
n x x
−
=
−
∑ ∑ ∑
∑ ∑
__ ___
y a x
b y ax
n
−
= − =
∑ ∑
5.Sai số tiêu chuẩn của đường hồi quy:

2
σ
là số đo sự phân tán của Y xung quanh đường thẳng hồi quy. Ước lượng cho
2
σ
ta dùng
2
YX
s

:
2 2
1
1
( )
2
n
YX i i i
i
s y ax b
n
=
= − −
−
∑
Trong tính toán ta thường sử dụng công thức:
2
2
2
YX
y a xy b
s
n
− −
=
−
∑ ∑
Sai số tiêu chuẩn cho ta biết sự phân tán của đám may điểm (
,
i i

x y
) xung quanh đương
thẳng hồi quy.
II.Tính toán với Excel :
Ta nhập bảng số liệu và xử lý Excel:
Bảng A :
Bảng B:
12
Bài tập lớn – Xác suất thống kê
n
i
T
=sum(B2:B5)
T=sum(B6:G6)
1. Tính tỷ số tương quan:
BẢNG A:
SST =
( )
2
2
2
1018
112642 9009,6
10
ij
T
y
n
− = − =
∑∑

SSF =
( ) ( ) ( ) ( )
2 2 2 2
2
2
1
100 255 85 1018
4103,6
1 3 1 10
k
i
i
i
T
T
n n
=
 
− = + + + − =
 ÷
 ÷
 
∑
2
/
4103.6
0.455
9009.6
Y X
SSF

SST
ζ
η
= = =
BẢNG B:
SST =
( )
2
2
2
1066
119946 6310,4
10
ij
T
y
n
− = − =
∑∑
SSF =
( ) ( ) ( ) ( )
2 2 2 2
2
2
1
110 265 65 1066
5531.07
1 3 1 10
k
i

i
i
T
T
n n
=
 
− = + + + − =
 ÷
 ÷
 
∑
2
/
5531.07
0.878
6310.4
Y X
SSF
SST
ζ
η
= = =
2. Tính hệ số tương quan:
Ta sử dụng trình Correlation của Excel l data analysis:
Chọn Tools/ Data Analysis/ Correlation, OK, hộp thoại xuất hiện và tiến hnh thực hiện như sau:
13
Bài tập lớn – Xác suất thống kê
T=sum(B6:G6)
=sum(B2:B5)

Ta được kết quả như sau :
Bảng A : Bảng B:
→
Hệ số xác định :
Bảng A Bảng B :
2
r
= 0,068717
2
r
= 0.31969
3. Kiểm định sự tương quan:
→
Kiểm định xem giữa X và Y có tương quan phi tuyến hay không:
0
H
:
2 2
0
η ρ
− ≠
(không có tương quan phi tuyến)
1
H
:
2 2
0
η ρ
− f
( có tương quan phi tuyến )

Ta có:
BẢNG A
( )
2
2
2 2
2
2
2
(0.455 0.262141 )(10 6)
( )( )
2
0.709
(1 0.455)(6 2)
1 (1 )( 2)
r
r n k
k
F
k
n k
ζ
ζ
ζ ζ
η
η
η η
−
− −
− −

−
= = = =
− −
− − −
−
BẢNG B
( )
2
2
2 2
2
2
2
(0.878 0.565413 )(10 6)
( )( )
2
4.57
(1 0.878)(6 2)
1 (1 )( 2)
r
r n k
k
F
k
n k
ζ
ζ
ζ ζ
η
η

η η
−
− −
− −
−
= = = =
− −
− − −
−
Tra bảng phân bố Fisher với bậc tự do (4,4) ở mức 5% ta có c=
→
Bảng A : X và Y
Bảng B : X và Y
4. Tính hệ số của đường hồi quy:
• Sử dụng excel:
Chọn tools/ data Analysis / regression
14
Bài tập lớn – Xác suất thống kê
Khi cửa sổ regression xuất hiện, ta điền khoảng dữ liệu vào cho biến phụ thuộc Y và biến độc lập
X, đồng thời chọn Labels.
Ấn Ok ta được kết quả :
BẢNG A:
15
Bài tập lớn – Xác suất thống kê
→
Y = 1.72*X + 90,424
Tương tự ta có kết quả cho bảng B:
Y = 3.111*X + 86.065
5. Tính sai số tiêu chuẩn:
Bảng A:

2
2
112642 1.72*7144 90,424*1018
1037.8
2 10 2
YX
y a xy b y
s
n
− −
− −
= = =
− −
∑ ∑ ∑
Bảng B:
2
2
119946 3.111*7750 86.056*1066
512.5
2 10 2
YX
y a xy b y
s
n
− −
− −
= = =
− −
∑ ∑ ∑
BÀI 4:

Bảng sau đây cho ta số liệu về màu tóc của 422 người:
Với mức ý nghĩa 1%, nhận định xem số liệu có mối quan hệ giữa màu tóc và giới tính hay không.
16
Bài tập lớn – Xác suất thống kê
Hệ số bHệ số a
1. Cơ sở lý thuyết:
a. Dạng bài toán: Kiểm định tính độc lập
b. Khái niệm thống kê và giả thuyết bài toán:
- Mục đích: Xét một tổng thể gồm 2 dấu hiện X, Y. Các dấu hiệu này có thể là dấu hiệu định
tính hoặc định lượng. Trong trường hợp bài toán nêu trên là cả 2 dấu hiệu đều là dấu hiệu
định tính.
- Lấy mẫu kích thước n ta có bảng số liệu như sau:
Trong đó:
- ni (i = 1,k) – số lần X nhận xi
- mj (j = 1,k) – số lần Y nhận yi
ni,j (i = 1,k , j = 1,k) – số lần đồng thời X nhận xi và Y nhận yj
c. Phương pháp giải quyết và áp dụng trong Excel:
- Bước 1:
Đặt giả thuyết: H
0
: Màu tóc độc lập với giới tính
1
k
i ij
j
n n
=
=
∑
1

k
i ij
i
m n
=
=
∑
1 1
k k
i ij
i j
n n
= =
=
∑∑
Ta có bảng số liệu như hình sau
- Sử dụng hàm =SUM(B2:B5) và nút tự điền
17
Bài tập lớn – Xác suất thống kê
- Tìm
2 2
[( 1)( 1)]k h
α α
χ χ
= − −
từ bảng phân vị “khi bình”
- Bước 2: Tính thống kê dựa vào các công thức sau:
2
ij
2

0
1 1
( )
k k
ij
i j
ij
n
γ
χ
γ
= =
−
=
∑∑
i j
ij
n m
n
γ
=
- Sau khi sử dụng với Excel ta có bảng số liệu γij như sau:
Từ đó:
2 2 2
2
0
(56 40.872) (32 47.128) (38 30,5261)

40.872 47.128 30,5261
χ

− − −
= + + +
- Hoặc sử dụng hàm trong Excel: = CHITEST(B2:C5,B12:C15)
Ta có:
- Bước 3: Kết luận:
Vì
2
0
χ
<
2
0.01
α
χ
=
nên ta bác bỏ giả thiết H
0
( H
0
: giả thiết màu tóc đập lập với giới
tính)
Vậy Màu tóc và giới tính có mối liện hệ với nhau.
18
Bài tập lớn – Xác suất thống kê

Report Group 6 - XSTK ppsx

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về