Tải bản đầy đủ (.pdf) (23 trang)

PHÂN PHỐI MẪU (Sampling Distributions) pptx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (257.7 KB, 23 trang )

PHÂN PHỐI MẪU
(Sampling Distributions)

I. GIỚI THIỆU
Phân phối (PP) mẫu là chìa khóa để hiểu được các suy luận thống kê.
Việc hiểu biết PPXS nhằm hai mục đích:

1
Tìm lời giải cho các câu hỏi về xác suất của các số thống kê của mẫu
2
Cung cấp nền tảng lý thuyết cần thiết cho việc đưa ra những suy luận thống
kê đúng đắn.
PP mẫu nhằm vào mục đích thứ nhất.

Định nghĩa
PP. của tất cả các giá trị được xem là các số thống kê (statistics) tính được
từ các
mẫu (samples) có cùng kích thước mẫu (sample size) rút ngẫu nhiên từ
cùng một dân số, được gọi là PP. mẫu của số thống kê đó.
Các bước thiết lập PP. mẫu
+ Từ một dân số hữu hạn có kích thước N, rút ngẫu nhiên tất cả các mẫu
(có thể
rút được) có kích thước n.
+ Tính số thống kê có liên quan cho từng mẫu
+ Lập bảng phân phối tần số cho các số thống kê tính được này.
Đặc điểm quan trọng
03 điều cần được biết về 1 PP. mẫu: số trung bình, phương sai, và dạng
hàm số.
Việc thiết lập PP. mẫu theo 3 bước nói trên sẽ trở nên rất khó khăn với dân số
có kích thước lớn, và trở nên bất khả thi khi gặp dân số vô hạn. Cách tốt nhất
để giải quyết 2 vấn đề này là dùng các lý thuyết toán học để tính gần đúng


PP. mẫu của 1 số thống kê.
II. PP. (CỦA SỐ) TRUNG BÌNH MẪU (Distribution of the Sample Mean)
Thí dụ dẫn nhập
Giả sử có 1 dân số có kích thước N = 5 (tuổi của 5 đứa trẻ điều trị ngoại trú
tại
PKSK Tâm Thần Quận) với x
1
= 6, x
2
= 8, x
3
= 10, x
4
= 12, x
5
= 14.
Số trung bình (dân số): 10
5
50




i
x


Phương sai (dân số):



8
5
40
2
2




N
x
i




Phương sai:


10
4
40
1
2
2






N
x
S
i


(tính cách khác)

Thiết lập PP. mẫu của số trung bình mẫu, x, dựa trên kích thước mẫu n = 2 rút ra
từ dân số này. Rút tất cả các mẫu có thể rút được với n = 2 từ dân số này theo cách
“để lại” (with replacement), nghĩa là rút ra xem kết quả xong thì trả lại vào dân
số; tổng số mẫu rút được bằng N
n
= 25


RÚT LẦN 2


6 8 10 12 14
6
6, 6 8, 6 10, 6 12, 6 14, 6
RÚT

(6)

(7)

(8)


(9)

(10)











8
6, 8 8, 8 10, 8 12, 8 14, 8
LẦN

(7)

(8)

(9)

(10)

(11)












10
6, 10 8, 10 10, 10

12, 10

14, 10

1

(8)

(9)

(10)

(11)

(12)


12
6, 12 8, 12 10, 12


12, 12

14, 12



(9)

(10)

(11)

(12)

(13)


14
6, 14 8, 14 10, 14

12, 14

14, 14


(10)

(11)


(12)

(13)

(14)
(Số trong ngoặc là số trung bình,
x
)

Lập bảng phân phối tần số của
x


x

Tần số Tần số tương đối
6 1 1/25
7
8
9
10
11
12
13
14
2
3
4
5
4

3
2
1
2/25
3/25
4/25
5/25
4/25
3/25
2/25
1/25
Tổng
25 25/25

Dạng hàm số của PP. dân số: Phân phối đơn đều


Dạng hàm số của PP. trung bình mẫu: phân phối dạng bình thường

f (
x
)

6 7 8 9 10 11 12 13 14


x


Tính thông số của PP. Trung bình mẫu


i
n
x
x
6 7 8 14 250
10
25 25
N
   
    



số trung bình của PP. trung bình mẫu bằng số trung bình của dân số gốc

2
2 2 2
i
2
x
n
x
(x )
(6 10) (7 10) (14 10)
25
N

     
 





=
100
4
25



Phương sai của PP. mẫu không bằng phương sai dân số, mà bằng phương sai dân
số chia cho kích thước mẫu

2
2
x
8
4
n 2
  



Căn số bậc 2 của phương sai của PP. mẫu,
2
x
n




, được gọi là sai số chuẩn
của số trung bình, hoặc gọi đơn giản là sai số chuẩn (standard error).
Đặc điểm của PP. Trung bình mẫu
Khi lấy mẫu theo cách “để lại” hoặc lấy mẫu từ 1 dân số vô hạn
1. Từ một dân số phân phối bình thường, PP. Trung bình mẫu có những đặc
điểm sau:
+ PP. của
x
sẽ bình thường
+ Số trung bình,
x

, của phân phối
x
sẽ bằng với số trung bình của dân số,
, mà từ đó các mẫu được rút ra.
+ Phương sai,
2
x

, của phân phối
x
sẽ bằng phương sai của dân số chia
cho kích
thước mẫu.
2. Từ một dân số phân phối không bình thường
Lý thuyết giới hạn trung tâm (Central Limit Theorem)
Cho một dân số có dạng hàm số không bình thường với số trung bình là 
và phương sai hữu hạn 

2
, phân phối mẫu của x (là các số trung bình tính được từ
các mẫu có kích thước n từ dân số này) sẽ có số trung bình
x

=  và phương sai
2
x

= 
2

/ n và sẽ phân phối gần như bình thường khi kích thước mẫu lớn.
Trong thực tiễn, kích thước mẫu bằng 30 được xem là đủ lớn. Nói chung, PP.
Trung bình mẫu càng gần với bình thường hơn khi kích thước mẫu càng lớn.
Lấy mẫu “Không để lại” (without replacement)
Trong hầu hết các tình huống thực tế, việc lấy mẫu nhất thiết phải được thực hiện
với 1 dân số hữu hạn và PP. Trung bình mẫu trong những điều kiện này cũng có
phần nào thay đổi.
Với thí dụ dẫn nhập, nếu việc lấy mẫu được tiến hành theo cách “không để lại” và
không quan tâm đến thứ tự được rút ra của các giá trị (trong các mẫu), thì chỉ có
10 mẫu (
5
C
2
).
Số trung bình của phân phối x:


i

x
N n
x
7 8 9 13 100
10
C 10 10
   
   




Số trung bình của PP. mẫu cũng bằng với số trung bình dân số.
Phương sai của PP. mẫu

2
i
2
x
x
N n
(x )
30
3
C 10
 
  




Phương sai của PP. Trung bình mẫu,
2
x

, không bằng 4
2
8
2

n

mà bằng
3
3
25
2
8
1
2






N
nN
n



(Nếu kích thước mẫu lớn, lý thuyết giới hạn trung tâm sẽ được áp dụng và
x
sẽ
phân phối gần như bình thường)
Yếu tố
1


N
nN
được gọi là yếu tố điều chỉnh dân số hữu hạn (finite population
correction) và có thể được bỏ qua khi kích thước mẫu tương đối nhỏ so với dân
số.
(n / N

0,05)
TÓM TẮT PHÂN PHỐI TRUNG BÌNH MẪU
1. Khi việc lấy mẫu được thực hiện trên 1 dân số phân phối bình thường với
phương sai
biết trước:
a.

x
= 


b.
x
/ n
 



c. Phân phối trung bình mẫu là phân phối bình thường
2. Khi việc lấy mẫu được thực hiện trên 1 dân số phân phối không bình thường
với
phương sai biết trước:
a. Số trung bình

x
= 


b. Sai số chuẩn
x
/ n
 

khi n / N

0,05


x
N n
( / n)
N 1

 




c. Phân phối trung bình mẫu là phân phối gần như bình thường

Thí dụ áp dụng
Giả sử người ta biết được rằng chiều dài hộp sọ của 1 dân số người phân phối gần
như bình thường với số trung bình là 185,6 mmm và ĐLC bằng 12,7 mmm. Xác
suất để tìm thấy 1 mẫu có n = 10 (rút ra từ dân số này) có số trung bình,
x
, lớn
hơn 190 là bao nhiêu?
+ Mẫu khảo sát này (n = 10) chỉ là một trong rất nhiều mẫu có n = 10 rút ra từ
dân số,
như vậy số trung bình của nó sẽ là 1 trong rất nhiều
x
cấu tạo nên phân phối
trung bình
mẫu ((phát xuất từ dân số này)
+ Dân số khảo sát phân phối gần như bình thường, như vậy PP. Trung bình mẫu
cũng phân
phối gần như bình thường với


x
=  = 185,6 và
x

= 12,7

/ 10 = 4,02
(giả định là dân số tương đối lớn so với mẫu

nên có thể bỏ qua hệ số điều chỉnh dân số hữu hạn)
+ Áp dụng PP. bình thường chuẩn để tính với công thức tính z biến đổi

x
x
z
/ n








= 12,7 mm
x
 = 185,6 mm

x
12,7/10 4,02
 


0,1379

mm6,185


190

x




= 1

0,1379

0 1,09 z

190 185,6 4,4
z 1,09
4,02 4,02

  


P(z > 1,09) = 1 – P(z  1,09) = 1 – 0,8621 = 0,1379
Xác suất để chọn được một mẫu n = 10 có
x
> 190 là 13,79%.
III. PHÂN PHỐI HIỆU CỦA 2 TRUNG BÌNH MẪU
(Distribution of the Difference Between Two Sample Means)
Giới thiệu
Việc khảo sát 2 dân số để tìm hiểu xem số trung bình của chúng có khác
nhau
không, và độ lớn của sự khác biệt giữa chúng (hiệu số) là bao nhiêu rất
thường
được tiến hành trong thực tế. Sự hiểu biết về PP. Hiệu của 2 trung bình mẫu

rất hữu
ích trong trường hợp này.
Thí dụ chứng minh: Giả sử có 2 dân số – dân số 1 đã từng mắc một số
bệnh có
liên quan với chậm phát triển tâm thần (mental retardation), và dân số 2
chưa từng
mắc các bệnh có liên quan này. Hệ số thông minh (HSTM) của hai dân số
này
được xem là phân phối gần như bình thường với ĐLC bằng 20.
Giả sử từ mỗi dân số lấy 1 mẫu có n = 15, tính trung bình HSTM và có kết
quả
1
x
= 92 và
2
x
= 105. Nếu không có sự khác biệt giữa 2 dân số, xét về mặt số
trung bình thực sự của HSTM, thì xác suất để tìm được 1 hiệu lớn bằng hoặc
lớn hơn


1 2
x x

.
Thiết lập PP. mẫu của



1 2

x x

+ Rút tất cả các mẫu (có thể rút được) có n
1
= 15 từ dân số 1
Rút tất cả các mẫu (có thể rút được) có n
2
= 15 từ dân số 2
+ Tính trung bình cho tất cả các mẫu trên.
+ Lấy hiệu của từng cặp số trung bình mẫu (1 từ dân số 1, và 1 từ dân số 2)
+ Lập phân phối mẫu cho các hiệu đã tính được này.
Đặc điểm của PP. hiệu 2 trung bình mẫu
+ Phân phối bình thường
+ Số trung bình
1 2
x x


= 
1
– 
2

+ Sai số chuẩn
1 2
x x


=
n

n
2
2
2
1
2
1



Thí dụ trên cho thấy phân phối hiệu 2 trung bình mẫu là một phân phối bình
thường với

Số trung bình : 
1 –

2
= 0 (
1
và 
2
không khác nhau), và

Phương sai :
1 2
2
x x


=





2 2
1 1 2 2
/n / n
   = [(20)
2
/ 15 + (20)
2
/ 15] = 53,33
Chuyển qua z : z =
1 2
1 2
2 2
1 2
1 2
(x x ) ( )
n n
    
 



Phần diện tích dưới đường cong của


1 2
x x


tương ứng với xác suất đang tìm là
phần diện tích nằm bên trái của


1 2
x x

= 92 – 105 = –13. Giá trị của z tương ứng
với –13 trong trường hợp không có sự khác biệt giữa 2 trung bình dân số được tính
z =
3,53
013


=
3,53
13

= –1,78

Tra bảng tìm xác suất, diện tích dưới đường cong phân phối bình thường chuẩn ở
bên trái của –1,73 bằng 0,0375.
Nếu không có sự khác nhau giữa hai số trung bình dân số, xác suất để tìm thấy
hiệu của 2 số trung bình mẫu lớn bằng hoặc lớn hơn 13 là 0,0375.
Lấy mẫu từ các dân số PP. bình thường
Tiến trình tính toán nói trên vẫn đúng khi 2 mẫu có kích thước khác nhau n
1



n
2
,

khi phương sai dân số khác nhau 
1
 
2
.
Lấy mẫu từ các dân số phân phối không bình thường hoặc không biết dạng
phân phối:
Lấy mẫu lớn để áp dụng lý thuyết giới hạn trung tâm.
IV. PHÂN PHỐI TỈ LỆ MẪU (Distribution of the Sample Proportion)
Thí dụ chứng minh: Giả sử trong một dân số có 8% số người bị mù màu
(p = 0,08). Nếu chọn ngẫu nhiên 150 người từ dân số này thì xác suất để có được tỉ
lệ mù màu (của mẫu) lớn bằng hoặc lớn hơn 0,15 là bao nhiêu.
Thiết lập PP. mẫu của p
ˆ

(Cách tiến hành giống hệt như cách tiến hành thiết lập PP. trung bình mẫu).
+ Rút tất cả các mẫu (có thể rút được) có n = 150 từ dân số
+ Tính tỉ lệ mẫu (sample proportion) p
ˆ
cho tất cả các mẫu trên.
+ Lập phân phối mẫu cho các p
ˆ
đã tính được này.
Đặc điểm của PP. Tỉ lệ mẫu: khi cỡ mẫu lớn, PP. Tỉ lệ mẫu phân phối gần như
bình
thường (theo lý thuyết giới hạn trung tâm). Số trung bình của phân phối,


p
ˆ
bằng trung
bình cộng của tất cả các tỉ lệ mẫu), sẽ bằng với tỉ lệ dân số p, và phương sai
của phân
phối

2
ˆ
p
sẽ bằng p (1 – p) /n.
Để trả lời câu hỏi, dùng PP. bình thường chuẩn với
z =
n
pp
pp
)1(
ˆ


=
00049,0
08,015,0

=
0222,0
07,0
= 3,15
Tra bảng PP.bình thường để tìm được p(z = 3,15) = 1 – 0,9992 = 0,0008. Xác

suất để tìm thấy một p
ˆ
 0,15 của một mẫu có n = 150 từ một dân số có p = 0,08
là 0,08%. Việc rút được một mẫu như thế này, trong thực tế, được xem là hiếm
xảy ra.
Vấn đề kích thước mẫu lớn để có thể chuyển từ PP. nhị phân sang PP. bình
thường
Tiêu chuẩn thường được áp dụng là khi cả np và n(1 – p) đều > 5.
(Với n = 150 và p của dân số bằng 0,08: np (150 x 0,08) = 12, và nq (150 x 0,92)
= 138
đều lớn hơn 5)
V. PHÂN PHỐI HIỆU 2 TỈ LỆ MẪU
(Distribution of the Difference between Two Sample Proportions)
Đặc điểm của phân phối hiệu 2 tỉ lệ mẫu: Nếu 2 mẫu độc lập có kích thước mẫu n
1

và n
2
được rút ngẫu nhiên từ 2 dân số có các biến số nhị phân với tỉ lệ (đặc điểm
được quan tâm) lần lượt là
1
p và
2
p thì phân phối hiệu của 2 tỉ lệ mẫu
1 2
ˆ ˆ
p p
 sẽ
phân phối gần như bình thường với :
Số trung bình :

pp
pp
21
ˆˆ
21




Sai số chuẩn:
2
22
1
11
ˆˆ
)1()1(
21
n
pp
n
pp
pp






khi n
1

và n
2
lớn.
Thiết lập phân phối mẫu của
21
ˆˆ
pp 
+ Rút tất cả các mẫu (có thể rút được) có kích thước mẫu là n
1
từ dân số 1
Rút tất cả các mẫu (có thể rút được) có kích thước mẫu là n
2
từ dân số 2
+ Tính tỉ lệ mẫu cho tất cả các mẫu trên.
+ Lấy hiệu của từng cặp tỉ lệ mẫu (1 từ dân số 1, và từ dân số 2).
+ Lập phân phối mẫu cho các hiệu đã tính được này.
Xác suất của hiệu 2 tỉ lệ mẫu được tính bằng





   
2
22
1
11
2121
11
ˆˆ

n
pp
n
pp
pppp
z





Thí dụ chứng minh : Giả sử tỉ lệ của người nghiện ma túy vừa và nặng trong dân
số thứ 1 bằng 0,50 và trong dân số thứ hai bằng 0,33. Tính xác suất tìm thấy


21
ˆˆ
pp  lớn bằng hoặc lớn hơn 0,30 ?
Giả định là phân phối mẫu của


21
ˆˆ
pp  là phân phối gần như bình thường
với

17,033,050,0
ˆˆ
21




pp

004711,0
100
50,050,0
100
67,033,0
ˆˆ
2
21







pp


Phần diện tích tương ứng với xác suất cần tìm là diện tích nằm dưới đường
cong


21
ˆˆ
pp  về phía bên trái của 0,30.
89,1

004711,0
17,030,0
)1()1(
)()
ˆˆ
(
2
22
1
11
2121








n
pp
n
pp
pppp
z
Tra bảng tìm thấy diện tích nằm dưới đường cong phân phối bình thường
chuẩn ở phía bên phải của 1,89 bằng 1 - 0,9706 = 0,0294. Xác suất để tìm thấy
một hiệu lớn hơn hoặc lớn bằng 0,30 là 2,94%.




×