Tải bản đầy đủ (.pdf) (99 trang)

Các phương pháp lấy mẫu và xử lý mẫu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (644.49 KB, 99 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Mai Thị Hương

CÁC PHƯƠNG PHÁP LẤY MẪU VÀ XỬ LÝ MẪU

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội - 2013


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Mai Thị Hương

CÁC PHƯƠNG PHÁP LẤY MẪU VÀ XỬ LÝ MẪU

Chuyên ngành: Lý thuyết xác suất và thống kê toán học
Mã số: 60.46.15

LUẬN VĂN THẠC SĨ KHOA HỌC

Người hướng dẫn khoa học:
PGS. TS. Đào Hữu Hồ

Hà Nội - 2013


Mục lục


Lời nói đầu

4

1 Mẫu ngẫu nhiên đơn giản từ một lô hữu hạn phần tử

6

1.1

Định nghĩa và ký hiệu . . . . . . . . . . . . . . . . . . . . . . . .

6

1.2

Tính chất của ước lượng . . . . . . . . . . . . . . . . . . . . . . .

7

1.3

Phương sai của ước lượng . . . . . . . . . . . . . . . . . . . . . .

8

1.4

Ước lượng sai số tiêu chuẩn từ một mẫu . . . . . . . . . . . . . .


11

1.5

Giới hạn tin cậy

. . . . . . . . . . . . . . . . . . . . . . . . . . .

12

1.6

Mẫu ngẫu nhiên có hoàn lại . . . . . . . . . . . . . . . . . . . . .

13

1.7

Ước lượng tỷ số . . . . . . . . . . . . . . . . . . . . . . . . . . . .

13

1.8

Tỷ lệ mẫu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

14

1.9


Ưu điểm và nhược điểm của lấy mẫu ngẫu nhiên đơn giản . . . .

16

2 Lấy mẫu ngẫu nhiên phân tầng và lấy mẫu hệ thống
2.1

19

Lấy mẫu ngẫu nhiên phân tầng . . . . . . . . . . . . . . . . . . .

19

2.1.1

Tính chất ước lượng . . . . . . . . . . . . . . . . . . . . .

20

2.1.2

Phương sai ước lượng và giới hạn tin cậy

. . . . . . . . .

25

2.1.3

Số lượng tối ưu . . . . . . . . . . . . . . . . . . . . . . . .


25

2.1.4

Độ chính xác tương đối giữa mẫu ngẫu nhiên phân tầng
và mẫu ngẫu nhiên đơn giản

. . . . . . . . . . . . . . . .

27

2.1.5

Ước lượng cỡ mẫu với số liệu liên tục . . . . . . . . . . . .

30

2.1.6

Ước lượng mẫu cho tỷ lệ trong mẫu phân tầng . . . . . .

32

2.1.7

Hiệu quả của độ lệch từ số lượng tối ưu . . . . . . . . . .

33


2.1.8

Hiệu quả của sai số theo cỡ tầng . . . . . . . . . . . . . .

35

1


2.1.9
2.2

Ưu điểm và nhược điểm của mẫu ngẫu nhiên phân tầng .

37

Mẫu hệ thống . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

39

2.2.1

Mô tả . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

39

2.2.2

Phương sai của trung bình ước lượng . . . . . . . . . . . .


41

3 Mẫu chùm

48

3.1

Mẫu chùm với các chùm cùng cỡ . . . . . . . . . . . . . . . . . .

49

3.2

Mẫu chùm với các chùm không cùng cỡ . . . . . . . . . . . . . .

52

3.2.1

Mẫu ngẫu nhiên đơn giản của các chùm: Ước lượng không
chệch . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.2.2
3.2.3

Mẫu ngẫu nhiên đơn giản của các chùm: Ước lượng dạng
tỷ số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

52


Lấy mẫu với xác suất tỷ lệ theo cỡ chùm . . . . . . . . . .

53

4 Phương pháp lấy mẫu con và lấy mẫu cặp
4.1

4.2

4.3

52

62

Lấy mẫu con với các tập có cùng cỡ . . . . . . . . . . . . . . . .

62

4.1.1

Lấy mẫu hai giai đoạn . . . . . . . . . . . . . . . . . . . .

62

4.1.2

Trung bình và phương sai trong lấy mẫu hai giai đoạn . .


63

4.1.3

Phương sai của trung bình ước lượng trong lấy mẫu hai
giai đoạn . . . . . . . . . . . . . . . . . . . . . . . . . . .

64

4.1.4

Ước lượng mẫu của phương sai . . . . . . . . . . . . . . .

66

4.1.5

Ước lượng tỷ lệ . . . . . . . . . . . . . . . . . . . . . . . .

67

4.1.6

Cỡ mẫu tối ưu và mẫu con . . . . . . . . . . . . . . . . .

69

4.1.7

Ước lượng của mopt từ cuộc khảo sát thí điểm . . . . . .


71

4.1.8

Kỹ thuật lấy mẫu ba giai đoạn . . . . . . . . . . . . . . .

72

Lấy mẫu con với các tập không cùng cỡ . . . . . . . . . . . . . .

74

4.2.1

Các phương pháp lấy mẫu khi n = 1 . . . . . . . . . . . .

75

4.2.2

Phương pháp lấy mẫu khi n > 1 . . . . . . . . . . . . . .

82

Kỹ thuật lấy mẫu cặp . . . . . . . . . . . . . . . . . . . . . . . .

87

4.3.1


Lấy mẫu cặp phân tầng . . . . . . . . . . . . . . . . . . .

87

4.3.2

Số lượng tối ưu . . . . . . . . . . . . . . . . . . . . . . . .

90

4.3.3

Phương sai ước lượng trong lấy mẫu cặp phân tầng . . . .

91

4.3.4

Ước lượng hồi quy . . . . . . . . . . . . . . . . . . . . . .

92

4.3.5

Ước lượng phương sai trong lấy mẫu cặp hồi quy . . . . .

93

2



Kết luận

95

Tài liệu tham khảo

96

3


LỜI NÓI ĐẦU
Trong nghiên cứu thống kê toán học, mẫu đại diện là thông tin duy nhất
mà nhà thống kê có được, trên cơ sở đó chúng ta phân tích, xử lý, rút ra các kết
luận cần thiết. Do đó việc lấy mẫu không thể thiếu trong nghiên cứu thống kê.
Các điểm chính của lấy mẫu là tạo ra một nhóm nhỏ từ tổng thể mang đầy đủ
các thông tin của tổng thể. Tức là, chúng ta muốn có một nhóm nhỏ giống các
nhóm lớn. Với ý nghĩ đó, một trong những tính năng chúng ta tìm kiếm trong
một mẫu là mức độ đại diện - như thế nào thì rút được mẫu đại diện cho tổng
thể ? Mẫu cần có các tính chất chặt chẽ như thế nào để giống tổng thể?
Lấy mẫu có ưu điểm nổi bật. Đó là giảm chi phí và số liệu được thu thập
nhanh.
- Giảm chi phí: Nó rõ ràng là ít tốn kém vì chỉ nghiên cứu dữ liệu của một
tập con của tổng thể, chứ không phải là toàn bộ tổng thể. Hơn nữa, dữ liệu
được thu thập trong một mẫu được lựa chọn một cách cẩn thận có độ chính
xác cao như toàn bộ tổng thể.
- Tốc độ: việc quan sát thu thập và tóm tắt của một mẫu dễ dàng hơn và
nhanh hơn so với cả tổng thể. Điều tra toàn bộ tổng thể bằng cách liệt kê là

không thực tế hoặc không thể. Như vậy, cuộc điều tra dựa trên mẫu có sự linh
hoạt hơn về các loại thông tin có thể đạt được.
Lấy mẫu được ứng dụng rộng rãi trong tất cả các lĩnh vực khoa học và xã
hội mà có sự nghiên cứu và ứng dụng của thống kê toán học. Ở Việt Nam, lấy
mẫu cũng được sử dụng trong rất nhiều ngành. Song cũng tồn tại một thực tế
rằng không ít trường hợp ở Việt Nam mẫu được lấy ra không đại diện trung
thực và khách quan cho tổng thể, chẳng hạn cả vùng trồng rau Thanh Trì Hà
Nội người ta chỉ lấy một mẫu gồm 3 quan sát để kiểm tra xem có dư thừa độc tố
trong rau hay không, hoặc để kiểm tra an toàn thực phẩm của hoa quả Trung
Quốc nhập qua biên giới phía Bắc, bộ phận kiểm tra chỉ lấy ra 8 quả trong số
hàng chục ngàn quả, v. . . .; Do đó dẫn đến các kết luận trái ngược nhau giữa 2
cơ quan khoa học của thành phố hoặc kết luận trái ngược với thực tế xảy ra.
Bàn về việc lấy mẫu đại diện ở nước ta là việc làm vượt quá tầm và khả
năng của tác giả cũng như vượt ra ngoài khuôn khổ của luận văn này.
Dựa trên cuốn chuyên khảo “Sampling techniques” của William G. Cochran
4


và một số bài báo, một số bình luận, nhận xét trên trang mạng Bách khoa toàn
thư mở (Wikipedia), luận văn “Các phương pháp lấy mẫu và xử lý mẫu”
đã trình bày tổng quan về các phương pháp lấy mẫu đối với một lô (một tổng
thể) gồm hữu hạn phần tử và xử lý thống kê các đại lượng liên quan của lô.
Luận văn gồm 4 chương:
- Chương 1 trình bày các kết quả của mẫu ngẫu nhiên đơn giản từ một lô
gồm hữu hạn phần tử. Các ước lượng, tính chất và phương sai của ước lượng
của trung bình tổng thể, tổng thể, tỷ số. . . Ở chương này đưa ra những khái
niệm cơ bản mà ta sẽ dùng ở các chương tiếp theo như: khái niệm ước lượng
không chệch, tính vững của ước lượng.
- Chương 2 đề cập đến lấy mẫu ngẫu nhiên phân tầng và lấy mẫu hệ thống,
được trình bày theo mạch chính giống như lấy mẫu ngẫu nhiên đơn giản. Ngoài

ra còn có những so sánh giữa mẫu ngẫu nhiên phân tầng và mẫu ngẫu nhiên
đơn giản, mẫu hệ thống với mẫu ngẫu nhiên phân tầng.
- Chương 3 đề cập đến mẫu chùm với các chùm cùng cỡ, không cùng cỡ và
kết hợp giữa mẫu chùm và các mẫu đã đề cập ở hai chương trước.
- Chương 4: Lấy mẫu con và lấy mẫu cặp. Lấy mẫu con đưa ra các kết quả
cho mẫu hai giai đoạn và mẫu ba giai đoạn. Lấy mẫu cặp chỉ đề cập tới mẫu
cặp phân tầng và ước lượng hồi quy.
Qua đây, tác giả xin được bày tỏ lời cảm ơn sâu sắc đến người thầy, người
hướng dẫn luận văn của mình, PGS.TS Đào Hữu Hồ, người đã đưa ra đề tài và
tận tình hướng dẫn trong suốt quá trình làm luận văn của tác giả. Đồng thời
tác giả cũng gửi lời cảm ơn tới những đồng nghiệp, những người bạn đã giúp
đỡ tác giả trong quá trình hoàn thành luận văn.
Do thời gian và trình độ còn hạn chế, chắc chắn bản luận văn không thể
tránh khỏi những thiếu sót, tác giả rất mong được sự chỉ bảo tận tình của các
thầy cô, đồng nghiệp và các bạn, tác giả xin chân thành cảm ơn!
Hà Nội, ngày ... tháng 01 năm 2013
Tác giả

Mai Thị Hương

5


Chương 1

Mẫu ngẫu nhiên đơn giản
từ một lô hữu hạn phần tử
1.1

Định nghĩa và ký hiệu


Lấy mẫu ngẫu nhiên đơn giản là phương pháp chọn ra n phần tử trong số
n
N phần tử sao cho mỗi một mẫu trong CN
mẫu phân biệt có cùng khả năng

được chọn ra. Các phần tử trong tổng thể được đánh số từ 1 đến N . Khi đó
dãy các số ngẫu nhiên từ 1 tới N được rút ra từ bảng số ngẫu nhiên hoặc từ
chương trình máy tính tạo ra một bảng như thế.
n
Dễ dàng thấy rằng tất cả CN
mẫu phân biệt đều có cùng khả năng được

chọn ra theo phương pháp này. Thực vậy, ta xét một mẫu, đó là một tập gồm n
phần tử đã được ấn định. Ở lần rút đầu tiên, xác suất để phần tử nào đó trong
n
n phần tử trên được chọn sẽ là . Ở lần rút thứ hai xác suất để phần tử nào
N
n−1
đó trong (n − 1) phần tử ấn định còn lại được rút ra sẽ là
, ... Do đó xác
N −1
suất để tất cả n phần tử ấn định được lựa chọn sau n lần rút sẽ là
n n−1 n−2
1
n! (N − n)!
1
·
·
····

=
= n.
N N −1 N −2
N −n+1
N!
CN
Bởi vì các phần tử đã được rút ra sẽ không trả lại tổng thể nên phương pháp
này được gọi là lấy mẫu ngẫu nhiên không hoàn lại.

6


Còn nếu các phần tử được rút ra lại được trả lại tổng thể trước khi thực
hiện lần rút tiếp theo, được gọi là lấy mẫu ngẫu nhiên có hoàn lại. Khi đó trong
mọi lần rút tất cả các phần tử của tổng thể sẽ có khả năng được rút ra như
nhau bất kể là chúng được rút ra hay chưa. Các công thức phương sai và ước
lượng phương sai của ước lượng thường đơn giản hơn khi lấy mẫu hoàn lại so
với khi lấy mẫu không hoàn lại. Với lý do này, lấy mẫu hoàn lại đôi khi được sử
dụng trong các cách lấy mẫu phức tạp hơn lấy mẫu không hoàn lại.
Trong nghiên cứu mẫu ta quan tâm các tính chất nào đó hay một đặc trưng
nào đó và cố gắng đo, ghi lại đối với mỗi phần tử được chọn ra. Các giá trị nhận
được đối với một đặc trưng xác định trong N phần tử của tổng thể được ký
hiệu y1 , y2 , ..., yN . Các giá trị tương ứng đối với các phần tử trong mẫu được ký
hiệu là y1 , y2 , ..., yn .

Tổng thể

Mẫu

N


Tổng: Y =

n

yi = y1 + y2 + . . . + yN

yi = y1 + y2 + . . . + yn

1

1
N

y1 + y2 + . . . + yN
Trung bình: Y¯ =
=
N

n

yi

y1 + y2 + . . . + yn
y¯ =
=
n

1


N

yi
1

n

Trong mục này ta sẽ quan tâm đến ước lượng của ba đại lượng: trung bình
tổng thể Y¯ , tổng của tổng thể (Y ) và tỷ số của 2 tổng hoặc 2 trung bình
¯
tổng thể R = Y /X = Y X
¯ . Để cho gọn các đặc trưng tổng thể ta sẽ gọi là
đặc trưng lý thuyết. Ta dùng ký hiệu “ˆ” để chỉ ước lượng của một đặc trưng
tổng thể được xây dựng từ mẫu.
Ước lượng
¯ = y¯ =Trung bình mẫu


Trung bình lý thuyết: Y¯

Yˆ = N y¯ = N

Tổng lý thuyết: Y

n

yi

n


1

ˆ = y¯/¯
R
x=

Tỷ số lý thuyết: R

n

yi
1

1.2

n

xi
1

Tính chất của ước lượng

Trong luận văn này, một phương pháp ước lượng được gọi là vững nếu ước
lượng đó chính bằng giá trị tổng thể khi n = N , nghĩa là khi mẫu bao gồm
7


toàn bộ tổng thể.
Với mẫu ngẫu nhiên đơn giản rõ ràng y¯ và N y¯ tương ứng là ước lượng vững
của trung bình lý thuyết và tổng lý thuyết. Một phương pháp ước lượng là

không chệch nếu giá trị trung bình của ước lượng lấy trên toàn bộ các mẫu có
thể, chính xác bằng giá trị tổng thể chân thực. Dùng E để ký hiệu cho trung
bình trên tất cả các mẫu có thể có.
Định lý 1.1. Trung bình mẫu y¯ là ước lượng không chệch của Y¯ .
Chứng minh. Theo định nghĩa ta có:
E y¯ =


n
CN

=

(y1 + y2 + .... + yn )
,
n [N !/n! (N − n)!]

(1.1)

n
trong đó tổng được lấy trên tất cả CN
mẫu. Để ước lượng tổng này, ta phải chỉ

ra có bao nhiêu mẫu có xuất hiện giá trị yi xác định. Vì có (N − 1) phần tử
khác nhau chứa tất cả các phần tử còn lại của mẫu và (n − 1) vị trí khác để lấp
đầy mẫu, số mẫu chứa yi là
n−1
CN
−1 =


(N − 1)!
.
(n − 1)! (N − n)!

Do đó
(y1 + y2 + .... + yn ) =

(N − 1)!
(y1 + y2 + .... + yN ) .
(n − 1)! (N − n)!

Từ (1.1) suy ra
n! (N − n)!
(N − 1)!
·
(y1 + y2 + .... + yN )
(n − 1)! (N − n)!
n.N !
(y1 + y2 + .... + yN )
=
= Y¯ .
N

E y¯ =

Định lý được chứng minh.
Hệ quả 1.2. Y = N y¯ là ước lượng không chệch của tổng lý thuyết Y .

1.3


Phương sai của ước lượng

Phương sai của yi trong một tổng thể hữu hạn thường được xác định như
sau:

N

σ2 =

yi − Y¯

1

N
8

2

,

(1.2)


hoặc
N

yi − Y¯

1


S2 =

N −1

2

.

(1.3)

Định lý 1.3. Phương sai của trung bình mẫu y¯ là
V (¯
y ) = E y¯ − Y¯

2

S2
S 2 (N − n)
·
=
(1 − f ) ,
=
n
N
n

(1.4)

trong đó f = n/N là tỷ suất lấy mẫu.
Chứng minh.

n y¯ − Y¯ = y1 − Y¯ + y2 − Y¯ + .... + yn − Y¯ .

(1.5)

Sử dụng cách chứng minh đối xứng đã sử dụng, ta suy ra rằng:
E

2

y1 − Y¯

+ .... + yn − Y¯

2

=

n
N

y1 − Y¯

2

+ .... + yN − Y¯

2

. (1.6)


Và ta cũng có:
y1 − Y¯

E
=

y2 − Y¯ + y1 − Y¯

n (n − 1)
N (N − 1)

y1 − Y¯

y3 − Y¯ + .... + yn−1 − Y¯

y2 − Y¯ + .... + yN −1 − Y¯

yN − Y¯

yn − Y¯
.

(1.7)

Trong (1.7) các tổng của các tích được lấy theo tất cả các cặp phần tử trong
mẫu và trong tổng thể tương ứng. Tổng của vế trái bao gồm n(n − 1)/2 số hạng
và tổng của vế phải bao gồm N (N − 1)/2 số hạng. Bình phương (1.5) và lấy
trung bình trên toàn bộ mẫu ngẫu nhiên đơn giản. Sử dụng (1.6) và (1.7) ta
thu được
n2 E y¯ − Y¯


2

n
2
2
= { y1 − Y¯ + .... + yN − Y¯
N
2 (n − 1)
+
y1 − Y¯ y2 − Y¯ + .... + yN −1 − Y¯
N −1

=

n
n−1
2
{ 1−
y1 − Y¯ + .... + yN − Y¯
N
N −1
n−1
2
y1 − Y¯ + .... + yN − Y¯ }.
+
N −1
N

Số hạng thứ 2 có giá trị bằng 0 vì


yN − Y¯

2

yi = N Y¯ . Chia cho n2 ta được:

1

V (¯
y ) = E y¯ − Y¯

2

N −n
=
nN (N − 1)
9

N

yi − Y¯
i=1

2

=

S 2 (N − n)
.

n
N

}


Định lý được chứng minh.
Hệ quả 1.4. Sai số của tiêu chuẩn y¯ là
S
σy¯ = √
n

S
(N − n)/N = √
n

1 − f.

(1.8)

Hệ quả 1.5. Phương sai của Y = N y¯ là
V Yˆ

= E Yˆ − Y

2

=

N 2S2 N − n

N 2S2
=
(1 − f ) .
n
N
n

(1.9)

Hệ quả 1.6. Sai số tiêu chuẩn của Y là
NS
σYˆ = √
n

NS
(N − n)/N = √
n

1 − f.

(1.10)

Nhận xét 1.7. Đối với mẫu ngẫu nhiên đơn giản cỡ n từ một tổng thể vô hạn,
σ2
¯
như ta đã biết DX =
. Nhưng khi tổng thể gồm hữu hạn phần tử thì xuất
n
N −n
N −n

N −n
. Thừa số
đối với phương sai và
đối
hiện một thừa số
N
N
N
với sai số tiêu chuẩn được gọi là sự hiệu chỉnh lô hữu hạn.
Định lý 1.8. Nếu yi , xi là một cặp của các biến được xác định trên mỗi phần
tử trong tổng thể và y¯, x
¯ là trung bình tương ứng của một mẫu ngẫu nhiên đơn
giản cỡ n thì covarian của chúng là
E y¯ − Y¯

¯ = N −n 1
x
¯−X
nN N − 1

N

yi − Y¯

¯ .
xi − X

(1.11)

i=1


Nếu yi = xi trong mọi thành phần thì ta thu được định lý 1.3.
Chứng minh. Áp dụng định lý 1.3 cho biến ui = yi + xi , trung bình lý thuyết
¯ = Y¯ + X,
¯ ta được:
của ui là U
¯
E u
¯−U

2

N −n 1
=
nN N − 1

N

¯
ui − U

2

,

i=1

tức là
¯
E y¯ − Y¯ + x

¯−X

2

N −1 1
=
nN N − 1
10

N

¯
yi − Y¯ + xi − X
i=1

2

.

(1.12)


Khai triển các số hạng bình phương trong cả 2 vế, áp dụng định lý 1.3, ta có:
E y¯ − Y¯

2

N −n 1
=
nN N − 1


N

yi − Y¯

2

.

i=1

2

¯ . Do đó 2 số hạng này triệt tiêu ở vế trái và vế phải
Tương tự với E x
¯−X
của (1.12). Điều này dẫn đến kết quả của định lý (hệ thức (1.11)).

1.4

Ước lượng sai số tiêu chuẩn từ một mẫu
n

(yi − y¯)
Định lý 1.9. Với mẫu ngẫu nhiên đơn giản, s2 =
N

không chệch của S 2 =

yi − Y¯


2

1

n−1

là ước lượng

2

1

N −1

.

Chứng minh. Ta có thể viết
1
s =
n−1

n

yi − Y¯ − y¯ − Y¯

2

=


1
n−1

2

i=1
n

yi − Y¯

2

− n y¯ − Y¯

2

.

i=1

Lấy trung bình trên toàn bộ các mẫu ngẫu nhiên đơn giản cỡ n. Bằng cách
chứng minh đối xứng sử dụng trong định lý 1.3 và áp dụng (1.6) dẫn đến
n

yi − Y¯

E
i=1

2


n
=
N

N

yi − Y¯

2

=

i=1

n (N − 1) 2
S ,
N

(theo định nghĩa của S 2 ). Hơn nữa, sử dụng định lý 1.3, ta được:
E n y¯ − Y¯
Do đó
E s2 =

2

=

N −n 2
S .

N

S2
[n (N − 1) − (N − n)] = S 2 .
(n − 1) N

Định lý được chứng minh.

11


Hệ quả 1.10. Ước lượng không chệch của phương sai của y¯ và Y = N y¯ là

v Yˆ

s2
n

N −n
s2
=
(1 − f )
N
n
N 2 s2 N − n
N 2 s2
= s2Yˆ =
=
(1 − f ) .
n

N
n

v (¯
y ) = s2y¯ =

Với sai số tiêu chuẩn ta có
s
sy¯ = √
n

Ns
1 − f , sYˆ = √
n

1 − f.

Xin lưu ý ký hiệu được dùng để chỉ phương sai thực và phương sai ước lượng
của ước lượng. Chẳng hạn với y¯ ta viết
Phương sai chân thực: V (¯
y ) = σy2¯.
Phương sai ước lượng: v (¯
y ) = s2y¯.

1.5

Giới hạn tin cậy

Giả sử các ước lượng y¯ và Y có phân phối chuẩn với các giá trị tổng thể
tương ứng. Giới hạn tin cậy trên và dưới cho trung bình lý thuyết và tổng lý

thuyết được cho như sau: Trung bình:
Yˆ L = y¯ −

u

α
s
√2
n

1 − f , Yˆ U = y¯ +

u

α
s
√2
n

1 − f.

Tổng:
YˆL = N y¯ −

u

α
Ns
2


n

1 − f , YˆU = N y¯ +

u

α
Ns
2

n

1 − f.

α
là giá trị của độ lệch chuẩn tương ứng với xác suất tin cậy
2
(1 − α) chẳng hạn u(0, 05) = 1, 64, u(0, 025) = 1, 96.
α
Nếu cỡ mẫu nhỏ hơn 50, các giá trị u
có thể lấy từ bảng phân phối
2
student t với (n − 1) bậc tự do, đây là bậc tự do trong ước lượng phương sai
Trong đó: u

s2 . Phân phối t được thỏa mãn một cách chính xác khi các quan sát yi có phân
phối chuẩn và N vô hạn.

12



1.6

Mẫu ngẫu nhiên có hoàn lại

Một cách tiếp cận tương tự áp dụng khi lấy mẫu có hoàn lại. Trong trường
hợp này phần tử thứ i có thể xuất hiện 0, 1, 2, ..., n lần trong mẫu. Đặt ti là số
lần phần tử thứ i xuất hiện trong mẫu. Khi đó
1
y¯ =
n

N

ti yi .

(1.13)

i=1

1
trong mỗi lần rút nên biến ti có
N
1
phân phối nhị thức của số lần thành công trong n phép thử với p =
. Do đó
N
Vì xác suất để phần tử thứ i được rút ra là

E (ti ) =


n
, V (ti ) = n
N

1
N

1−

1
N

.

(1.14)

Đồng thời các biến ti lại tuân theo phân phối đa thức, nên:
Cov (ti tj ) =

−n
.
N2

(1.15)

Sử dụng (1.13),(1.14),(1.15) với mẫu ngẫu nhiên hoàn lại, ta có:


N

N
n 
1
n (N − 1)
yi2

2
y
y
V (¯
y) = 2 
i
j
n i=1
N2
N2
i1
=
nN

1.7

N

yi − Y¯

2

i=1


=

σ2
N − 1 S2
=
.
n
N n

(1.16)

(1.17)

Ước lượng tỷ số

ˆ = y¯ .
Tỷ lệ lý thuyết R - Ước lượng cho nó R
x
¯
Định lý 1.11. Nếu các biến yi , xi được đo trên mỗi phần tử của mẫu ngẫu nhiên
đơn giản cỡ n, giả thiết n đủ lớn, thì sai số bình phương trung bình (MSE) và
ˆ = y¯ có xấp xỉ
phương sai của R
x
¯
N

ˆ ≈V R
ˆ ≈ 1−f

M SE R
¯2
nX

2

(yi − Rxi )
i=1

N −1

,

¯ là tỷ số của các trung bình lý thuyết và f = n/N .
trong đó R = Y¯ X
13

(1.18)


Chứng minh.

x
ˆ − R = y¯ − R = y¯ − R¯
.
(1.19)
R
x
¯
x

¯
¯ . Để tránh phải làm việc
Nếu n lớn thì x
¯ sẽ không khác quá nhiều so với X

với phân phối của tỷ số của 2 biến ngẫu nhiên (¯
y − R¯
x) và x
¯ , chúng ta thay
¯ ở mẫu số của (1.19) như một xấp xỉ, ta được:
thế x
¯ bằng X
x
ˆ − R ≈ y¯ − R¯
R
¯ .
X

(1.20)

Lấy trung bình trên tất cả các mẫu ngẫu nhiên đơn giản cỡ n,
¯
y − R¯
x)
Y¯ − RX
ˆ − R ≈ E (¯
E R
=
= 0,
¯

¯
X
X
¯ Chứng tỏ rằng R là ước lượng không chệch của R. Từ (1.20) ta
vì R = Y¯ X.
thu được kết quả sau:
ˆ−R
ˆ =E R
M SE R

2

1
2
≈ ¯ 2 E(¯
y − R¯
x) ,
X

(1.21)

trong đó y¯ − R¯
x là trung bình mẫu của biến di = yi − Rxi có trung bình lý
¯ = Y¯ − RX
¯ = 0. Do đó ta có thể tìm V R
ˆ bằng việc áp dụng định
thuyết D
lý 1.3 cho phương sai của trung bình của mẫu ngẫu nhiên đơn giản đối với biến
¯ 2 , dẫn đến,
di và chia cho X

1
1 Sd2
2
ˆ
V R ≈ ¯ 2 E(¯
y − R¯
x) = ¯ 2
(1 − f )
X
X n
N

=

1−f
¯2
nX

¯
di − D

N

2

i=1

N −1

=


1−f
¯2
nX

(1.22)
2

(yi − Rxi )
i=1

N −1

.

(1.23)

Định lý đã được chứng minh.

1.8

Tỷ lệ mẫu

Đôi khi ta mong muốn ước lượng tổng số, tỷ lệ hoặc phần trăm của các phần
tử trong tổng thể có một vài đặc điểm nào đó hoặc thuộc tính nào đó. Giả thiết
rằng mọi phần tử trong tổng thể thuộc một trong hai lớp C và C .
Số phần tử thuộc C của tổng thể là A.
Số phần tử thuộc C của mẫu là a.
14



A
Khi đó: Tỷ lệ lý thuyết các phần tử trong C là P = .
N
a
Tỷ lệ mẫu các phần tử trong C là p = .
n
Ước lượng mẫu của P là p và ước lượng mẫu của A là N p hoặc N a/n.
Để đơn giản, ta đưa về áp dụng kết quả ở phần trên. Với bất kỳ phần tử nào
trong mẫu hoặc tổng thể, ta xác định yi bằng 1 nếu phần tử trong C và bằng
0 nếu nó trong C . Rõ ràng,
N
N

Y =

n

yi
Y¯ =

yi = A,
1

1

N

A
=

= P, y¯ =
N

yi
1

n

=

a
= p.
n

Ước lượng A và P được quan tâm như ước lượng tổng và trung bình của
tổng thể mà mỗi yi bằng 1 hoặc 0. Để sử dụng định lý ở phần 1.1, đầu tiên ta
biểu diễn S 2 và s2 theo thuật ngữ P và p. Chú ý rằng
N

N

yi2

yi2 = a = np.

= A = NP;

1

1


Do đó
N

S2 =

N

(yi − Y )2

1

1

=

yi2 − N Y

2

N −1
N −1
1
N
=
(N P − N P 2 ) =
P Q,
N −1
N −1


(1.24)

ở đó Q = 1 − P . Tương tự
n

2

(yi − y¯)
1

s2 =

=

n−1

n
pq.
n−1

(1.25)

Áp dụng định lý 1.1, 1.3 và 1.9 cho tổng thể này đưa đến các kết quả dưới
đây cho phương sai của các ước lượng mẫu p và A = N p đối với mẫu ngẫu nhiên
đơn giản đối với các phần tử đã được phân loại.
Định lý 1.12. Tỷ lệ lấy mẫu p = a/n là ước lượng không chệch của tỷ lệ tổng
thể P = A/N .
Định lý 1.13. Phương sai của p là
S2
V (p) = E(p − P ) =

n
2

N −n
N
15

=

PQ
n

N −n
N −1

.

(1.26)


Hệ quả 1.14. Phương sai của A = N p (ước lượng cho tổng số các thành phần
trong lớp C ) là
N 2P Q
V Aˆ =
n

N −n
N −1

.


(1.27)

Định lý 1.15. Ước lượng không chệch của phương sai của p
v (p) = s2p =

N −n
pq.
(n − 1) N

(1.28)

Chứng minh. Theo hệ quả của định lý 1.9 chỉ ra rằng với biến yi ước lượng
không chệch của phương sai của trung bình mẫu y¯ là
v (¯
y) =

s2
n

N −n
N

Với tỷ lệ, P thay thế cho y¯ , và trong (1.25) ta có
s2 =

n
pq.
n−1


Do đó
v (p) = s2p =

N −n
pq.
(n − 1) N

Hệ quả 1.16. Ước lượng không chệch của phương sai của A = N p , (ước lượng
cho tổng số các phần tử thuộc C trong tổng thể) là
N (N − n)
v Aˆ = s2Np =
pq.
n−1

1.9

Ưu điểm và nhược điểm của lấy mẫu ngẫu
nhiên đơn giản

Trước tiên ta đề cập tới việc lấy mẫu theo xác suất và lấy mẫu không theo
xác suất. Mẫu xác suất là mẫu mà mọi phần tử trong lô có khả năng dương
được chọn và xác suất này có thể được xác định một cách chính xác.
Chẳng hạn ta muốn ước lượng tổng thu nhập của tất cả người trưởng thành
sống trong một phố. Ta thăm từng nhà trong phố, đồng nhất tất cả người lớn
sống ở đó và chọn ngẫu nhiên một người lớn từ mỗi nhà. (Ta có thể đặt tương
16


ứng mỗi một người với một số ngẫu nhiên được sinh ra từ phân phối đều trên
(0, 1) và sẽ chọn người nào ứng với số lớn nhất trong mỗi nhà). Sau đó ta phỏng

vấn người được chọn để biết thu nhập của họ. Cá nhân sống độc thân thì chắc
chắn được chọn, do đó ta cộng thu nhập của họ vào ước lượng tổng của chúng
ta. Nhưng cá nhân sống trong một nhà gồm 2 người lớn thì chỉ có một trong
hai người được chọn. Khi đó ta sẽ tính thu nhập của người được chọn lên 2 lần
trong tổng của ta.
Trong ví dụ trên không phải mọi người có xác suất chọn như nhau. Mẫu
trên gọi là mẫu xác suất chính là do xác suất của mỗi cá nhân đã được biết.
Khi mọi phần tử trong lô có cùng xác suất chọn thì ta nói là mẫu xác suất chọn
như nhau.
Mẫu xác suất sẽ được dùng trong các loại lấy mẫu mà ta xét trong luận văn
này.
Mẫu không xác suất là cách lấy mẫu mà sẽ có một số phần tử của lô sẽ
không có khả năng được chọn hoặc xác suất chọn có thể không được xác định
chính xác. Vì việc chọn các phần tử là không ngẫu nhiên nên mẫu không xác
suất không cho phép ta ước lượng sai số lấy mẫu. Chẳng hạn ta ghé thăm từng
nhà trong một phố và sẽ phỏng vấn người đầu tiên trả lời ở cửa ra vào. Khi đó
trong một nhà có nhiều người ở thì đây là mẫu không xác suất, bởi vì người trả
lời ở cửa có thể là người thất nghiệp, và việc tính các xác suất này cũng không
thực tế. Mẫu không xác suất bao gồm các mẫu tình cờ, mẫu hạn ngạch, mẫu
chủ tâm. . .
Trở lại mẫu ngẫu nhiên đơn giản với cỡ đã cho, mỗi phần tử sẽ có cùng xác
suất chọn. Điều đó làm giảm độ chệch và đơn giản việc phân tích kết quả. Đặc
biệt phương sai giữa các kết quả riêng biệt trong mẫu là một chỉ số tốt của
phương sai toàn lô.
Tuy nhiên mẫu ngẫu nhiên đơn giản có thể làm tổn thương tới sai số mẫu
bởi vì tính ngẫu nhiên của việc lựa chọn ở trong mẫu không phản ánh cấu thành
của lô. Chẳng hạn mẫu ngẫu nhiên đơn giản gồm 10 người từ một làng cho trước
về trung bình sẽ là 5 nam, 5 nữ, nhưng một mẫu nào đó có thể cho quá nhiều
giới tính này và lại quá ít giới tính khác. Khi đó kỹ thuật lấy mẫu hệ thống và
phân tầng ở chương sau sẽ giúp ta có mẫu có tính đại diện tốt hơn.

Mẫu ngẫu nhiên đơn giản cũng có thể chậm và không hiệu quả, chán ngắt

17


vì quá dài khi mẫu được lấy từ lô lớn. Khi đó ta cần các nhóm con của lô. Mẫu
ngẫu nhiên đơn giản không làm được điều đó và mẫu phân tầng sẽ khắc phục
điểm yếu này của mẫu ngẫu nhiên đơn giản.
Mẫu ngẫu nhiên đơn giản luôn là mẫu với xác suất chọn như nhau, nhưng
điều ngược lại không phải luôn đúng.

18


Chương 2

Lấy mẫu ngẫu nhiên phân
tầng và lấy mẫu hệ thống
2.1

Lấy mẫu ngẫu nhiên phân tầng

Trong mẫu phân tầng, tổng thể nghiên cứu của N phần tử đầu tiên được
chia thành các tập con gồm N1 , N2 , ..., NL phần tử không trùng lặp sao cho:
N1 + N2 + ... + NL = N.
Các tập con được gọi là tầng. Để nhận được lợi ích đầy đủ từ việc phân tầng
thì các giá trị Nh cần phải được biết. Khi tầng đã được xác định thì mẫu được
rút ra từ mỗi tầng và việc lấy mẫu là độc lập với nhau đối với các tầng. Cỡ mẫu
trong tầng được ký hiệu bởi n1 , n2 , ..., nL tương ứng.
Nếu mỗi tầng lấy ra một mẫu ngẫu nhiên đơn giản thì tất cả các mẫu đó

được gọi là mẫu ngẫu nhiên phân tầng.
Ta ký hiệu chỉ số dưới h để chỉ tầng, chỉ số dưới i để chỉ phần tử trong tầng.
Sự mở rộng tự nhiên của các ký hiệu ở chương 1 sẽ được dùng, ngoài ra các ký
hiệu sau dùng cho tầng thứ h.
Nh :

Tổng số các phần tử

nh :

Số các phần tử trong mẫu

19


yhi :

Giá trị nhận được đối với phần tử thứ i

Nh
:
N
nh
fh =
:
Nh
Wh =

Trọng số tầng
Tỷ suất lấy mẫu trong tầng


Nh

yhi
Yh =

i=1

Nh

:

Trung bình chân thực

:

Trung bình mẫu

nh

yhi
yh =

i=1

nh
Nh

Sh2 =


2.1.1

(yhi − Y h )2

i=1

Nh − 1

:

Phương sai chân thực

Tính chất ước lượng

Để ước lượng cho trung bình tổng thể trong mẫu phân tầng ta dùng y st (st
là viết tắt của stratified)
L

Nh y h
y st =

h=1

N

L

=

Wh y h với N = N1 + N2 + ... + NL .

h=1

Ước lượng y st nói chung không phải là trung bình mẫu y:
L

nh y h
y=

h=1

n

.

nh
Nh
nh
n
=
hoặc
=
hoặc fh = f
n
N
Nh
N
với mọi h. Điều này có nghĩa là tỷ suất lấy mẫu giống nhau trong tất cả các
Hiển nhiên ta thấy y trùng với y st khi

tầng. Sự phân tầng này được mô tả như là sự phân tầng với số lượng nh tỷ lệ.

Nó đưa đến một mẫu có trọng số riêng. Nếu thực hiện ước lượng bằng số thì
một mẫu có trọng số riêng sẽ tiết kiệm thời gian.
Các tính chất của ước lượng y st được đưa ra trong các định lý dưới đây.
Định lý 2.1. Nếu trong mọi tầng ước lượng mẫu y h là không chệch thì y st là
ước lượng không chệch của kỳ vọng lý thuyết Y .
20


Chứng minh.
L

L

E(y st ) = E

Wh y h =

Wh Y h ,

h=1

h=1

vì ước lượng y h không chệch trong mọi tầng. Mà
Nh

L

L


Nh Y h

yhi
Y =

h=1 i=1

=

N

h=1

L

Wh Y h .

=

N

h=1

Định lý được chứng minh.
Định lý 2.2. Nếu các mẫu được thực hiện hoàn toàn độc lập trong các tầng
khác nhau thì:

L

Wh2 V (y h ),


V (y st ) =

(2.1)

h=1

trong đó: V (y st ) là phương sai của y h trên những mẫu lặp từ tầng h.
Chứng minh. Vì
L

y st =

Wh y h ,

(2.2)

h=1

y st là hàm tuyến tính của y h với trọng số cố định Wh . Áp dụng kết quả trong
thống kê cho phương sai một hàm tuyến tính.
L

L

Wh2 V

V (y st ) =

L


(y h ) + 2

h=1

Wh Wj cov(y h y j ).
h=1 j>h

Do các mẫu xác định độc lập trong các tầng khác nhau nên tất cả các số hạng
hiệp phương sai đều triệt tiêu. Điều này dẫn đến kết quả (2.1).
Như vậy định lý 2.1 và 2.2 khẳng định: Nếu y h là ước lượng không chệch
của Y h trong mọi tầng, và việc lấy mẫu trong các tầng độc lập nhau thì y st là
L

ước lượng không chệch của Y với phương sai là
h=1

Wh2 V (y h ).

Định lý 2.3. Với mẫu ngẫu nhiên phân tầng, phương sai của ước lượng y st ,
1
V (y st ) = 2
N

L

h=1

Sh2
Nh (Nh − nh )

=
nh

21

L

h=1

2
2 Sh
Wh (1
nh

− fh ).

(2.3)


Chứng minh. Theo định lý 1.3 áp dụng cho từng tầng riêng lẻ,
Sh2 Nh − nh
·
.
nh
Nh

V (y h ) =

Vì y h là ước lượng không chệch của Y h nên thế vào kết quả của định lý 2.2, ta
thu được:

1
V (y st ) = 2
N

L

Nh2 V
h=1

1
(y h ) = 2
N

L

h=1

S2
Nh (Nh − nh ) h =
nh

L

Wh2
h=1

Sh2
(1 − fh ).
nh


Chứng minh được hoàn thành.
Hệ quả 2.4. Nếu tỷ suất lấy mẫu nh /Nh bỏ qua được trong tất cả các tầng thì
1
V (y st ) = 2
N

L

h=1

Nh2 Sh2
=
nh

Hệ quả 2.5. Với số lượng tỷ lệ, ta thay nh =
L

V (y st ) =
h=1

Nh Sh2
N n

N −n
N

L

h=1


Wh2 Sh2
.
nh

(2.4)

nNh
trong (2.3) thì
N

1−f
=
n

L

Wh Sh2 .

(2.5)

h=1

Hệ quả 2.6. Nếu mẫu là tỷ lệ và phương sai trong tất cả các tầng có giá trị
2
, ta thu được kết quả đơn giản sau:
giống nhau, Sw
2
Sw
V (y st ) =
n


N −n
N

.

(2.6)

Định lý 2.7. Nếu Yˆst = N y st là ước lượng của tổng lý thuyết Y , khi đó
V (Yˆst ) =

Sh2
Nh (Nh − nh ) .
nh

(2.7)

Điều này suy ra ngay từ định lý 2.3.
Ví dụ 2.8. Bảng 2.1 đưa ra số dân của 64 thành phố lớn ở Mỹ vào năm 1920
và 1930. Số liệu thu được bằng cách lấy các thành phố theo thứ tự từ 5 đến 68
ở Mỹ (theo tổng số dân cư năm 1920).
Các thành phố được sắp xếp trong 2 tầng, tầng đầu tiên gồm 16 thành phố
lớn nhất và tầng thứ hai gồm 48 thành phố còn lại.
Tổng số dân trong tất cả 64 thành phố trong năm 1930 được ước lượng từ
một mẫu cỡ 24. Tìm sai số tiêu chuẩn của ước lượng tổng đối với:
22


1) Một mẫu ngẫu nhiên đơn giản.
2) Một mẫu ngẫu nhiên phân tầng với số lượng tỷ lệ.

3) Một mẫu ngẫu nhiên phân tầng với 12 phần tử được rút ra từ mỗi tầng.
Các tổng phân tầng và tổng bình phương được cho dưới đây. Chỉ sử dụng số
liệu năm 1930 trong ví dụ này, số liệu năm 1920 được sử dụng trong ví dụ sau.
Tổng thể đầy đủ trong năm 1930, ta được:
S 2 = 52.448.

Y = 19.568,

Chú ý 2.9. Các thành phố được sắp xếp theo thứ tự giống nhau trong cả 2
năm.
Ba ước lượng của Y ký hiệu là: Yˆran , Yˆprop và Yˆequal .
1. Với mẫu ngẫu nhiên đơn giản:
N 2S2 N − n
(64)2 (52.448)
ˆ
V (Yran ) =
·
=
n
N
24

40
64

= 5.594.453.

Từ hệ quả 1.6 của định lý 1.3 sai số tiêu chuẩn là:
σ(Yˆran ) = 2365.
2. Với các tầng riêng lẻ phương sai là: S12 = 53.843, S22 = 5581. (Để ý rằng

tầng với các thành phố lớn nhất có phương sai gần gấp 10 lần tầng kia).
Trong số lượng tỷ lệ, ta có n1 = 6, n2 = 18. Từ (2.5), nhân với N 2 ta có:
N −n
V (Yˆprop ) =
Nh Sh2
n
40
=
[(16)(52.448) + (48)(5581)] = 1.882.293.
24
σ(Yˆprop ) = 1372.
3. Với n1 = n2 = 12 ta sử dụng công thức tổng quát (2.7):
Sh2
Nh (Nh − n)
nh
(16)(4)(53.843) (48)(36)(5581)
=
+
= 1.090.827.
12
12
σ(Yˆequal ) = 1044.

V (Yˆequal ) =

Trong ví dụ này mẫu có cùng cỡ như nhau trong 2 tầng là chính xác hơn mẫu
số lượng tỷ lệ. Cả hai đều tốt hơn so với lấy mẫu ngẫu nhiên đơn giản.
23



×