VẤN ĐỀ MẪU KHẢO SÁT
(mẫu ngẫu nhiên)
Tổng thể
Các thành phần
Tổng thể
Đơn vị chọn mẫu
Khung mẫu
NHỮNG CƠ SỞ CỦA LÝ THUYẾT CHỌN MẪU
Các mục tiêu của nghiên cứu Mức độ chính xác
Nguồn lực Khung thời gian
Kiến thức về tổng thể
Phạm vị nghiên cứu
Các nhu cầu phân tích thống kê
CÁC YẾU TỐ CẦN CÂN NHẮC KHI THIẾT KẾ MẪU
Tổng thể điều tra là gì?
Tổng thể (population of interest) là toàn bộ các khách
thể/đơn vị nghiên cứu.
Mỗi nghiên cứu có thể có tổng thể khác nhau hoặc trùng
nhau. Thí dụ: sinh viên, nông dân, cư dân đô thị v.v.
Các tổng thể có độ phức tạp/tính thuần nhất khác nhau
Dung lượng/kích thước/qui mô tổng thể thường được ký
hiệu bằng chữ N
Tổng thể nghiên cứu hoàn toàn phụ thuộc vào vấn đề
nghiên cứu, thiết kế nghiên cứu, vấn đề quản lý
Một số cơ sở để xác định tổng thể là:
Khu vực địa lý
Đặc điểm nhân khẩu
Lối sống/tập quán
Sự nhận thức
Mẫu điều tra là gì
Là một phần của tổng
thể (tập con – subset)
đươc lựa chọn ra theo
một cách nhất định
Thông tin thu được từ
mẫu trong nghiên cứu
định lượng được dùng
để suy luận về tông thể
Dung lượng/kích
thước/qui mô mẫu
thưừong được ký hiệu
bằng chữ n
Tổng thể
Mẫu
Tại sao chọn mẫu?
Ít tốn kém kinh phí
Nhanh chóng có kết quả
Tổ chức điều tra, tập huấn
điều tra viên thuận lợi hơn
Chính xác hơn (sai số phi
chọn mẫu nhỏ hơn)
Có thể dùng để tổng hợp
nhanh kết quả tổng điều tra
Định luật
số lớn?
1. Làm rõ tổng thể
2. Làm rõ khung chọn mẫu (nếu có thể)
3. Lựa chọn phương pháp chọn mẫu
4. Tính toán qui mô/kích thước của mẫu
5. Tiến hành việc chọn mẫu
CÁC BƯỚC CỦA CHỌN MẪU
Khung mẫu (sampling frame)
Là cơ sở để chọn mẫu ngẫu nhiên
Là danh sách chứa đựng toàn bộ các
đơn vị nghiên cứu trong tổng thể.
Những yêu cầu đối với khung mẫu
này là:
Đầy đủ
Chính xác
Thích hợp
Các đơn vị trong danh sách không lặp lại
Thuận tiện cho sử dụng
HAI CÂU HỎI THƯỜNG GẶP
1. Điều tra bao nhiêu là đủ? Hoặc điều
tra với số lượng là X đã đủ hay chưa?
2. Cách chọn như thế nào mới là đúng?
ngẫu nhiên là thế nào?
KÍCH THỨC MẪU (SAMPLE SIZE)
Các yếu tố cần suy tính đến
Sai số tối thiểu là bao nhiêu?
Độ tin cậy tối thiểu là bao nhiêu?
Cơ cấu tổng thể có phức tạp không?
Kinh phí khảo sát là bao nhiêu?
Công thức tính qui mô mẫu của
kiểu chọn mẫu lặp
Tính toán tỷ lệ n =
t
2
*p*q
ε
2
Tính toán giá trị trung bình n =
t
2*
δ
2
ε
2
t=1 khi độ tin cậy là 68.2%, t=2 khi độ tin cậy là 95.4% và t=3
khi đô tin cây là 99.7%
Công thức tính qui mô mẫu của
kiểu chọn mẫu không lặp
Tính toán tỷ lệ n =
N*t
2
*p*q
N*ε
2
+t
2
*p*q
Tính toán giá trị trung bình n =
N*t
2*
δ
2
N*ε
2
+t
2*
δ
2
Kính thước mẫu
Sai số mẫu ở mức 95% độ tin cậy
p =
n = 5% 10% 15% 20% 25% 30% 35% 40% 45% 50%
50 6.0% 8.3% 9.9% 11.1% 12.0% 12.7% 13.2% 13.6% 13.8% 13.9%
75 4.9% 6.8% 8.1% 9.1% 9.8% 10.4% 10.8% 11.1% 11.3% 11.3%
100 4.3% 5.9% 7.0% 7.8% 8.5% 9.0% 9.3% 9.6% 9.8% 9.8%
125 3.8% 5.3% 6.3% 7.0% 7.6% 8.0% 8.4% 8.6% 8.7% 8.8%
150 3.5% 4.8% 5.7% 6.4% 6.9% 7.3% 7.6% 7.8% 8.0% 8.0%
175 3.2% 4.4% 5.3% 5.9% 6.4% 6.8% 7.1% 7.3% 7.4% 7.4%
200 3.0% 4.2% 4.9% 5.5% 6.0% 6.4% 6.6% 6.8% 6.9% 6.9%
225 2.8% 3.9% 4.7% 5.2% 5.7% 6.0% 6.2% 6.4% 6.5% 6.5%
250 2.7% 3.7% 4.4% 5.0% 5.4% 5.7% 5.9% 6.1% 6.2% 6.2%
300 2.5% 3.4% 4.0% 4.5% 4.9% 5.2% 5.4% 5.5% 5.6% 5.7%
350 2.3% 3.1% 3.7% 4.2% 4.5% 4.8% 5.0% 5.1% 5.2% 5.2%
400 2.1% 2.9% 3.5% 3.9% 4.2% 4.5% 4.7% 4.8% 4.9% 4.9%
450 2.0% 2.8% 3.3% 3.7% 4.0% 4.2% 4.4% 4.5% 4.6% 4.6%
500 1.9% 2.6% 3.1% 3.5% 3.8% 4.0% 4.2% 4.3% 4.4% 4.4%
600 1.7% 2.4% 2.9% 3.2% 3.5% 3.7% 3.8% 3.9% 4.0% 4.0%
700 1.6% 2.2% 2.6% 3.0% 3.2% 3.4% 3.5% 3.6% 3.7% 3.7%
800 1.5% 2.1% 2.5% 2.8% 3.0% 3.2% 3.3% 3.4% 3.4% 3.5%
900 1.4% 2.0% 2.3% 2.6% 2.8% 3.0% 3.1% 3.2% 3.3% 3.3%
1000 1.4% 1.9% 2.2% 2.5% 2.7% 2.8% 3.0% 3.0% 3.1% 3.1%
1200 1.2% 1.7% 2.0% 2.3% 2.5% 2.6% 2.7% 2.8% 2.8% 2.8%
1250 1.2% 1.7% 2.0% 2.2% 2.4% 2.5% 2.6% 2.7% 2.8% 2.8%
1500 1.1% 1.5% 1.8% 2.0% 2.2% 2.3% 2.4% 2.5% 2.5% 2.5%
1750 1.0% 1.4% 1.7% 1.9% 2.0% 2.1% 2.2% 2.3% 2.3% 2.3%
2000 1.0% 1.3% 1.6% 1.8% 1.9% 2.0% 2.1% 2.1% 2.2% 2.2%
2250 0.9% 1.2% 1.5% 1.7% 1.8% 1.9% 2.0% 2.0% 2.1% 2.1%
2500 0.9% 1.2% 1.4% 1.6% 1.7% 1.8% 1.9% 1.9% 2.0% 2.0%
Bài tập
1. Tính toán dung lượng mẫu cho một
điều tra toàn quốc ở Việt Nam với độ
tin cậy là 95% và 99%, sai số chọn
mẫu là 3%
2. Nếu một xã có 2000 hộ dân, với
khoảng tin cậy là 95% và 99%, sai
số là 3%, cần phải chọn bao nhiêu
Vấn đề mẫu dự trữ
Mẫu dự trữ dùng để bổ sung cho
trường hợp từ chối hoặc vì lý do
khách quan không gặp được đúng
người đã chọn
Kích thước của mẫu dự trữ tuỳ thuộc
vào tổng thể và tỷ lệ rủi ro có thể có
Ở Việt Nam kích thước mẫu dự trữ
khoảng dưới 10% mẫu chính
CÁC CÁCH CHỌN MẪU
Ngẫu nhiên đơn giản (Simple Randon
Sampling)
Ngẫu nhiên hệ thống (Systematic
Sampling)
Phân tầng ngẫu nhiên (Stratified Random
Sampling)
1. theo tỷ lệ (Proportional type)
2. không theo tỷ lệ (Disproportional type)
Mẫu ngẫu nhiên theo cụm (Cluster
sampling)
1. Một giai đoạn
2. nhiều giai đoạn (multistage cluster sampling)
Ngẫu nhiên đơn giản
1. Lập danh sách tổng thể
2. Gán cho mỗi đơn vị của tổng thể một
mã (số thứ tự)
3. Dùng bảng số ngẫu nhiên để chọn đủ
số lượng cần thiết (căn cứ theo số
thứ tự)
Thí dụ một phần của bảng số ngẫu
nhiều (contingency table)
1 2 4 5 6 7 8 9
10097 32533 76520 13586 34673 54876 80959 09117
37542 04805 64894 74296 24805 24037 20636 10402
08422 68953 19645 09303 23209 02560 15953 34764
99019 02529 09376 70715 38311 31165 88676 74397
12807 99970 80157 36147 64032 36653 98951 16877
39292 74945 66065 74717 34072 76850 36697 36170
00822 91665 31060 10805 45571 82406 35303 42614
35080 33606 85269 77602 02051 65692 68665 74818
04436 27659 63573 32135 05325 47048 90553 57548
12171 76833 73796 45753 03529 64778 35808 34282
65813 39885 11199 29170 98520 17767 14905 68607
86799 07439 23403 09732 11805 05431 39808 27732
73053 85247 18623 88579 83452 99634 06288 98083
28468 28709 83491 25624 88635 40200 86507 58401
60935 20344 35273 88435 99594 67348 87517 64969
Ví dụ
Trong một xã có 1700 hộ, cần chọn ngẫu nhiên 16 hộ:
Các hộ này sẽ có số thứ tự từ 0001 cho đến 2000 trong khung
mẫu
Lấy một phần bất kỳ của bảng số ngẫu nhiên để bắt đầu ví dụ
cột thứ 1;
Xem xét các số trong bảng, có thể chọn theo hàng hoặc theo
cột, nếu số nào lớn hơn các số thứ tự trong khung mẫu sẽ bị
loại bỏ, số nào trùng lặp thì chỉ lấy một lần, lấy cho tới khi nào
đủ số lượng mẫu cần chọn thì dừng lại
Trường hợp đầu tiện được chọn có số thứ tự là 0097, tiếp là
0822; 0935; 1665; 0344; 0157; 1060; 1199; 0715; 0805;
1805; 1165 (bỏ); 0200; 0959; 0636; 0553; 0402.
Ưu điểm của mẫu ngẫu nhiên đơn giản
Đảm bảo được tính khách quan
Không đòi hỏi quá nhiều thông tin chi
tiết về tổng thể
Có hiệu quả cao với tổng thể thuần
nhất
Nhược điểm của mẫu ngẫu nhiên đơn giản
Việc lập khung mẫu trong điều kiện
Việt Nam không dễ
Việc dùng bảng số ngẫu nhiên không
phải là cách làm quen thuộc với nhiều
người
Chí phí để lập khung mẫu khá tốn
kém
Ngẫu nhiên hệ thống
1. Lập danh sách tổng thể
2. Gán cho mỗi đơn vị của tổng thể một
mã (số thứ tự)
3. Căn cứ vào kích thước của tổng thể
N và qui mô của mẫu cần chọn n.
Tính khoảng cách/bước chọn k.
4. Trên danh sách tổng thể, bắt đầu từ
một số bất kỳ, cứ 1 khoảng bằng k
chọn 1 đơn vị để nghiên cứu
Bài tập
Một xã có 3000 hộ dân, với sai số
3%, độ tin cậy 95% thì cần phải chọn
điều tra 787 hộ. Hay tính bước chọn
với khối lượng mẫu dự trữ là 10%.
Có thể áp dung cách chọn mẫu này
trong thực tế ở Việt Nam như thế
nào?
Ưu điểm của mẫu ngẫu nhiên hệ thống
Đảm bảo được tính khách quan
Không đòi hỏi quá nhiều thông tin chi
tiết về tổng thể
Có hiệu quả cao với tổng thể thuần
nhất
Dễ áp dụng hơn ngẫu nhiên đơn giản
trong thực tế
Nhược điểm của mẫu ngẫu nhiên hệ thống
Việc lập khung mẫu trong điều kiện
Việt Nam không dễ
Yêu cầu về khung mâu chặc chẽ hơn.
Thí dụ, khung mẫu không được xếp
theo bất kỳ một qui luật nào, thí dụ
theo mức lương.
Chí phí để lập khung mẫu tốn kém
hơn so với ngẫu nhiên đơn giản