Phương pháp chọn mẫu và xác định cỡ mẫu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.03 MB, 27 trang )

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

Bài 6. Phương pháp chọn mẫu và xác định cỡ mẫu
Giới thiệu chương
Chương này tập trung vào chủ đề chọn mẫu và xác định cỡ mẫu cho nghiên cứu. Nội
dung đầu tiên được thảo luận là bản chất của việc chọn mẫu và lý do mà ta phải chọn mẫu
trong quá trình nghiên cứu và các tính chất mà một mẫu tốt cần có. Nội dung kế tiếp trình
bày về các đặc điểm thể hiện tính đúng đắn và tính chính xác để đo lường mức độ hiệu
lực của mẫu. Sau đó, chương hướng dẫn các nguyên tắc cần thiết khi phát triển một kế
hoạch chọn mẫu, chỉ ra hai nhóm kỹ thuật chọn mẫu và các phương pháp cụ thể. Phần
cuối của chương tập trung vào hai phương pháp xác định cỡ mẫu là xác định theo giá trị
trung bình và theo giá trị tỷ lệ.

1. BẢN CHẤT CỦA VIỆC CHỌN MẪU
Chọn mẫu (sampling) là việc chọn lấy một số phần tử của một dân số (population), và từ
đó, có thể rút ra các kết luận về chính dân số đó. Điều này có nghĩa là khi nghiên cứu một
dân số mục tiêu nào đó, ta không nghiên cứu toàn bộ dân số mà chỉ một bộ phận của dân
số, và cách thức mà ta chọn ra bộ phận đó, chính là chọn mẫu.
Mẫu sẽ bao gồm một số phần tử của dân số. Một phần tử của dân số (population element)
là một cá thể của đối tượng nghiên cứu hoặc một cá nhân người tham gia nghiên cứu mà
nhà nghiên cứu sẽ tiến hành các đo lường. Đây chính là đơn vị nghiên cứu (unit of study).
Như vậy, nói ngược lại, một dân số bao gồm tất cả các phần tử của dân số mà ta muốn
nghiên cứu.
Thông thường ta không thực hiện nghiên cứu trên toàn bộ phần tử của dân số. Tuy nhiên,
ở cấp độ quốc gia, đôi khi các nhà nghiên cứu vẫn tiến hành điều tra tổng thể. Một điều
tra tổng thể (census) là một nghiên cứu thực hiện trên tất cả mọi phần tử của dân số.
Khi chọn mẫu, thường ta phải dựa vào khung mẫu. Khung mẫu (sample frame) là một
danh sách chưa đựng các thông tin cơ bản của tất cả các đơn vị nghiên cứu (phần tử của
dân số) mà dựa vào đó chúng ta rút ra mẫu. Khi chuẩn bị chọn mẫu nghiên cứu ta cần
luôn lưu ý là có thể tìm được khung mẫu hay không.
1.1 Tại sao phải lấy mẫu?

Khi thực hiện nghiên cứu, chúng ta rất hiếm khi điều tra tổng thể, vì lý do cơ bản là hết
sức tốn kém và tốn rất nhiều thời gian, công sức. Trong khi đó, nếu chúng ta chỉ điều tra
mẫu, thì có nhiều lợi thế. Thứ nhất, dĩ nhiên là chi phí nghiên cứu thấp. Thứ hai, ta có thể
đạt tốc độ thu thập dữ liệu nhanh mà vẫn đạt được mức chính xác cần có của kết quả.
Cuối cùng là ta có thể dễ dàng có được các đơn vị nghiên cứu sẵn có cho nghiên cứu.

1

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

Chọn mẫu cho phép có chi phí nghiên cứu thấp. Rõ ràng là điều tra nghiên cứu trên một
mẫu nào đó của dân số sẽ có lợi thế về chi phí nhiều hơn là điều tra tổng thể. Điều này là
hiển nhiên.
Chọn mẫu đúng cách vẫn cho phép ta đạt được mức chính xác cần có của kết quả. Thậm
chí chất lượng của một nghiên cứu thực hiện điều tra chọn mẫu hoặc nghiên cứu trên mẫu
vẫn thường đạt kết quả tốt hơn so với thực hiện điều tra tổng thể hoặc nghiên cứu tổng thể
vì nhà nghiên cứu có thể phỏng vấn tốt hơn, điều tra nhiều hơn, sâu hơn về các thông tin
nghi ngờ, sai sót và xử lý thông tin tốt hơn. Chỉ khi nào dân số nghiên cứu quá nhỏ, dễ
tiếp cận, và biến động nhiều thì điều tra tổng thể mới có thể đạt độ chính xác cao hơn điều
tra mẫu.
Chọn mẫu cho phép ta đạt tốc độ thu thập dữ liệu cao hơn. Tốc độ thực hiện nhanh giúp
làm giảm thời gian giữa giai đoạn chuẩn bị các thông tin cần thiết và giai đoạn thu thập
thông tin. Tốc độ thu thập dữ liệu cao cũng có nghĩa là ta có thể hoàn thành việc nghiên
cứu sớm trong phạm vi giới hạn thời gian cho trước.
Tính sẵn có của các phần tử dân số cũng là lợi thế của chọn mẫu. Thông thường, một số
phần tử dân số luôn có sẵn, và chúng ta có thể chọn lựa để thực hiện lấy mẫu để điều tra,
nghiên cứu.
Nếu phải so sánh hiệu quả giữa nghiên cứu chọn mẫu và điều tra tổng thể, ta thấy lợi thế
của điều tra mẫu so với điều tra tổng thể sẽ mất đi nếu dân số nhỏ và có tính biến động

cao. Có hai điều kiện làm cho việc nghiên cứu tổng thể phù hợp hơn: (1) có tính khả thi
khi dân số nhỏ và (2) cần thiết khi mà mỗi cá thể đều rất khác biệt nhau.
1.2 Thế nào là một mẫu tốt?
Nghiên cứu dựa trên mẫu đòi hỏi cách chọn mẫu phải hết sức cẩn trọng để chọn ra được
mẫu tốt. Một mẫu được coi là tốt khi nó có thể đại diện cho các tính chất của dân số mà
nó được rút ra. Nói theo thuật ngữ đo lường, nó phải có tính hiệu lực (validity). Tính hiệu
lực của mẫu tùy thuộc vào hai tính chất: tính đúng đắn (accuracy) và tính chính xác
(precision).
Tính đúng đắn (accuracy) của mẫu là mức độ mà mẫu tránh được các thiên lệch (bias).
Khi mẫu được rút ra đúng cách, thì các các tính chất của một số phần tử nào đó của dân
số sẽ được thể hiện ít hơn mức độ thực có của chúng. Ngược lại, sẽ có một số phần tử
khác sẽ được thể hiện nhiều hơn mức độ thực có của chúng. Kết quả là, các biến số này
của các phần tử sẽ bù trù lẫn nhau, và dẫn đến việc giá trị của mẫu sẽ gần với giá trị của
dân số.
Tuy nhiên, để hiệu quả bù trừ này xảy ra, mẫu của chúng ta phải có đủ số lượng các phần
tử, và chúng phải được rút ra từ dân số một cách đúng đắn để không gây ra sự thiên lệch.
Một mẫu đúng (không thiên lệch) là một mẫu mà các sai số được đánh giá quá cao hay
quá thấp bù trừ lẫn nhau. Và do đó, phương sai hệ thống (systematic variance) được định
2

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

nghĩa như là biến động trong đo lường do các ảnh hưởng biết được hay không biết được
gây ra làm cho các điểm số bị thiên lệch về một phía nào đó.
Tăng cỡ mẫu (sample size) có thể làm giảm được phương sai hệ thống như là một nguồn
sai số. Tuy nhiên, dù có tăng cỡ mẫu thì phương sai hệ thống vẫn có thể xảy ra nếu khung
mẫu mà ta dựa vào để rút mẫu đã bị thiên lệch.
Tiêu chuẩn thứ hai để thiết kế một mẫu tốt là tính chính xác (precision) của các ước
lượng. Các nhà nghiên cứu đồng ý với nhau là không có mẫu nào có thể đại diện một

cách đầy đủ dân số của nó ở mọi phương diện, mọi khía cạnh. Tuy nhiên, để diễn giải các
phát hiện của nghiên cứu, chúng ta cần phải đo lường coi mẫu thể hiện được dân số chính
xác tới mức nào. Các biến số mô tả mẫu có thể khác với dân số do sai số ngẫu nhiên sinh
ra trong quá trình chọn mẫu. Sai số này được gọi là sai số chọn mẫu (sampling error) hay
là sai số chọn mẫu ngẫu nhiên (random sampling error), và nó phản ảnh ảnh hưởng của cơ
hội rút ra các thành viên của mẫu.
Tính chính xác được đo lường bằng sai số chuẩn của ước lượng. Sai số chuẩn càng nhỏ có
nghĩa là độ chính xác càng cao, và ngược lại. Một thiết kế chọn mẫu được coi là lý tưởng
khi nó tạo ra sai số chuẩn của ước lượng nhỏ. Tuy nhiên, không phải là tất cả các kiểu
thiết kế mẫu đều tạo ra các ước lượng cho mức độ chính xác, và các mẫu có cỡ mẫu bằng
nhau có thể sinh ra các mức độ sai số khác nhau.
1.3 Các kiểu thiết kế chọn mẫu
Khi thiết kế chọn mẫu (hay là chọn lựa các chọn mẫu - types of sample design), các nhà
nghiên cứu phải trả lời nhiều vấn đề (Hình 6.1). Quá trình ra quyết định chọn mẫu phụ
thuộc vào nhiều yếu tố. Có thể kế đến như bản chất của câu hỏi quản lý và các câu hỏi
điều tra cụ thể được rút ra từ các câu hỏi nghiên cứu. Ngoài ra, các yếu tố khác ảnh hưởng
đến thiết kế mẫu còn là các yêu cầu của dự án nghiên cứu và mục tiêu của nó, mức độ rủi
ro mà các nhà nghiên cứu chấp nhận, ngân sách nghiên cứu, quỹ thời gian, các nguồn lực
có thể có và văn hóa vùng miền, dân tộc.
Các phần tử trong một mẫu được chọn ra theo một trong hai kiểu chọn mẫu cơ bả: xác
suất hay phi xác suất. Chọn mẫu phi xác suất (non-probability sampling) có tính chất là
tùy ý và có mục tiêu. Khi chúng ta chọn mẫu có mục tiêu, chúng ta thường chọn mẫu theo
một kế hoạch định trước, và mỗi đơn vị nghiên cứu được rút ra từ dân số không có cơ hội
được chọn ngang bằng nhau.
Sự khác biệt căn bản giữa chọn mẫu phi xác suất và chọn mẫu xác suất là tính chất xác
suất. Chọn mẫu xác suất (probability sampling) dựa trên các phần tử được chọn với cơ
hội lựa chọn cho trước khác không. Chọn mẫu xác suất cho phép chúng ta xác định được
các ước lượng về mức chính xác, và cho chúng ta cơ hội để tổng quát hóa các phát hiện
cho các dân số nghiên cứu dựa trên dân số mẫu. Trong khi các nghiên cứu khám phá
không đòi hỏi nhiều về việc này, nhưng các nghiên cứu giải thích, mô tả và nhân quả lại

3

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

đòi hỏi điều này. Trong khi đó, với chọn mẫu phi xác suất, ta không biết trước xác suất để
chọn một phần tử nào đó vào mẫu, đơn giản là vì ta không cần quan tâm đến xác suất này.
Chọn phần tử của dân số để đưa vào mẫu là một việc đòi hỏi có sự chuẩn bị và lựa chọn
nghiêm túc để bảo đảm tính đúng đắn của mẫu. Các phần tử của mẫu được chọn theo
từng cá thể và trực tiếp từ dân số.

Thang bậc câu hỏi
quản lý – câu hỏi
nghiên cứu

Chọn kiểu chọn mẫu
Xác suất
Phi xác suất

Xác định dân số
liên quan

Chọn kỹ thuật
lấy mẫu

Xác định các khung mẫu
hiện có

Không chấp nhận

Đánh giá khung mẫu

Chỉnh sửa hoặc
xây dựng lại
khung mẫu

Chấp
nhận

Chọn khung mẫu

Rút ra
mẫu

Hình 6.1 Thiết kế chọn mẫu trong phạm vi quá trình nghiên cứu

Có nhiều kiểu thiết kế chọn mẫu khác nhau, và thuộc vào hai nhóm là chọn mẫu xác suất
và chọn mẫu phi xác suất (hình 6.2). Các kiểu chọn mẫu xác suất bao gồm các kiểu chọn
mẫu ngẫu nhiên đơn giản (simple random sampling), chọn mẫu hệ thống (systematic
sampling), chọn mẫu phân tầng (stratified sampling), chọn mẫu phân nhóm (cluster
sampling), và chọn mẫu nhiều giai đoạn (multistage sampling). Các kiểu chọn mẫu phi
xác suất bao gồm chọn mẫu thuận tiện (convienience sampling), chọn mẫu theo phán
đoán (judment sampling), chọn mẫu hạn ngạch (quota sampling), và chọn mẫu quả cầu
tuyết (snowball).
4

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

Ở hai kiểu chọn mẫu phân tầng và hạn ngạch, mỗi kiểu lại có hai kiểu phụ là chọn mẫu
theo tỷ lệ (propotionate sampling) và không theo tỷ lệ (dispropotionate sampling).
Các kiểu chọn mẫu
(Types of sampling design)

Chọn mẫu phi xác suất
(non-probability sampling)

Chọn mẫu xác suất
(probability sampling)

Chọn mẫu thuận tiện
(convienience sampling)

Chọn mẫu ngẫu nhiên đơn giản
(simple random sampling)

Chọn mẫu phán đoán
(judment sampling)

Chọn mẫu hệ thống
(systematic sampling)

Chọn mẫu hạn ngạch
(quota sampling)

Chọn mẫu phân tầng
(stratified sampling)

Chọn mẫu hạn ngạch theo tỷ lệ

(propotionate quota sampling)

Chọn mẫu phân tầng theo tỷ lệ
(propotionate stratified sampling)

Chọn mẫu hạn ngạch không tỷ lệ
(dispropotionate quota sampling)

Chọn mẫu phân tầng không tỷ lệ
(dispropotionate stratified
sampling)

Chọn mẫu quả cầu tuyết
(snowball sampling)

Chọn mẫu phân nhóm
(cluster sampling)
Chọn mẫu nhiều giai đoạn
(multistage sampling)

Hình 6.2 Các thiết kế chọn mẫu xác suất và phi xác suất

2. CÁC BƯỚC THIẾT KẾ CHỌN MẪU
Khi lựa chọn cách chọn mẫu phù hợp nhất cho nghiên cứu, chúng ta phải trả lời một số
câu hỏi đặt ra. Các câu hỏi này cũng chính là các nguyên tắc, hay là các bước mà chúng ta
phải theo. Các câu hỏi đi theo một trình tự nhất định. Tuy nhiên, để trả lời tốt một câu
hỏi, ta phải xem xét lại câu hỏi và câu trả lời trước đó.
1. Dân số mục tiêu là gì?
2. Các chỉ tiêu (parameters) cần quan tâm là gì?
5

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

3. Khung mẫu của ta là gì ?
4. Phương pháp chọn mẫu nào là phù hợp?
5. Cần cỡ mẫu bao nhiêu?
2.1 Dân số mục tiêu là gì?
Thông thường, khi chúng ta xác định vấn đề nghiên cứu và đặt ra câu hỏi nghiên cứu thì
chúng ta đã dân số mục tiêu là gì rồi. Tuy nhiên, cũng có khi chúng ta vẫn chưa rõ ràng
về dân số mục tiêu. Nếu chúng ta không biết rõ mục tiêu thì rất khó chọn mẫu phù hợp.
Trong nghiên cứu kinh tế, đối tượng quan sát chủ yếu là con người. Tuy nhiên, chủ thể
này cũng có thể bao gồm cá nhân hoặc các tổ chức của con người. Vì vậy, nếu chúng ta
vẫn nhầm lẫn hoặc không biết chắc chắn là dân số bao gồm các cá nhân, hộ gia đình, gia
đình hoặc là kết hợp các loại này thì khó có thể quan sát đúng đối tượng. Rõ ràng là đối
với một nghiên cứu kinh tế thì việc xác định phần tử là một cá nhân hay là một hộ gia
đình hay là một tổ chức dạng khác sẽ đưa đến các kết quả hoàn toàn khác nhau. Vì vậy,
cần chú ý là ta phải xác định rõ khung phân tích, và khung hành động để chọn lựa đúng
dân số liên quan.
Ví dụ 6.1 Khi nghiên cứu về vấn đề nghèo đói, ta phải hiểu dân số mục tiêu của ta là gì.
Nếu nghiên cứu theo góc độ vùng địa giới hành chính, dân số mục tiêu có thể bao gồm
các vùng hành chính như tỉnh, quận huyện, xã phường. Nếu ta nghiên cứu theo góc độ
hộ gia đình thì dân số nghiên cứu lại bao gồm các hộ gia đình. Trên thực tế, các phần tử
cơ bản của dân số mục tiêu này chính là hộ gia đình được phân bố theo các vùng địa
giới hành chính. Vì vậy, các phần tử mà ta phải chọn lựa bao gồm cả vùng địa giới hành
chính và hộ gia đình.
Ví dụ 6.2 Ở ví dụ 2.5 (chương 2), ta quan tâm đến vấn đề cải thiện môi trường đầu tư
để tăng cường thu hút đầu tư trực tiếp nước ngoài (FDI) của các tỉnh thành ở Việt Nam.
Hãy xem dân số mục tiêu của ta là gì? Thứ nhất, chắc chắn dân số mục tiêu phải bao
gồm tất cả các tỉnh và thành phố trực thuộc trung ương của Việt Nam. Tuy nhiên, ở

từng tỉnh và thành phố, ta phải chọn các phần tử nào cho nghiên cứu? Liệu ta nên chọn
các cá nhân là quan chức quản l{ của địa phương đó hay là chọn các doanh nghiệp nước
ngoài hay các doanh nghiệp trong nước đang đầu tư sản xuất kinh doanh tại tỉnh? Rõ
ràng là việc chọn lựa này không dễ dàng chút nào.

2.2 Các chỉ tiêu cần quan tâm là gì?
Các chỉ số thể hiện cho dân số là các chỉ tiêu mô tả tổng hợp (ví dụ giá trị trung bình,
phương sai, v.v.) của các biến số của dân số mà chúng ta quan tâm.
Các chỉ số thống kê mẫu (sample statistics) là các chỉ tiêu mô tả cùng các biến số trên,
nhưng không phải của dân số mà là của mẫu. Các chỉ số thống kê mẫu được dùng để ước
lượng các chỉ số thống kê của dân số. Các chỉ số thống kê mẫu chính là cơ sở để chúng ta
tham chiếu cho các chỉ số thống kê của dân số.

6

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

Tùy thuộc vào cách mà chúng ta đặt ra câu hỏi đo lường như thế nào (xem lại Hình 2.1,
Chương 2), mỗi câu lại có thể thu thập dữ liệu ở các mức độ khác nhau. Mỗi mức độ khác
biệt của dữ liệu lại sinh ra sự khác biệt về thống kê mẫu. Vì vậy, việc chọn lựa các chỉ
tiêu cần quan sát sẽ thực tế quyết định kiểu chọn mẫu và cỡ mẫu.
Khi các biến số được đo lường với kiểu dữ liệu khoảng hay tỷ số, chúng ta sẽ sử dụng giá
trị trung bình mẫu để ước lượng trung bình dân số, và độ lệch chuẩn của mẫu để ước
lượng độ lệch chuẩn của dân số.
Khi các biến số được đo lường ở dạng thang đo danh nghĩa hoặc thứ bậc, chúng ta sẽ sử
dụng các tỷ lệ của mẫu để ước lượng các tỷ lệ của dân số, và dùng chỉ số pq để ước lượng
phương sai của dân số. Trong trường hợp này, tỷ lệ của dân số sẽ bằng số lượng phần tử
có trong dân số thuộc về một loại nào đó chia cho tổng số phần tử của dân số. Các đo
lường tỷ lệ như thế này rất cần thiết cho dữ liệu danh nghĩa và được sử dụng rộng rãi cho

các đo lường khác nữa.
2.3 Khung mẫu của ta là gì?
Khung mẫu có liên quan rất gần với dân số. Đó chính là danh sách của tất cả các phần tử
có trong dân số mà từ đó chúng ta sẽ rút mẫu ra. Một khung mẫu lý tưởng chính là một
danh sách hoàn thiện, đầy đủ và đúng tất cả các thành viên của dân số.
Tuy nhiên, trên thực tế, khung mẫu thường rất khác biệt với dân số lý thuyết.
Thường là chúng ta chấp nhận một khung mẫu bao gồm cả các người hoặc các trường
hợp mà chúng ta không quan tâm. Nhưng chúng ta có thể giải quyết vấn đề này dễ dàng
bằng cách rút một mẫu từ một dân số lớn hơn, và rồi sử dụng một quy trình lọc để loại bỏ
các trường hợp mà chúng ta không quan tâm, hoặc không phải là thành viên của nhóm mà
chúng ta muốn nghiên cứu.
Khả năng tìm kiếm được khung mẫu hay không là vấn đề phải tính đến khi chuẩn bị chọn
mẫu. Có những dân số mục tiêu mà khung mẫu là sẵn có, ví dụ dân số sinh viên của một
trường đại học, cư dân của một vùng hành chính nào đó, các doanh nghiệp vừa và nhỏ
của một thành phố nào đó. Tuy nhiên, có những dân số mục tiêu mà các phần tử của nó là
không xác định, do đó ta không thể nào có được khung mẫu. Ví dụ như dân số những
người ưa thích chính sách A và không ưa thích chính sách B, dân số những người đang sử
dụng diện thoại di động nhãn hiệu Nokia, dân số những người buôn bán nhỏ không đăng
ký chẳng hạn. Ngoài ra, còn có những dân số mục tiêu xác định về nguyên tắc, và có tồn
tại khung mẫu, nhưng vì những lý do đặc biệt nào đó mà ta không thể có được khung
mẫu, ví dụ như dân số những người nhiễm HIV-AIDS, dân số những người đang sử dụng
xe máy thuộc một thương hiệu nào đó. Ta không thể hoặc rất khó có danh sách khung
mẫu của các dân số này vì các vấn đề quản lý hành chính (danh sách người đăng ký xe
máy tại cơ quan quản lý phương tiện giao thông) hoặc tính chất nhạy cảm của dân số
(danh sách người bị nhiễm HIV-AIDS).

7

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

2.4 Phương pháp chọn mẫu nào là phù hợp?
Nhà nghiên cứu phải đối mặt với một lựa chọn căn bản: chọn mẫu xác xuất hay phi xác
suất. Với cách chọn mẫu xác suất, nhà nghiên cứu có thể đạt được các ước lượng cho
nhiều chỉ tiêu nghiên cứu khác nhau dựa trên sự tin cậy về xác suất. Trong khi đó, chọn
mẫu phi xác suất không cho được điều này.
Tuy nhiên, chọn mẫu xác suất có một vài hệ quả. Nhà nghiên cứu buộc phải theo các quy
trình phù hợp mà phỏng vấn viên, điều tra viên không thể chỉnh sửa sự chọn lựa đã có.
Khi chọn mẫu, chỉ có các phần tử được chọn từ khung mẫu gốc mới được tính tới. Trong
quá trình chọn mẫu để thu thập thông tin, ta không thể thay thế phần tử này bằng phần tử
khác ngoại trừ khi có các chỉ dẫn cụ thể theo các nguyên tắc định trước.
Ngược lại, chọn mẫu phi xác suất dù không có tính đại diện cao cho dân số, nhưng lại dễ
dàng áp dụng trong thực tế vì hầu hết các trường hợp ta không thể có được khung mẫu.
Đồng thời, nhiều nghiên cứu có mục đích chuyên biệt, không cần thiết phải đại diện cho
toàn bộ dân số mục tiêu.
Ở phần 3 và 4, ta sẽ hiểu thêm sự khác biệt giữa hai nhóm thiết kế chọn mẫu này.
2.5 Cần cỡ mẫu bao nhiêu là vừa?
Cỡ mẫu chính là số đơn vị nghiên cứu mà ta cần có trong một mẫu khi rút ra từ dân số
mục tiêu. Thông thường, nhiều người có nhiều quan niệm không chính xác về cỡ mẫu. Họ
thường cho rằng, thứ nhất, một mẫu phải đủ lớn, nếu không nó sẽ không đại diện cho dân
số. Thứ hai là một mẫu phải tương ứng với một tỷ lệ nào đó so với kích cỡ của dân số mà
nó được rút ra. Trên thực tế, cả hai câu chuyện này đều không chính xác.
Với mẫu phi xác suất, các nhà nghiên cứu khẳng định là số lượng nhóm phụ, các nguyên
tắc lựa chọn và hạn chế về ngân sách là các yếu tố quyết định cỡ mẫu. Với cách chọn mẫu
xác suất, cỡ mẫu phụ thuộc vào sự biến thiên của các chỉ số thống kê của dân số và mức
độ chính xác của kết quả mà ta muốn có.
Một số nguyên tắc ảnh hưởng đến việc xác định cỡ mẫu là:
-

Dân số càng biến thiên nhiều thì cỡ mẫu phải càng lớn để đạt tính chính xác.

-

Độ chính xác mong muốn càng tăng thì cỡ mẫu phải càng lớn.

-

Phạm vi sai số càng nhỏ thì cỡ mẫu phải càng lớn.

-

Mức độ tin cậy của ước lượng càng cao thì cỡ mẫu càng phải lớn.

-

Khi dân số có nhiều nhóm phụ, thì cỡ mẫu phải lớn để cỡ mẫu của từng nhóm phụ
phải đạt yêu cầu tối thiểu

Các hạn chế về ngân sách cũng ảnh hưởng đến cỡ mẫu, cách chọn mẫu và phương pháp
thu thập dữ liệu. Hầu hết các nghiên cứu đều bị giới hạn ngân sách, và điều này thúc đẩy
các nhà nghiên cứu áp dụng các phương pháp chọn mẫu phi xác suất.
8

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

3. CHỌN MẪU XÁC SUẤT
Một mẫu được coi là có hiệu quả hơn về phương diện thống kê là một mẫu mà nó có thể
cho kích cỡ mẫu nhỏ hơn với một mức độ chính xác cho trước (dựa trên sai số chuẩn của
trung bình hoặc của tỷ lệ). Một mẫu được coi là có hiệu quả về phương diện kinh tế là

một mẫu có thể đạt được một mức độ chính xác cho trước với chi phí thấp. Ở các phần
dưới đây, ta sẽ thảo luận về thiết kế chọn mẫu ngẫu nhiên đơn giản, và sau đó bốn cách thức
chọn mẫu xác suất phức tạp (complex probability sampling) có khả năng thay thế nhau là: (1)
chọn mẫu hệ thống; (2) chọn mẫu phân tầng; (3) chọn mẫu theo nhóm hoặc phân tổ; và (4)
chọn mẫu nhiều giai đoạn.

3.1 Chọn mẫu xác suất ngẫu nhiên đơn giản
Là một phương pháp chọn mẫu không hạn chế, phương pháp chọn mẫu xác suất ngẫu
nhiên đơn giản (simple random sampling) là hình thức đơn giản nhất, thuần nhất của cách
chọn mẫu xác suất. Khi mà tất cả các mẫu xác suất đều phải chọn lựa từng cá thể (đơn vị
nghiên cứu) với một xác suất khác không cho trước thì phương pháp chọn mẫu ngẫu
nhiên đơn giản được coi là một trường hợp đặc biệt vì mỗi một cá thể đều được lựa chọn
với một xác suât biết trước và hoàn toàn ngang bằng nhau.
Xác suất chọn lựa = cỡ mẫu ÷ kích cỡ của dân số (%)
Để thực hiện chọn mẫu ngẫu nhiên đơn giản, việc đầu tiên là chúng ta phải có khung
mẫu, hay chính là danh sách tất cả các cá thể (thành viên) của dân số mục tiêu. Dựa trên
danh sách này, làm sao có thể rút mẫu ra mà vẫn bảo đảm xác suất rút mẫu hoàn toàn
bằng nhau? Giả sử ta chọn mẫu với cỡ mẫu là 200 từ một dân số mục tiêu chứa 2.500 cá
thể. Điều này có nghĩa là xác suất rút mẫu phải bảo đảm bằng 200/2.500, tức là 8%. Xác
suất ra rút mẫu lần đầu tiên sẽ là 1/2.500. Xác suất rút mẫu lần thứ hai sẽ là 1/2.499, và
sau đó, xác suất rút mẫu sẽ thay đổi tương tự như vậy. Hiển nhiên là bằng cách này, ta
không bảo đảm xác suất rút mẫu là bằng nhau và bằng với xác suất dự định ban đầu. Đây
là hệ quả của cách chọn mẫu không có thay thế (sampling without replacement). Nếu thay
thế phần tử đã được chọn bằng một phần tử khác trong dân số, ta có thể giữ cho xác suất
rút mẫu không thay đổi (sampling with replacement).
Khi rút mẫu, ta sẽ đánh số và sử dụng bảng ngẫu nhiên để chọn lựa ra các cá thể (rút mẫu)
để bảo đảm mọi cá thể đều có xác suất được chọn như nhau. Ta cũng có thể dùng các
phần mềm máy tính hỗ trợ để xác định mẫu với một xác suất cho trước nào đó. Với phần
mềm Excel, một công cụ bảng tính phổ biến, ta có thể sử dụng lệnh Randbetween.
Ví dụ 6.3

Giả sử ta xác định cỡ mẫu cần có cho một nghiên cứu là n = 200. Với danh sách khung
mẫu cho trước, ta biết dân số có N = 2.500 cá thể. Như vậy, xác suất chọn mẫu là 8%. Dĩ
nhiên là ta phải lập danh sách khung mẫu, và mỗi cá thể của dân số được đánh số thứ
tự từ 1 đến 2.500. Với phần mềm Excel, ta dùng lệnh Randbetween(1;2500), ta sẽ có
được một giá trị ngẫu nhiên được chọn ra từ danh sách chứa 2.500 cá thể. Ta chọn copy

9

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

công thức bằng cách kéo chuột (drag) ô tính toán đi để có đúng 200 ô. Kết quả là ta sẽ
có một danh sách chứa 250 cá thể được chọn một cách ngẫu nhiên và với xác suất chọn
lựa hoàn toàn bằng nhau là 8%.

Ta cũng có thể dùng cách này để lập một vài danh sách dự phòng. Khi bị mất một cá thể
quan sát bất kỳ trong danh sách chuẩn đầu tiên, ta có thể lựa chọn một cá thể bất kỳ trong
danh sách dự phòng để thay thế mà vẫn bảo đảm tính chất ngẫu nhiên và với xác suất
hoàn toàn bằng nhau.

3.2 Chọn mẫu hệ thống
Vớ thiết kế chọn mẫu hệ thống, ta chọn lấy các phần tử thứ k th trong dân số, bắt đầu với
một con số khởi điểm ngẫu nhiên trong phạm vi từ 1 đến k. Phần tử thứ kth , còn gọi là
bước nhảy (skip interval), được tính bằng cách chia cỡ mẫu cho kích cỡ của dân số.
k = bước nhảy = dân số ÷ cỡ mẫu
Chúng ta cũng phải có khung mẫu chính xác và hoàn thiện.
Thủ tục để tiến hành chọn mẫu hệ thống theo các bước sau:
-

Xác định, lập danh sách và đánh số các cá thể của dân số

-

Xác định bước nhảy (k)

-

Xác định con số khởi đầu một cách ngẫu nhiên

-

Rút mẫu bằng cách chọn tất cả các cá thể theo các bước nhảy kth.
Ví dụ 6.4 Ta có dân số bao gồm 2.000 phần tử đã đánh số thứ tự. Với cỡ mẫu 70, bước
nhảy k bằng 28,57, làm tròn là 29. Giả sử ta chọn điểm khởi đầu là phần tử có số thứ tự
12, phần tử được chọn kế tiếp sẽ là 41 (12+29). Tương tự như vậy, ta sẽ chọn các phần
tử 70, 99, 128, 157, 186, 215, 244, 273, 302, 331, v.v.

Phương pháp chọn mẫu hệ thống có ưu điểm là đơn giản và mềm dẻo. Tuy vậy, phương
pháp này cũng có thể sinh ra các thiên lệch khó thấy. Đầu tiên là tính chất chu kỳ của dân
số có thể xảy ra song song với tỷ lệ mẫu (bước nhảy). Ngoài ra, các cá thể của dân số có
thể đã được sắp xếp theo một trật tự đơn chiều nào đó. Trong nghiên cứu kinh tế, các dân
số thường được sắp xếp theo trật tự sẵn có. Ví dụ, ta có danh sách các cá nhân, hoặc hộ
gia đình sắp xếp từ nghèo đến giàu, hoặc ngược lại; hoặc danh sách các hộ nông nghiệp
sắp xếp theo quy mô tăng dần về diện tích đất canh tác, v.v. Chính vì vậy, khi chọn cá
thể, ta có thể bị thiên lệch về một phía nào đó của dãy số liệu.
Để tránh tình trạng thiên lệch như vậy, ta nên:
-

Sắp xếp ngẫu nhiên dân số trước khi chọn mẫu

-

Chọn con số khởi điểm một cách ngẫu nhiên vài lần khi bắt đầu chọn mẫu

-

Lặp lại cách chọn mẫu như vậy cho các mẫu khác.

10

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

Nếu thực hiện tốt, phương pháp này cho hiệu quả thống kê cao hơn phương pháp ngẫu
nhiên đơn giản.

3.3 Chọn mẫu phân tầng
Hầu hết các dân số đều bao gồm các nhóm cá thể khác nhau. Các nhóm như vậy chính là
các nhóm dân số phụ (subpopulation), hay là các tầng (strata). Quá trình chọn mẫu mà các
cá thể được chọn lựa theo từng nhóm như vậy được gọi là chọn mẫu ngẫu nhiên phân
tầng (stratified random sampling). Phương pháp chọn mẫu phân tầng có hiệu quả thống
kê cao hơn phương pháp chọn mẫu ngẫu nhiên đơn giản. Lý do rất rõ ràng là ta có thể
tăng cường tính đại diện của mẫu đối với dân số mục tiêu nếu tất cả các nhóm phụ của
dân số đều có những đại diện của chúng trong mẫu.
Tại sao chúng ta chọn phương pháp chọn mẫu phân tầng này? Phương pháp này cho
chúng ta nhiều lợi ích như:
(1) Tăng hiệu quả thống kê của mẫu;
(2) Cung cấp dữ liệu phù hợp để phân tích từng nhóm dân số phụ hay từng tầng, và
(3) Cho phép sử dụng các phương pháp nghiên cứu và phân tích khác nhau cho cá
nhóm dân số phụ khác nhau.

Nếu phân tầng một cách lý tưởng, ta sẽ có sự đồng nhất trong nội bộ từng nhóm và có sự
dị biệt giữa các nhóm. Nếu phân tầng càng nhiều thì ta càng có thể tối đa hóa sự khác biệt
giữa các nhóm và tối thiểu hóa sự biến thiên trong nội bộ từng nhóm.

Dân số

Dân số phụ

Mẫu

C
C

Hình 6.3 Minh họa về thiết kế chọn mẫu phân tầng
Tuy nhiên, chi phí cũng là một yếu tố đáng quan tâm. Nếu tăng số nhóm nghiên cứu lên
(số tầng) thì chi phí cũng tăng theo vì chi phí đi đôi với mức độ chọn mẫu chi tiết. Ngoài
ra, cũng phải chú ý đến các yếu tố sau: (1) kích cỡ tổng mẫu cần có và (2) tổng mẫu được

11

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

phân bổ như thế nào giữa các tầng. Hai vấn đề này quan trọng vì chúng quyết định số cá
thể cần có ở từng tầng.
Giả sử ta có hạn chế ngân sách nên chỉ có thể chọn cỡ mẫu tối đa là 250. Nếu ta chọn
cách chia dân số làm 5 nhóm dân số phụ khác nhau, với tỷ lệ tương đương nhau, thì số
lượng cá thể cần quan sát của mỗi mẫu phụ (tương ứng với mỗi nhóm dân số phụ, hay là
từng tầng) là 50, tương đương với tỷ lệ 20% tổng mẫu. Số lượng 50 cá thể này có thể bảo
đảm mức độ tin cậy về phân tích thống kê. Nhưng nếu chúng ta muốn chia dân số làm 10

nhóm dân số phụ, thì kích cỡ của mẫu phụ chỉ là 25. Số lượng đơn vị nghiên cứu có trong
1 mẫu phụ này có thể không bảo đảm tin cậy về phân tích thống kê.
Đối với cách phân bố mẫu cho các nhóm phụ (tầng) khác nhau, có hai cách là theo tỷ lệ
(proportionate) và không theo tỷ lệ (disproportionate).
Đối với cách chọn mẫu phân tầng theo tỷ lệ (proportionate stratified sampling), cỡ mẫu
của mỗi mẫu phụ (tầng) theo đúng tỷ lệ của các phần tử có trong từng dân số phụ so với
tổng dân số. Cách chọn mẫu phân tầng theo tỷ lệ phổ biến nhiều hơn bất kỳ cách chọn
mẫu phân tầng nào khác, bởi vì:
-

có hiệu quả thống kê cao hơn phương pháp ngẫu nhiên đơn giản

-

dễ thực hiện hơn các phương pháp phân tầng khác

-

cung cấp một mẫu tự định trọng số (self-weighting sample); giá trị trung bình tổng
thể hoặc tỷ lệ tổng thể có thể được ước lượng một cách dễ dàng.

Quy trình chọn mẫu phân tầng bao gồm các bước sau đây:
Bước 1. Quyết định các biến số dùng để phân tầng. Trong nghiên cứu kinh tế - xã hội, các
biến định tính thường được dùng để phân chia dân số thành các dân số phụ. Thông
thường là các biến nhân khẩu học (ví dụ độ tuổi, giới tính, nghề nghiệp, học vấn, v.v)
hoặc các biến thể hiện sự khác biệt về vị thế kinh tế (ví dụ nghèo, cận nghèo, trung bình,
khá, giàu). Cần chú ý là ta phải xem xét liệu các biến định tính được dùng để phân chia
dân số thành các dân số phụ có ý nghĩa gì đối với mục tiêu nghiên cứu của ta, có tác động
gì đến biến số quan trọng nhất mà ta cần đo lường.
Ví dụ 6.5 Khi nghiên cứu về thu nhập của người lao động, ta xem xét liệu các biến định

tính nào có thể dùng để chia dân số mục tiêu thành những nhóm phụ có thu nhập
chênh lệch nhau. Liệu giới tính có thể dẫn đến sự khác biệt về thu nhập hay không? Liệu
trình độ học vấn có dẫn đến sự khác biệt hay không? Liệu ngành nghề hay các hình thức
tổ chức của doanh nghiệp (ví dụ sở hữu nhà nước, tư nhân, liên doanh, nước ngoài), có
ảnh hưởng đến thu nhập hay không?
Ví dụ 6.6 Khi nghiên cứu về nhu cầu sử dụng máy tính xách tay của sinh viên, ta cần xác
định xem có các yếu tố nào ảnh hưởng đến nhu cầu này. Liệu giới tính của sinh viên hay
ngành học quan trọng hơn? Liệu sinh viên ở các năm học khác nhau có nhu cầu khác
nhau hay không? Nếu ta cho rằng ngành học là một yếu tố quan trọng ảnh hưởng đến

12

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

nhu cầu này (giả sử như là sinh viên ngành toán cần sử dụng máy tính thường xuyên
hơn sinh viên ngành ngữ văn), và sinh viên các năm cuối phải sử dụng thường xuyên
hơn sinh viên năm thứ nhất thì ta có thể lựa cho hai biến định tính này để phân tầng,
thay vì dùng biến giới tính.

Bước 2. Xác định tỷ lệ của từng nhóm dân số phụ so với dân số chung. Để làm được việc
này, rõ ràng là chúng ta phải có được khung mẫu của dân số tổng thể, và các khung mẫu
của các dân số phụ dựa trên các biến danh nghĩa mà chúng ta dùng để phân chia.
Bước 3. Ta chọn lựa cách phân tầng theo tỷ lệ hoặc không theo tỷ lệ tùy theo nhu cầu
thông tin nghiên cứu và các rủi ro có thể xảy ra.
Bước 4. Thiết lập các khung mẫu của các dân số phụ. Mỗi khung mẫu (phụ) thể hiện một
tầng (nhóm dân số phụ).
Bước 5. Trộn các phần tử trong khung mẫu. Để bảo đảm tốt hơn tính chất ngẫu nhiên,
không thiên lệch khi chọn mẫu, ta nên trộn ngẫu nhiên các phần tử (cá thể, đơn vị nghiên
cứu) trong từng khung mẫu của từng tầng.

Bước 6. Rút mẫu cho các tầng bằng cách rút mẫu ngẫu nhiên hoặc hệ thống.

x
x
x
x
x
x
x

x
x
x
x
x
x
x

x
x
x
x
x
x
x

∆
∆
∆
∆

∆
∆
∆

∆
∆
∆
∆
∆
∆
∆

∆
∆
∆
∆
∆
∆
∆

o
o
o
o
o
o
o

o
o

o
o
o
o
o

o
o
o
o
o
o
o

x x x
x x x
x x x
∆ ∆ ∆
∆ ∆ ∆
∆ ∆ ∆

o o o
o o o
o o o

Hình 6.4 Minh họa về cách rút mẫu từ dân số đối với chọn mẫu phân tầng
Ví dụ 6.7 Minh họa chọn mẫu phân tầng để có mẫu nghiên cứu về nhu cầu sử dụng máy
tính xách tay của sinh viên.
Bước 1. Chọn biến ngành để phân tầng. Dân số sinh viên sẽ được chia làm nhiều dân số
phụ khác nhau theo ngành học.

Bước 2. Xác định tỷ lệ sinh viên từng ngành học so với tổng số sinh viên. Ta quyết định
áp dụng chọn mẫu theo tỷ lệ để bảo đảm cấu trúc mẫu phản ảnh đúng như cấu trúc của
dân số mục tiêu.
Bước 3. Thiết lập các khung mẫu cho sinh viên của từng ngành học khác nhau. Trên thực
tế, khung mẫu này chính là danh sách sinh viên của từng ngành học. Ta có thể nhập dữ
liệu cơ bản của danh sách này vào một file Excel để làm cơ sở rút mẫu.
Bước 4. Ta trộn danh sách khung mẫu nhiều lần để bảo đảm phá vỡ mọi quy tắc sắp xếp
đã có của danh sách này.

13

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

Bước 5. Rút mẫu ở từng khung mẫu theo tỷ lệ so với cỡ mẫu đã định sẵn. Dùng lệnh
Randbetween của Excel để rút mẫu theo cách ngẫu nhiên đơn giản hoặc dùng phương
pháp hệ thống để rút mẫu theo bước nhảy k. Kết quả là ta có các mẫu phụ, mỗi mẫu
phụ tương ứng với một dân số phụ. Nếu gộp tất cả các mẫu phụ lại với nhau, ta có mẫu
nghiên cứu, bao gồm nhiều mẫu phụ, theo tỷ lệ biết trước.

3.4 Chọn mẫu theo nhóm
Trong một mẫu ngẫu nhiên, mỗi phần tử của dân số được chọn lựa theo từng cá thể. Dân
số cũng có thể được chia thành nhiều nhóm chứa đựng các phần tử cá thể mà có thể, một
số nhóm như vậy được chọn ngẫu nhiên cho nghiên cứu. Đó chính là nguyên tắc của
phương pháp chọn mẫu theo nhóm.
Ta có thể hình dung sự khác biệt giữa chọn mẫu phân tầng và chọn mẫu theo nhóm như
sau. Giả sử hai dân số 1 và 2 đều chứa đựng các cá thể khác biệt, nhưng có thể chia làm
ba nhóm chính, thể hiện bằng các ký tự x, ∆ và o (Hình 6.5).
Dựa trên tính chất khác biệt này, chúng ta có thể chọn mẫu theo hai cách khác biệt nhau.
Cách thứ nhất là chúng ta chia dân số thành 3 nhóm dân số phụ theo các đặc tính x, ∆ và

o.
Điều này cho phép chúng ta có 3 nhóm dân số phụ (còn gọi là tầng - stratum) bảo đảm sự
đồng nhất trong nội bộ từng nhóm và có sự dị biệt giữa các nhóm. Ngược lại, chúng ta
cũng có thể chia dân số thành 3 nhóm dân số phụ mà mỗi nhóm đều có các phần tử cá thể
đa dạng với các đặc tính x, ∆ và o. Kết quả là, ta có 3 nhóm dân số phụ (clusters) và có
thể bảo đảm sự đa dạng hay dị biệt trong nội bộ từng nhóm và có sự đồng nhất giữa các
nhóm.
Cách thứ nhất chính là chọn mẫu phân tầng. Cách thứ hai là chọn mẫu theo nhóm.
x
x
x
x
x
x
x

x
x
x
x
x
x
x

x
x
x
x
x
x

x

∆
∆
∆
∆
∆
∆
∆

∆
∆
∆
∆
∆
∆
∆

∆
∆
∆
∆
∆
∆
∆

o
o
o
o

o
o
o

o
o
o
o
o
o
o

o
o
o
o
o
o
o

Dân số 1 được chia thành các
nhóm dân số phụ (tầng) dị biệt
nhau dựa trên các đặc tính riêng
biệt của các cá thể (chia nhóm
x, ∆ và o riêng biệt).

x
∆
o
x

∆
o
x

x
∆
o
x
∆
o
x

x
∆
o
x
∆
o
x

∆
x
o
∆
x
o
∆

∆
x

o
∆
x
o
∆

∆
x
o
∆
x
o
∆

o
x
∆
o
x
∆
o

o
x
∆
o
x
∆
o

o
x
∆
o
x
∆
o

Dân số 2 được chia thành các
nhóm dân số phụ (nhóm) bao
gồm các cá thể có tính đa dạng
như nhau (x, ∆ và o đều có mặt
trong từng nhóm).

Hình 6.5 Minh họa sự khác biệt giữa chọn mẫu phân tầng và theo nhóm

14

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

Hiệu quả thống kê của chọn mẫu theo nhóm thường thấp hơn chọn mẫu ngẫu nhiên đơn
giản vì thông thường, các nhóm lại không có sự khác biệt cần thiết, mà lại có sự đồng
nhất.
Bảng 6.1 So sánh hai phương pháp chọn mẫu phân tầng và theo nhóm
Chọn mẫu phân tầng - Stratified Sampling

Chọn mẫu theo nhóm - Cluster Sampling

1. Ta chia dân số thành một số ít nhóm phụ

1. Ta chia dân số thành nhiều nhóm phụ

-

Mỗi nhóm phụ chứa rất nhiều phần tử.

-

Mỗi nhóm phụ chứa rất ít phần tử.

-

Các nhóm phụ được chọn lựa theo các
tiêu chí liên quan đến các biến số nghiên
cứu.

-

Các nhóm phụ được chọn lựa theo các
tiêu chí đễ dàng hoặc có tính sẵn có để
thu thập dữ liệu dễ hơn.

2. Ta cố gắng bảo đảm tính đồng nhất
(homogeneity) trong nội bộ từng nhóm phụ.

2. Ta cố gắng bảo đảm tính dị biệt
(heterogeneity) trong nội bộ từng nhóm phụ.

3. Ta cố gắng bảo đảm tính dị biệt

(heterogeneity) giữa các nhóm phụ.

3. Ta cố gắng bảo đảm tính đồng nhất
(homogeneity) giữa các nhóm phụ.

4. Ta chọn lựa ngẫu nhiên các phần tử trong
từng nhóm phụ.

4. Ta chọn lựa ngẫu nhiên một số nhóm phụ để
chúng ta nghiên cứu sâu.

Hầu hết các nghiên cứu kinh tế đều liên quan đến các dân số mà chúng có thể chia theo
các vùng địa lý. Ví dụ khi nghiên cứu tình trạng nghèo đói, ta có thể thấy ở bất kỳ quốc
gia nào (trên thế giới) hoặc ở bất kỳ vùng, miền, tỉnh nào (trong phạm vi một quốc gia)
đều có người nghèo, giàu khác nhau. Như vậy, khi nghiên cứu, ta có thể chọn lựa một vài
vùng miền nào đó thuận tiện cho nghiên cứu, và khi nghiên cứu ở các vùng như trên, ta
vẫn bảo đảm có được các cá thể giàu, nghèo khác biệt nhau.
Khi ta có thể chia dân số theo vùng địa lý như vậy thì rõ ràng ta có thể sử dụng phương
pháp chọn mẫu theo nhóm. Cách thức chọn mẫu như vậy còn được gọi là chọn mẫu theo
vùng (area sampling), và có thể áp dụng ở mức độ quốc gia, vùng miền, thậm chí các đơn
vị theo địa giới hành chính ở quy mô nhỏ hơn.
Khi áp dụng thiết kế chọn mẫu theo nhóm, kể cả chọn mẫu theo vùng, chúng ta cần trả lời
các câu hỏi sau đây:
1. Các nhóm đồng nhất với nhau như thế nào?
2. Chúng ta tìm các nhóm có kích cỡ bằng nhau hay khác nhau?
3. Chúng ta sẽ chọn nhóm có kích cỡ bao nhiêu?
4. Chúng ta sẽ áp dụng phân nhóm một giai đoạn (single-stage cluster) hay nhiều giai
đoạn (multi-stage cluster)?
5. Kích cỡ của mẫu bao nhiêu là vừa?
15

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

Ví dụ 6.8 Minh họa chọn mẫu theo nhóm
Ta muốn nghiên cứu về hoạt động của các doanh nghiệp vừa và nhỏ (SMEs) trên phạm
vi cả nước. Vì không đủ nguồn lực để nghiên cứu ở từng tỉnh thành, ta chỉ có thể chọn
mẫu đại diện, và quyết định chọn mẫu phân nhóm theo vùng địa l{. Đầu tiên, ta chọn
một số tỉnh, thành phố đại diện cho bảy vùng kinh tế - xã hội là Đồng bằng sông Hồng,
Miền núi và trung du Bắc bộ, Bắc Trung bộ, Duyên hải Nam Trung bộ , Tây Nguyên, Đông
Nam bộ và Đồng bằng sông Cửu Long. Ta chắc chắn rằng ở mỗi tỉnh, thành phố đại diện
đều có đầy đủ các dạng, loại hình SMEs.
Ta cũng biết rằng ta không thể điều tra toàn bộ các SMEs có trên địa bàn hành chính của
tỉnh, thành đã chọn. Vì vậy, ta tiếp tục chọn một số đơn vị hành chính đại diện cho vùng
thành thị và nông thôn của từng tỉnh thành, ví dụ mỗi tỉnh thành chọn một huyện (đại
diện vùng nông thôn) và một thành phố/thị xã (đại diện cho vùng thành thị).

3.5 Chọn mẫu nhiều giai đoạn
Trong nghiên cứu thực tế, người ta thường áp dụng phương chọn mẫu nhiều giai đoạn
(double sampling, sequential sampling, multiphase sampling, multistage sampling).
Phương pháp này cho phép chúng ta sử dụng các thông tin có được từ các cuộc nghiên
cứu ban đầu để làm cơ sở cho việc chọn mẫu ở các bước tiếp theo.
Trong nghiên cứu kinh tế, đôi khi chúng ta tiến hành nghiên cứu theo nhiều giai đoạn.
Giai đoạn đầu tiên là nghiên cứu khám phá, là giai đoạn mà ta cần tìm hiểu các thông tin
cơ bản của dân số mục tiêu thông qua mẫu. Dựa trên các thông tin cơ bản này, ta có thể
hiểu về cấu trúc của dân số, và có thể phát hiện sự dị biệt cũng như tương đồng trong nội
bộ dân số thông qua các chỉ tiêu thống kê ghi nhận được. Từ đó, chúng ta có thể tiếp tục
rút ra các mẫu phụ từ mẫu mà chúng ta đã có để tiếp tục nghiên cứu ở các giai đoạn sau
(nghiên cứu sâu).
Loại hình chọn mẫu nhiều giai đoạn thường được áp dụng trong nghiên cứu kinh tế - xã

hội. Ở giai đoạn đầu, người ta thường chọn mẫu có cỡ mẫu lớn, thiết kế nội dung nghiên
cứu đơn giản nhằm tìm hiểu các thông tin cơ bản của dân số mục tiêu. Sau đó, tùy theo
mục tiêu nghiên cứu, người ta thiết kế các nghiên cứu sâu với các nội dung rất chi tiết,
nhưng cần số đơn vị nghiên cứu ít hơn. Kết quả nghiên cứu trước cho phép rút ra các tiêu
chí phân nhóm phù hợp cũng như bảo đảm khả năng rút các mẫu phụ chứa đựng các đơn
vị nghiên cứu phù hợp từ mẫu đã nghiên cứu.
Thông thường, phương pháp chọn mẫu nhiều giai đoạn kết hợp nhiều phương pháp chọn
mẫu khác nhau, ví dụ như chọn mẫu phân tầng, chọn mẫu theo nhóm, chọn mẫu hệ thống.
Ta hãy xem xét một ví dụ minh họa về chọn mẫu nhiều giai đoạn, áp dụng cho một
nghiên cứu về hoạt động của doanh nghiệp vừa và nhỏ ở Việt Nam.

16

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

Ví dụ 6.9 Minh họa về chọn mẫu nhiều giai đoạn
Nghiên cứu:

Hoạt động của các doanh nghiệp vừa và nhỏ (SMEs) thuộc các
ngành da giày – dệt may, cơ khí, và điện tử

Phạm vi nghiên cứu:

Việt Nam

Nghiên cứu sơ khởi:

Áp dụng phương pháp chọn mẫu theo vùng (area sampling,
một dạng của cluster sampling):



chọn ra 1-2 hai thành phố đại diện cho các thành phố
lớn ở Việt Nam



chọn ra 7 tỉnh đại diện cho 7 vùng miền kinh tế ở Việt
Nam

Ở mỗi tỉnh, thành phố, chọn doanh nghiệp SME để phỏng vấn
sơ khởi. Có thể áp dụng kết hợp xác suất như chọn mẫu ngẫu
nhiên đơn giản hay chọn mẫu hệ thống dựa trên danh sách
(khung mẫu) do cơ quan Sở Công Thương hoặc Chi nhánh
Phòng Công nghiệp & Thương mại Việt Nam cung cấp.
Nghiên cứu sâu:

Dựa trên các thông tin ghi nhận được từ người tiêu dùng trong
phỏng vấn sơ khởi và sự sẵn lòng của họ, tiến hành nghiên cứu
sâu.
Áp dụng phương pháp chọn mẫu phân tầng (stratified
sampling) theo tỷ lệ hoặc không theo tỷ lệ dựa trên các đặc
điểm khác biệt về ngành sản xuất ở từng tỉnh, thành phố đã
chọn.
Rút mẫu từ mẫu nghiên cứu đã có.

Với ví dụ trên, ta thấy nhà nghiên cứu có thể lựa chọn và áp dụng nhiều phương pháp
chọn mẫu khác nhau cho các giai đoạn nghiên cứu khác nhau. Tất nhiên là các phương án
chọn lựa còn tùy thuộc rất nhiều vào mục tiêu nghiên cứu, dân số mục tiêu, các chỉ tiêu
cần thu thập, khả năng có được khung mẫu, sự dễ dàng, thuận tiện trong nghiên cứu, và

khả năng tài chính đáp ứng cho nghiên cứu.
Như vậy, có nhiều phương pháp chọn mẫu xác suất khác nhau, với các ưu điểm và hạn
chế của chúng. Bảng 6.2 giúp tóm tắt đặc điểm chính, ưu điểm và hạn chế của từng
phương pháp.

17

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

Bảng 6.2 So sánh các phương pháp chọn mẫu xác suất
Kiểu

Mô tả

Ưu điểm

Hạn chế

Ngẫu nhiên đơn giản
Simple Random

Mỗi phần tử của dân số
đều có cơ hội được lự
chọn ngang bằng nhau.

Dễ áp dụng, nhất là với
cách phỏng vấn quan
điện thoại do máy
quay số ngẫu nhiên. Có

thể áp dụng hệ thống
trả lời tự động.

Đòi hỏi danh sách khung
mẫu.

Chi phí: Cao
Áp dụng: Trung bình

Hệ thống
Systematic
Chi phí: Trung bình
Áp dụng: Trung bình

Phân tầng
Stratified
Chi phí: Cao
Áp dụng: Trung bình

Mẫu được rút ra bằng
cách sử dụng bảng số
ngẫu nhiên hoặc phần
mềm tạo bảng số ngẫu
nhiên.
Chọn ra một phần tử dân
số khởi đầu một cách
ngẫu nhiên, dùng bước
th
nhảy k để chọn các
phần tử khác.

Cần cỡ mẫu lớn.
Tạo ra nhiều sai số.

Thiết kế đơn giản.
Dễ áp dụng hơn chọn
mẫu ngẫu nhiên đơn
giản.
Dễ tính toán phân bố
mẫu của giá trị trung
bình hoặc tỷ lệ.

Chia dân số thành các
dân số phụ (tầng) và
áp dụng chọn mẫu
ngẫu nhiên đơn giản
cho từng tầng. Kết quả
có thể tính theo trọng
số và kết hợp được.

Tốn nhiều thời gian để
thực hiện.

Tính chu kz của dân số có
thể làm méo, sai lệch
mẫu và kết quả.
Nếu dân số có xu hướng
trật tự đơn chiều, có
thể sinh ra kết quả
thiên lệch.

Nhà nghiên cứu kiểm
soát cỡ mẫu trong các
tầng.

Tăng sai số nếu các nhóm
phụ được chọn ở các
tỷ lệ khác nhau.

Tăng hiệu quả thống kê.

Đắt đỏ nếu phải tạo ra
nhiều tầng khác nhau.

Cung cấp dữ liệu đại diện
và phân tích nhóm
phụ.
Cho phép sử dụng nhiều
phương pháp phân
tích khác nhau cho
từng tầng.

Theo nhóm
Cluster
Chi phí: Trung bình
Áp dụng: Cao

Dân số được chia làm
nhiều nhóm phụ dị
biệt trong nội bộ. Chọn

ngẫu nhiên một số
nhóm để nghiên cứu
sâu.

Cung cấp các ước lượng
không thiên lệch nếu
được thực hiện đúng
cách.
Hiệu quả kinh tế cao hơn
chọn mẫu ngẫu nhiên
đơn giản.

Thường có hiệu quả
thống kê thấp do các
nhóm phụ có xu hướng
đồng nhất hơn là dị
biệt.

Chi phí thấp nhất, đặc
biệt khi chia nhóm
theo vùng địa l{.
Dễ làm, không cần danh
sách khung mẫu.
Nhiều giai đoạn
(Double, sequential or
multiphase)
Chi phí: Trung bình
Áp dụng: Trung bình

Quá trình bao gồm việc

thu thập dữ liệu từ
một mẫu đã được xác
định trước. Dựa trên
các thông tin có được,
chọn ra mẫu phụ cho
các nghiên cứu tiếp.

Có thể làm giảm chi phí
nếu kết quả giai đoạn
đầu cho đầy đủ dữ liệu
để phân tầng hoặc chia
nhóm dân số.

Tăng chi phí nếu được áp
dụng không phân biệt.

18

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

4. CHỌN MẪU PHI XÁC SUẤT
Với cách tiếp cận có mục đích như chọn mẫu phi xác suất, ta sẽ không biết được xác suất
lựa chọn các đơn vị nghiên cứu (phần tử của dân số). Có nhiều cách để chọn lựa các cá
nhân hoặc các trường hợp quan sát có trong mẫu. Thường chúng ta hay cho phép các
phỏng vấn viên lựa chọn người cần phỏng vấn. Khi điều này xảy ra, rõ ràng là các thiên
lệch có thể phát sinh ra và làm méo mó kết quả nghiên cứu. Tuy nhiên, có những lý do
thực tiễn mà người ta lựa chọn các phương pháp kém chính xác hơn như vậy.
Chúng ta có thể sử dụng các thủ tục chọn mẫu phi xác suất vì các lý do sau:
-

Chúng có thể thỏa yêu cầu chọn mẫu có mục tiêu.

-

Nếu không có mong muốn hoặc không cần thiết phải tổng quát hóa các kết quả
nghiên cứu cho dân số tổng thể thì ta không quan tâm lắm đến việc liệu là mẫu có
đại diện đầy đủ cho dân số hay không. Điều này đúng với các nghiên cứu khám
phá khi mà chúng ta có thể chỉ muốn gặp những cá nhân, những trường hợp không
điển hình, không ai giống ai.

-

Chọn mẫu phi xác suất ít tốn kém chi phí và thời gian so với chọn mẫu xác suất.

-

Trong khi chọn mẫu xác suất có vẻ lý tưởng và rất tốt về lý thuyết, thì khi áp dụng
vào thực tiễn, lại có nhiều thất bại. Ngay cả khi chúng ta áp dụng cẩn thận các
bước chọn mẫu ngẫu nhiên đơn giản thì chất lượng nghiên cứu vẫn còn tùy thuộc
vào mức độ áp dụng cẩn thận hay không cẩn thận của các người liên quan. Vì vậy,
các phương pháp chọn mẫu xác suất lý tưởng lại chỉ có thể thành công một phần vì
lỗi con người.

-

Chọn mẫu phi xác suất có thể là cách thay thế duy nhất. Trong nhiều trường hợp
trường hợp, có thể ta không biết dân số tổng thể cho nghiên cứu, hoặc ta không thể
có được khung mẫu vì nhiều lý do khác nhau. Và vì vậy, ta không thể có khung
mẫu hoặc có cơ sở để chọn mẫu xác suất.

-

Theo một nghĩa khác, chính những người tham gia nghiên cứu (đối tượng nghiên
cứu) có thể tự chọn chính mình để tham gia. Điều này cũng có nghĩa là nhà nghiên
cứu không thể bảo đảm sự ngang bằng về cơ hội chọn lựa các đơn vị nghiên cứu.

Thông thường, có một số kiểu thiết kế chọn mẫu phi xác suất được áp dụng rộng rãi, kể
cả cho nghiên cứu định tính lẫn nghiên cứu định lượng. Đó là chọn mẫu thuận tiện, chọn
mẫu theo phán đoán, chọn mẫu hạn ngạch và chọn mẫu quả cầu tuyết. Phần kế tiếp trình
bày về các thiết kế chọn mẫu này.

4.1 Chọn mẫu thuận tiện
Chọn mẫu thuận tiện có đặc trưng là nhà nghiên cứu đựa trên sự thuận tiện cho chính họ
để tiếp cận đến dân số mục tiêu. Lý do chính là các nhà nghiên cứu hoặc các điều tra viên,
có quyền tự do chọn lựa bất kỳ ai họ muốn, vì thế được gọi là “thuận tiện”. Đây là các
mẫu có mức tin cậy ít nhất, nhưng thường là rẻ nhất và dễ tiến hành nhất. Phương pháp
19

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

chọn mẫu này khá phổ biến trong nghiên cứu thị trường. Các nghiên cứu thị trường
thường sử dụng cách chọn mẫu thuận tiện này. Các cuộc thăm dò ý kiến khách hàng hầu
hết được thực hiện một cách thuận tiện.
Trong khi chọn mẫu thuận tiện không có kiểm soát như thế có thể không bảo đảm tính
chính xác, nhưng vẫn là một phương pháp hữu ích. Thường thì ta có thể áp dụng một mẫu
như vậy để kiểm tra các ý tưởng hoặc để có được các ý tưởng về đối tượng nghiên cứu. Ở
các giai đoạn đầu của nghiên cứu khám phá, khi ta tìm kiếm hướng đi, ta có thể áp dụng
cách tiếp cận này. Các kết quả có thể rõ ràng đến mức không cần thiết phải áp dụng các

phương pháp chọn mẫu phức tạp.
Ví dụ 6.10 Chọn mẫu thuận tiện
Ta thường thấy các nhóm giới thiệu sản phẩm thực phẩm, nhất là bánh kẹo hay thức
uống có ga thường tổ chức giới thiệu sản phẩm và phỏng vấn nhanh { kiến người dùng
thử tại cửa các siêu thị lớn. Vì sao? Rõ ràng là ở đó, họ có thể dễ dàng tìm gặp nhóm
khách hàng tiềm năng của từng loại sản phẩm. Ngoài ra, số lượng lớn khách hàng đến
siêu thị hàng ngày cũng giúp cho họ đạt được cỡ mẫu nghiên cứu đủ lớn theo { muốn.
Một yếu tố khác là các nhóm cũng không phải tốn kém quá nhiều chi phí để tổ chức gặp
khách hàng, vì trong trường hợp này, khách hàng tự đến với họ.

4.2 Chọn mẫu theo phán đoán
Chọn mẫu có mục đích (purposive sampling) là hình thức chọn mẫu phi xác suất mà nhà
nghiên cứu muốn theo những tiêu chí nào đó. Có hai phương pháp chọn mẫu có mục đích
là chọn mẫu theo kinh nghiệm (judgment sampling) và chọn mẫu theo hạn ngạch (quota
sampling).
Chọn mẫu theo phán đoán xảy ra khi nhà nghiên cứu chọn các đơn vị nghiên cứu theo các
tiêu chuẩn nào đó. Thông thường, các nhà nghiên cứu chọn mẫu phán đoán là họ nên tiếp
cận với nhóm người nào có thông tin tốt nhất để đạt mục tiêu nghiên cứu. Nhà nghiên cứu
chỉ tiếp xúc với những người này để có thông tin cần thiết. Phương pháp này phù hợp khi
được sử dụng vào các giai đoạn đầu của nghiên cứu khám phá. Khi ta muốn chọn một
nhóm thiên lệch nào đó nhằm mục tiêu thanh lọc dữ liệu thì chọn mẫu theo kinh nghiệm
cũng là một phương pháp tốt.
Ví dụ 6.11 Chọn mẫu theo phán đoán
Một công ty chọn nhân viên của chính họ để đánh giá những sản phẩm mới trước khi
đưa ra thị trường. Nếu thất bại, thì các sản phẩm này khó có triển vọng đưa vào thị
trường.
Một trường hợp khác, ta muốn nghiên cứu về thị trường xe ô tô gia đình ở Việt Nam. Dĩ
nhiên là chúng ta phải chọn các đối tượng nghiên cứu là người ở tầng lớp trung lưu trở
lên, và phải là người có kinh nghiệm sử dụng xe ô tô gia đình.
Một nhóm nghiên cứu thị trường muốn nghiên cứu về việc chọn mua sữa bột dành cho

trẻ em dưới 3 tuổi. Nhóm nghiên cứu biết rằng thường chính là các bà mẹ đang nuôi trẻ

20

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

là người mua sữa và thông hiểu nhất về l{ do tại sao mà họ chọn lựa loại sản phẩm này
chứ không phải là loại sản phẩm khác. Nhóm quyết định chỉ tiếp cận đối tượng nghiên
cứu này.

4.3 Chọn mẫu hạn ngạch
Chọn mẫu hạn ngạch1 (quota sampling) cũng là một là kiểu chọn mẫu có mục đích.
Chúng ta áp dụng để cải thiện tính đại diện. Lý do chủ yếu là dân số có thể có vài chiều
kích và chọn mẫu theo hạn ngạch có thể mô tả được các chiều kích này.
Trong chọn mẫu hạn ngạch, nhà nghiên cứu phải chỉ ra nhiều hơn một hướng kiểm soát.
Mỗi hướng phải thỏa mãn hai điều kiện: (1) có một phân phối trong dân số để chúng ta có
thể ước lượng và (2) thích hợp với chủ đề nghiên cứu. Để minh họa, ta quan sát các
trường hợp sau:
Giới tính: hai nhóm thuộc tính – nam, nữ.
Trình độ học vấn: hai nhóm thuộc tính: đại học – trung học.
Khoa ngành trong trường đại học.
Tôn giáo: bốn nhóm thuộc tính – Phật giáo, Thiên chúa giáo, Tin lành, khác.
Thành viên hiệp hội: hai nhóm thuộc tính – thành viên, không phải thành viên.
Tấng lớp kinh tế - xã hội: ba nhóm thuộc tính: giàu, trung bình, nghèo.
Tương tự như chọn mẫu phân tầng, chọn mẫu hạn ngạch có thể theo tỷ lệ hoặc không
theo tỷ lệ.
Chọn mẫu hạn ngạch có vài hạn chế. Thứ nhất, không có gì bảo đảm mẫu sẽ đại diện cho
các biến cần nghiên cứu. Thứ hai, việc chọn lựa đơn vị nghiên cứu tùy thuộc vào điều tra
viên, và tùy thuộc vào kinh nghiệm của chính họ. Vì vậy, họ có thể chọn những người

thân thiết, ban bè quen thuộc để dễ thực hiện công việc.
Tuy vậy, nhìn chung là chọn mẫu hạn ngạch có ít rủi ro về thiên lệch hệ thống, và thường
thỏa mãn được các yêu cầu dự đoán nói chung.
Ví dụ 6.12 Chọn mẫu hạn ngạch
Một công ty nghiên cứu thị trường muốn tìm hiểu hành vi lựa chọn xe gắn máy của
người tiêu dùng ở thành phố Hồ Chí Minh. Với nguồn thống kê thương mại, họ biết rằng
thị phần trung bình của xe Honda là 50%, Yamaha là 30%, SYM là 15% và các nhãn hiệu
khác là 5%. Với cỡ mẫu nghiên cứu dự tính là 200 cá nhân người tiêu dùng, công ty
quyết định phân bố mẫu theo tỷ lệ thị phần trên. Như vậy, mẫu bao gồm 100 người
dùng xe Honda, 60 người dùng xe Yamaha, 30 người dùng xe SYM và 10 người dùng xe
các nhãn hiệu khác.

1

Một số tài liệu khác có thể dùng thuật ngữ “Chọn mẫu định mức” để chỉ phương pháp này.

21

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

4.4 Chọn mẫu quả cầu tuyết
Kiểu chọn mẫu quả cầu tuyết (snowball sampling) còn được gọi là chọn mẫu mở rộng.
Phương pháp này được áp dụng khi ta khó xác định các người trả lời và khó tiếp cận được
họ. Cách này rất phù hợp cho các nghiên cứu định tính và đối với các nhóm người đặc
thù, có những tính chất nào đó mà ta khó tiếp cận.
Nguyên tắc là, ở giai đoạn đầu tiên, ta cần phải phát hiện một vài cá nhân cần tìm hiểu và
thu thập thông tin từ họ. Rồi sau đó ta yêu cầu các cá nhân này chỉ cho ta những người
khác có các đặc điểm tương tự như họ hoặc là những thành viên khác. Ta sẽ tiếp tục tiếp
cận, thu thập thông tin rồi lại hỏi các thành viên khác. Cứ tiếp tục như thế, nhà nghiên

cứu sẽ được các người trả lời chỉ cho những người khác và mở rộng mẫu nghiên cứu cho
đến lúc đạt được cỡ mẫu cần thiết.
Phương pháp này khá phù hợp cho những nghiên cứu mà đối tượng là những nhóm người
đặc thù, ví dụ như cộng đồng các doanh nhân trong một ngành nào đó, cộng đồng các
nghệ sĩ nổi tiếng, hoặc đối tượng là những nhóm người thuộc cộng đồng xã hội có tính
nhạy cảm nào đó, như cộng đồng người nghiện ma túy chẳng hạn.

5. XÁC ĐỊNH CỠ MẪU
5.1 Các khái niện căn bản liên quan đến chọn mẫu và xác định cỡ mẫu
Giá trị trung bình ( ) của mẫu rút ra từ một dân số cho trước là một giá trị ước lượng
điểm và là thông số tốt nhất dùng để ước lượng giá trị trung bình chưa biết của dân số, µ.
Chúng ta không thể coi trung bình mẫu là trung bình dân số. Tuy nhiên, chúng ta có thể
ước lượng khoảng tin cậy mà trung bình dân số µ rơi vào. Ta có thể áp dụng công thức
tính sai số chuẩn (standard error of the mean) - σ hay là se.

X 


n

với
σ = sai số chuẩn của giá trị trung bình hay là độ lệch chuẩn của tất cả giá trị trung bình
s có thể có.
σ = độ lệch chuẩn của dân số
n = cỡ mẫu
Độ lệch chuẩn của mẫu được sử dụng như là ước lượng không chệch cho độ lệch chuẩn
của dân số.

x 

s
n

với
22

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

s = độ lệch chuẩn của mẫu n
Giả sử ta có:
n1 = 10,

1

= 3,0 và s1 = 1,15

x 

s
n

=

1.15
10

= 0,36

Giá trị trung bình của dân số, µ, có thể được ước lượng theo công thức sau:

µ=

σ

Bởi vì chúng ta không điều tra tổng thể nên ta chưa biết giá trị µ và σ. Tuy nhiên, ta có
thể áp dụng công thức µ =
σ . Theo ví dụ trên, µ = ± σ . = 3,0 ± 0,36
Tuy nhiên, vì sai số chuẩn có tính chất như các thông số thống kê khác, ta chỉ có thể có
mức tin cậy 68% về giá trị ước lượng này. Điều này có nghĩa là một sai số chuẩn chỉ chứa
đựng ± 1Z hay là 68% diện tích dưới đường phân phối chuẩn.
Ta sẽ sử dụng chỉ số thống kê khoảng tin cậy (confidence interval). Để tăng độ tin cậy lên
95%, ta phải nhân sai số chuẩn với ± 1,96 (Z), khi 1,96 (Z) bao phủ 95% diện tích dưới
đường phân phối chuẩn. Tương tự như vậy, để nâng độ tin cậy lên 99%, ta phải nhân sai
số chuẩn với ± 3,0 (Z), khi 3,0 (Z) bao phủ 99% diện tích dưới đường phân phối chuẩn.
Do đó, khoảng tin cậy của giá trị trung bình dân số, µ sẽ là:
Ở mức tin cậy 68%: 2,64 – 3,36 (µ = 3,0 ± 0,36)
Ở mức tin cậy 95%: 2,29 – 3,71 (µ = 3,0 ± 0,71)
Ở mức tin cậy 99%: 1,92 – 4,08 (µ = 3,0 ± 1,08)
5.2 Xác định cỡ mẫu theo giá trị trung bình
Trước khi tính cỡ mẫu mong muốn, chúng ta hãy coi lại các thông tin cần thiết:
1. Mức chính xác mong muốn và làm thế nào để lượng hóa nó:
a. Mức tin cậy (confidence level) mà ta muốn đạt được.
b. Độ lớn của khoảng tin cậy (size of the interval estimate), hay nói cách khác
là độ lớn của sai số mà ta muốn đạt được.
2. Độ biến thiên kỳ vọng của dân số.
Ta phải xác định rõ mức chính xác mong muốn. Thường thì mức tin cậy 95% được áp
dụng rộng rãi, tuy nhiên chúng ta vẫn có thể tăng hay giảm mức tin cậy mong muốn tùy
theo từng nghiên cứu cụ thể. Khi đã xác định được mức tin cậy có nghĩa là ta xác định
được hệ số Z cần tính ở mức tương ứng.

23

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

Tương tự như vậy, ta cũng cần xác định độ lớn của sai số mà ta muốn có nhằm tiên đoán
các chỉ số của dân số dựa trên dữ liệu rút ra từ mẫu.
Yếu tố kế tiếp ảnh hưởng đến cỡ mẫu với mức tin cậy cho trước là mức độ biến thiên của
dân số. Mức độ biến thiên càng nhỏ thì cỡ mẫu ta cần cũng càng nhỏ. Ngược lại, mức độ
biến thiên càng lớn thì cỡ mẫu sẽ phải càng lớn. Tuy nhiên, không phải lúc nào ta cũng có
các chỉ số thể hiện mức độ biến thiên của dân số như phương sai hay độ lệch chuẩn. Tuy
nhiên, ta có thể biết được mức độ biến thiên của dân số nhờ vào:
-

Sử dụng kết quả tính phương sai hay độ lệch chuẩn từ các nghiên cứu trước đây
trên cùng chủ đề.

-

Tính phương sai và độ lệch chuẩn dựa trên kết quả khảo sát thử nghiệm (pilot
survey) trên một mẫu nhỏ rút ra từ dân số.

-

Trong trường hợp không áp dụng được cả hai cách trên, ta có thể áp dụng một
phỏng đoán như sau: giả sử các quan sát tuân theo quy luật phân phối chuẩn, thì
độ lêch chuẩn bằng khoảng 1/6 khoảng dao động của dữ liệu (tối thiểu - tối đa) với
độ tin cậy 99.73%.

Sau khi có được cả ba thông số cần thiết (mức tin cậy, độ lớn của sai số, phương sai hay

độ lệch chuẩn), ta có thể tính được cỡ mẫu theo công thức (6.3) dưới đây:

s
n

x 

(6.1)

s
x

(6.2)

s2
n 2
x

(6.3)

n

Ví dụ 6.13 Tính cỡ mẫu cho nghiên cứu thu nhập của sinh viên (đơn vị tính: triệu
đồng/tháng)
Bước 1. Chọn mức độ chính xác mong muốn:
-

Mức tin cậy (confidence level): 95% (Z=1,96)

-

Độ lớn của khoảng tin cậy, hay là mức sai số của giá trị thu nhập mà ta muốn đạt
được qua nghiên cứu: ± 0,25 (tr.đồng/tháng) = Z*se, suy ra s.e = 0,25/Z

Bước 2. Xác định độ biến thiên kz vọng trong dân số (expected dispersion in the
population): dựa trên các kết quả nghiên cứu gần đây về thu nhập của sinh viên, ta có
giá trị độ lệch chuẩn tham khảo = 0,7 (tr.đồng/tháng)
Bước 3. Phỏng định sai số chuẩn: se = 0,25/Z = 0,25/1,96 = 0,127
Bước 4. Xác định cỡ mẫu n = s2/ x 2 = 0,72/0,1272 = 30,38 = 30

24

Bài giảng Phương Pháp Nghiên Cứu – Chương trình Cao học Kinh Tế (2010-2011)

Nếu ta muốn nâng mức độ chính xác mong muốn từ 95% lên 99%, thì Z thay đổi từ 1,96
đến 3,0. Áp dụng vào công thức tính ta có:
-

Phỏng định sai số chuẩn: se = 0,25/3,0 = 0.083

-

Cỡ mẫu n = 0,72/0,0832 = 71,02 = 71

Như vậy, khi tăng mức tin cậy từ 95% lên 99%, trong trường hợp này, chúng ta phải
tăng cỡ mẫu lên 2,4 lần.
Nếu ta muốn giảm độ lớn của khoảng tin cậy (tăng mức chính xác của nghiên cứu)
xuống còn 0,1 triệu đồng/tháng thay vì 0,25 triệu đồng/tháng, và vẫn giữ mức tin cậy
95%. Áp dụng vào công thức tính, ta có:

o

Phỏng định sai số chuẩn: se = 0,1/1,96 = 0.051

o

Cỡ mẫu n = 0,72/0,0512 = 188,38 = 188

Như vậy, khi giảm độ lớn của khoảng tin cậy xuống 2,5 lần, cỡ mẫu phải tăng 6,3 lần
trong trường hợp này.

5.3 Xác định cỡ mẫu theo tỷ lệ
Đối với một số trường hợp nghiên cứu, ta mong muốn biết được tỷ lệ chính xác của một
dân số phụ trong một dân số có một thuộc tính cho trước thay vì xác định giá trị trung
bình của dân số. Giả sử ta muốn nghiên cứu xem tỷ lệ sinh viên của một trường đại học
nào đó sở hữu máy tính xách tay là bao nhiêu phần trăm; tỷ lệ của các doanh nghiệp vừa
và nhỏ làm ăn thua lỗ trong năm tài chính vừa qua. Với các trường hợp này, dĩ nhiên mục
tiêu của ta không phải là tìm giá trị trung bình về sở hữu máy tính xách tay trong sinh
viên hay là giá trị trung bình của các doanh nghiệp bị thua lỗ. Ngoài ra, các khái niệm
trung bình này cũng không tồn tại vì các biến ta cần đo lường là các biến định tính, với
thang do dữ liệu là thang đo danh nghĩa.
Với cách xác định cỡ mẫu theo tỷ lệ, ta phải xác định tỷ lệ của dân số mà chúng có một
thuộc tính cho trước, tỷ lệ này gọi là p. Và thay vì sử dụng độ lệch chuẩn, độ biến thiên
của dân trong trường hợp này được xác định bằng p x q, trong đó q là tỷ lệ của dân số
không có thuộc tính đó, tức là q = (1 – p). Tương tự như vậy, sai số chuẩn của trung bình
được thay thế bằng sai số chuẩn của tỷ lệ, σp. Ta có công thức sau:

p 
n

pq
n

pq



2

(6.4)
(6.5)

p

Với pq là chỉ thị của độ biến thiên của mẫu, được dùng như là một ước lượng của độ biến
thiên của dân số; σp là sai số chuẩn của tỷ lệ; và n là cỡ mẫu;

25

Phương pháp chọn mẫu và xác định cỡ mẫu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về