1/12/2015
PHƯƠNG PHÁP CHỌN MẪU
VÀ TÍNH TỐN CỠ MẪU
PGS. TS. Hồng Văn Minh
Đại học Y Hà nội
NỘI DUNG
1. Một số khái niệm cơ bản
2. Phương pháp chọn mẫu
3. Phương pháp tính toán cỡ mẫu
1
1/12/2015
Quần thể và mẫu
Quần thể
Bao gồm
toàn
bộ
các cá thể
mà chúng
ta
đang
quan tâm
Mẫu
Là 1 phần của quần thể, bao gồm những cá thể
mà chúng ta sẽ nghiên cứu
Chọn mẫu và ngoại suy
Quần thể
Chọn mẫu
Ngoại suy
Mẫu
Nghiên cứu
2
1/12/2015
Ngoại suy
Mẫu
Quần thể
Sai số
(Errors)
Sai số hệ thống
Sai số ngẫu nhiên
(Sai chệch)
(May rủi)
Chọn mẫu
Cỡ mẫu
Xác định đối tượng nghiên cứu
Xác định phương pháp chọn mẫu
Tính tốn cỡ mẫu
Tuyển chọn đối tượng nghiên cứu
theo phương pháp chọn mẫu và
cỡ mẫu đã được xác định
3
1/12/2015
Xác định đối tượng nghiên cứu
Quẩn thể
nghiên
cứu
Đối tượng
nghiên
cứu
Là đối tượng đích của nghiên cứu
Có các đặc tính chúng ta đang quan tâm
(được nêu trong mục tiêu nghiên cứu)
Xác định đối tượng nghiên cứu
Đối tượng
nghiên cứu
Nguồn số
liệu
Nguồn số liệu có thể là người cung cấp số liệu, cơ
sở dữ liệu, báo cáo, bệnh án chứa các số liệu
4
1/12/2015
Đối tượng nghiên cứu
Tiêu chuẩn lựa chọn
Tiêu chuẩn loại trừ
(Đã có đủ tiêu chuẩn lựa chọn)
o Đặc điểm cá nhân: Phụ o Khó khăn trong việc cung
nữ dưới 65 tuổi
cấp thơng tin: Khơng có
o Đặc điểm lâm sàng:
khả năng giao tiếp,
Được chẩn đốn mắc
khơng hợp tác
tăng huyết áp theo tiêu o Có thể bị mất theo dõi:
chuẩn JNC7 …
Có thể chuyển sang nơi
o Đặc điểm địa dư (hành
khác sinh sống, nhà xa
chính): Sống tại Hà nội,
điều trị tại Viện tim mạch
o Đặc điểm thời gian: Thời
gian
điều
trị
từ
1/1/2014-31/12/2014
Chọn mẫu
• Là quy trình chọn cá thể đại diện
cho quần thể để tham gia vào
nghiên cứu
• Điều kiện
– Mẫu phải đại diện cho quần thể
– Cỡ mẫu đủ lớn
5
1/12/2015
Chọn mẫu
Xác suất
Khơng xác suất
Chọn mẫu khơng xác suất
• Khái niệm: Xác suất các cá thể được lựa
chọn vào mẫu là khơng giống nhau
• Phương pháp:
– Chọn mẫu thuận tiện: Tình nguyện tham gia
– Chọn mẫu chỉ tiêu: ½ nam + ½ nữ
– Chọn mẫu bóng tuyết: Giới thiệu người tiếp
theo tham gia nghiên cứu
• Ưu điểm: Đơn giản, nhanh, khơng tốn kém
• Nhược điểm: Gây ra sai chệch lựa chọn
• Ứng dụng: Thường chỉ sử dụng trong nghiên
cứu thử, nghiên cứu trường hợp hoặc nghiên
cứu định tính
6
1/12/2015
Chọn mẫu xác suất
• Khái niệm: Xác suất các cá thể được lựa
chọn vào mẫu là khơng giống nhau
• Phương pháp:
1. Chọn mẫu ngẫu nhiên đơn (Simple random
sampling)
2. Chọn mẫu ngẫu nhiên hệ thống (Systematic
random sampling)
3. Chọn mẫu phân tầng (Stratifed sampling)
4. Chọn mẫu theo cụm (chùm) (Cluster
sampling)
5. Chọn mẫu nhiều giai đoạn (Multi-stage
sampling)
Chọn mẫu ngẫu nhiên đơn
Xác suất lựa chọn =
Cỡ mẫu
Tổng số cá thể của quần thể
7
1/12/2015
Chọn mẫu ngẫu nhiên đơn
Quần thể =N
P
p
X
s
Mẫu =n
Chn mu ngu nhiên đơn
• Ưu điểm:
–
–
–
–
Đơn giản, dễ làm
Có tính ngẫu nhiên và đại diện cao.
Dễ phân tích số liệu
Là cơ sở của các kỹ thuật chọn mẫu khác.
• Hạn chế:
–
–
Tốn kém trong quá trình thu thập số liệu
(trong các điều tra cộng đồng)
Cần danh sách cá thể trong quần thể
8
1/12/2015
Chọn mẫu ngẫu nhiên hệ thống
• Xác định khung mẫu và đánh số đơn vị mẫu
• Xác định khoảng cách mẫu: k= N/n
• Xác định đơn vị mẫu đầu tiên (i) nằm giữa 1
và k bằng PP ngẫu nhiên đơn.
• Đơn vị mẫu tiếp theo: Cộng k với đơn vị mẫu
đầu tiên, tiếp tục cho đến khi đủ số mẫu:
i + 1k; i + 2k; i + 3k...
Chän mÉu ngÉu nhiªn hƯ thèng
k
i
k
i+k
k
i + 2k
k
i + 3k
k
k
i + (n-1)k
Sè ngÉu nhiên đợc
chọn giữa 1 và k
9
1/12/2015
Chọn mẫu ngẫu nhiên hệ thống
• Ưu điểm:
– Nhanh và dễ áp dụng
– Ít tốn kém
– Đơn giản trong điều kiện thực địa
• Hạn chế:
– Đơn vị mẫu khơng xếp ngẫu nhiên hoặc trùng
với k, thiếu đại diện.
Chọn mẫu phân tầng
• Chia quần thể các tầng(strata). Các cá
thể trong mỗi tầng tương đồng về đặc
tính nào đó
• Chọn mẫu ngẫu nhiên đơn hay chọn
mẫu hệ thống ở mỗi tầng
• Cỡ mẫu mỗi tầng có thể
– Bằng nhau (chọn mẫu phân tầng khơng tỷ
lệ với kích cỡ quần thể)
– Khơng bằng nhau: Tỷ lệ với số cá thể của
mỗi tầng (chọn mẫu phân tầng tỷ lệ với
kích cỡ quần thể )
10
1/12/2015
Chọn mẫu phân tầng
Tất cả
bệnh viện
B/V lớn
B/V vừa
n1
Tng 1
N1= 2000
n1=400
B/V nhá
n2
n3
Tầng 2
N2 = 6000
n2=400
11
1/12/2015
Tầng 1
N1= 2000
n1=200
Tầng 2
N2 = 6000
n2=600
Chọn mẫu phân tầng
• Ưu điểm:
– Đảm bảo tính đại diện của mỗi nhóm
trong tổng mẫu
– Dễ thu thập số liệu
• Hạn chế:
– Thiếu chính xác khi số lượng đơn vị
mẫu ở mỗi tầng quá ít
12
1/12/2015
Chọn mẫu theo cụm (chùm)
• Xác định cụm (Dựa trên nơi sinh sống,
đơn vị hành chính).
• Lập danh sách cụm
• Chọn cụm ngẫu nghiên từ danh sách.
• Chọn cá thể:
– Lấy tất cả các cá thể (nếu khơng có danh
sách) của các chùm (chùm 1 bậc)
– Lập danh sách, chọn cá thể bằng PP ngẫu
nhiên đơn hoặc hệ thống (chùm 2 bậc).
Chän mÉu chïm
n2
n1
n3
13
1/12/2015
Chọn mẫu theo cụm (chùm)
• Ưu điểm
– Có thể áp dụng trong điều tra có phạm vi
rộng, phân tán, khơng có được danh sách các
đơn vị nghiên cứu.
– Khung mẫu đơn giản (danh sách các cụm), dễ
lập.
– Điều tra dễ & nhanh=> Có hiệu quả kinh tế
(kinh phí, thời gian)
• Hạn chế:
– Tính đại diện thấp (hệ số thiết kế)
– Phân tích số liệu phức tạp
Chọn mẫu nhiều giai đoạn
• Là dạng phức tạp của chọn mẫu cụm
(Chọn mẫu cụm là chọn mẫu 2 giai
đoạn)
• Ví dụ: Chọn tỉnh=> huyện=> xã=>làng
14
1/12/2015
Phân biệt
Chọn mẫu
tầng
Có đại diện của
tất cả các tầng
trong mẫu
Chọn mẫu
cụm
Chỉ 1 số cụm
được lựa chọn
vào mẫu
15
1/12/2015
Cỡ mẫu
chính xác
16
1/12/2015
Cỡ mẫu
Kinh phí
Cỡ mẫu = ---------------Chi phí 1 mẫu
Cỡ mẫu
1. Loại biến số được phân tích (định lượng, định tính)
2. Mục tiêu phân tích (xác định tỷ lệ hay kiểm định sự
khác biệt...)
3. Mức ý nghĩa thống kê (=5%, 1%)
4. Độ mạnh (mức độ ngoại suy) (1-=80%,90%)
5. Mức độ sai số giữa các tham số mẫu và tham số
quần thể
6. Kết quả từ NC trước đây, NC thử, ước tính, mong
muốn...
7. Một số yếu tố khác
17
1/12/2015
Biến số
Định lượng
Định tính
Đường máu
Có bệnh-khơng có bệnh
Mục tiêu
phân tích
Xác định
So sánh
Xác định tỷ lệ cao huyết
áp ở bệnh nhân ĐTĐ
So sánh tỷ lệ khỏi bệnh
của 2 ph. pháp điều trị
18
1/12/2015
Kiểm định giả thuyết
Giả thuyết Ho: Khơng có sự khác biệt
Giả thuyết Ha: Có sự khác biệt
Sai lầm
Thực tế
H0 đúng
H0 sai
Sai lầm II ()
Sai lầm I ()
Quyết định
Chấp nhận H0
Loại bỏ H0
19
1/12/2015
Mức ý nghĩa thống kê
Loại bỏ sai lầm loại I
= 0.05
p = probability= Xác suất để giả thuyết Ho đúng
P<0.05
=
=
=
=
=
=
Xác suất để giả thuyết Ho đúng là < 5%
Ho xảy ra chỉ là may rủi
Bác bỏ Ho
Xác suất để giả thuyết Ha đúng là > 95%
Ha xảy ra là chắc chắn
Chấp nhận Ha
P>0.05
= ???
Độ mạnh
Loại bỏ sai lầm loại II
1- = 80%
Thường dùng trong tính tốn cỡ mẫu
20
1/12/2015
Mức ý nghĩa
thống kê ()
z (1-/2)
.01 (99)
2.576
.02 (98)
2.326
.05 (95)
1.960
.10 (90)
1.645
Độ mạnh
(1-)
z (1-)
.80
0.842
.85
1.036
.90
1.282
.95
1.645
Sai số (mức chính xác)
Mức sai số giữa kết quả tính tốn từ
mẫu so với kết quả thực của quần thể
• Tuyệt đối (hiệu số): hoặc d
• Tương đối (thương số):
21
1/12/2015
Cỡ mẫu xác định 1 tỷ lệ
Xác định tỷ lệ mắc bệnh X trong số người đến
khám sức khỏe. Biết rằng 1 NC trước đây báo cáo
tỷ lệ 10%. Mức ý nghĩa thống kê =5%
22
1/12/2015
Cỡ mẫu xác định 1 tỷ lệ
n: Cỡ mẫu tối thiểu
z (1-/2)= 1,96
P: Tỷ lệ mong đợi
: Độ chính xác tương đối
Cỡ mẫu so sánh 2 tỷ lệ
Một phương pháp điều trị hiện tại cho tỉ lệ đáp
ứng là 30%. Giả thuyết rằng phương pháp điều
trị mới sẽ có tỉ lệ đáp ứng là 40%. Xác định cỡ
mẫu cho nghiên cứu này nếu mức ý nghĩa
thống kê là 95% và độ mạnh là 80%
23
1/12/2015
Cỡ mẫu so sánh 2 tỷ lệ
n: cỡ mẫu tối thiểu
P1: Tỷ lệ đáp ứng với phương pháp cũ
P2: Tỷ lệ đáp ứng với phương pháp mới
P: =(P1+P2)/2
z (1-/2)= 1,96
z (1-)= 0,842
Cỡ mẫu so sánh 2 số trung bình
Xác định cỡ mẫu cho nghiên cứu đánh
giá tác dụng giảm huyết áp của 2 loại
thuốc. Giả sử sự khác biệt ước đoán là
10mmHg, độ lệch chuẩn là 10mmHg.
Chọn mức ý nghĩa thống kê là 95% và
độ mạnh là 80%
24
1/12/2015
Cỡ mẫu so sánh 2 số trung bình
Độ lệnh chuẩn σ =10
0- a =10
z (1-/2)= 1,96
z (1-)= 0,842
Một số yếu tố khác
Khống chế tỷ lệ không trả lời
Khống chế tỷ lệ mất đối tượng
Hệ số thiết kế khi chọn mẫu cụm
Các phân tích nâng cao
25