1
Phương pháp ước tính cỡ mẫu
cho một nghiên cứu y học
Nguyễn Văn Tuấn
Một công trình nghiên cứu thường dựa vào một mẫu (sample). Một trong những
câu hỏi quan trọng nhất trước khi tiến hành nghiên cứu là cần bao nhiêu mẫu hay bao
nhiêu đối tượng cho nghiên cứu. “Đối tượng” ở đây là đơn vị căn bản của một nghiên
cứu, là số bệnh nhân hay số tình nguyện viên. Ước tính số lượng đối tượng cần thiết cho
một công trình nghiên cứu đóng vai trò cực kì quan trọng, vì nó có thể là yếu tố quyết
định sự thành công hay thất bại của nghiên cứu. Nếu số lượng đối tượng không đủ thì kết
luận rút ra từ công trình nghiên cứu không có độ chính xác cao, thậm chí không thể kết
luận gì được. Ngược lại, nếu số lượng đối tượng quá nhiều hơn số cần thiết thì tài
nguyên, tiền bạc và thời gian sẽ bị hao phí. Do đó, vấn đề then chốt trước khi nghiên cứu
là phải ước tính cho được một số đối tượng vừa đủ cho mục tiêu của nghiên cứu. Số
lượng đối tượng “vừa đủ” tùy thuộc vào loại hình nghiên cứu và hai thông số chính:
• Phương pháp thiết kế nghiên cứu và tiêu chí lâm sàng (outcome measure).
• Hệ số ảnh hưởng (effect size);
• Sai lầm mà nhà nghiên cứu chấp nhận, cụ thể là sai lầm loại I và II (power);
Không biết [hay chưa quyết định] được thiết kế nghiên cứu và không có số liệu về
hai thông số trên thì không thể nào ước tính cỡ mẫu. Kinh nghiệm của người viết cho
thấy rất nhiều người khi tiến hành nghiên cứu thường không có ý niệm gì về các số liệu
này, cho nên khi đến tham vấn các chuyên gia về thống kê học, họ chỉ nhận câu trả lời:
“không thể tính được”! Trong bài này tôi sẽ bàn qua hai thông số trên và trình bày một
số ví dụ nghiên cứu lâm sàng cụ thể về ước tính cỡ mẫu.
1. Thiết kế nghiên cứu và tiêu chí lâm sàng
1.1 Thiết kế nghiên cứu
Thông tin thứ nhất trong qui trình ước tính cỡ mẫu là thể loại nghiên cứu, bởi vì
yếu tố này có ảnh hưởng đến phương pháp phân tích thống kê và vì thế phương pháp ước
tính cỡ mẫu. Có thể phân biệt các thể loại nghiên cứu này dựa vào hai tiêu chí: thời gian
và đặc tính. Về thời gian, các nghiên cứu thu thập dữ liệu tại một thời điểm hiện tại
(present) được gọi là cross-sectional study (nghiên cứu tiêu biểu một thời điểm); các
nghiên cứu có định hướng theo dõi tình trạng sức khỏe của đối tượng trong một thời gian,
tức thu thập dữ liệu từng đối tượng nhiều lần (hiện tại và tương lai) được gọi là
2
prospective (hay longitudinal) study (nghiên cứu theo thời gian); và các nghiên cứu được
tiến hành hiện tại nhưng có định hướng tìm hiểu quá khứ (past) được gọi là retrospective
study.
Nghiên cứu tại một thời điểm hay cross-sectional study (được dịch theo nghĩa đen
là “nghiên cứu cắt ngang”). Đây là một thiết kế mà các nhà nghiên cứu chọn một quần
thể một cách ngẫu nhiên nhưng tiêu biểu cho một cộng đồng, tại một thời điểm nào đó.
Nói cách khác, nhà nghiên cứu thu thập dữ liệu chỉ một lần duy nhất của các đối tượng
ngay tại thời điểm đó (hiện tại). Mục đích chính của các nghiên cứu này là tìm hiểu tỉ lệ
hiện hành (prevalence) của một bệnh nào đó, hay tìm hiểu mối tương quan giữa một yếu
tố nguy cơ và một bệnh.
Nghiên cứu đối chứng hay case-control study. Trong các nghiên cứu này, mục
đích chính là tìm hiểu mối liên hệ giữa một (hay nhiều) yếu tố nguy cơ (risk factors) và
một bệnh rất cụ thể. Để tiến hành nghiên cứu này, nhà nghiên cúu bắt đầu bằng một
nhóm bệnh nhân và một nhóm đối tượng không bệnh (đối chứng), và “đi ngược thời
gian” tìm hiểu những yếu tố nguy cơ mà cả hai nhóm phơi nhiễm trong quá khứ.
Nghiên cứu xuôi thời gian (longitudinal studies hay prospective study). Ngược
lại với nghiên cứu đối chứng (trường hợp nhà nghiên cứu biết ai mắc bệnh và ai không
mắc bệnh), với các nghiên cứu theo thời gian nhà nghiên cứu bắt đầu bằng một nhóm
không mắc bệnh, và theo dõi một thời gian sau để quan sát ai mắc bệnh hay không mắc
bệnh trong thời gian đó. Ngược lại với nghiên cứu đối chứng (trường hợp nhà nghiên
cứu đi ngược về quá khứ để tìm hiểu ai bị phơi nhiễm yếu tố nguy cơ), với các nghiên
cứu theo thời gian, nhà nghiên cứu biết ngay từ lúc ban đầu ai bị phơi nhiễm hay không
phơi nhiễm yếu tố nguy cơ. Mục đích của các nghiên cứu xuôi thời gian thường là ước
tính tỉ lệ phát sinh (incidence) bệnh trong một thời gian (điều này khác với mục đích của
nghiên cứu tại một thời điểm là ước tính tỉ lệ hiện hành – tức prevalence – của bệnh).
Ngoài ra, các nghiên cứu theo thời gian còn cho phép nhà nghiên cứu tìm hiểu mối liên
hệ giữa một hay nhiều yếu tố nguy cơ và nguy cơ phát sinh bệnh tật. Khác với nghiên
cứu cross-section chỉ ghi nhận sự kiện tại một thời điểm, các nghiên cứu longitudinal
phải theo dõi đối tượng trong một thời gian có thể là nhiều năm tháng.
1.2 Tiêu chí lâm sàng
Sau khi đã xác định thể loại nghiên cứu, nhà nghiên cứu cần phải quyết định chọn
một tiêu chí lâm sàng chính (primary outcome measure) để căn cứ vào đó mà ước tính cỡ
mẫu. Quyết định chọn tiêu chí lâm sàng là một quyết định vừa mang tính lâm sàng, vừa
mang tính khoa học. Bởi vì mục tiêu tối hậu của nghiên cứu y khoa là đem lại lợi ích cho
bệnh nhân hay cộng đồng, cho nên tiêu chí được chọn phải có ý nghĩa thực tế đối với
3
bệnh nhân. Chẳng hạn như trong việc thẩm định hiệu quả của các phương pháp truy tìm
ung thư, thì tỉ lệ phát hiện ung thư và điều trị không phải là tiêu chí có ý nghĩa thực tế,
nhưng tỉ lệ tử vong và thời gian sống sót sau khi truy tìm ung thư mới là tiêu chí có ý
nghĩa lâm sàng và thực tế. Mặc khác, tiêu chí phải đáp ứng các tiêu chuẩn khoa học về
độ tin cậy và độ chính xác. Nếu một nghiên cứu có mục tiêu tìm hiểu hiệu quả của một
loại thuốc phòng chống bệnh xơ vữa động mạch, thì độ cholesterol trong máu không thể
được xem là tiêu chí có ý nghĩa lâm sàng, dù nó đáp ứng yêu cầu khoa học tính. Do đó,
việc chọn một tiêu chí lâm sàng cho nghiên cứu cần phải cân nhắc rất cẩn thận.
Quyết định chọn tiêu chí lâm sàng là một quyết định quan trọng, bởi vì nó có ảnh
hưởng đến cỡ mẫu rất lớn. Chẳng hạn như trong các nghiên cứu loãng xương, các nhà
nghiên cứu có thể so sánh mật độ xương hay tỉ lệ gãy xương giữa hai nhóm can thiệp để
biết hiệu quả của thuốc. Nếu chọn mật độ xương làm tiêu chí lâm sàng thì số lượng cỡ
mẫu có thể sẽ là con số vài trăm bệnh nhân, nhưng nếu chọn tỉ lệ gãy xương con số cỡ
mẫu có thể lên đến vài chục ngàn đối tượng.
2. Khái niệm về “hệ số ảnh hưởng” (effect size)
Hệ số ảnh hưởng, nói một cách đơn giản, là một chỉ số về độ ảnh hưởng của một
thuật can thiệp. Vì phản ảnh mức độ khác biệt, hệ số ảnh hưởng cho phép chúng ta tránh
khỏi cách diễn dịch giới hạn bởi ngôn ngữ nhị phân (như “có hay không có ảnh
hưởng?”), và tập trung vào một cách diễn dịch mang tính khoa học hơn (như “mức độ
ảnh hưởng cao hay thấp cỡ nào?”) Ba trường hợp đơn giản sau đây sẽ minh họa cho khái
niệm về hệ số ảnh hưởng:
Trường hợp 1: Trong một nghiên cứu gồm 50 bệnh nhân cao huyết áp được điều
trị bằng một thuốc trong nhóm beta-blocker. Trước khi điều trị, huyết áp tâm thu (SBP)
trung bình cho cả nhóm là 140 mmHg và độ lệch chuẩn là 22 mmHg. Sau khi điều trị,
huyết áp tâm thu giảm xuống còn 125 mmHg.
Trường hợp 2: Một nghiên cứu khác thẩm định hiệu quả của một thuốc chống
loãng xương trong nhóm bisphosphonate. Nghiên cứu được tiến hành trên 50 bệnh nhân.
Trước khi điều trị, mật độ xương ở cổ xương đùi (femoral neck bone mineral density, viết
tắt là BMD) trung bình là 0.68 g/cm
2
với độ lệch chuẩn 0.12 g/cm
2
. Sau 6 tháng điều trị,
BMD trung bình cho cả nhóm tăng lên 0.72 g/cm
2
với
độ lệch chuẩn 0.13 g/cm
2
.
Trường hợp 3: Một nghiên cứu bệnh – chứng (case-control study) nhằm thẩm
định ảnh hưởng của thói quen hút thuốc lá đến độ glucose trong máu. Nhóm hút thuốc lá
gồm 30 người có độ glucose trung bình là 130 mg/dL với độ lệch chuẩn 35 mg/dL.
4
Nhóm không hút thuốc lá gồm 70 người có độ glucose trung bình là 110 mg/dL với độ
lệch chuẩn 50 mg/dL.
Trong trường hợp 1, chúng ta có thể ước tính mức độ ảnh hưởng bằng cách lấy
huyết áp sau khi điều trị trừ cho huyết áp trước khi điều trị: d
1
= 125 – 140 = -15 mmHg.
Tương tự, ảnh hưởng của thuốc bisphosphonate cho trường hợp 2 là d
2
= 0.72 – 0.68 =
0.04 g/cm
2
. Và trường hợp 3, độ ảnh hưởng của hút thuốc lá có thể ước tính bằng d3 =
130 – 110 = 20 mg/dL.
Khó khăn trong cách ước tính độ ảnh hưởng trên đây là không thể so sánh trực
tiếp được độ ảnh hưởng, bởi vì đơn vị đo lường khác nhau. Và, quan trọng hơn nữa, độ
dao động (phản ảnh bằng độ lệch chuẩn) giữa 3 trường hợp cũng rất khác nhau. Phương
pháp so sánh trực tiếp ảnh hưởng lí tưởng là hoán chuyển sao cho cả ba trường hợp có
cùng một đơn vị đo lường. Để đạt được mục đích này, cách đơn giản nhất là lấy độ ảnh
hưởng chia cho độ lệch chuẩn. Tỉ số này có tên tiếng Anh là effect size (có khi còn gọi là
standardized difference) mà tôi tạm dịch là hệ số ảnh hưởng. Công thức chung cho ước
tính hệ số ảnh hưởng (sẽ viết tắt bằng ES) là:
1 0
0
x x
ES
s
−
= [1]
Trong đó:
•
1
x
là số trung bình của nhóm can thiệp;
•
0
x
là số trung bình của nhóm đối chứng; và
•
0
s
là độ lệch chuẩn của nhóm đối chứng.
Hệ số ảnh hưởng của 3 trường hợp trên là:
• Trường hợp 1: ES
1
= -15 / 22 = 0.68
• Trường hợp 2: ES
2
= 0.04 / 0.12= 0.33
• Trường hợp 3: ES
3
= 20 / 50 = 0.40
Nên nhớ rằng độ lệch chuẩn có cùng đơn vị đo lường với độ ảnh hưởng trung bình, cho
nên hệ số ảnh hưởng không có đơn vị. Nói cách khác, đơn vị đo lường độ ảnh hưởng bây
giờ là độ lệch chuẩn. Chẳng hạn như trong trường hợp 1, thuốc beta-blocker có tác dụng
giảm huyết áp tâm thu khoảng 0.68 độ lệch chuẩn, còn trong trường hợp 2, thuốc
bisphosphonate tăng mật độ xương chỉ 0.33 độ lệch chuẩn. Vì có cùng đơn vị so sánh, có
thể nói [đơn giản] rằng hệ số ảnh hưởng của thuốc beta-blocker cao hơn thuốc
bisphosphonate.
5
Theo một qui ước [không có cơ sở khoa học mấy], một hệ số ảnh hưởng bằng 0.2
được xem là “thấp”, 0.5 là “trung bình”, và >0.8 là “cao” [1]. Một hệ số ảnh hưởng 0.2
tương đương với độ khác biệt về chiều cao của một em bé 15 tuổi và một em bé 16 tuổi.
Một hệ số ảnh hưởng 0.5 tương đương với độ khác biệt về chiều cao của một em bé 14
tuổi và một em bé 18 tuổi. Một hệ số ảnh hưởng 0.8 tương đương với độ khác biệt về chỉ
số thông minh (IQ) của một sinh viên năm thứ nhất và một tiến sĩ.
3. Sai lầm loại I, II và khái niệm về “power”
3.1 Sai lầm loại I và II
Thống kê học là một phương pháp khoa học có mục đích phát hiện, hay đi tìm
những cái có thể gộp chung lại bằng cụm từ “chưa được biết” (unknown). Cái chưa được
biết ở đây là những hiện tượng chúng ta không quan sát được, hay quan sát được nhưng
không đầy đủ. Cái chưa biết có thể là một ẩn số (như chiều cao trung bình ở người Việt
Nam, hay trọng lượng một phần tử), hiệu quả của một thuật điều trị, tỉ lệ lưu hành
(prevalence), tỉ lệ phát sinh (incidence) của bệnh, v.v… Chúng ta có thể đo chiều cao,
hay tiến hành xét nghiệm để biết hiệu quả của thuốc, nhưng các nghiên cứu như thế chỉ
được tiến hành trên một nhóm đối tượng, chứ không phải toàn bộ quần thể của dân số.
Vấn đề là sử dụng kết quả của một nhóm đối tượng để suy luận cho một quần thể lớn
hơn. Mục đích của ước tính cỡ mẫu là tìm số lượng đối tượng sao cho suy luận đó đạt độ
chính xác cao nhất và đầy đủ nhất.
Ở mức độ đơn giản nhất, những cái chưa biết này có thể xuất hiện dưới hai hình
thức: hoặc là có, hoặc là không. Chẳng hạn như một thuật điều trị có hay không có hiệu
quả chống gãy xương. Bởi vì không ai biết hiện tượng một cách đầy đủ, chúng ta phải
đặt ra giả thiết. Giả thiết đơn giản nhất là giả thiết đảo (hiện tượng không tồn tại, kí hiệu
Ho) và giả thiết chính (hiện tượng tồn tại, kí hiệu Ha).
Chúng ta sử dụng các phương pháp kiểm định thống kê (statistical test) như kiểm
định t, F, z, χ
2
, v.v… để đánh giá khả năng của giả thiết. Kết quả của một kiểm định
thống kê có thể đơn giản chia thành hai giá trị: hoặc là có ý nghĩa thống kê (statistical
significance), hoặc là không có ý nghĩa thống kê (non-significance). Có ý nghĩa thống kê
ở đây thường dựa vào trị số P: thông thường, nếu P < 0.05, chúng ta phát biểu kết quả có
ý nghĩa thống kê; nếu P > 0.05 chúng ta nói kết quả không có ý nghĩa thống kê. Cũng có
thể xem có ý nghĩa thống kê hay không có ý nghĩa thống kê như là có tín hiệu hay không
có tín hiệu. Hãy tạm đặt kí hiệu T+ là kết quả có ý nghĩa thống kê, và T- là kết quả kiểm
định không có ý nghĩa thống kê.
28
Tài liệu tham khảo:
1. Cohen J. Statistical power analysis for the behavioral science. NY: Academic Press,
1969.
2. Hair JF, Anderson RE, et al. Multivariate data analysis, 5
th
Ed. New Jersey:Prentice-
Hall, 1998.
3. Green SB. How many subjects does it take to do a regression analysis. Multivariat
Behav Res 1991; 26:499-510.
4. Harris RJ. A primer of multivariate analysis, 2
nd
Ed. New York: Academic Press,
1985.
5. Freeman LS. Tables of the number of patients required in clinical trials using the
logrank test. Stat Med 1982; 1:121-129.
6. Lee ET. Statistical methods for survival analysis. Page 320. New York: Wiley, 1992.
7. Jones SJ, Carley S, Harrison M. An introduction to power and sample size estimation.
Emerg Med J 2003; 20:453-458.
Tài liệu đọc thêm: Các công thức trình bày trong bài viết này có thể tìm thấy trong các
sách giáo khoa về dịch tễ học và thống kê học. Ba cuốn sách sau đây có thể xem như loại
sách dẫn nhập:
1. Machin JM. Biostatistical Methods – The Assessment of Relative Risks. New York:
John Wiley & Sons, 2000.
2. Kahn HA, Sempos CT. Statistical Methods in Epidemiology. New York: Oxford
University Press, 1989.
3. Phân tích số liệu và tạo biểu đồ bằng R - hướng dẫn thực hành của tôi (tác giả bài
này) do Nhà xuất bản Khoa học và Kỹ thuật phát hành, Thành phố Hồ Chí Minh, 2006.
Trong sách có hướng dẫn cách tính cỡ mẫu (và phân tích số liệu) bằng máy tính qua ngôn
ngữ thống kê R.
Ngoài ra, bạn đọc muốn tìm hiểu thêm về các phương pháp tính cỡ mẫu có thể tìm đọc
các bài báo quan trọng sau đây:
1. Florey CD. Sample size for beginners. BMJ 1993;306(6886):1181-4.
29
2. Day SJ, Graham DF. Sample size and power for comparing two or more treatment
groups in clinical trials. BMJ 1989;299(6700):663-5.
3. Kieser M, Hauschke D. Approximate sample sizes for testing hypotheses about the
ratio and difference of two means. J Biopharm Stat 1999;9(4):641-50.
4. Miller DK, Homan SM. Graphical aid for determining power of clinical trials
involving two groups. BMJ 1988;297(6649):672-6.
5. Campbell MJ, Julious SA, Altman DG. Estimating sample sizes for binary, ordered
categorical, and continuous outcomes in two group comparisons. BMJ
1995;311(7013):1145-8.
6. Sahai H, Khurshid A. Formulae and tables for the determination of sample sizes and
power in clinical trials for testing differences in proportions for the two-sample design: a
review. Stat Med 1996;15(1):1-21.