Tải bản đầy đủ (.pdf) (17 trang)

Giáo trình dịch tễ học y học part 8 ppt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (334.14 KB, 17 trang )



Ví dụ: So sánh tỷ lệ chết do xơ gan giữa quần thể uống rượu và quần thể không uống
rượu; tuổi cũng là yếu tố nhiễu trong nghiên cứu này, cần phải trung hòa trước khi so sánh.
Ta có thể tiến hành như sau: (xem bảng 5.4).
- Lấy quần thể không uống rượu làm QTTC;
- Ở QTTC, trong mỗi lớp tuổi, tổng số đối tượng được nghiên cứu và số chết đã biết; ta
tính được tỷ lệ chết của từng lớp tuổi;
- Sau đó sẽ tính số chết ở các lớp tuổi cho quần thể uống rượu với việc áp dụng các tỷ lệ
chết trong từng nhóm tuổi của quần thể không uống rượu;
- Và sẽ tính được tổng số chết của quần thể uống rượu (theo như tỷ lệ chết ở mỗi lớp
tuổi của quần thể không uống rượu);
Tính tỷ lệ chết chuẩn hóa, và tính ICM

%445,409100
490,6
573,26
ICM =×=
;
Hay chính là: Tỷ lệ chết do xơ gan ở quần thể uống rượu gấp 4 lần (hơn) so với quần thể
không uống rượu.
Trên đây là hai phương pháp chuẩn hóa trực tiếp và gián tiếp nhằm trung hòa chỉ cho
một yếu tố nhiễu. Cũng có thể dùng phương pháp chuẩn hóa trực tiếp, gián tiếp để trung hòa
đồng thời cho 2 yếu tố nhiễu;
Bảng 5.4: Ví dụ về chuẩn hóa gián tiếp (số liệu giả định)
QTTC
(Không uống rượu)

Quần thể
uống rượu




Tuổi

Số người
()
1
Số chết
()
2
Tỷ lệ
(
)
3
Số người
(
)
4
Số chết
(
)
5
Số chết của QT uống
rượu được suy ra từ
QTTC
()
6
70
6960
5950

4940
3930






1000
2000
4500
5000
6500

10
18
30
20
15

000.10
000,9
667,6
000,4
308,2

80
400
500
300

150

2
8
12
10
6

800,0
600,3
334,3
200,1
346,0

Tất cả
các tuổi
1900

93

895,4

()
8
1430

()
9
38


()
11
280,9


Tỷ lệ
chết thô
()
1000.p


895,4



573,26

(
)
7
Tỷ lệ chuẩn hóa
()
1000.p
490,6

(
)
10
Ghi
chú:

() ()()
;1000123 ×=
() ()
(
)
;1000436
÷
=

(
)
(
)
(
)
;1000897
×
=

(
)()()
100081110 ×=
4. Một áp dụng khác của chỉ số so sánh (tỷ suất chuẩn hóa)
Các tỷ suất chuẩn hóa về tỷ lệ chết, tỷ lệ bị bệnh được tính toán trong các nghiên cứu
diễn biến nhiều năm, hoặc trong các nghiên cứu tức thời, thường được trình bày theo dạng sau
đây:
Chỉ số so sánh (về tỷ lệ mắc bệnh, tỷ lệ chết) =
Tỷ lệ quan sát
100×



44


Tỷ lệ chuẩn hóa
Chỉ số so sánh về tỷ lệ chết, tỷ lệ bị bệnh là tỷ số giữa các tỷ lệ đó của quần thể nghiên
cứu và quần thể tham khảo.

Ví dụ:

Tỷ lệ chết Chỉ số so sánh về tỷ lệ chết
Quần thể tham chiếu
Quần thể A
Quần thể B

100010
100050
100025

40
200
100

Người ta cũng có thể dùng tỷ suất chuẩn hóa đã so sánh diễn biến nhiều bệnh có tỷ lệ
hiện mắc, hoặc tỷ lệ mới mắc khác nhau trong cùng một quần thể.
Sau đây là một ví dụ về tỷ lệ thô và tỷ lệ chuẩn hóa (WHO): xem bảng 5.5.
Bảng 5.5:Tỷ lệ chết thô và tỷ lệ chết chuẩn hóa theo tuổi (p.100 000) liên quan tới
các bệnh tim mạch của một số nước:
Tỷ lệ đặc hiệu theo tuổi
Tên nước Tỷ lệ

thô
Tỷ lệ
chuẩn hóa
45 - 54 tuổi 55 - 64 tuổi
Finlande
Nouvelle - Zélande
France
Japon
Egypte
Venezuela
Mexique

95
115
192
247
368
369
491

163
219
299
154
164
254
277

132
177

301
95
97
184
204

327
497
790
227
266
559
631


IV. SỰ LẶP LẠI CỦA TEST
Sự lặp lại của một test còn gọi là tính trung thành của test đó, có thể được hiểu như là
một giá trị bên ngoài của test . Sự lặp lại (từ điều tra viên này tới điều tra viên khác, từ tình
huống này tới tình huống khác trên cùng một đối tượng nghiên cứu) của test phải được biết
trước khi sử dụng test đó vào trong nghiên cứu.
Ví dụ: người ta muốn biết sự lặp lại của một test hóa sinh nhằm xác định theo cách bán
định lượng máu tiềm ẩn trong phân, người ta ghi nhận các kết quả như sau :
0 : âm tính;
+ : dương tính nhẹ;
++ : dương tính.
Test này được thực hiện 2 lần (do2 bác sĩ khác nhau) trên cùng một nhóm đối tượng,
cho kết quả như sau:


Máu trong phân

0 + ++ Tổng

45


Bs.A (Số các đối tượng):
Bs.B (Số các đối tượng):
60
60
28
28
12
12
100
100
Nhìn vào kết quả đó, tưởng rằng 2 lần xét nghiệm có kết qủa hoàn toàn trùng lặp nhau.
Nhưng, nếu như ghi thành một bảng chi tiết kết quả xét nghiệm của từng đối tượng của 2 bác
sĩ thì:

Bs.A
0 + ++ Tổng
0
Bs.B
+
++
40
14
6
20
6

2
0
8
4
60
28
12
Tổng 60 28 12 100

Sự trùng lặp của test là:
%;50
00!1
4640
=
+
+
sự trùng lặp này là không tốt, có thể đạt
được kết quả tương tự như trò chơi gieo sấp ngữa một đồng tiền.
Nguyên tắc phân tích như trình bày trên đây có thể được áp dụng trong các trường hợp
thực hành khác, như: một chẩn đoán dựa trên các xét nghiệm khác nhau, hoặc đọc kết quả của
một test được thực hiện nhiều lần bởi cùng một xét nghiệm viên
Để kiểm tra mức độ lặp lại của của chẩn đoán, của test, cách tốt nhất là tính hệ số
Kappa, là tỷ suất giữa tỷ lệ phù hợp quan sát và tỷ lệ phù hợp lý thuyết.
Một ví dụ tương tự như sau:
Bs.A
1 2 3 Tổng
1
Bs.B
2
3

31
21
11
n
n
n

32
22
12
n
n
n

33
23
13
n
n
n

.
.
.
3
2
1
n
n
n


Tổng
1
.n
2
.n
3
.n

n



332211
0
n
nnn
p
+
+
=
(Phù hợp quan sát);



332211
n
nnnnnn
p
c

+
+
=
( Phù hợp lý thuyết)

c
co
p
pp
kappa


=
1
)(
κ

Hệ số
Kappa biến thiên từ -1 (hoàn toàn không trùng lặp); qua 0,0 (trùng lặp ngẫu
nhiên); đến +1 (trùng lặp hoàn toàn giữa các chẩn đoán, các test, hoặc giữa các điều tra
viên )

46




ZWXY

47


PHƯƠNG PHÁP NGHIÊN CỨU TRÊN MẪU
Mục tiêu học tập
1. Diễn giải được qui trình thiết kế các loại mẫu thường dùng trong Dịch tễ học;
2. Nêu ra được các công thức ước lượng các tham số của quần thể từ các số đo của
mẫu, các công thức tính cỡ mẫu nhỏ nhất hợp lý;
3. Trình bày được các giai đoạn chính của thiết kế mẫu.
Không nhất thiết phải điều tra trên toàn bộ quần thể mà chỉ cần tiến hành điều tra trên
mẫu; từ các kết quả của mẫu sẽ ước lượng được các tham số của quần thể. Làm như vậy sẽ
tiết kiệm được tiền, thời gian, tập trung vào chất lượng hơn là số lượng. Nhưng, các kết quả
của mẫu sẽ không giống hòan tòan với các kết quả có thật trong quần thể. Chúng ta phải chấp
nhận những sai số.
Nếu quá trình thiết kế mẫu được tiến hành một cách cẩn thận, đúng phương pháp thì
những sai số đó sẽ được loại trừ hoặc giảm.
I. THIẾT KẾ MẪU
Là quy trình chọn các đơn vị mẫu từ quần thể đích (Target Poputatio: TP.: là quần thể
mà ta quan tâm, ta sẽ nghiên cứu).
Có một số quy trình mẫu như sau:
1. Mẫu ngẫu nhiên đơn (Simple Random Sampling : SRS)
Tất cả các cá thể có trong quần thể đích (TP) đều có xác suất bằng nhau hay có cơ hội
như nhau xuất hiện trong mẫu. Việc lựa chọn các cá thể vào mẫu nhờ vào bảng số ngẫu nhiên,
hoặc bốc thăm. Mẫu SRS là mẫu đại diện tốt nhất cho quần thể, nhưng đòi hỏi phải có khung
mẫu (Sampling Frame) - là danh sách toàn bộ các cá thể của quần thể đích. Mẫu này áp dụng
tốt cho quần thể nhỏ, khu trú; khó áp dụng cho quần thể lớn, phân tán.
Bảng số ngẫu nhiên:
Là một bảng tạo bởi 10 ký tự (0, 1, 2, 3, , 9) mà sự xuất hiện của mỗi ký tự trong
bảng có tỷ lệ như nhau và không theo một trật tự nào, hoàn toàn ngẫu nhiên. Cho nên, nếu
chọn một số từ một điểm ngẫu nhiên nào đó trên bảng thì bất kỳ một ký tự nào cũng có cơ hội
như nhau được xuất hiện.
Chẳng hạn: Muốn chọn ngẫu nhiên một mẫu 200 trẻ trong một trường học có trẻ để

điều tra một vấn đề sức khỏe nào đó. trẻ sẽ được đánh số thứ tự từ đến 625 (khung
mẫu). Như vậy, ta chỉ dùng 3 ký tự kế tiếp nhau trong bảng.
625
625
1
Vào bảng: một cách ngẫu nhiên (ví dụ: dùng đầu bút chì, không nhìn vào bảng, chấm
vào một điểm nào đó trong bảng) bắt đầu từ điểm đó bằng một số có
3
ký tự, ví dụ điểm đó
nằm vào hàng thứ cột thứ của bảng ta đọc lần lượt theo chiều từ trên xuống dưới và từ
trái qua phải, được các số 330, 369, 743, 273,
943
, , Chọn ra
số có ký tự (không lấy các ký tự , các ký tự lớn hơn 625, chỉ lấy ra một lần, không lấy
các ký tự lập lại); Như vậy ta đã có một mẫu 200 trẻ.
5 3
,002 ,871
918
,702 , 318
200
3 000
Một quần thể có kích thước N, mẫu chọn ra có kích thước n, tổng số T các mẫu có kích
thước n là :
()
!nNn!
N!
T

=



47

BẢNG SỐ NGẪU NHIÊN

10347
62345
57668
67015
36283
81242
80164
07422
68827
79784
54237
13387
79716
98912
33025
47830
63042
92342
83977
81697
14309
04736
39648
29847
33254

03811
81875
54201
93797
33383
02339
09086
12307
34722
50361
15824
84918
20120
28708
75978
55866
69534
97409
00905
10731
32817
38515
87760
91777
38217
36969
74323
27354
94373
00252

38994
62723
52549
48733
84837
42853
42768
61977
79688
86644
32317
45728
17976
05266
60575
92865
25454
87474
30331
08220
33540
24516
77875
96540
30842
83219
85563
04928
43105
52262

96115
08858
68671
80571
35954
87128
91872
70215
31869
60560
88134
82309
16585
56940
84199
56039
44923
87309
34376
05865
04789
53422
60063
31135
81436
77119
54141
24182
83453
62723

45069
46367
56908
19234
73125
44163
01762
10622
21687
72005
39334
36247
72571
48047
96260
24705
15408
92283
68835
96382
34712
20976
51674
61150
98559
70991
44133
58183
68582
34991

83012
76487
82486
86993
42317
31553
67438
27401
71551
96840
22885
36070
50038
64538
46302
48977
06636
48393
11011
00441
51839
42542
80704
07502
29608
25511
01208
25749
63076
10669

19005
26486
32934
70490
83143
28907
34318
30569
63323
12853
68216
22036
18154
85238
33939
48859
17945
71595
03724
43893
87504
07995
01489
70326
34830
22539
69428
76833
93092
15306

33440
79218
41926
96685
29811
05274
69384
41642
15674
21251
58865
08697
30052
28554
31591
04486
50724
22811
75784
94832
05836
27186
48325
93604
25038
10857
66327
63545
40430
32750

42014
54830
56267
71889
65690
20173
98383
89346
56017
91202
91869
08409
90068
37731
58841
12150
04051
17162
08626
59745
36616
55470
56999
08157
98489
36247
38757
61095
19292
59264

31636
89765
83147
32275
44396
58724
41036
40757
93574
68511
07206
09538
58153
32589
07135

48

Ví dụ: N = 5, n = 2, Tổng số mẫu có cỡ n = 2 lấy ra từ quần thể N = 5 là:
()
10
!252!
5!
T =

=

Trong mẫu ngẫu nhiên đơn, xác xuất để một đơn vị (phần tử) bất kỳ trong quần thể
được chọn vào mẫu sẽ là n/N.
2. Mẫu hệ thống (Systematic Sampling)

Đạt được mẫu này một cách dễ dàng khi có khung mẫu. Ví dụ: Quần thể đích có N =
5000 cá thể, cần chọn một mẫu n = 500 thì: đánh số thứ tự từ đến vào khung mẫu,
chọn một số ngẫu nhiên (dựa vào bảng số ngẫu nhiên) từ
1
đến
10

1
5000
)105005000(
=
=nN .
Giả sử chọn được số 5, thì tất cả các cá thể có số thứ tự được chọn vào
mẫu.
,5 ,15 ,25
4995

T1 : Vùng
Thủ phủ
T2 : Vùng
Thành phố
T3 : Vùng
Thị trấn
T4 : Vùng
Nông thôn
34,0

13,0

15,0


38,0


Mẫu không tầng Mẫu tầng

Các cá thể được chọn ngẫu
nhiên từ danh sách toàn bộ
của quần thể đích: Không
thực tiễn đối với quần thể
lớn, phân tán

Mẫu tỷ lệ: Số cá thể
được chọn vào mẫu tỷ lệ
với kích thước của tầng;
Mẫu này rất tốt

Mẫu không tỷ lệ: Số cá thể
ở mỗi tầng được chọn vào
mẫu như nhau: Các tầng có
kích thước nhỏ thì quá đại
diện trong mẫu


Ví dụ: phải chọn một mẫu
n = 2000

680200034,0
1
=

×
=
T
260200013,0
2
=
×
=
T
760200038,0
300200015.0
4
3
=×=
=
×
=
T
T


Tổng : 2000

500
500
500
500
4
3
2

1
=
=
=
=
T
T
T
T

Tổng: 2000
Ước lượng tốt cho các vùng
nhỏ, nhưng không tốt cho
các vùng lớn (tỉnh, nước)
Sơ đồ 6.1: Các loại mẫu tầng
3. Mẫu chùm (Cluster Sampling)
Quần thể đích được tạo nên bởi các chùm (cụm) tự nhiên (như các thành phố, các bệnh
viện, các làng, xã, ). Một mẫu ngẫu nhiên đơn được chọn từ các cụm đó (đơn vị mẫu trong
khung mẫu là các cụm của quần thể đích), tất cả các cá thể nằm trong các cụm được chọn đó,
tạo nên mẫu cần thiết. Mẫu này dễ thực hiện, rẻ, nhưng tính đại diện cho quần thể đích không
được tốt lắm.
4. Mẫu tầng (Stratified Sampling)

49

Quần thể đích được phân chia một cách tự nhiên thành các bộ phận nhỏ hơn, gọi là các
tầng. Trong mỗi tầng, chọn một mẫu ngẫu nhiên đơn: Tập hợp các mẫu ngẫu nhiên đơn này
tạo nên mẫu cần thiết.
Có 2 loại mẫu tầng: Mẫu tầng tỷ lệ và mẫu tầng không tỷ lệ: (Xem sơ đồ 6.1).


5. Mẫu nhiều giai đoạn (Multi Stage Sampling)
Quần thể đích, ví dụ: Một nước có nhiều tỉnh, mỗi tỉnh có nhiều huyện, mỗi huyện có
nhiều xã
- Giai đọan 1: Chọn ngẫu nhiên một số tỉnh;
- Giai đọan 2: Chọn ngẫu nhiên một số huyện từ các tỉnh đã được chọn ở giai đoạn 1;
- Giai đọan 3: Chọn ngẫu nhiên một số xã từ các huyện đã được chọn ở giai đoạn 2,
Quá trình chọn ngẫu nhiên ở mỗi giai đọan nói trên có thể dùng phương pháp ngẫu
nhiên đơn hoặc phương pháp PPS.
6. Mẫu xác suất tỷ lệ với kích thước (Probability Proportional to Size: PPS)
Quần thể đích có nhiều cụm, (ví dụ: một huyện có nhiều xã), các cụm này có kích thước
không như nhau. Nếu dùng phương pháp ngẫu nhiên đơn để chọn một số cụm, rồi chọn một
số nhất định các hộ gia đình ở mỗi cụm vào mẫu thì những hộ ở các cụm có kích thước (dân
số) nhỏ hơn sẽ có cơ hội nhiều hơn được chọn vào mẫu so với những hộ ở các cụm có kích
lớn. Một phương pháp tốt hơn là chọn các cụm theo phương pháp: xác suất được chọn tỷ lệ
với kích thước của cụm .
Quy trình mẫu này như sau:
- Đánh số thứ tự vào các cụm ;
- Lập bảng tần số dồn, sẽ có được tổng số dân toàn quần thể:
m;
- Ân định số cụm cần chọn vào mẫu: Nên chọn nhiều cụm để mỗi cụm có ít hộ vào
mẫu hơn là chọn ít cụm mà mỗi cụm có nhiều hộ. Giả sử ta chọn
N cụm ;
Tìm khoảng cách mẫu
k:
N
m
k =
;
- Chọn một số ngẫu nhiên
R từ 1 đến k (dùng bảng số ngẫu nhiên);

- Tìm các cụm vào mẫu: dựa vào tần số dồn: theo tần số dồn, cụm nào có chứa các số
R+ik (i từ 0 đến N-1) là những cụm được chọn vào mẫu.
Ví dụ: Một quần thể (một huyện chẳng hạn) có 17 cụm (xã), đã biết dân số của mỗi cụm
(xã) và tổng dân số toàn quần thể (huyện) m = 90000
. Cần chọn vào mẫu n = 100 hộ (xem
bảng 6.1).
Giả sử chọn N = 10
cụm (xã), thì
9000
10
90000
==k
.
Chọn một số ngẫu nhiên R từ 1 đến 9000, ví dụ: chọn được số 5500, thì các cụm (xã)
được chọn vào mẫu là các cụm (xã) tương ứng với tần số dồn có chứa các số:
,
,5500
),90001(5500 ×+ ),90002(5500 ×+ ),90009(5500
×
+
- các cụm (xã) có đánh
dấu .

Chọn được 10 cụm (xã), mỗi cụm (xã) chọn
10
10
100
==
N
n

hộ vào mẫu.

50

Bảng 6.1 : Chọn cụm theo phương pháp PPS (Dữ kiện giả định)
cụm thứ
()
a
Dân số
()
b
Tần số dồn
(
)
c
Cụm thứ
(
)
a
Dân số
(
)
b
Tần số dồn
()
c
8
7
6
5

4
3
2
1

7275
6426
8835
7684
5541
6569
4348
3762

50440
43165
36739
27904
20220
14679
8110
3762






17
16

15
14
13
12
11
10
9

2120
3532
2123
7694
1987
5416
4578
9143
2967

90000
87880
84348
82225
74531
72544
67128
62550
53407







Có thể dùng phương pháp ngẫu nhiên đơn, hoặc dùng phương pháp khác (phương pháp
EPI chẳng hạn) để chọn các hộ gia đình vào mẫu.
II. ƯỚC LƯỢNG
Từ “Ước lượng” được sử dụng với ý nghĩa thông thường: có thể là ước lượng tỷ lệ hiện
mắc, tỷ lệ mới mắc một bệnh nhất định của một quần thể, ước lượng giá thành trung bình mỗi
ngày của một chương trình y tế, ước lượng thiệt hại của một tai nạn giao thông.v.v
Cùng một tham số, tồn tại nhiều ước lượng. Gọi là ước lượng không có sai số khi lặp lại
nhiều lần các giá trị của ước lượng khác nhau, có một sự phân phối tập trung chung quanh
tham số.

θ θ
θ
1
θ
2
Hình 6.1: Ước lượng có và không có sai số.
θ
θ
θ
3
θ
4
Hình 6.2: Sự chính xác của ước lượng

51

Hình 6.1 chỉ ra sự phân bố của 2 ước lượng θ

1
và θ
2
đối với tham số θ . Ước lượng θ
2

không có sai số, trong khi đó ước lượng
θ
1
quá cao so với θ. Dĩ nhiên, người ta muốn tìm ra
ước lượng không có sai số.
Thường có nhiều hơn một ước lượng không có sai số đối với cùng một tham số (khi đó
người ta chọn ước lượng nào có phân phối tập trung chung quanh
θ.
Hình 6.2 chỉ ra sự phân phối của 2 ước lượng
θ
3
và θ
4
đối với tham số θ. Cả 2 ước
lượng
θ
3
và θ
4
đều không có sai số, nhưng θ
4
chính xác hơn. (Các giá trị của θ
4
có nhiều khả

năng gần với tham số
θ hơn).
Có nhiều cách đo lường sự chính xác của một ước lượng không có sai số. Phương pháp
đơn giản là dùng phương sai, là trung bình của các độ lệch bình phương giữa các giá trị của
ước lượng và tham số ước lượng (thông số ước đoán). Độ lệch chuẩn của ước lượng là căn
bậc 2 của phương sai.
Khi trình bày một ước lượng, cần nói rõ độ chính xác của nó, một cách trình bày thông
thường là:
“(Ước lượng)
±
(Độ lệch chuẩn)”;
Hoặc cách khác, chỉ độ chính xác của một ước lượng là:

“Khoảng tin cậy” = [(Ước lượng) -
γ
(Độ lệch chuẩn), (Ướclượng) +
γ
(Độ lệch chuẩn)];
Ở đây, γ là một số tùy thuộc vào sự phân bố của ước lượng và độ chính xác mong muốn
của ước lượng (hệ số tin cậy); nếu hệ số tin cậy được ấn định , có nghĩa là khoảng tin cậy
muốn đạt được đó có khả năng chứa đựng tham số chưa biết. Giá trị γ tương ứng với hệ
số tin cậy mong muốn được tra trong bảng của các sách t
oán thông kê thông dụng (luật chuẩn,
bảng )
%90
%90
1. Ước lượng trong thực tiễn
Ít khi dùng “Ước lượng điểm” trong thực tiễn. Việc trình bày “Khoảng tin cậy” của một
ước lượng có ý nghĩa quan trọng, hay được sử dụng:
Ví dụ:

(1) Một cuộc điều tra về tỷ lệ hiện mắc một bệnh, để áp dụng ngay một chương trình
can thiệp, phải quan tâm tới khả năng xấu nhất, nghĩa là tỷ lệ hiện mắc cao nhất có thể xảy ra
trong quần thể. Như vậy phải dùng tới giới hạn trên của khoảng tin cậy.
(2) Một cuộc điều tra về tỷ lệ đã có miễn dịch đối với một bệnh, để sau đó áp dụng tiếp
một chương trình gây miễn dịch bằng vaccin, lúc đó phải quan tâm tới tình trạng xấu nhất,
nghiã là tỷ lệ đã có miễn dịch thấp nhất của quần thể. Lúc này phải sử dụng tới giới hạn dưới
của khỏang tin cậy.
2. Ước lượng một tỷ lệ
2.1. Trường hợp nhị thức
Giả sử người ta lập lại n lần một thử nghiệm, và mỗi lần xác suất gặp một biến cố nhất
định là
p, và nếu như các lần tiến hành thử nghiệm đó là độc lập nhau, ta sẽ có một tình huống
nhị thức.
Ví dụ: Nếu như các lần thử nghiệm kế tiếp nhau là việc sinh của các cặp vợ chồng khác
nhau, và biến cố nghiên cứu là sinh con gái, thì tình huống nhị thức này có
p gần bằng 1/2.
Trong tình huống nhị thức,
n đã biết, ta phải ước lượng p. Nếu lập lại n lần, gặp X lần
biến cố nghiên cứu thì sẽ dùng
n
X
p =
ˆ
để ước lượng p. Ví dụ: Trong
1000
lần sinh, gặp
trẻ gái, ta có:
532
532,0
1000

532
ˆ
==p
,

52

Và sẽ có các kết quả sau:
-
n
X
p =
ˆ
là ước lượng điểm của p;
- phương sai của ước lượng là:
n
pp )1(

, và được ước lượng bằng:
n
pp )
ˆ
1(
ˆ


- độ lệch chuẩn của ước lượng là
n
pp )1( −
, và được ước lượng bằng:

n
pp )
ˆ
1(
ˆ

,
- khoảng tin cậy của ước lượng
),( pp
được xác định bằng:








+

−+
+
=
2
22
2
4
)
ˆ
1(

ˆ
2
ˆ
nn
pp
n
p
n
n
p
γ
γ
γ
γ
,








+

++
+
=
2
22

2
4
)
ˆ
1(
ˆ
2
ˆ
n
n
pp
n
p
n
n
p
γ
γ
γ
γ
.
Ở đây: γ = 1,96 (1,65) nếu như hệ số tin cậy mong muốn là 95% (90%).
Nếu như n là tương đối lớn (n

30) thì khoảng tin cậy gần đúng của p được tính:

n
pp
pp
)

ˆ
1(
ˆ
ˆ

−=
γ
,
n
pp
pp
)
ˆ
1(
ˆ
ˆ

+=
γ

Ví dụ: trong 1000 lần sinh, gặp 532 trẻ gái, thì:
- ;532,01000/532
ˆ
==p
- phương sai của là: p
ˆ
0002489,01000/)468,0532,0(/)
ˆ
1(
ˆ

=
×
=

npp ;
- độ lệch chuẩn của là:
p
ˆ
0185,00002489.0 = ;
- khoảng tin cậy 95% được xác định:

,501,00158,096,1532,0
=
×

=p


;563,00158,096,1532,0 =×+=p

Hay:
,( p

=)p
(
501,0
,
)
563,0
.

Để có khoảng tin cậy 90%, thay 1,96 bằng 1,65, ta có:
,506,0(),( =pp

558,0
;
Khoảng này ngắn hơn khoảng trên vì có xác suất nhỏ hơn của việc chứa tham số chưa
biết
p.
2.2. Trường hợp siêu bội
Một quần thể có kích thước N chứa N
1
người bị bệnh, và N - N
1
người không bị bệnh.
Một mẫu có kích thước
n, có n
1
người bị bệnh, và
1
nn

người không bị bệnh
Người ta muốn ước lượng tỷ lệ
N
N
1
chưa biết trong quần thể.
Việc ước lượng tỷ lệ mới mắc, tỷ lệ hiện mắc một bệnh nhất định trong quần thể chính
là tình huống này, và sẽ dùng
n

n
1
người bị bệnh trong mẫu để ước lượng cho
N
N
1
người bị
bệnh trong quần thể; và sẽ đạt được các kết quả như sau:

53

(1)
n
n
1
là ước lượng điểm của
N
N
1
,
(2) phương sai của
n
n
1
bằng
nN
N
N
N
N

nN 1
1
1
11









,
và được ước lượng bằng:
nN
N
n
n
N
nN 1
1
1
11










.
Khi
N lớn hơn nhiều so với n






≤ 10,0
N
n
thì phương sai của
n
n
1
gần bằng:

nn
n
n
n
1
1
11








.
(3) độ lệch chuẩn của ước lượng bằng
nn
n
n
n
N
nN 1
1
1
11









,
và gần bằng
nn
n
n

n 1
1
11







khi N lớn hơn nhiều so với n.
(4) khoảng tin cậy của
N
N
1
được xác định :

nn
n
n
n
N
nN
n
n
p
1
1
1
111










−=
γ


nn
n
n
n
N
nN
n
n
p
1
1
1
111










+=
γ

Ở đây,
γ = 1,96 (1,65) nếu như hệ số tin cậy là 95% (90%); và nếu như N là lớn so với
n thì đại lượng
1−

N
nN
gần bằng 1.
Ví dụ : Người ta muốn ước lượng tỷ lệ hiện mắc một bệnh trong quần thể, một mẫu có
kích thước
n = 6000 người, có 528 người bị bệnh. Tỷ lệ hiện mắc của mẫu là
088,0
6000
528
=
,
N
N
1
là chưa biết, và giả sử rằng, kích thước của quần thể là rất lớn so với 6000, thì
088,0
1

=
n
n
là ước lượng điểm của
N
N
1
, và ước lượng khoảng được tính:
- Phương sai:
0000133,0
6000
1
912,0088,0
1
)1(
11
2
=××=−=
nn
n
n
n
s

- Độ lệch chuẩn:
;00366,00000133,0
2
=== ss
- Khoảng tin cậy 90%:
094,000366,065,1088,0 =×+=p .

Hay:
(
,p
)
p

(
,082,0=

)
094,0
.
3. Ước lượng một số trung bình

54

Một quần thể có kích thước N, một mẫu được chọn có kích thước n; trong quần thể đó,
tính chất cần nghiên cứu có giá trị trung bình chưa biết là
μ, và phương sai chưa biết là δ
2
,
mục đích của nghiên cứu trên mẫu là ước lượng giá trị trung bình
μ đó.
Ví dụ: Người ta muốn ước lượng số ngày nằm viện trung bình của các bệnh nhân tại
một bệnh viện của một vùng nào đó; một mẫu bệnh nhân được ghi nhận:
X
1,
X
2,
X

n
là số
ngày nằm viện của mỗi bệnh nhân; số trung bình của mẫu sẽ là:
) (
1
21 n
XXX
n
X +++=
Người ta dùng
X
để ước lượng
μ
; và sẽ có các kết quả như sau:
(1)
X
là ước lượng điểm của
μ
,
(2) phương sai của
μ
bằng
nN
nN
2
1
δ


và gần bằng

n
2
δ
nếu như N là lớn so với n,
(3) độ lệch chuẩn của
μ
bằng
nN
nN
2
1
δ


hoặc gần bằng
n
δ
nếu như N là lớn so với n,
(4) thay
δ
2
bằng s
2
để tính phương sai và độ lệch chuẩn từ các công thức nêu trên, mà:
(5) khoảng tin cậy của
μ
được xác định:
)XnX XX(
1n
1

s
2
2
n
2
2
2
1
2
−+++

=

n
s
X
γμ
−=
,
n
s
X
γμ
+=
.
Trong đó
γ = 1,96 (1,65) nếu hệ số tin cậy là 95% (90%).
Ví dụ:
Một mẫu
n = 45 bệnh nhân có số ngày nằm viện của mỗi người là:

19, 4, 9, 3, 12, 7, 43, 25, 8, 6, 2, 5, 17, 21, 3,
8, 27, 5, 3, 6, 12, 10, 18, 4, 31, 8, 14, 6, 5, 5,
31, 3, 8, 12, 7, 11, 10, 20, 8, 6, 2, 14, 7, 5, 11.
Tính được
X
=11,13. Giả sử kích thước của quần thể là rất lớn so với n= 45, thì
phương sai của ước lượng là :
778,1
2
=
n
s
và độ lệch chuẩn là 333,1778,11 = .
Khoảng tin cậy 95% của
μ
được tính:

52,8333,196,113,11
=
×

=
μ


74,13333,196,113,11 =×+=
μ

Hay
,(

μ

52,8() =
μ
,
)74,13

III. XÁC ĐỊNH CỠ MẪU
Trong kế hoạch của tất cả các cuộc điều tra dịch tễ học, câu hỏi sau đây phải được đặt
ra: Cỡ của mẫu là bao nhiêu để có thể đạt được một mức chính xác cần thiết của ước lượng.

55

Dựa vào độ chính xác mong muốn để tính cỡ mẫu trong 3 trường hợp sau đây:
(1) Độ lệch chuẩn của ước lượng phải nhỏ hơn một giá trị định trước;
(2) Khoảng tin cậy của ước lượng phải ngắn hơn một giá trị định trước;
(3) Sự khác biệt giữa số đo của mẫu và tham số của quần thể phải nhỏ hơn một giá trị
định trước.
Ta lần lượt xét các trường hợp trên cho mỗi loại phân phối.
1. Ước lượng một tỷ lệ (trường hợp nhị thức)
1.1. Dựa vào độ lệch chuẩn
Để độ lệch chuẩn của không vượt quá một giá trị nhất định d, phải giải phương trình:
p
ˆ

d
n
p)p(1
=



2
d
p)p(1
n

=
.
Độ lớn của
n phụ thuộc vào tham số chưa biết p. Nếu ta có một ước đoán nào đó về giá
trị của
p (dựa vào một nghiên cứu tương tự đã thực hiện ở nơi khác, hoặc một mẫu thăm dò)
thì ta đưa nó vào công thức để tính; nếu không thì có thể coi:
4
1
p)p(1 =−
cho mọi trường hợp,
lúc đó
2
4d
1
n =
.
Ví dụ : Muốn ước lượng một tỷ lệ p với d
= 0,01 thì cỡ mẫu cần thiết sẽ là:

2500.
(0,01)4
1
n

2
=
×
=

Khi đã có một ước đoán trước về
p, chẳng hạn, ước chừng p = 0,90 (theo kinh nghiệm
hoặc theo một nghiên cứu ở nơi khác) thì:
90,0
)01,0(
10,090,0
2
=
×
=n

Rõ ràng, một ước đoán trước về
p là rất quan trọng và rất cần thiết để n có thể nhỏ hợp lý.
Một ví dụ khác, muốn nghiên cứu ước lượng một tỷ lệ nào đó, gần với 0, độ lệch chuẩn
lúc này cũng phải thật nhỏ, và khi đó
n có nguy cơ là rất lớn. Ví dụ, ước đoán p chừng khoảng
0,02 và mong muốn
p=0,001 thì :
.19600
001,0
98,002,0
=
×
=n


1.2. Dựa vào độ dài khoảng tin cậy
Để độ dài khoảng tin cậy của ước lượng không vượt quá một giá trị nhất định l:
độ dài khoảng tin cậy
=l
(
p
,
)
p
trong đó:

n
)p
ˆ
(1p
ˆ
γp
ˆ
p

−=
,

n
)p
ˆ
(1p
ˆ
γp
ˆ

p

+=
.
Phải giải phương trình :
1
n
)p
ˆ
(1p
ˆ
2 γpp =

=−
và ta có:

56


2
l
)p
ˆ
(1p
ˆ
2
4 γ
n

=

.
Nếu ta chưa có một ước đoán nào về p (hoặc
p
), sẽ dùng công thức
ˆ
2
l
2
γ
n =
.

Ví dụ, mong muốn khoảng tin cậy 95% của ước lượng không vượt quá l = 0,01 ta sẽ có:
385
)01,0(
)96,1(
2
2
==n
;
Nếu thay 0,01 bằng 0,05 thì:
1537
)05,0(
)96,1(
2
2
==n
.
1 3. Dựa vào sự khác biệt giữa số đo của mẫu và tham số của quần thể
Để

pp
ˆ

không vượt quá một giá trị nhất định c (thường lấy các giá trị 0,01; ;
và với xác suấtt , phải giải phương trình:
02,0
)05,0
%95

,1,96
p)p(1
nc
=


2
c
p)p(1
2
(1,96)
n

=
.
Nếu chưa có một ý niệm nào về p thì có thể coi p = 0,05 hay
4
1
p)p(1 =−
, thì:


2
2
4
)96,1(
c
n =
;
Nếu thay 95% bằng 90% thì 1,96 được thay bằng 1,65
Ví dụ, mong muốn trước là
0,0
2
p
ˆ
p ≤−
, với xác suất 90% thì :

.1701
2
4(0,02)
2
(1,65)
n ==

2. Ước lượng một tỷ lệ (trường hợp siêu bội)
2.1. Dựa vào độ lệch chuẩn
Để độ lệch chuẩn của
n
n
1
không vượt quá một giá trị nhất định d thì phải giải phương

trình:

d
n
1
n
1
n
1
N
1
N
1N
nN
=−



































−−+

=
1
2
d
1
N
1
N
1

N
1
N
N
1
1
2
d
1
N
1
N
1
N
1
N
n
(1)
Ví dụ: Nếu cỡ của quần thể N = 1200, và tỷ lệ của ước lượng chừng khoảng , và
mong muốn , ta có:
40,0
01,0=d

57


0,01,
n
1
0)(0,40)(0,6

11999
n1200
=







hay
2000
=
n

Lưu ý rằng,
17,0
12000
2000
==
N
n
nên ta không thể bỏ qua đại lượng
1−

N
nN

trong khi tính toán. Tuy nhiên, nếu
01,0≤

N
n
công thức (1) nêu trên được đơn giản hóa,
lấy giá trị gần đúng:
2
11
1
d
N
N
N
N
n







=
, và chưa có ý niệm nào về
N
N
1
thì ta có thể
dùng công thức :
2
4
1

d
n =



2.2. Dựa vào độ dài khoảng tin cậy
Để độ dài khoảng tin cậy không vượt quá một giá trị nhất định l, ta phải giải phương
trình:

l
n
1
n
n
1
n
n
1N
nN
2γpp
11
=−


=−







;
Hay :
















+

=
1
l
)p
ˆ
(1p
ˆ
4 γ
N

1
1
)/lp
ˆ
(1p
ˆ
4 γ
n
2
2
22

Nếu như N là lớn, ta dùng công thức:
2
2
)
ˆ
1(
ˆ
4
l
pp
n

=
γ

Trong ví dụ trước, mong muốn khoảng tin cậy 90% của
N
N

1
không vượt quá l = 0,10,
ta có:
10,0
1
)60,0)(40,0(
112000
12000
)65,1(2
=


n
n
hoặc
.256=n
Nếu
10,0≤
N
n
và chưa có ý niệm nào về
N
N
1
(hoặc
n
n
1
)thì có thể dùng công thức:
2

2
l
n
γ
=
, tương tự trường hợp nhị thức.
2.3. Dựa trên sự khác biệt giữa số đo của mẫu và tham số của quần thể
Để
pp
ˆ

không vượt quá một giá trị nhất định e (0,01, 0,02 )và với xác suất ,
phaíi giải phương trình:
%95

96,1
1
1
11
=









nN

N
N
N
N
N
nc


58

Hay













−+








=
11
)96,1(1
1
1
)96,1(
11
2
2
11
2
2
N
N
N
N
cN
N
N
N
N
c
n
.
Nếu N là đủ lớn thì:







−=
N
N
N
N
c
n
11
2
2
1
)96,1(
.
Nếu không có ý niệm nào về p thì có thể dùng công thức:

2
2
4
)96,1(
c
n
=
.

Nếu 95% được thay bằng 90% thì 1,96 được thay bằng 1,65.
Ví dụ: Từ dữ kiện mục 2.2. (của phần ước lượng), phải tính cỡ mẫu với
01,0

ˆ
≤− pp
và với xác suất , ta có :
%95

3083
)01,0(
)912,0)(088,0()96,1(
2
2
==n
.

3. Ước lượng một số trung bình
3.1. Dựa vào độ lệch chuẩn
Để cho độ lệch chuẩn của
X
không vượt quá một giá trị nhất định d, phải giải phương
trình sau:
d
n
=
δ
, hay
2
2
2
d
n
δ

=

Công thức này phụ thuộc
δ chưa biết. Phải làm một mẫu thăm dò (một mẫu có kích
thước nhỏ, sẽ cho ước đoán trước về
δ
2
), ví dụ: Lấy dữ kiện ở mục 3 (của phần ước lượng)
làm mẫu thăm dò, mong muốn độ lệch chuẩn của
X
về số ngày nằm viện trung bình không
vượt quá 3 ngày thì:

9
9
027,80
2
2
===
d
s
n
.
Ta thấy n = 45 (ví dụ ở mục 3 phần ước lượng ) thì độ lệch chuẩn là 1,333 nhỏ hơn 3.
Nếu muốn độ lệch chuẩn không vượt quá 1 ngày thì:

81
1
027,80
2

2
===
d
s
n
.
3.2. Dựa vào độ dài khoảng tin cậy
Để độ dài khoảng tin cậy không vượt quá một giá trị nhất định l, ta phải giải phương
trình:

l
n
s
==−
γμμ
2
, hay
2
22
4
l
s
n
γ
=
(Có được s từ mẫu thăm dò )
Trong ví dụ trên, mong muốn khoảng tin cậy 95% của
μ có độ dài không vượt quá 5
ngày , thì :


59

×