49
Phần II
THỐNG KÊ ỨNG DỤNG TRONG
NGHIÊN CỨU Y HỌC
50
VAI TRÒ CỦA TOÁN THỐNG KÊ
TRONG NGHIÊN CỨU Y HỌC
Cơ thể Con người là một thực thể sinh học cũng như các sinh vật khác, luôn chịu
sự tác động qua lại của các yếu tố môi trường, vũ trụ xung quanh. Sự khoẻ mạnh của
một con người, của một quần thể dân cư nằm trong mối liên quan tổng hợp với các yếu
tố môi trường và sinh thái. Các quá trình sinh lý, sinh hoá diễn ra trong cơ thể cũng
tuân theo một quy luật toán học về m
ặt sinh học.
Việc sử dụng toán thống kê trong nghiện cứu Y học nói riêng, Y sinh học nói
chung sẽ góp phần đánh giá một cách chuẩn xác các vấn đề sức khoẻ và bệnh tật, đồng
thời cũng xác định được mối tương quan, quan hệ nhân quả của các yếu tố tác động
sinh ra trong môi trường lên sức khoẻ và bệnh tật của cộng đồng.
Ngày nay các nghiên cứu điều tra cơ bản, nghiên cứu can thi
ệp hoặc các giải
pháp công nghệ cũng được toán học hoá để tìm ra những quy luật trong sức khoẻ cộng
đồng. Các giải pháp ưu tiên và những can thiệp sẽ hữu hiệu hơn nếu như vấn đề được
bao quát đủ cả hai mặt định tính và định lượng. Như vậy sự cần thiết phải tập hợp,
phân tích và so sánh nhiều số liệu quan trắc, đúc kết thành quy tắc, quy luật
định lượng
hoá có thể ứng dụng được là điều đương nhiên.
Thống kê Y sinh học (Biostatistics): là môn toán ứng dụng, sử dụng toán học để
nghiên cứu, phân tích các vấn đề Y học và sinh học, đó chính là sự toán học hoá các
vấn đề sinh học và sức khoẻ con người, làm cho nó phổ biến và đặc trưng cũng như sự
trừu tượng hoặc cụ thể về nội dung và hình thức được nâng lên mộ
t bước rõ rệt và sâu
sắc hơn để cho sự hiểu biết cũng tiến dần đến bản chất.
Từ một môn học mô tả và định tính, trong quá trình phát triển, thống kê đã trở
thành môn khoa học ứng dụng, chính xác hoá với nhiều phương tiện hiện đại trợ giúp
con người trong quá trình tính toán, xử lý các số liệu nghiên cứu đã thu được trên thực
tế như các thế hệ máy vi tính mới, ngôn ngữ l
ập trình sâu và rộng có thể giải đáp được
nhiều vấn đề nhanh chóng và phức tạp, như các phần mềm EPI- INFO, SPSS
Toán thống kê trong y sinh học được trình bày trong khuôn khổ cuốn tài liệu này
bao gồm một số vấn đề cơ bản sau đây:
1. Thu thập số liệu: phần này được trình bày một cách sơ lược và sẽ bổ xung
trong quá trình thực hiện các nhiệm vụ nghiên cứu. Đây là giai đoạn quan trọng nhất
mà mỗi nhà nghiên cứu cần phải lưu tâm. Các số liệu nghiên cứu cần được thu thập
đầy đủ và chính xác, sau đó được kiểm tra một cách khoa học sẽ là cơ sở chắc chắn và
đáng tin cậy cho tất cả những giai đoạn kế tiếp.
2. Sắp xếp và trình bày số liệu thu được, tìm ra những tham số đặc trưng. Thông
thường việc sắp xếp phải theo những ý tưởng và kỹ thu
ật phù hợp với mục tiêu nghiên
51
cứu thì mới có được cách giải quyết vấn đề phù hợp, đồng thời cũng nổi rõ.được kết
quả.
3. Nghiên cứu các quy luật biến thiên của các trị số quan trắc thực tế, xây dựng
thành mô hình lý thuyết, toán học hoá. Đây là yêu cầu bắt buộc đối với những người
làm nghiên cứu ở trình độ cao vì qua đó những vấn đề nghiên cứu sẽ được khẳng định
một cách khoa học nhất.
4. So sánh các tập hợp số liệu với nhau về bản chất cũng như các vấn đề có liên
quan giữa các chùm số liệu được quan trắc.
52
CÁC KHÁI NIỆM THỐNG KÊ CƠ BẢN
1. Tập hợp
1.1 Khái niệm
Trong nghiên cứu, quan sát một nhóm các số liệu hoặc một nhóm các cá thể ta
nới tầng có một tập hợp mà mỗi cá thể trong đó gọi là một phần tử của tập hợp.
Ví dụ: Một lớp học 50 người được xem là một tập hợp trong đó mỗi người là một
phần tử của tập hợp.
1.2. Sắp xếp các số li
ệu trong tập hợp
Khi nghiên cứu với số lượng càng nhiều các số liệu, việc sắp xếp chúng càng trở
nên cần thiết. Cách sắp xếp số liệu cần dựa trên cơ sở định tính và định lượng và phân
nhóm cụ thể. Về nguyên tắc ta nên xếp các nhóm dựa vào định tính với thuộc tính
đồng khả năng sau đó mới tính đến thuộc tính về lượng và theo thứ bậc từ thấ
p đến cao
hoặc ngược lại. Tuỳ loại hình nghiên cứu mà có cách sắp xếp phù hợp tạo thành chuỗi
thống kê.
Ví dụ:
+ Phân nhóm theo lứa tuổi:
0 - 4 tuổi
5 - 9 tuổi
10 - 14 tuổi
15 - 19 tuổi
20 - 29 tuổi
30 - 39 tuổi
…………
60 - 69 tuổi
≥ 70 tuổi
Ngay cách phân nhóm này cũng có thể chi tiết hơn hoặc tổng hợp hơn.
+ Phân nhóm theo thời gian:
Trong nghiên cứu bệnh lý lâm sàng ngoại khoa có thể chia ra các nhóm, các
trường hợp viêm ruột thừa đến trước 24 giờ, (24 - 28 giờ, 48 - 72 giờ, sau 72 giờ).
+ Sắp xếp theo khoảng cách: khi đo chiều cao, cân nặng Ta xếp các nhóm có
khoảng cách gần nhau vào các nhóm để số lần ghi chép, tính toán sẽ giảm đi.
53
Ví dụ:
Nhóm 141 - 145 cm
Nhóm 146 - 150 cm
Nhóm 151 - 155 cm
Nhóm 156 - 160 cm
Nhóm 161 - 165 cm
Nhóm 1 66 - 170 cm
……………………
2. Xác suất
2.1. Sự kiện
Sự kiện là một vấn đề hoặc kết quả của phép thử. Mỗi sự kiện tương ứng với một
tập hợp. Có sự kiện là tất yếu song có sự kiện là ngẫu nhiên thậm chí có sự kiện lại là
sự kiện không thể nhưng v
ẫn được đặt ra để tiến hành phép thử trong quá trình nghiên
cứu.
2.2. Xác suất
Nếu gọi K là số lần xuất hiện sự kiện A trong n phép thử ta có tần suất của A là
tỷ số:
n
K
Khi n tiến dần đến vô hạn (n → ∞) thì tần suất này dao động quanh hằng số p nào
đó, hằng số “p” được gọi là xác xuất của A. Ví dụ: Tỷ lệ trẻ em trai được sinh ra ở
bệnh viện X
Bảng: Tỷ lệ trẻ em trai được sinh ra ở bệnh viện X năm 2004
Quý Số trẻ sinh Số trẻ trai Tần suất
I 100 45 0,45
II 500 219 0,438
III 1000 432 0,432
IV 2000 861 0,4305
Số sản phụ đến đẻ ở bệnh viện nhiều lên, tần suất trẻ trai được sinh ra dao động
quanh giá trị 0,43. Do đó nếu A là sự kiện trẻ sơ sinh trai, gọi F (A) là số lần sinh trẻ
trai trong n lần sinh của các sản phụ của bệnh viện X năm 2006. Ta sẽ có: 1
Vậy xác suất P (A) bằng xác suất cả một sự kiện ngẫu nhiên A, là giới hạn của
tần suất xảy ra sự kiện A khi n tăng đến vô hạn.
54
Ta có: 0 ≤ P (A) ≤ 1
Nếu A là sự kiện tất yếu, P (A) = 1
Nếu A là sự kiện không thể, P(A) = 0
Vậy xác suất P(A) của sự kiện ngẫu nhiên A càng gần 1 thì sự kiện A càng chắc
chắn xảy ra và ngược lại.
Kết luận với P = 0,999999 xem như chính xác hoàn toàn
Kết luận với P = 0,999 coi như chắc chắn
Kết luận với P = 0,99 thì kết luận là chắc chắn
Kết luận với P = 0,9 thì kế
t luận này có chiều hướng chắc chắn
3. Quần thể và mẫu
3.1. Quần thể
Quần thể bao gồm các loại: Quần thể tổng quát (quần thể toàn bộ), quần thể định
danh, quần thể có nguy cơ, quần thể bị đe doạ. Các quần thể này có xu hướng đặc hiệu
dần và nhỏ dần. Khi chọn mẫu nghiên cứu (n) cho nhóm chủ cứu trong quần thể N ta
có thể ch
ọn trong quần thể nào là tuỳ vào điều kiện và mục đích nghiên cứu.
3.2. Mẫu nghiên cứu
Không thể chọn mẫu nghiên cứu là tổng số cá thể trong quần thể toàn bộ N, ví
dụ: Toàn thể các cá thể của loài muỗi Aedes aegyty ở Thái Nguyên.
Mẫu nghiên cứu n là một tập thể được rút ra từ quần thể N số phần tử nằm trong
mẫu (n) gọi là kích thước mẫu.
55
CÁC ĐẠI LƯỢNG VÀ CHỈ SỐ THỐNG KÊ
1. Số trung bình và các giá trị trung tâm khác
Khi kết quả nghiên cứu được thu thập và sắp xếp thành các chuỗi thống kê hoặc
các phân phối tần số ta cần nhìn nhận một cách chung nhất, có thể tóm gọn lại bằng
một số con số để so sánh, đối chứng với nhau hoặc với hằng số hay nghiên cứu tương
tự. Đây là sự thể hiện bằng các tham số đặc trưng.
Có hai loại tham số
đặc trưng thường gặp là:
- Các giá trị trung tâm (giá trị điển hình).
- Các tham số hoặc chỉ số phân tán.
1.1. Số trung bình (mean)
Đây là trung bình số học, là giá trị trung tâm thường dùng để làm nên giá trị điển
hình hoặc đặc trưng cho chuỗi thống kê.
Thí dụ: Đo hàm lượng glucose huyết lúc đói cg/lít ở 17 người (n = 17) ta thu
được các số liệu sau:
Bảng: Hàm lượng glucose huyết lúc đói cg/1ít
75 80 85 85 90 95 95 95 100
100 100 100 100 105 105 110 120
Số trung bình ký hiệu bằng ( X ) của chuỗi thống kê được tính như sau:
Có thể viết một cách tổng quát nếu đại lượng X
i
có n trị số X
1
, X
2
, X
3
,…X
n
thì
Số trung bình
X sẽ được tính như sau:
Σ là chữ cái Hy Lạp viết hoa chỉ một tổng gồm nhiều trị số. Muốn thể hiện đầy
đủ ta phải viết Σ dưới dạng
∑
=
=
ni
1i
mà ta phải đọc như sau: “Tổng (hoặc xích ma) các trị
số của đại lượng X từ i = 1 đến i = n”.
Ở thí dụ trên ta gặp trị số 85, 95, 100 nhiều lần nên khi tính toán ta có thể nhóm
lại cho gọn. Các tần xuất này ta gọi là n
i
56
Vậy công thức tổng quát là:
Để tính các giá trị mà n
i
và x
i
đều lớn người ta có thể đơn giản bằng cách đổi gốc
nếu ta chọn được một giá trị xi có tần số n cao nhất gọi là x
o
như vậy ta sẽ có công
thức:
Ví dụ: Cách tính cân nặng trung bình của 815 em bé trai 10 tuổi với các số liệu
như bảng sau:
X
1
n
1
x
1
-x
0
, n
1
(x
1
- x
0
)
16
17
18
19
20
21
22
23
24
25
26
4
9
31
75
183
204
157
97
40
12
3
-5
-4
-3
-2
-1
0
1
2
3
4
5
-20
-36
-93
-150
-183
0
157
194
120
48
15
n = 815
Σ = 52
Áp dụng công thức ta sẽ có:
Nếu giữa các nhóm có khoảng cách K (hằng số) thì công thức sẽ có dạng:
Nếu đặt
'
i
0i
x
K
xx
=
−
ta sẽ có công thức:
Ví dụ: Tính huyết áp tối thiểu (mmHg) của 2750 nam giới được phân bố vào 12
nhóm với khoảng cách K = 5.
57
Bảng: Huyết áp trung bình của 2750 nam giới
X
i
n
i
x
i
= x
o
K
xx
x
0i
'
i
−
=
n
i
, x
i
’
40
45
50
55
60
65
70
75
80
85
90
95
4
8
90
186
397
464
598
431
315
185
46
25
-30
-25
-20
-15
-10
-5
0
5
10
15
20
25
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
-24
-40
-360
-558
-794
-464
0
431
630
555
184
125
N = 2750
Σn
i
,x
i
’ = -321
Ứng dụng công thức ta có:
Số trung bình là một từ số tổng hợp cô đọng, nhưng có đầy đủ giá trị của tất cả
những cá thể trong tập hợp. Trung bình cộng không chỉ là một trị số đơn thuần giữa
các giá trị khác nhau của x
i
trong tập hợp mà là một trung bình có trọng lượng bởi lẽ
nó được tính ra từ tất cả các cá thể.
Số trung bình (
X ) tiêu biểu cho toàn bộ các cá thể của tập hợp, nó đại diện một
cách đầy đủ và chặt chẽ nếu tập hợp có độ đồng nhất cao.
Số trung bình tiêu biểu cho một đặc điểm căn bản của tập hợp, đó là xu hướng
tập trung trên một cái cốt giống nhau.
1.2. Trung vị (median)- Me
Trung vị (Me) là số đứng giữa một chuỗi thống kê đã được sắp x
ếp. Ví dụ: 1 2 2
3 4 6 6 7 9 ở đây Me là số 4 vì nó đứng ở vị trí số 5 trong chuỗi thống kê có n = 9.
Vậy: Me =
2
1n
+
nếu n là số lẻ.
Nếu n là số chẵn thì Me là trị số thứ
2
n
và
2
1n
+
58
1.3. Mốt (Mode)
Mốt là trị số của x
i
ứng với tần suất cao nhất, và nghĩa là trị số của x
i
này được
gặp nhiều lần nhất, tương ứng với giá trị x
o
mà ta đã nói ở trên (1.1). Mode được ký
hiệu là M
o
. Ở bảng huyết áp tối thiểu của 2750 nam giới M
o
= 70 mmHg. Trên các
hình, đặc biệt là biểu đồ đa giác tần số hoặc giản đồ cột ta có thể thấy trực tiếp M
o
ở vị
trí cao nhất.
Mode có giá trị quan trọng về mặt mô tả vì nó cho biết giá trị x
i
thường gặp nhất,
đây là điều cần thiết trong các thống kê ứng dụng. Cho nên trong các trường hợp phân
phối không đối xứng ta cần biết nó cùng với số trung bình.
Bài tập mẫu: Tính giá trị trung bình đối với các số liệu của các bài toán sau:
Chiều cao và cân nặng của sinh viên 2 lớp A và B
Chiều cao lớp A Chiều cao lớp B Cân nặng lớp A Cân nặng lớp B
x
i
n
i
x
1
n
1
x
1
n
1
x
1
n
1
158 2 158 4 16 2 16 4
159 3 159 3 17 3 17 6
160 1 160 5 18 4 18 12
161 4 161 6 19 6 19 48
162 6 162 6 20 16 20 71
163 6 163 7 21 37 21 148
164 4 164 7 22 92 22 270
165 3 165 8 23 1 02 23 308
166 3 166 5 24 79 24 280
167 2 167 6 25 73 25 242
168 2 168 6 26 58 26 152
169 1 169 4 27 35 27 80
170 1 170 3 28 20 28 21
171 2 171 2 29 6 29 17
172 1 172 1 30 1 30 4
Ở bài toán trên có 4 giá trị X ta cần phải tính, như vậy việc cần làm trước hết là
chọn công thức nào cho phù hợp? Tiếp theo cần phải lập bảng với số cột tương ứng
với số thừa số trong công thức để tính kết quả.
2. Các tham số, số đo chỉ sự phân tán
Các tham số đặc trưng cho độ phân tán thường dùng là: Phương sai, độ lệch
chuẩn, hệ số biến thiên
. Giá trị trung bình chỉ phản ánh được một đặc điểm của chuỗi
thống kê, là xu hướng tập trung của số liệu. Trong nhiều trường hợp bản thân hiện
tượng hay quá trình đã thay đổi rõ rệt nhưng số trung bình không thay đổi, hoặc thay
59
đổi rất ít. Do đó việc đánh giá mức độ phân tán của các số liệu so với số trung bình là
không thể bỏ qua được.
2.1. Khoảng biến thiên (KBT)
Khoảng biến thiên biểu thị độ phân tán trong một tập hợp một cách đơn giản
nhất. KBT được xác định bằng hiệu số giữa giá trị lớn nhất và nhỏ nhất của chuỗi số
liệu, tính bằng công thức:
R = X
max
- X
min
Ví dụ: Trọng lượng của hai nhóm thanh niên cùng khu vực được chăm sóc theo
chế độ khác nhau và được ghi lại như sau:
Nhóm 1: 40 45 50 55 60 65 70 75 80 (kg)
Nhóm 2: 56 57 58 59 60 61 62 63 64 (kg)
Cả hai nhóm đều có trọng lượng trung bình là 60kg nhưng khoảng biến thiên của
hai nhóm khác nhau
R
1
= 40 kg
R
2
= 8 kg
Như vậy cân nặng nhóm hai đồng đều hơn nhóm một, KBT càng nhỏ, tính đồng
nhất của chuỗi thống kê càng cao, giá trị trung bình càng đại diện được cho chuỗi
thống kê hơn.
2.2. Phương sai (variance) và độ lệch chuẩn
Phương sai của một tập hợp thống kê, là tỷ số giữa tổng bình phương biến sai của
các trị số cá thể quanh số trung bình cộng (
X ) với tổng số bậc tự do của tập hợp.
Phương sai chỉ có ý nghĩa trong thống kê đơn thuần về mặt toán học. Trong thực tế
nhà nghiên cứu chỉ thông qua phương sai để tính độ lệch chuẩn bởi vì không thể tính
độ lệch chuẩn trực tiếp bằng toán học. Phương sai của một tập hợp giống như cầu nói
cho nhà nghiên cứu xác định độ phân tán của dãy số liệ
u.
Phương sai có thể ký hiệu như sau: δ
2
hay S
2
δ là chữ xích ma thường trong chữ cái Hy Lạp.
S là chữ La Tinh, còn có khi viết là SD.
Công thức:
nếu n < 30 thì n ở mẫu số sẽ là (n-1)
Trong trường hợp có nhiều số liệu được phân nhóm, để tính số trung bình ta sẽ
tìm được x
o
và đơn vị mới K, ta sẽ có công thức mới:
60
Hoặc đơn giản hơn (không phân nhóm K)
Độ lệch chuẩn S là trị số bậc một của phương sai hay nói cách khác chính là căn
bậc hai của phương sai: S =
2
S
Độ lệch chuẩn là giá trị được ứng dụng nhiều trong thực hành, nghiên cứu các
vấn đề sinh học và y học bởi chính nó mới cho nhà nghiên cứu biết sự phân tán của
những số liệu nghiên cứu đã thu thập được xung quanh số trung bình. Khi tính được độ
lệch chuẩn của một tập hợp to hay nhỏ người ta biết được sự dao động của các giá trị
X
i
xung quanh giá trị trung bình nhiều hay ít và từ đó ta dần dần tính được các hằng
số. Hiện nay các hằng số sinh học được thiết lập nhờ sự tính toán số mẫu đông và sự
kết hợp các giá trị ngoại suy. Ví dụ ở các bảng sau với các số liệu đã cho của hai nhóm
A và B ta có thể lập bảng và tính như sau:
Bảng: Số liệu A và B
61
Bảng: Trị số huyết áp tối thiểu ở 2750 nam giới
2.3. Hệ số biến thiên
Khi so sánh hai mẫu có phương sai khác nhau Pearson đã đưa ra khái niệm: Hệ
số biến thiên (Coefflcient ofvariation), ký hiệu là CV
Ví dụ: Chiều cao và cân nặng của 217 sinh viên được nghiên cứu và cho các số
liệu như sau:
+ Chiều cao:
X = 160,4cm S = 4,2 cm
+ Cân nặng:
X = 51,2kg S = 3,4 kg
Ta tính dược chỉ số CV như sau:
Chiều cao: CV = 2,62%
Cân nặng: CV = 6,64%
Như vậy là số liệu về chiều cao ít phân tán hơn số liệu về cân nặng.
2.4. Hiệu chỉnh Sheppard
Trường hợp các số liệu được phân lớp, giá trị trung tâm của lớp đại diện cho tất
cả các trị số cá thể của lớp do đó đã có một sai số hệ thống. Nếu phân phối gần phân
62
phối chuẩn, việc phân lớp số liệu có chiều hướng làm gia tăng giá trị của S
2
.Vì vậy để
giảm bớt sai số có hệ thống này, Sheppar đưa ra công thức tính như sau:
Trong đó K là khoảng cách nhóm
2.5. Đánh giá hết hợp giữa giá trị trung bình và độ lệch chuẩn
Nhằm ước lượng xác suất hoặc độ chính xác trong các nghiên cứu, thông thường
người ta sử dụng chỉ số kết hợp “
X
± nS” để lượng giá, thông qua các diện tích đặc
biệt dưới đường cong chuẩn thuộc hàm phân bố của luật Gauss chuẩn tức là:
Đường cong chuẩn thu gọn xác suất dồn có hình dạng như sau:
Hình 1.6. Đường cong Gauss
(l) Diện tích của
X
± 1S cho biết đa số gần với chuẩn mực của quần thể
(68,27%).
(2) Diện tích
X ± 2S cho biết hầu hết các giá trị nằm trong quần thể. Nếu số
lượng nghiên cứu với mẫu đủ lớn thì số đo này sẽ là hằng số vì nó đại diện cho
95,45% quần thể.
(3) Diện tích
X ± 3S cho biết khi này cần hầu hết các giá trị của quần thể đã lọt
vào khung này. Độ đại diện đã rất cao song thông thường nghiên cứu khó đạt được vì
đòi hỏi mẫu nghiên cứu rất lớn (99,73%), đây chính là hằng số thu được thông qua các
cuộc nghiên cứu quy mô lớn.