Tải bản đầy đủ (.pdf) (108 trang)

phương pháp nghiên cứu y học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.81 MB, 108 trang )

Phương pháp nghiên cứu khoa học
Mục tiêu:
- Mô tả được các đặc tính của một nghiên cứu khoa học
- Trình bày được các đặc tính của một nghiên cứu khoa học tốt
Nghiên cứu khoa học là gì:
Nghiên cứu là công việc tìm kiếm một cách có hệ thống các kiến thức mới, dựa trên sự tò
mò và nhu cầu được cảm nhận.
1[1]

Như vậy đặc điểm của nghiên cứu là tìm ra kiến thức mới. Có hai phương pháp chính để
tìm kiếm kiến thức: hoặc là xem xét các tài liệu, kiến thức sẵn có để tìm ra các kiến thức
mới (scholarship) hay dựa vào thực tế khách quan để phát hiện các kiến thức và hiểu biết
mới (scientific research). Phương pháp dựa vào thực tế khách quan để tìm tòi các kiến
thức mới được gọi là nghiên cứu khoa học.
2[2]

Nghiên cứu khoa học là việc thu thập, phân tích và lí giải số liệu để giải quyết một vấn đề
hay trả lời một câu hỏi (Theo Varkevisser và cộng sự, 1991).
Nói cách khác, nghiên cứu khoa học phải bao gồm các bước thu thập số liệu trên thực địa
(hay từ các ca bệnh trong bệnh viện hay phòng thí nghiệm), phân tích số liệu để có
thông tin và và trình bày các thông tin này trong phần kết quả và trong phần bàn
luận và kiến nghị, lí giải các thông tin đó đề trả lời cho câu hỏi nghiên cứu hay đề
xuất các biện pháp giải quyết vấn đề.
Số liệu: Kết quả của việc thu thập có hệ thống các đại lượng và đặc tính của các đối
tượng
Thông tin: Số liệu đã được phân tích
Kiến thức: thông tin được lí giải và được sử dụng để trả lời câu hỏi hay giải quyết một
vấn đề nào đó
Nhưng để quá trình thu thập, phân tích và lí giải số liệu diễn ra tốt đẹp và giải quyết được
vấn đề nghiên cứu, trước đó nhà nghiên cứu phải phân tích từ vấn đề, xem những kiến
thức gì đã biết và còn chưa biết về vấn đề đó. Quá trình này được gọi là đặt vấn đề, tổng


quan y văn. Sau đó nhà nghiên cứu phải xác định hỏi để có được kiến thức còn chưa biết
đó, cần những thông tin gì và để có những thông tin này cần thu thập những đại lượng và
tính chất nào của đối tượng. Đây là nội dung của phần phương pháp nghiên cứu trong đề
cương nghiên cứu hay báo cáo khoa học. Sau khi đã thu thập được số liệu (đại lượng hay
tính chất của các đối tượng nghiên cứu), kết quả của phân tích số liệu (thông tin) được
trình bày trong phần kết quả nghiên cứu. Ở phần bàn luận, tác giả sẽ đánh giá xem các
thông tin có trả lời được câu hỏi nghiên cứu hay không và câu trả lời của câu hỏi nghiên

1[1]
Last JM. A dictionary of Epidemiology. NewYork: International epidemiology association
1997; 146

2[2]
Varkevisser C, Pathmanathan I, Brownlee A. Designing and conductiong health system
research projects. IDRC, Ottawa 1991

cứu chính nhằm giúp giải quyết vấn đề nghiên cứu là kiến thức mới được tạo ra.
Như vậy, một báo cáo khoa học sẽ gồm các phần chính: 1) Đặt vấn đề và mục tiêu nghiên
cứu 2) Tổng quan tài liệu 3) Phương pháp và đối tượng 4) Kết quả nghiên cứu 5) Bàn
luận và 6) Kết luận.
Các đặc điểm của một nghiên cứu khoa học tốt
Một nghiên cứu khoa học tốt có các đặc điếm sau:
- Phải tập trung vào các vấn đề ưu tiên trong chăm sóc y tế
- Phải có tính định hướng vào hành động và đề ra các giải pháp
- Phải có tính thời sự: kết quả phải có kịp thời để đưa ra các quyết định đúng đắn.
- Thiết kế nghiên cứu đơn giản và thực hiện trong thời gian ngắn
- Nên có tính chất chi phí - hiệu quả. Tốt nhất nếu nghiên cứu được tiến hành với
chi phí thấp và do các nhân viên, cán bộ y tế thực hiện cùng với công việc hàng
ngày.
- Kết quả phải được trình bày theo hình thức hữu dụng cho các nhà quản lí, nhà

hoạch định chính sách và cộng đồng: Cần có tóm tắt những kết quả chủ yếu của
nghiên cứu và nêu bật những điểm lí thú cho đối tượng của bản báo cáo. Dựa theo
kết quả có thể trình bày giải pháp để gi
ải quyết một vấn đề và so sánh ưu khuyết
điểm của việc tiến hành giải pháp và không tiến hành giải pháp.
- Nghiên cứu cần phải được đánh giá không chỉ dựa vào số các bài báo được xuất
bản mà cần phải xem xét sự ảnh hưởng của nó đến chính sách y tế hay thay đổi
cung cách phục vụ và cuối cùng là tác động lên sức khoẻ người dân.
Đối với nghiên cứu y tế công cộng cần phải đặt them hai đặc điểm sau:
- Sẽ tốt hơn nếu có sự tham gia của nhiều ngành, nhiều khoa
- Nghiên cứu cần có tính chất tham gia của mọi thành viên có liên quan trong tất
cả các bước của quá trình tiến hành nghiên cứu


Ðại cương về thống kê và thống kê mô tả
Một số định nghĩa
Thống kê là phương pháp khoa học dùng đề thu thập, tóm tắt, trình bày và phân tích số
liệu.
Số liệu: Kết quả có được do việc quan sát hay thu thập một biến số ở các đối tượng khác
nhau hay ở thời gian khác nhau.
Thí dụ: Khi tôi quan sát giới tính của các học viên trong lớp, tôi có số liệu là:
Nam, nam, nữ, nữ, nữ, nam, nữ, v.v
Thí dụ: Một nhà nghiên cứu đo nồng độ hemoglobin của 70 thai phụ có kết quả như sau:
10.2 13.7 10.4 14.9 11.5 12.0 11.0
13.3 12.9 12.1 9.4 13.2 10.8 11.7
10.6 10.5 13.7 11.8 14.1 10.3 13.6
12.1 12.9 11.4 12.7 10.6 11.4 11.9
9.3 13.5 14.6 11.2 11.7 10.9 10.4
12.0 12.9 11.1 8.8
10.2 11.6 12.5

13.4 12.1 10.9 11.3 14.7 10.8 13.3
11.9 11.4 12.5 13.0 11.6 13.1 9.7
11.2 15.1
10.7 12.9 13.4 12.3 11.0
14.6 11.1 13.5 10.9 13.1 11.8 12.2
và những con số này được gọi là số liệu.
Cần lưu ý số liệu phải liên kết với một biến số nhất định. Nếu tôi quan sát giới tính ở
người này, tuổi của người khác, quần áo của một người khác nữa thì kết quả quan sát
được không phải là số liệu.
Biến số và các loại biến số
Biến số là những đại lượng hay những đặc tính có thể thay đổi từ người này sang người
khác hay từ thời điểm này sang thời điểm khác.
Như vậy biến số có thể thể hiện đại lượng hay đặc tính.
- Nếu biến số thể hiện một đại lượng nó được gọi là biến số định lượng
(quantitative variable). Biến số định lượng có thể còn
được chia thành biến số tỉ số - ratio
variable(có giá trị không tuyệt đối) và biến số khoảng – interval variable (không có giá trị
không tuyệt đố)
- Nếu biến số nhằm thể hiện một đặc tính, biến số được gọi là biến số định tính.
Biến số định tính còn được chia làm 3 loại:
- Biến số nhị giá – binary variable (khi chỉ có 2 giá trị)
- Biến số danh định – nominal variable (khi có 3 hay nhiều hơn các giá trị
và các bản thân các giá trị không có tính ch
ất thứ tụ)
- Biến số thứ tự - ordinal variable (khi có 3 hay nhiều hơn các giá trị và
các bản thân các giá trị có tính chất thứ tự
- Ngoài ra có khi biến cố không chỉ được quan tâm về phương diện nó có xảy ra
hay chưa xảy ra mà còn được quan tâm về phương diện biến cố xảy ra vào lúc nào. Thí
dụ sau khi điều trị bệnh nhân ung thư chúng ta không chỉ quan tâm bệnh nhân có tử vong
hay không mà còn quan tâm bệnh nhân bệnh nhân tử vong bao nhiêu lâu sau khi điều trị

và nếu bệnh nhân chưa tử vong, bệnh nhân đã sống được bao lâu.
Phương pháp mô tả tóm tắt và trình bày số liệu
-Tỉ lệ cho từng giá trị nếu
là biếnthứ tự hay danh
định
- Tỉ lệ cho giá trị tiêu biểu
nếulàbiếnnhị giá
-Tỉ lệ cho từng giá trị nếu
là biếnthứ tự hay danh
định
- Tỉ lệ cho giá trị tiêu biểu
nếulàbiếnnhị giá

Các số thống kê mô tả
Có hai loại thống kê mô tả: thống kê mô tả khuynh hướng tập trung và thống kê mô tả
tính phân tán.
Thống kê mô tả khuynh hướng tập trung
Thống kê mô tả khuynh hướng tập trung có thể là trung bình (mean), trung vị (median)
và yếu vị (mode). Những thống kê này cho biết giá trị tiêu biểu cho số liệu.
Thí dụ: có hai loại thuốc hạ áp A và B. Giả sử có 5 đối tượng sau khi sử dụng thuốc hạ áp A sẽ có
huyết áp 110 - 115 -120 - 125 -130 và ở 5 đối tượng khác sau khi sử dụng thuốc hạ áp B sẽ có
huyết áp 120 - 125 - 130 - 135 - 140. Con số tiêu biểu nhất để cho biết tác dụng của thuốc A là
huyết áp trung bình sau khi sử dụng thuốc A và là 120. Con số huyết áp trung bình này thấp hơn
huyết áp trung bình sau khi sử dụng thuốc B cho biết thuốc A có tác dụng mạnh hơn.
Trung bình của số liệu, được kí hiệu là (x (đọc là x gạch) là tổng các giá trị của số liệu
chia cho số lần quan sát (N).
N
x
x
i

Σ
=

Thí dụ: Số liệu về huyết áp tâm thu của 5 đối tượng là 120, 125, 130, 135, 150. Huyết áp
tâm thu trung bình sẽ là 132
132
5
150125130125120
=
++++
=
Σ
=
N
x
x
i

Do không thể thực hiện các phép toán số học trên các biến số định tính (danh định và thứ
tự) chúng ta chỉ có thể tính trung bình cho số liệu của biến số định lượng.
Nếu chúng ta sắp xếp số liệu theo thứ tự, giá trị đứng ở giữa được gọi là trung vị. Nếu có
hai giá trị cùng đứng ở giữa, trung bình cộng của hai giá trị này là trung vị.
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150.
Trung vị của huyết áp tâm thu là giá trị đứng ở giữa và bằng 130
Số liệu về chiều cao (cm) của 6 người là 153, 155, 160, 162, 165, 161. Ðể tính trung vị,
trước tiên chúng ta phải sắp xếp số liệu này: 153, 155, 160, 161, 162, 165. Do có hai giá
trị 160 và 161 cùng ở giữa, trung vị sẽ là (160+161)/2 = 160,5 cm
Do bản chất của biến số danh định không thể sắp được theo thứ tự, chúng ta chỉ có thể
tính trung vị của số liệu định lượng và số liệu của biến số thứ tự.
Ngoài ra yếu vị (mode) cũng được sử dụng làm con số thống kê tiêu biểu. Yếu vị là giá

trị xuất hiện phổ biến nhất (có tần suất cao nhất).
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150.
Trong trường hợp này không có yếu vị.
Ðiểm số của 5 học sinh là 5, 5, 6, 7, 9. Yếu vị của điểm số là 5.
Trong một ấp có 361 gia đình người Kinh, 120 gia đình người Khmer và 27 gia đình
người Hoa. Yếu vị của biên số dân tộc là dân tộc Kinh.
Trong một số liệu cụ thể, có thể không có yếu vị, có thể có một yếu vị hoặc hai hay nhiều
yếu vị. Ðây là khuyết điểm chính của số thống kê này. Do vậy người ta thường chỉ dùng
yếu vị cho biến số danh định hay trong các trường hợp đặc biệt
Có thể sử dụng trung bình, trung vị hay yếu vị cho biến số định lượng. Khi biến số định
lượng có phân phối bình thường (hình chuông) thì ba con số này xấp xỉ bằng nhau và khi
đó người ta thường tính trung bình bởi vì trung bình có những đặc tính toán học mạnh.
Tuy nhiên nếu số liệu bị lệch thì con số trung vị phản ánh giá trị tiêu biểu một cách chính
xác hơn.
Thí dụ: Bệnh nhân bị loét dạ dày - tá tràng được điều trị theo một phác đồ diệt vi khuẩn
Helicobacter. Sau điều trị, bệnh nhân được theo dõi và ghi nhận thời gian kể từ khi sử
dụng thuốc đến lúc bắt đầu cải thiện triệu chứng đau. Ở 10 bệnh nhân thời gian này (ngày
) là như sau: 1, 2, 2, 2, 2, 2, 3, 3, 3, 30. Bệnh nhân có thời gian từ lúc điều trị đến lúc
giảm triệu chứng là 30 ngày trên thực chất là b
ệnh nhân không đáp ứng với điều trị.
Trung vị và trung bình của số liệu là 2 và 5 ngày. Con số trung vị phản ánh chân thực hơn
bởi vì với tư cách là một bác sĩ lâm sàng từ số liệu trên có thể nhận xét rằng một bệnh
nhân tiêu biểu sẽ giảm đau sau 2 ngày dùng thuốc. Con sôs 30 trong thí dụ trên được gọi
là số ngoại lai (outlier) và làm số liệu bị lệch. Nhìn chung, khi số liệu bị lệch thì con số
trung bình s
ẽ bị ảnh hưởng rất nhiều và không phản ánh giá trị tiêu biểu như con số trung
vị.

Thống kê mô tả tính phân tán:
Có 3 thống kê mô tả tính phân tán: độ lệch chuẩn, khoảng tứ phân vị và phạm vi của số

liệu. Việc lựa chọn thống kê mô tả tính phân tán được trình bày trong bảng 2.
Thống kê mô tả tính phân tán có tầm quan trọng thứ hai sau con số mô tả khuynh hướng
tập trung.
Thí dụ: Thuốc hạ áp A được sử dụng trên 5 bệnh nhân và huyết áp tâm thu sau khi dùng thuốc là
110, 115, 120, 125 và 130. Thuốc hạ áp B được sử dụng trên 5 bệnh nhân và có huyết áp sau sử
dụng thuốc là 100, 110, 120, 130, 140. Như vậy hai thuốc hạ áp này có hiệu quả hạ áp là tương
đương (bởi vì trung bình của hai số liệu là bằng nhau) nhưng kết quả của thuốc B phân tán hơn và
điều này làm thuốc B trở nên kém an toàn.
Ðộ lệch chuẩn (standard deviation - viết tắt là SD hay s) là con số đánh giá mức độ phân
tán và được tính theo công thức:


Như vậy độ lệch chuẩn phản ánh khoảng cách trung bình của số liệu so với giá trị tiêu
biểu. Khái niệm độ lệch chuẩn chỉ có thể áp dụng cho biến số định lượng bởi vì chúng ta
có thể thực hiện các phép toán số học trên các đại lượng nhưng không thể thực hiện trên
các giá trị của biến số định tính là các đặc tính.
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Trung
bình của huyết áp là 132 và độ lệch chuẩn bằng
5,115,132
4
530
4
3249449144
15
)132150()132135()130132()132125()132120(
1
)(
22222
1
2

===
++++
=

−+−+−+−+−
=


=

=
n
i
i
N
xx
s

Phương sai về mặt từ nguyên là bình phương của độ lệch chuẩn. Phương sai (variance) có
thể được kí hiệu và Var hay s
2
và được tính theo công thức sau:


=


=
n
i

i
N
xx
s
1
2
2
1
)(

Phạm vi của số liệu là tất cả các giá trị của số liệu từ giá trị nhỏ nhất đến giá trị lớn nhất.
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Phạm vi
của biến số huyết áp là 120 đến 150.
Thí dụ: Thuốc hạ áp A được sử dụng trên 5 bệnh nhân và huyết áp tâm thu sau khi dùng thuốc là
110, 115, 120, 125 và 130. Thuốc hạ áp B được sử dụng trên 5 bệnh nhân và có huyết áp sau sử
dụng thuốc là 100, 110, 120, 130, 140. Số liệu của thuốc B có tính phân tán cao hơn do phạm vi
thay đổi từ 100-140 trong khi đó phạm vị của số liệu thuố
c A chỉ từ 110-130.
Khoảng tứ phân vị (inter-quartile): Nếu chúng ta chia số liệu sắp theo thứ tự làm 2 phần
đều nhau, khoảng tứ phân vị là khoảng cách của trung vị phần trên và trung vị phần dưới.
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Số liệu
này được chia làm 2 phần: phần 1 gồm 120, 125, 130 và phần 2 gồm 130, 135, và 150. Trung vị
của phần trên là 125 - trung vị của phần dưới là 135, do đó phạm tứ phân vị là 125-135.
Do bản chất của khoảng tứ phân vị là trung vị của phần số liệu trên và phần số liệu dưới,
cũng giống như trung vị, khoảng tứ phân vị không bị ảnh hưởng bởi các giá trị ngoại lai
như trong trường hợp của độ lệch chuẩn. Cũng như trung vị, khoảng tứ phân vị chỉ có thể
áp dụng cho biến số định lượng hay thứ
tự.
Câu hỏi: Phân tích trên máy tính về biến số hemoglobin cho kết quả sau. Hãy thử đọc và
lí giải kết quả:


=


=
n
i
i
N
xx
s
1
2
1
)(

Variable | Obs Mean Std. Dev. Min Max
+
hemoglobin | 70 11.98429 1.416122 8.8 15.1

Phương pháp trình bày số liệu
Số liệu có thể được trình bày thành bảng hoặc các đồ thị.
Trình bày bảng:
Phân phối tần suất của biến số định tính
Số liệu của biến số rời rạc có thể được trình bày dưới dạng một phân phối tần suất. Phân
phối tần suất là một bảng chỉ ra tần suất xuất hiện của từng giá trị rời rạc của biến số
(Bảng 1). Như vậy bảng phân phối tần suất gồm 2 cột, một cột liệt kê các giá trị của biến
số và một cột trình bày tần suất tương ứng của các giá trị đó.
Table 1. Phân phối giới tính của 69 học sinh lớp cơm thường trường mầm non 23 tháng 11,
Huyện Hóc môn

Giới Số trẻ Phần trăm
Nam 45 65%
Nữ 24 35%
Tổng số 69 100%
Bảng trên là bản phân phối tần suất của giới tính. Bởi vì giới tính có 2 giá trị nam và nữ
nên ta liệt kê 2 giá trị này ở một cột. Ở cột thứ nhì ta ghi tần suất tương ứng của các giá
trị này. Ðôi khi bảng phân phối tần suất có thêm cột phần trăm như trong thí dụ ở trên.
Bảng 2 là một thí dụ khác về bảng phân phối tần suất.
Table 2. Phương pháp đỡ đẻ của 600 trẻ trong bệnh viện
Phương pháp đỡ
đẻ
Số sinh Phần trăm
Sinh thường 478 79,7
Sinh forceps 65 10,8
Sinh mổ 57 9,5
Tổng số 600 100,0

Phân phối tần suất của biến số định lượng
Nếu biến số là biến số liên tục chúng ta không thể liệt kê tất cả các giá trị của biến số.
Trong trường hợp này chúng ta có thể nhóm (làm tròn) giá trị của biến số lại.
Cụ thể các bước xây dựng bảng phân phối tần suất cho biến số định lượng như sau:
1- Tìm phạm vi (giá trị cực tiểu và giá trị cực đại) của số liệu. Trong thí dụ về
hemoglobin của 70 phụ nữ phạm vi là 8,8 đến 15,1
2. Chia phạm vi số liệu ra làm n khoảng với độ rộng của mỗi khoảng là d. Cần lưu ý độ
rộng mỗi khoảng d nên là đại lượng chẵn như 1, 2, 5, 10 hay 0,5, 0,2 và số các khoảng n
nên từ 5-12 (trung bình là 7-8). Trong thí dụ trên ta có thể chia phạm vi ra làm 8khoảng
với chiều rộng khoảng bằng 1 đơn vị. Khi đó các khoảng là: 8-8,9; 9-9,9; 10-10,9; 11-
11,9; 12-12,9; 13-13,9; 14-14,9; 15-15,9.
3. Ðếm các giá trị thích hợp vào khoảng đã định trước


Hemoglobin
(g/100ml)
Ðếm
8-8,9 1
9-9,9 111
10-10,9 1111 1111 1111
11-11,9 1111 1111 1111 1111
12-12,9 1111 1111 1111
13-13,9 1111 1111 111
14-14,9 1111
15-15,9 1
4. Xây dựng bảng phân phối tần suất với biến số và các khoảng giá trị của biến số và tần
suất tương ứng với các khoảng giá trị đó. Chúng ta cũng có thể thêm vào cột phần trăm
và cột phần trăm tích lũy (nếu thích hợp)
Table 3. Hemoglobin của 70 phụ nữ
Hemoglobin Tần suất Phần trăm Phần trăm tích lũy
8-8,9 1 1.43 1.43
9-9,9 3 4.29 5.71
10-10,9 14 20.00 25.71
11-11,9 19 27.14 52.86
12-12,9 14 20.00 72.86
13-13,9 13 18.57 91.43
14-14,9 5 7.14 98.57
15-15,9 1 1.43 100.00

Thí dụ như nếu biên số là chu vi vòng cánh tay của trẻ chúng ta có thể làm tròn chu vi
vòng cánh tay đến 1 cm. Khi đó ta có thể xem thang đo của biến số là rời rạc và trình bày
bảng phân phối tần suất của biến số (bảng 2).
Table 4. Phân phối số đo vòng cánh tay của 69 trẻ lớp cơm thường nhà trẻ 23 tháng 11, Hóc
môn.

Vòng cánh tay Tần suất Phần trăm Phần trăm tích lũy
13- <14 2 2.78 2.78
14- <15 31 43.06 45.83
15- <16 27 37.50 83.33
16- <17 9 12.50 95.83
17- <18 0 12.50 95.83
18- <19 2 2.78 98.61
19- <20 1 1.39 100.00

Biểu đồ và đồ thị
Số liệu cũng có thể được trình bày dưới dạng đồ thị hoặc biểu đồ. Mặc dù không có ranh
giới tuyệt đối hoàn toàn rõ rệt, nói chung đồ thị (graph) có tính chất toán học nhiều hơn,
trong đó có trục hoành và trục tung còn biểu đồ (chart) là hình ảnh mang tính chất tượng
trưng.
Nếu biến số là biến rời rạc, có thể trình bày dưới dạng biểu đồ hình thanh (bar chart -
hình 1) hoặc biểu đồ hình bánh (pie chart). Nếu biến số là biến liên tục, thì phân phối của
biến số có thể trình bày dưới dạng tổ chức đồ (histogram - hình 2) hoặc đa giác tần suất.
Hình thức của bảng
-Có tựa ngắn gọn và rõ ràng
-Ðặt tên cho các hàng và cột
-Trình bày tổng số của hàng và cột
-Ðịnh nghĩa các kí hiệu và chữ viết tắt ở dưới bảng
-Ghi nguồn số liệu ở dưới bảng
Biểu đồ hình thanh
Biểu đồ hình thang là biểu đồ nhằm mô tả sự phân bố của biến số rời rạc. Biểu đồ hình
thanh gồm có trục hoành trên đó xác định những giá trị của biến số. Ứng với từng giá trị
của biến số người ta vẽ các thanh có chiều cao tỉ lệ với tần suất của giá trị đó. Cần lưu ý
luôn luôn có khoảng trống giữa các thanh.
45
24

0
10
20
30
40
50
Nam Nöõ

Hình 1. Biểu đồ hình thanh (bar chart) mô tả phân bố giới tính của những học sinh trong
trường mầm non 23/11, Hóc môn
Chúng ta cũng có thể xây dựng các thanh theo chiều ngang như trong ví dụ sau
478
65
57
0 100 200 300 400 500
Sinh thöôøng
Sinh forceps
Sinh moå

Hình 2. Phương pháp sinh của 600 trẻ sanh tại bệnh viện X trong năm 1998
Ðối với biến số thứ tự, điều cần lưu ý là các giá trị của biến số phải được sẵp xếp thứ tự
theo trục hoành.
Tần suất
edumat
mù chữ
cấp 1 cấp 2-3 đại họ
0
1000
2000



Hình 3. Trình độ học vấn của các bà mẹ trong nghiên cứu
4,3%
19,5%
0,8%
3,9%
0%
5%
10%
15%
20%
25%
Dùng ZDV† Không dùng ZDV
Đường âm đạo
Mổ lấy thai

Hình 4. Tỉ suất lây truyền từ mẹ sang con ở những người mẹ bị nhiễm HIV theo
điều trị hóa dự phòng và phương pháp sinh (Nguồn: The European Mode of
Delivery Collaboration, Lancet, 27/3/1999)
Biểu đồ hình bánh
Biểu đồ hình bánh cũng được dùng để mơ tả sự phân bố của biến số rời rạc. Biểu đơ hình
bánh là một vòng tròn được chia làm nhiều cung tương ứng với các giá trị của biến số.
Ðộ lớn của cung tỉ lệ với tần suất của giá trị biến số.
Nöõ
35%
Nam
65%

Hình 5. Biểu đồ hình bánh (pie chart) mô tả phân bố giới tính của những học sinh trong
trường mầm non 23/11, Hóc môn

Sinh
thöôøng
Sinh moå
Sinh
forceps

Hình 6. Biểu đồ hình bánh thể hiện phương pháp sinh của 600 đứa trẻ sinh tại bệnh
viện X
Tổ chức đồ và đa giác tần suất
Tổ chức đồ (histogram) và đa giác tần suất (polyline) được dùng trong mô tả phân bố của
biến số liên tục. Ðể vẽ tổ chức đồ, người ta chia biên độ của giá trị làm nhiều khoảng giá
trị và tính tần suất của những khoảng giá trị đó. Những khoảng giá trị này được biểu thị ở
trên trục hoành. Ứng với mỗi khoảng giá trị người ta vẽ những hình chữ
nhật có diện tích
tỉ lệ với tần suất của khoảng giá trị đó. Bởi vì các khoảng giá trị này nằm sát nhau trên
trục hoành, các hình chữ nhật của tổ chức đồ cũng thường nằm sát nhau.

Frequency
hemoglobin
8
9 10 11 12 13 14 15 16
0
5
10
15
20

Hình 7. Tổ chức đồ mức hemoglobin của 70 phụ nữ.




Frequency
hemoglobin
8
9 10 11 12 13 14 15 16
0
5
10
15
20

Hình 8. Ða giác tần suất của hemoglobin của 70 phụ nữ.
Ðể vẽ đa giác tần suất, người ta thường vẽ tổ chức đồ và nối các trung điểm của các cạnh
trên của các hình chữ nhật. Ða giác tần suất thường không đẹp như các tổ chức đồ nhưng
nó có ưu điểm là có thể vẽ nhiều đa giác tần suất trên cùng một đồ thị để dễ so sánh các
phân phối của chúng.


hemoglobin
8
9 10 11 12 13 14 15 16
0
5
10
15

Hình 9. Ða giác tần suất hemoglobin của 28 phụ nữ nghèo (đường đỏ) so vơí 42 phụ nữ
trung bình và khá (đường xanh)
Ðại cương về phân tích số liệu
Phép ước lượng

Dân số và mẫu
Thông thường chúng ta không thể nghiên cứu toàn bộ dân số mà chúng ta quan tâm.
Chúng ta thường chỉ có thể nghiên cứu chỉ một phần dân số đó, phần này được gọi là
mẫu (sample) và từ đó ước đoán về những đặc tính của dân số.
Trong nghiên cứu khoa học, chúng ta đi từ đặc trưng của cá thể (biến số - variable) để có
được đặc trưng của mẫu (được gọi là thống kê - statistics) và từ đặc trưng của mẫu chúng
ta sử dụng phương pháp suy luận thống kê và lí giải để có được đặc trưng của dân số
(được gọi là tham số - parameter)
Một loại mẫu thường được gặp trong nghiên cứu là mẫu ngẫu nhiên đơn. Khi lấy mẫu
ngẫu nhiên đơn, chúng ta có thể tính được giá trị trung bình và độ lệch chuẩn của mẫu.
Rõ ràng là giá trị trung bình và độ lệch chuẩn sẽ khác nhau với những mẫu khác nhau.
Tuy vậy các nhà thống kê đã chứng minh rằng giá trị trung bình của mẫu sẽ có phân phối
bình thường và các giá trị trung bình này sẽ tập trung tại trung bình của dân số. Do đó
nếu chúng ta tính trung bình của mẫu thì chúng ta hi vọng trung bình của dân số sẽ nằm
ngay tại hay ở lân cận trung bình của mẫu. Ðộ phân tán của trung bình mẫu xung quanh
chung bình dân số được gọi là sai số chuẩn (standard error) và sẽ giảm đi khi cỡ mẫu
càng lớn:

n
s
n
s
es
2
==


Độ lệch chuẩn và sai số chuẩn là hai đại lượng thể hiện sự phân tán nhưng độ lệch chuẩn
thể hiện sự phân tán của cá thể chung quanh giá trình trung bình dân số còn sai số chuẩn
là đại lượng thể hiện sự phân tán của con số thống kê (trung bình mẫu hay tỉ lệ của mẫu)

chung quanh giá trị của tham số (trung bình dân số hay tỉ lệ của dân số).
Ước lượng khoảng tin cậy của trung bình
Như chúng ta đã trình bày, trung bình của mẫu sẽ dao động nhưng tập trung tại giá trị
trung bình của dân số, nên chúng ta có thể ước lượng trung bình dân số bằng cách tính
trung bình của mẫu.
Nhưng do trung bình mẫu có dao động, chúng ta không chắc là trung bình mẫu sẽ chính
xác bằng trung bình của dân số mà chỉ có thể tin là trung bình dân số nằm ở vị trí đâu đó
chung quanh trung bình của dân số. Các nhà thống kê cho rằng 95% các trường hợp trung
bình dân số không nằm xa quá 1,96 x SE so với trung bình mẫu: phạm vi này được gọi là
khoảng tin cậy 95%. Như vậy khoảng tin cậy 95% của trung bình của biến sô định lượng
Khoảng tin cậy 95% (95% CI) : ⎯x ± 1,96s/√n
Trong trường hợp cỡ mẫu nhỏ (n < 30), chúng ta không thể sử dụng giá trị 1,96 như trong
công thức trên mà cần phải sử dụng các giá trị hơi lớn hơn (và càng lớn nếu cỡ mẫu càng
nhỏ), giá trị này được gọi là giá trị của phân phối t với (cỡ mẫu – 1) độ tự do.
Khoảng tin cậy 95% (95% CI) : ⎯x ± t
(1-α/2)
× s/√n
Bài tập:
1. Một nghiên cứu ghi nhận trên cỡ mẫu 1235 trẻ sơ sinh ở tỉnh Đồng Tháp cho thấy
trọng lượng trung bình của trẻ sơ sinh là 3121 gram và độ lệch chuẩn là 435 gram. Hãy
ước lượng khoảng tin cậy 95% của trọng lượng trung bình của trẻ sơ sinh tỉnh Đồng
Tháp.
Sử dụng công thức trên ta tính được:
95%CI=3096.74 - 3145.26 gram.
2. Chiều cao của 10 thanh niên là 160; 162; 165; 166; 169; 170; 172; 172; 176; 176. Hãy
ước lượng khoảng tin cậy 95% của chiều cao trung bình.
Trước tiên chúng ta phải xác định trung bình của chiều cao là 168,8 cm và độ lệch chuẩn
của chiều cao là 5,493. Do cỡ mẫu là 10 chúng ta phải dò bảng phân phối t ở 9 độ tự do ta
được giá trị t (tương ứng với khoảng tin cậy 95%) là 2,26. Từ đó chúng ta tính được
khoảng tin cậy 95%

95%CI=164.87 - 164.87.
Ước lượng khoảng tin cậy của tỉ lệ
Để ước lượng khoảng tin cậy của một tỉ lệ, chúng ta cần xác định tỉ lệ p sau đó dựa vào p
để ước lượng khoảng tin cậy 95% của p

n
)-(1 pp
p ×− 96,1
đến

n
)-(1 pp
p ×+ 96,1

Bài tập
Điều tra trên 127 thanh niên có 45 thanh niên hút thuốc lá. Hãy tính tỉ lệ thanh niên hút
thuốc lá và khoảng tin cậy 95% của tỉ lệ hút thuốc lá.
Chúng ta tính được tỉ lệ hút thuốc lá ở thanh niên là 0.354 (35.4%). Dựa vào công thức
trên chúng ta tính được khoảng tin cậy 95% của tỉ lệ hút thuốc lá là 0,271 đến 0,438
Suy luận thống kê
Kiểm định ý nghĩa
Phương pháp kiểm định ý nghĩa được Fisher đề xuất và dựa trên căn bản của phép phản
chứng. Phép phản chứng trong logic học sử dụng bằng mệnh đề: Nếu A kéo theo B thì
không B sẽ kéo theo không A.
A⇒ B ⇔⎯B⇒⎯A
Một thí dụ của phép phản chứng là khi chúng ta gặp một bệnh nhân nghi ngờ tắc ruột và
chúng ta hỏi bệnh sử xem bệnh nhân có bí trung tiện hay không. Giả sử bệnh nhân không
bí trung tiện thì chúng ta sẽ bác cỏ chẩn đoán tắc ruột với suy luận sau: Nếu bệnh nhân bị
tắc ruột sẽ bí trung tiện thì bệnh nhân sẽ bí trung tiện, do bệnh nhân không bí trung tiện
nên bệnh nhân không bị tắc ruột.

Một cách tổng quan hơn, khi chúng ta đưa ra giả thuyết chẩn đoán (thí dụ như chẩn đoán
tắc ruột), chúng ta thường sẽ xem xét các hệ quả phổ biến giả thuyết này (Bệnh nhân tắc
ruột thường bị đau bụng,nôn ói, bí trung tiện và chướng bụng). Việc không có một trong
các hậu quả phổ biến của giả thuyết này (thí dụ như bệnh nhân không có đau bụng, không
có nôn ói, không bị bí trung tiện hay không có chướng bụng) thì chúng ta có thể bác bỏ
chẩn đoán. Các biến cố nằm ngoài các hệ quả phổ biến của giả thuyết (biến cố không có
đau bụng, không có nôn ói, không bị bí trung tiện hay không có chướng bụng) được gọi
là miền bác bỏ của chẩn đoán.
Trong kiểm định thống kê người ta cũng sử dụng các lập luận tương tự. Để kiểm định
một giả thuyết thống kê (được gọi là giả thuyết Ho) cần phải xác định miền xảy ra phổ
biến của các con số thống kê (như trung bình, tỉ lệ, thống kê t, thống kê z, thống kê chi
bình phương, v.v.) và nếu con số thống kê này nằm ngoài miền xảy ra phổ biến thì chúng
ta sẽ bác bỏ giả thuyết Ho. Miền nằm ngoài miền xảy ra phổ biến của số thống kê được
gọi miền bác bỏ.

Hình Error! Bookmark not defined Nguyên tắc kiểm định ý nghĩa theo Fisher. Đường cong
phân phối hình chuông thể hiện phân phối của thống kê của z khi µ=0 (giả thuyết Ho).
Vùng diện tích dưới đường cong màu trắng thể hiện miền các thống kê z thường xảy ra nếu
giả thuyết Ho là đúng. Vùng diện tích dưới đường cong màu sẫm là miền bác bỏ giả thuyết
Ho và có diện tích là xác suất sai lầm loại 1 (5%).
Khi sử dụng kiểm định ý nghĩa chúng ta cần lưu ý các điểm sau:
- Kiểm định dựa trên nguyên tắc phản chứng nghĩa là chúng ta chỉ có thể bác bỏ
chứ không thể chứng minh được giả thuyết Ho. Vì vậy nếu chúng ta muốn chứng
minh hút thuốc lá là yếu tố nguy cơ của ung thư phổi thì phải đặt ra giả th.uyết
thống kê Ho là hút thuốc lá không phải là yếu tố nguy cơ của ung th
ư phổi và sử
dụng phương pháp kiểm định để bác bỏ điều này.
- Giả thuyết Ho phải thể hiện bằng đẳng thức (thí dụ như giả thuyết Ho: RR=1 hay
Ho: điểm trung bình về bệnh lây truyền qua đường tình dục ở nam thanh niên =
điểm trung bình về bệnh lây truyền qua đường tình dục ở nữ thanh niên ) thì mới

có thể tính được phân phối của thống kê. Giả thuyế
t Ho không thể thể hiện bằng
bất đẳng thức (Ho: RR>1 là sai)
- Do diện tích miền bác bỏ là một con số cố định (thường là 0,05), để xác định con
số thống kê T có nằm trong miền bác bỏ hay khơng người ta tính xác suất xảy ra
thống kê cực đoan hơn giá trị T nếu giả thuyết Ho là đúng (được thể hiện bằng
cơng thức: P (>T |Ho) ). Xác suất này được gọi là giá trị p. Và nếu giá trị p nhỏ
hơn ngưỡng bác bỏ nghĩa là thống kê T nằm trong vùng bác bỏ và chúng ta có thể
bác bỏ giả thuyết Ho.
Giá trị p được kí hiệu khác nhau trên các phần mềm thống kê. Thí dụ ở phần mềm Epi-
Info, giá trị p được kí hiệu là p-value, ở phần mềm SPSS, giá trị p được kí hiệu là Sig. Ở
phần mềm Stata, các giá trị p thường được kí hiệu khác nhau tùy theo thống kê được sử
dụng là thống kê gì. Cụ thể, trong phần mềm Stata, giá trị p được kí hiệu như sau:
P > |T| (nếu kiểm định t)
P > |z| (nếu kiểm định z)
Prob > chi2 (kiểm định chi bình phương)
Prob > F (Kiểm định F; Kiểm định ANOVA)


Kiểm định giả thuyết
Khuyết điểm của phương pháp kiểm định ý nghĩa khi khơng bác bỏ được giả thuyết H
0

chúng ta khơng biết được xác suất H
0
đúng là bao nhiêu. Một nhà thống kê học khác tên
là Neyman đã đề ra phương pháp kiểm định giả thuyết trong đó có xét đến sai lầm loại 2.


Phát biển H

0
; H
a
Tính số thống kê
(z; t; chi
2
; F)
Xác suất sai
lầm loại 1
Nhỏ
Bác bỏ giả thuyết
Xác suất sai
lầm loại 2
Không nhỏ
Nhỏ
Chấp nhận giả
thuyết
Thực hiện nghiên
cứu với cỡ mẫu
lớn hơn
Không nhỏ
tra bảng tính p

Sai lầm loại một và sai lầm loại hai
Sai lầm loại một: bác bỏ giả thuyết H
0
trong khi giả thuyết H
0
là đúng.
Sai lầm loại hai: Khơng bác bỏ giả thuyết H

0
trong khi giả thuyết H
0
sai.
Trong nghiên cứu thống kê người ta khơng bao giờ có thể chắc chắn. Do vậy, khi nhà
nghiên cứu đi đến kết luận bác bỏ giả thuyết H
0
, người nghiên cứu có thể bị sai lầm (sai
lầm loại một - với một xác suất nào đó). Khi nhà nghiên cứu khơng bác bỏ giả thuyết H
0
,
nhà nghiên cứu cũng có thể bị sai lầm (sai lầm loại hai - cũng với một xác suất nào đó).
Một điều nên nhớ là bằng kiểm định thống kê người ta có thể xác định được xác suất sai
lầm loại một nhưng không thể tính được xác suất sai lầm loại hai mà chỉ có thể tính được
dựa vào đối thuyết Ha và cỡ mẫu của nghiên cứu.
Ðôi khi người ta còn sử dụng khái niệm năng lực (power) của kiểm định thống kê. Năng
lực của kiểm định thống kê = 1 - xác suất sai lầm loại 2. Khái niệm năng lực của thống kê
hay được dùng trong tính cỡ mẫu.
Bảng Error! Bookmark not defined Tóm tắt về sai lầm loại 1, sai lầm loại 2 và giá trị
ngưỡng của nó
Chân lí là Ho đúng
(Không có sự khác biệt)
Chân lí là Ha đúng
(Không có sự khác biệt)
Bác bỏ giả thuyết H
0
Sai lầm loại 1
(Xác suất = α)
Kết luận đúng
(Xác suất = 1-β =

Power của nghiên cứu)
Không bác bỏ giả thuyết H
0
Kết luận đúng
(Xác suất = 1-α)
Sai lầm loại II
(Xác suất = β)
Chọn lựa kiểm định phù hợp

Như vậy nguyên lí của kiểm định ý nghĩa (hay kiểm định giả thuyết là như nhau). Các
kiểm định chỉ khác nhau việc lựa chọn thống kê xuất phát từ giả thuyết H
0.
Việc lựa chọn
này phụ thuộc vào biến số của vấn đề quan tâm và thiết kế của nghiên cứu.
Bảng 10. Chọn lựa kiểm định phù hợp theo thiết kế nghiên cứu
Loại thiết kế nghiên cứu


Thang đo của biến số
phụ thuộc
Hai nhóm
điều trị
gồm các cá
nhân khác
nhau
Ba (hay
nhiêù)
nhóm điều
trị gồm các
cá nhân

khác nhau
Trước và
sau một
điều trị
(hoặc 2
điều trị) ở
trên cùng
các đối
tượng
Nhiều điều
trị trên cùng
các đối
tượng
Liên hệ
giữa hai
biến số
Ðịnh lượng (mẫu rút từ
một dân số có phân phối
bình thường và phương
sai hai nhóm đồng nhất
t-test không
bắt cặp
Phân tích
phương sai
t-test bắt
cặp
Phân tích
phương sai
đo lường
lập lại

Hồi quy
tuyến tính
và tương
quan
pearson
Ðịnh tính - Danh định
χ
2
bảng 2 x
n
χ
2
bảng 3 x
n
test
McNemar
Cochrance
Q
Hệ số của
bảng n x m
(phi, OR,
RR)
Ðịnh tính -Thứ tự
(hay biến định lượng
không bình thường)
Kiểm định
tổng sắp
hạng
Mann-
Whitney

Kruskal-
Wallis
Kiểm định
sắp hạng có
dấu
Wilcoxon
Friedman hệ số tương
quan
Spearman

Bảng 11. Chọn lựa kiểm định phù hợp để tìm sự liên hệ giữa biến độc lập và biến
phụ thuộc
Biến độc lập Biến phụ thuộc
Nhị giá Danh định (hoặc thứ
tự)
Định lượng, đa
biến (hoặc thứ tự)
Định lượng phân phối bình
thường
T-test ANOVA Hồi quy tuyến tính
Biến định lượng phân phối
không bình thường – Biến thứ tự
Mann-Whitney Kruskal-Wallis TQ Spearman
Nhị giá Chi bình phương Chi bình phương Hồi quy logistic
Sống còn Wilcoxon tổng quát
Logrank
Wilcoxon tổng quát
Logrank
Hồi quy Cox


Phép kiểm t bắt cặp
Tiên lượng của bệnh nhân suy hô hấp mãn tính tăng carbonic thường kém (tỉ lệ tử vong
trong 3 năm thay đổi từ 30% đến 100%) và hiện tại chưa có phương pháp điều trị hữu
hiệu. Tilapur và Mir (Am J Med 1984; 77:987) cho rằng chế độ ăn giảm carbonhydrate
có thể cải thiện tình trạng hô hấp. Các nhà nghiên cứu này tiến hành thực nghiệm trên 8
người suy hô hấp mãn tính (có dấu hiệu của tim lớn, gan lớn, phù và tăng áp phổi) với
chế
độ điều trị bằng chế độ ăn 600 Kcal và ghi nhận PaO2 (phân áp oxy động mạch) và
PaCO2 (phân áp carbon dioxide động mạch) trước và sau điều trị. Kết quả nghiên cứu
được trình bày trong Bảng 1. Hãy so sánh trung bình của phân áp oxy động mạch trước
và sau khi điều trị.

Bảng 1. Phân áp Oxy động mạch và phân áp CO2 động mạch trên 8 đối tượng
trước và sau chế độ điều trị với chế độ ăn giảm carbonhydrate

Đối tượng Pa0
2
trước Pa0
2
sau Hiệu số PaC0
2
trướcPaC0
2
sau Hiệu số
1 70 82 12 49 45 -4
2 59 66 7 68 54 -14
3 53 65 12 65 60 -5
4 54 62 8 57 60 3
5 44 74 30 76 59 -17
6 58 77 19 62 54 -8

7 64 68 4 49 47 -2
8 43 59 16 53 50 -3

Thực hành:
Bước 1: Xây dựng giả thuyết Ho:
Ho: Phân áp oxy động mạch trước và sau điều trị không thay đổi
Bước 2: Chọn kiểm định phù hợp
Kiểm định phù hơp là kiểm định t bắt cặp với 7 độ tự do
Bước 3: Tính thống kê t
Tính trung bình và độ lệch chuẩn của biến số d (hiệu số của phân áp oxy động mạch
trước và sau điều trị) để tính thống kê t
66,4
/
;2,8;5,13 ====
ns
d
tsd
d

Bước 4: tính xác suất của giá trị thống kê t
Để tính xác suất của giá trị thống kê t ta sử dụng hàm tdist(giá trị t, độ tự do, 2). Cụ thể
để tính p tương ứng với giá trị t = 4.63 ở 7 độ tự do chúng ta đánh công thức "=tdist(4.63,
7, 2) vào một ô. Kết quả ta được giá trị p= 0.002397687.
Bước 5: Kết luận
Vì giá trị p= 0.002397687 nhỏ hơn 0.05 nên chúng ta bác bỏ giả thuyết Ho nghĩa là phân
áp oxy động mạch có cải thiện sau khi điều trị.
Phép kiểm t (không bắt cặp)
Nhằm tìm hiểu vai trò của catecholamine trong tăng huyết áp vô căn, de Champlain (Circ
Res 1976; 38:109) nghiên cứu 22 bênh nhân tăng huyết áp vô căn (gồm 13 người có nồng
độ catecholamine cao và 9 bình thường), ghi nhận nhịp tim, huyết áp tâm thu, huyết áp

tâm trương. Kết quả của nghiên cứu được trình bày trong bảng 2. Hãy so sánh nhịp tim ở
hai nhóm, nhóm có tăng catecholamine và nhóm không tăng catecholamine.
Bảng Error! Bookmark not defined Trung bình và độ lệch chuẩn của Luợng catecholamine
huyết thanh, nhịp tim, huyết áp tâm thu và huyết áp tâm trung ở 13 bệnh nhân tăng huyết
áp tăng catecholamine và 9 bệnh nhân tăng huyết áp không tăng catecholamine
Tăng catecholamine Không tăng
Số bệnh nhân 13 9
catecholamine huyết thanh (ug/mL) ⎯x=0.484 s=0.133 ⎯x=0.206 s=0.060
Nhịp tim ⎯x=90.7 s=11.5 ⎯x=77.8 s=13.2
Huyết áp tâm thu ⎯x=171.3 s=13.7 ⎯x=147.4 s=9.9
Huyết áp tâm trương ⎯x=103.0 s=8.3 ⎯x=95.6 s=12.9

Thực hành:
Bước 1: Xây dựng giả thuyết Ho:
Ho: Trung bình nhịp tim ở nhóm bệnh nhân có tăng catecholamine = nhịp tim trung bình
ở nhóm bệnh nhân không tăng catecholamine
Bước 2: Chọn kiểm định phù hợp
Kiểm định phù hơp là kiểm định t với (n
1
+n
2
-2) = 20 độ tự do
Bước 3: Tính thống kê t
Trước tiên chúng ta phải tính độ lệch chuẩn gộp
21.12
)1()1(
)1()1(
21
2
22

2
11
=
−+−
−+−
=
nn
snsn
s
p

(Để dễ nhớ công thức tính độ lệch chuẩn gộp chúng ta cần lưu ý phương sai gộp là trung
bình của phương sai của mỗi nhóm với trọng số là độ tự do của phương sai đó)
Sau đó chúng ta tính thống kê t
44.2
/1/1
)(
21
21
=
+

=
nns
xx
t

Bước 4: tính xác suất của giá trị thống kê t
Sử dụng máy vi tính chúng ta tính được giá trị p= 0,024123071 (nếu sử dụng bảng số
thống kê chúng ta sẽ tìm được p <0,05)

Bước 5: Kết luận
Vì giá trị p= 0,024123071 nhỏ hơn 0,05 nên chúng ta bác bỏ giả thuyết Ho nghĩa là giữa
hai nhóm bệnh nhân có sự khá biệt về nhịp tim trung bình.
Phân tích phương sai
Anionwo et al. (1981, BMJ; 282:283) muốn tìm hiểu xem mức hemoglobin trong 3 nhóm
bệnh hồng càu liềm có khác nhau hay không bằng cách ghi nhận mức hemoglobin ở 3
nhóm bệnh nhân.
Bảng 7. Phân tích phương sai một chiều: sự khác biệt trong nồng độ hemoglobin giữa các
bệnh nhân bị các loại bệnh hồng cầu liềm khác nhau. Số liệu từ Anionwo et al. (1981)
British Medical Journal, 282, 283-6
(a) Số liệu
Loại bệnh hồng cầu
liềm
Số bệnh
nhân
(n
i
)
Trung bình

(⎯x
i
)
s.d.

(s
i
)
Giá trị của các cá thể
hemoglobin g%

(x)
Hb SS 16 8,712 0,844 7,2; 7,7; 8,0; 8,1; 8,3; 8,4;
8,4; 8,5; 8,6; 8,7; 9,1; 9,1;
9,1; 9,8; 10,1; 10,3
Hb S/b-
thalassaemia
10 10,630 1,284 8,1; 9,2; 10,0; 10,4; 10,6;
10,9; 11,1; 11,9; 12,0; 12,1
Hb SC 15 13,300 0,942 10,7; 11,3; 11,5; 11,6; 11,7;
11,8; 12,0; 12,1; 12,3; 12,6;
12,6; 13,3; 13,8; 13,8; 13,9
Hãy sử dụng kiểm định thống kê phù hợp để so sánh nồng độ Hemoglobin trung bình ở 3
nhóm bệnh nhân bị hồng cầu liềm.

Thực hành:
Bước 1: Xây dựng giả thuyết Ho:
Ho: Trung bình Nồng độ hemoglobin ở 3 nhóm bệnh HC liềm bằng nhau
Bước 2: Chọn kiểm định phù hợp
Kiểm định phù hợp là phương pháp phân tích phương sai (ANOVA) với thống kê F với
(số nhóm, số quan sát - số nhóm) = (2,38) độ tự do ; F tới hạn= 3,32
Bước 3: Lập bảng ANOVA và Tính thống kê F
Chúng ta lập thành bảng phân tích phương sai như sau:
Nguồn biến thiên SS d.f. MS=SS/d.f. MS giữa các nhóm
F=
MS bên trong nhóm
Giữa các nhóm 99,92 2 49,96 50.03 , P<0,001
Trong các nhóm 37,95 38 1,00
Tổng cộng 137,85 40

Các giá trị ở trên có thể tính theo công thức sau:

Giữa các nhóm

SS
b
= Σ n
i
×(x
i
-⎯x)
2
= Σ n
i
x
i
2
-(Σx)
2
/N
= 16 × 8,7125
2
+10 × 10,6300
2
+15 × 12,300
2

- 430,2
2
/41=99,92
df
b

= k-1 = 2
MS
b
= SS/d.f.
Trong các nhóm
SS
w
= Σ (n
i
-1)s
i
2
=15 x 0,84452 + 9 x 1,28412 + 14 x 0,9419 = 37,96
df
w
= N - k = 41-3 = 38
MS
w
= SS/d.f.
Và giá trị thống kê F

F = MS
b
/MS
w

Bước 4: tính xác suất của giá trị thống kê F
Dựa vào máy tính chúng ta tính được giá trị p= 2.26 x 10
-11
. Chúng ta cũng có thể dựa

vào bảng thống kê F để tìm được p <0,001
Bước 5: Kết luận
Vì giá trị rất nhỏ nên chúng ta bác bỏ giả thuyết Ho nghĩa là ba nhóm bệnh nhân bệnh
hồng cầu liềm có giá trị hemoglobin trung bình khác nhau có ý nghĩa thống kê.
Phép kiểm chi bình phương
Có 240 người được tiêm vaccine phòng bệnh cúm và 220 người được tiêm placebo.
Trong nhóm tiêm vaccine có 20 người bị cúm và trong nhóm tiêm placebo có 80 người bị
cúm. Hãy so sánh tỉ lệ mắc cúm giữa 2 nhóm: nhóm tiêm vaccine và nhóm tiêm placebo?
Hãy cho biết mức độ liên hệ giữa vaccine cúm và bệnh cúm?
Thực hành
Bước 1: Xây dựng giả thuyết Ho:
Ho: Tỉ lệ mắc cúm ở nhóm tiêm vaccine = tỉ lệ mắc cúm ở nhóm không tiêm vaccine
Bước 2: Chọn kiểm định phù hợp
Kiểm định phù hợp là kiểm định chi bình phương với 1 độ tự do
Bước 3: Lập bảng 2 x 2 và Tính thống kê chi bình phương
Lập bảng 2 x 2 như sau
Kết quả Mắc bệnh cúm Không mắc Tổng
Có 20 a
(8,3%)
220 b


240 a+b
Placebo 80 c
(36,4%)
140 d 220 c+d
Tiêm chủng
Tổng 100 a+c 360 b+d 460 N

Để tính thống kê chi bình phương có hai cách:

Phương pháp chính thức:

- Tính các giá trị kì vọng (E) ở các ô, giá trị kì vọng của một ô bằng tích các ô
biên chia cho tổng số chung (thí dụ giá trị kì vọng của ô a E
a
= (a+b) × (a+c) /N, giá trị kì
vọng của ô c E
c
= (a+b) × (c+d) /N)
- Tính giá trị chi bình phương theo công thức
1)-coät (soá 1)- haøngsoá ×=

Σ= ( ,
)(
2
2
fd
E
EO
χ

Trong thí dụ này
09,5302,652,569,2186,19
2,172
)2,172140(
8,187
)8,187220(
8,47
)8,4780(
2,52

)2,5220(
2222
2
=+++=

+

+

+

=
χ

Công thức tính tắt cho bảng 2 × 2
))()()((
)(
2
2
dbdccaba
Nbcad
++++

=
χ

Bước 4: tính xác suất của giá trị thống kê χ
2

Sử dụng máy vi tính chúng ta được giá trị p= 3,31 x 10

-13
nghĩa là giá trị của p rất nhỏ. Sử
dụng bảng số chúng ta biết được p < 0,001.
Bước 5: Kết luận
Vì giá trị rất nhỏ nên chúng ta bác bỏ giả thuyết Ho. Chúng ta có thể kết luận tỉ lệ mắc
cúm ở nhóm tiêm vaccine thấp hơn có ý nghĩa thống kê so với nhóm tiêm placebo.
Sự tương quan của hai biến số định tính
Mức độ liên hệ giữa tiêm chủng vaccine và mắc bệnh cúm
Mức độ liên hệ giữa hai biến số định tính được ước lượng bằng cách sử dụng RR (hoặc
OR nếu trong nghiên cứu bệnh chứng). Giả sử số liệu của bảng 2 x2 nằm ở vùng C2:D3
chúng ta có thể tính RR bằng cách nhập công thức "=MHRR(C2:D3)" ta được RR=0,23
với khoảng tin cậy 95% của RR từ 0,15 đến 0,36
So sánh tỉ lệ của biến số nhị giá : Kiểm định chi-bình phương
Khi hai biến số là biến số nhị giá người ta sử dụng giá trị RR hay OR để đo lường mức độ
liên hệ (xem lại phần các số đo dịch tễ).
Kết quả Mắc bệnh Không mắc
bệnh
Tổng
Phơi nhiễm
a
1
b
1
N
1
Không phơi
nhiễm
a
o
b

0
N
0
Biến số phơi
nhiễm
Tổng
a
1+
a
0
b
1+
b
0
N=N
1
+N
0

Tỉ số nguy cơ (RR) là tỉ số của nguy cơ của nhóm phơi nhiễm trên nguy cơ của nhóm
không phơi nhiễm:
RR = (a
1
/N
1
)/(a
0
/N
0
)

Khoảng tin cậy 95% của tỉ số nguy cơ:
0011
1111
96,1
NaNa
eRR
−+−×
÷×
hay
2
96,1
1
χ
±
R
R
(test-based CI)

Tỉ số số chênh (OR) là tỉ số của số chênh mắc bệnh của nhóm phơi nhiễm trên số chênh
mắc bệnh ở nhóm không phơi nhiễm. Trong trường hợp nghiên cứu bệnh chứng tỉ số số
chênh là tỉ số của số chênh phơi nhiễm của nhóm bệnh trên số chênh phơi nhiễm ở nhóm
không chứng.
RR = (a
1
/b
1
)/(a
0
/b
0

)

×