Tải bản đầy đủ (.pdf) (324 trang)

Thống kê với phần mềm STATA ứng dụng trong nghiên cứu khoa học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (8.99 MB, 324 trang )
























ÐẠI HỌC Y DƯỢC TP HỒ CHÍ MINH
KHOA Y TẾ CÔNG CỘNG


THÀNH PHỒ HỒ CHÍ MINH
Tháng 03-2012
THỐNG KÊ VỚI PHẦN MỀM STATA
ỨNG DỤNG TRONG NGHIÊN CỨU


KHOA HỌC
TS Ðỗ Văn Dũng

WEBSITE:
Email:


Bộ môn Dân số - Thống Kê Y học và Tin học
Khoa Y tế Công cộng



ii

MỤC LỤC
Biến số 1
Mục tiêu 1
Biến số 1
Biến số định tính và biến số định lượng 2
Đo lường biến số 3
Ðịnh nghĩa cụ thể 3
Phân loại biến số theo quan hệ giữa các biến số 3
Kiểm soát yếu tố gây nhiễu 4
Biến số nền (background variables) 4
Bài tập: 5
Ðại cương về thống kê và thống kê mô tả 7
Giới thiệu về thống kê 7
Số liệu 7
Phương pháp mô tả tóm tắt và trình bày số liệu 7
Các số thống kê mô tả cho biến số định lượng 8

Thống kê khuynh hướng tập trung 8
Thống kê mô tả tính phân tán: 10
Biểu đồ và đồ thị 11
Biểu đồ và đồ thị cho biến định lượng: Tổ chức đồ, đa giác tần suất, biểu đồ hình hộp.12
Biểu đồ cho biến số định tính: Biểu đồ bánh và biểu đồ hình thanh 14
Trình bày số liệu và thống kê với bảng 17
Trình bày số liệu với bảng 17
Phân phối tần suất của biến số định tính 17
Phân phối tần suất của biến số định lượng 17
Trình bày thống kê với bảng 19
Ðại cương về phân tích số liệu 21
Phép ước lượng 21
Dân số và mẫu 21
Ước lượng khoảng tin cậy của trung bình 21
Ước lượng khoảng tin cậy của tỉ lệ 22
Suy luận thống kê 23
Kiểm định ý nghĩa 23
Kiểm định giả thuyết 24
Các bước kiểm định 25
Chọn lựa kiểm định phù hợp 26
Một số phép kiểm thống kê thường sử dụng 28
Phép kiểm z hai nhóm khi biết phương sai dân số của 2 mẫu 28
Sử dụng khi nào: 28
Giả định 28
Công thức thống kê: 28
Khoảng tin cậy của hiệu số trung bình 28
Ghi chú 28
Phép kiểm t hai nhóm phương sai không bằng nhau 28
Sử dụng khi nào: 28
Giả định 28




3

Công thức thống kê: 29
Khoảng tin cậy của hiệu số trung bình 29
Phép kiểm t hai nhóm phương sai bằng nhau 29
Sử dụng khi nào: 29
Giả định 29
Công thức thống kê: 29
Khoảng tin cậy của hiệu số trung bình 30
Phép kiểm t so sánh trung bình số liệu bắt cặp (phép kiểm t bắt cặp) 30
Sử dụng khi nào: 30
Giả định 30
Công thức thống kê: 30
Khoảng tin cậy của trung bình hiệu số 30
Phép kiểm t một mẫu 31
Sử dụng khi nào: 31
Giả định 31
Công thức thống kê: 31
Khoảng tin cậy của sự khác biệt giữa trung bình của biến x và tham số 31
Phép kiểm ANOVA một chiều so sánh trung bình các nhóm có phương sai bằng nhau 31
Sử dụng khi nào: 31
Giả định 31
Công thức thống kê: 31
Khoảng tin cậy của hiệu số trung bình 32
Phép kiểm chi bình phương so sánh tỉ lệ 2 nhóm 32
Sử dụng khi nào: 32
Giả định 32

Công thức thống kê: 32
Khoảng tin cậy của nguy cơ tương đối 33
Khoảng tin cậy của tỉ số số chênh 33
Phép kiểm chi bình phương so sánh tỉ lệ nhiều nhóm 33
Sử dụng khi nào: 33
Giả định 33
Công thức thống kê: 33
Phép kiểm phi tham số tổng sắp hạng Wilcoxon 34
Sử dụng khi nào: 34
Giả định 34
Công thức thống kê: 34
Phép kiểm phi tham số Kruskal-Wallis 34
Sử dụng khi nào: 34
Giả định 35
Công thức thống kê: 35
Hệ số tương quan Pearson 35
Sử dụng khi nào: 35
Giả định 35
Công thức thống kê: 35
Ý nghĩa của hệ số tương quan: 35
Phương trình hồi quy tuyến tính 36
Sử dụng khi nào: 36
Giả định 36
Công thức thống kê: 36
Ý nghĩa của hệ số của biến số: 36
Một số thí dụ về phép kiểm thống kê 36



4


Phép kiểm t bắt cặp 36
Phép kiểm t (không bắt cặp) 37
Phân tích phương sai 38
Phép kiểm chi bình phương 40
Sự tương quan của hai biến số định tính 41
So sánh tỉ lệ của biến số nhị giá : Kiểm định chi-bình phương 41
Quan hệ giữa hai biến số định lượng 42
Tương quan 42
Hồi quy 43
Số đo hậu quả và số đo tác động 45
I. Nhắc lại về số đo sự xuất hiện của bệnh: tỉ suất, nguy cơ và số chênh 45
II. Số đo sự kết hợp - số đo hậu quả 45
III. Số đo tỉ số 45
IV. Số đo hiệu số 47
V. Biện luận thêm về tỉ số nguy cơ và hiệu số nguy cơ 48
VI. Số đo tác động 49
VII. Bàn luận thêm về phân số nguy cơ quy trách dân số 51
Chiến lược phân tích số liệu 52
Giới thiệu 52
1. Phân loại biến số 52
2. Biên tập số liệu 52
3. Rút gọn số liệu 53
4. Mô tả số liệu 53
5. Đo lường tác động 53
6. Phân tích đơn biến 54
8. Kiểm soát các yếu tố gây nhiễu 54
9. Cách đưa vào biến số gây nhiễu 55
10. Phân tích tương tác 56
11. Nghiên cứu bệnh chứng bắt cặp 56

12. Những trở ngại trong phân tích và lí giải số liệu 57
Cài đặt chương trình Stata 10.0, số liệu mẫu và các chương trình có liên quan 58
1. Cài đặt chương trình Stata và số liệu mẫu 58
2. Cài đặt tập tin số liệu mẫu 61
3. Cài đặt chương trình chuyển đổi số liệu 63
Khởi động và kết thúc Stata 66
1. Khởi động Stata 66
2. Kiểm tra tính hợp lệ của Stata 67
3. Thoát khỏi Stata 67
4. Các loại hình của Stata 68
5. Stata nhỏ, Intercooled Stata và Stata bản đặc biệt (Stata SE) 68
Mô tả ngắn gọn về Stata 70
Lệnh more 72
1. Mô tả 72
Thông báo lỗi và mã phản hồi 73
1. Lỗi 73
2. Bỏ qua lỗi lầm trong lập trình 73
3. Mã trả về để biết thời gian tính toán 73



5

Thí dụ nếu bạn gõ sum mpg, bạn sẽ thấy 73
Phím break 75
1. Làm Stata ngưng thực hiện việc đang làm 75
2. Điểm cần lưu ý trong lập trình 75
Sử dụng bàn phím trong Stata 76
1. Bàn phím 76
2. Phím chức năng 76

3. Phím hiệu chỉnh 77
Khởi động Stata 78
1. Khởi động Stata 78
2. Mô tả giao diện của chương trình Stata 78
3. Cách cách để thực hiện lệnh trong chương trình Stata 79
4. Lưu lại kết quả phân tích 80
Một vài phân tích đơn giản với Stata với gõ lệnh 82
Giới thiệu về Stata 82
1. Khởi động Stata 82
2. Các cửa sổ của phần mềm Stata 83
1. Cửa sổ Variables (cửa sổ Biến số) 83
2. Cửa sổ Command (cửa sổ lệnh) 83
3. Cửa sổ Result (cửa sổ Kết quả) 83
4. Cửa sổ Review (cửa sổ Xem lại) 84
3. Biểu thức đại số: 84
4. Biểu thức luận lí 84
Nhập liệu và thực hiện thống kê mô tả đơn giản với Stata 84
1. Giới thiệu một bộ số liệu mẫu 84
2. Nhập liệu với lệnh edit 85
3. Log để ghi kết quả phân tích 95
4. Thống kê mô tả cho biến định tính với lệnh tab1 96
5. Thống kê mô tả cho biến định lượng với lệnh sum 97
6. Thống kê phân tầng theo nhóm 97
7. Tạo biến số mới 98
8. Hiển thị lại kết quả phân tích 98
9. Trọng số 98
Mô tả số liệu với Stata sử dụng menu 100
Phân tích số liệu cho một thử nghiệm lâm sàng 134
Thống kê phân tích biến số định lượng với Stata 154
Phân tích phương sai hai chiều 175

Tài liệu tham khảo 183
Thống kê phân tích biến số định tính: nghiên cứu bệnh chứng 184
Mục tiêu: 184
Bài tập thống kê (Chilumba) 184
Câu 9. Làm thế nào để khử đồng thời 2 biến số gây nhiễu agegrp và school 198
Thống kê phân tích biến số định tính: nghiên cứu bệnh chứng 203
Mục tiêu: 203
Bài tập thống kê mwanza 203
Hướng dẫn: Cách sử dụng lệnh mhodds trong trường hợp này là 209



6

Thống kê phân tích biến số định tính: nghiên cứu đoàn hệ 212
Mục tiêu: 212
Bài tập thống kê wh1 212
Ta có thể tính được


2.120
91.145
)93.384484(
2
2








i
ii
MH
Var
EA

218
Thực hiện 220
Hồi quy logistic 223
Đại cương về hồi quy logistic 223
Nguy cơ r có miền giá trị từ 0 đến 1 223
Bài tập phân tích số liệu chilumba sử dụng hồi quy logistic 224
Hồi quy logistic trong đánh giá chẩn đoán test 240
Nhắc lại về các số đo tính giá trị chẩn đoán 240
Xét nghiệm định lượng để chẩn đoán bệnh 240
Một thí dụ ứng dụng phương pháp hồi quy logistic trong xác định giá trị của xét nghiệm 241
Phân tích sống còn Kaplan-Meier 248
Những nghiên cứu cần sử dụng phân tích sống còn 248
Các biến số trong phân tích sống còn 248
Cá nhân 248
Thực hành 249
Tài liệu tham khảo 257
EpiData 259
Giới thiệu 259
Giao diện của chương trình Epi Data 259
Các loại tập tin của EpiData 260
Các tùy chọn của EpiData 260
Làm việc với EpiData 262

Bài tập 262
Bài tập 2 267
Những điểm cần chú ý trong bài tập: 267
Các công cụ khác 268
Phân tích 268
Các phím tắt sử dụng trong EpiData 269
Biên soạn bộ câu hỏi 269
Bổ sung check 269
Nhập liệu 270
Phụ lục 271
Bình luận 271
Tai tiếng của những nghiên cứu y khoa kém 271
Bài báo 274
Misoprostol uống trong dự phòng băng huyết sau sanh ở những cộng đồng dân cư nghèo: một
thử nghiệm lâm sàng ngẫu nhiên 274
Bài báo 285
Tăng trưởng trước sinh, tình trạng hôn nhân sau này và tử vong: một nghiên cứu dọc. 285
Phương pháp và kết quả 285
Bàn luận 286



7

Cảm tạ 286
Chú thích 286
Tài liệu tham khảo 286
Bài báo 288
Tăng trưởng trước sinh và nguy cơ bị đột quỵ do tắc nghẽn và xuất huyết ở đàn ông và đàn bà
Thuỵ điển sinh 1915-29: nghiên cứu đoàn hệ lịch sử 288

Đối tượng, phương pháp và kết quả 288
Bình luận 289
Cảm tạ 290
Chú thích 290
Tài liệu tham khảo 290
Bài báo 291
Bú sữa mẹ và béo phì: Một nghiên cứu cắt ngang 291
Tóm tắt 291
Mở đầu 292
Đối tượng và phương pháp 292
Kết quả 293
Bàn luận 296
Tài liệu tham khảo 297
Bài báo 299
Chương trình tiêm chủng đẩy mạnh Anh quốc và đột tử bất ngờ ở trẻ nhũ nhi: một nghiên cứu
bệnh chứng 299
Tóm tắt 299
Giới thiệu 299
Phương pháp 300
Kết quả 301
Bàn luận 304
Ý nghĩa 304
Cảm tạ 304
Ghi chú 305
Tài liệu tham khảo 305
Hiệu lực vaccine sởi ở trẻ em TP Hồ Chí Minh 307
Tóm tắt 307
Abstract 307
Mở đầu 307
Đối tượng và phương pháp nghiên cứu 308

Cách chọn mẫu và cỡ mẫu 308
Các biến số nghiên cứu 308
Xử lý số liệu 309
Kết quả 309
Mô tả dân số nghiên cứu 309
Hiệu lực vaccine 311
Phân tích nhạy cảm hiệu lực vaccine 312



8

So sánh hiệu lực vaccine sởi ở 2 nhóm tuổi dưới 5 và từ 5 đến 15 312
Bàn luận 313
Kiến nghị 314
Tài liệu tham khảo 314
Các lệnh stata cần nhớ 315
1. Thao tác số liệu 315
2. Thống kê mô tả 315
3. Thống kê phân tích 315



1
Biến số
Mục tiêu
1. Xác định biến số là gì và tại sao việc chọn lựa biến số là quan trọng
2. Phân biệt được biến số định tính (categorical) và biến số định lượng (numerical)
3. Phân biệt được sự khác biệt giữa biến số độc lập, biến số phụ thuộc, biến gây nhiễu và chúng
được sử dụng trong nghiên cứu như thế nào

4. Xác định được các biến số được đo lường trong dự án nghiên cứu đang được thiết kế và cho
biết:
- Biến số nào có thể đo lường trực tiếp
- Biến số nào không thể đo lường trực tiệp và phải sử dụng định nghĩa cụ thể(operation
definition)
- Biến số nào không thể đo lường được vào thời điểm hiện tại.
Biến số
Khi quan tâm đến một cá nhân, chúng ta quan tâm đến những đặc tính và đại lượng của cá nhân
đó. Biến số chính là những đại lượng hay những đặc tính của cá nhân có thể thay đổi từ người
này sang người khác hay từ thời điểm này sang thời điểm khác.
Tuy theo đại lượng hay đặc tính được quan tâm chúng ta có biến số định lượng hay định tính.
- Nếu biến số thể hiện một đại lượng nó được gọi là biến số định lượng (quantitative variable).
Biến số định lượng nhằm thể hiện một đại lượng và do đó có giá trị là những con số. Biến số
định lượng luôn luôn phải gắn liền với đơn vị đo lường cụ thể
Thí dụ: tuổi là biến số định lượng bởi vì ta có thể nói người này 20 tuổi, người kia 32 tuổi, v.v.
Những thí dụ khác là đường huyết, hemoglobin, hematocrite, chiều cao, cân nặng, thu nhập, v.v
Thang đo của biến định lượng được cho là có giá trị zero tuyệt đối nếu thang đo đó có
chứa giá trị âm. Thí dụ thang đo của khối lượng là thang đo có giá trị zero tuyệt đối vì không có
trường hợp nào khối lượng có giá trị. Thang đo của nhiệt độ C không có giá trị zero tuyệt đối vì
thang đo nhiệt độ có thể có giá trị -10
o
C; -100
o
C. Tùy theo thang đo của biến số định lượng có
giá trị zero tuyệt đối hay không biến số định lượng được chia làm 2 loại:
- Biến số tỉ số (ratio variable) khi thang đo của biến số có giá trị zero tuyệt đối.
Với biến số tỉ số có thể so sánh các giá trị bằng phép chia. Thí dụ có thể kết luận trọng
lượng 80 kg lớn gấp hai lần trọng lượng 40 kg.
- biến số khoảng (interval variable) không có giá trị không tuyệt đối. Khi không
có giá trị không tuyệt đối chỉ có thể so sánh các giá trị bằng phép trừ. Thí dụ nhiệt độ

40
o
C cao hơn 30
o
C so với nhiệt độ 10
o
C.
- Nếu biến số nhằm thể hiện một đặc tính, biến số được gọi là biến số định tính. Tùy theo số giá
trị có thể có của biến số định tính, biến số định tính được chia làm 3 loại
- Biến số nhị giá (binary variable) khi biến số chỉ có 2 giá trị
Biến số nhị giá là biến số chỉ có 2 giá trị. Biến số giới tính là biến số nhị giá bởi vì nó chỉ
có 2 giá trị Nam và Nữ. Nếu chúng ta quan tâm đến bệnh nhân có đái tháo đường hay
không thì biến số đái tháo đường cũng là biến số nhị giá.
- Biến số danh định là biến số có 3 hoặc nhiều giá trị các giá trị và các giá trị này không
thể sắp đặt theo một trật tự từ thấp đến cao.
Thí dụ: Biến số dân tộc với các giá trị: Kinh, Khmer, Hoa, Chăm,… là biến số định tính vì chúng ta không
thể sắp xếp các giá trị này từ theo một trật tự từ thấp đến cao hay ngược lại.
Một số thí dụ khác của biến số danh định là tình trạng hôn nhân (có 4 giá trị: độc thân, có gia đình, li dị,
góa) nhóm máu (A, B, AB và O).



2
- Biến số thứ tự (ordinal variable) khi biến số có 3 hay nhiều hơn các giá trị và các bản
thân các giá trị có tính chất thứ tự
Thí dụ: tình trạng kinh tế xã hội (giàu, khá, trung bình, nghèo, rất nghèo) là biến số thứ tự bởi vì người
giàu có điều kiện kinh tế tốt hơn người khá, người khá hơn người trung bình, trung bình hơn nghèo, v.v
Những thí dụ khác là học lực của học sinh (giỏi, khá, trung bình, kém), tiên lượng (tốt, khá, xấu, tử vong).
Theo phân loại tăng huyết áp của Tổ chức Y tế Thế giới được trình bày như sau, thì phân loại huyết áp với
các giá trị huyết áp bình thường, huyết áp cao nhẹ, vừa và nặng là biến số thứ tự.

Huyết áp bình thường: HA tâm thu ≤ 139 và HA tâm trương ≤ 89
Tăng huyết áp nhẹ: HA không bình thường và HA tâm thu ≤ 179 hay HA tâm trương ≤ 104
Tăng huyết áp vừa: HA không bình thường và HA tâm thu ≤ 180 hay HA tâm trương ≤114
Tăng huyết áp nặng: HA tâm thu ≥180 và HA tâm trương ≥ 115 mmHg
-
Ngoài ra trong nghiên cứu khoa học có khi người ta sử dụng một phân loại biến số đặc biệt gọi
là biến số sống còn (survival variable) khi nghiên cứu quan tâm đến kết cuộc là biến cố (event)
có xảy ra hay không và thời điểm xảy ra biến cố (hoặc thời điểm không xảy ra biến cố trễ nhất
quan sát được). Loại biến số này thường được sử dụng trong nghiên cứu ung thư. Khi điều trị
bệnh nhân ung thư người ta không chỉ quan tâm đến bệnh nhân có tử vong hay không mà còn
quan tâm đến thời điểm tử vong (hay thời gian còn sống còn) của bệnh nhân. Biến số sống còn
cũng được sử dụng trong các lãnh vực khác ngoài ung thư. Thí dụ nếu một nhà nghiên cứu quan
tâm đến việc sau khi bệnh nhân được phẫu thuật vòi trứng, kết cuộc cần quan tâm là bệnh nhân
có thể có thai tự nhiên hay không và nếu có thì việc thụ thai tự nhiên xảy ra bao lâu sau phẫu
thuật. Bởi vì biến số sống còn quan tâm đến biến cố (event) có xảy ra hay không và thời điểm
xảy ra biến cố nên về bản chất biến số sống còn bao gồm biến nhị giá (cho biết biến cố có xảy
ra hay không) và biến định lượng thời gian (cho biết biến cố xảy ra vào thời điểm nào)
Biến số định tính và biến số định lượng
Như vậy biến số có thể thể hiện đại lượng hay đặc tính. Nếu nó thể hiện một đại lượng nó được
gọi là biến số định lượng. Nếu nó nhằm thể hiện một đặc tính nó được gọi là biến số định tính.
Biến số định tính còn được chia làm 3 loại: biến số nhị giá, biến số danh định và biến số thứ tự.

Biến số nhị giá là biến số chỉ có 2 giá trị. Biến số giới tính là biến số nhị giá bởi vì nó chỉ có 2
giá trị Nam và Nữ. Nếu chúng ta quan tâm đến bệnh nhân có đái tháo đường hay không thì biến
số đái tháo đường cũng là biến số nhị giá.
Biến số danh định là biến số có nhiều giá trị của nó không thể biểu thị bằng số mà phải biểu diễn
bằng một tên gọi (danh: tên) và các giá trị này không thể sắp đặt theo một trật tự từ thấp đến cao.
Thí dụ: Biến số dân tộc với các giá trị: Kinh, Khmer, Hoa, Chăm,… là biến số định tính vì chúng ta không
thể sắp xếp các giá trị này từ theo một trật tự từ thấp đến cao hay ngược lại.
Một số thí dụ khác của biến số danh định là tình trạng hôn nhân (có 4 giá trị: độc thân, có gia đình, li dị,

góa) nhóm máu (A, B, AB và O).
Biến số thứ tự là biến số danh định nhưng có thể sắp xếp thứ tự được.
Trong phân tích thống kê, để tiện việc nhập số liệu hay lí giải kết quả, người ta có thể ánh xạ
(mapping) các giá trị của biến định tính vào các con số. Việc này được gọi là mã hóa và cần hiểu
rằng việc mã hóa này hoàn toàn có tính chất áp đặt và các con số được dùng trong mã hóa không
phản ánh bản chất của biến số danh định.
Giới tính là biến số nhị giá và có hai giá trị là nam và nữ. Chúng ta có thể mã hóa giới tính và quy ước
Nam là 1 và Nữ là 2. Tuy nhiên việc mã hóa này là áp đặt và chúng ta hoàn toàn có thể quy ước Nam là 1
và Nữ là 0. Việc mã hóa chỉ nhằm giúp việc nhập số liệu và xử lí số liệu trở nên dễ dàng hơn chứ không
nhằm phản ánh bản chất của biến số đó.
Cần phân biệt sự khác biệt giữa biến số và giá trị của biến số (còn gọi là yếu tố): Giới tính là
biến số nhưng Nữ không phải là biến số mà là một giá trị của biến số (hay còn gọi là yếu tố).



3
Thời gian chờ đợi để được sử dụng dịch vụ y tế là biến số nhưng thời gian chờ đợi lâu là giá trị
của biến số. Kiến thức về các cây con thuốc là biến số nhưng ít hiểu biết về các cây con thuốc là
yếu tố. Ta có thể nói biến số mức độ hút thuốc lá có liên quan đến nguy cơ ung thư phổi nhưng
phải nói hút thuốc lá nặng là yếu tố nguy cơ của ung thư phổi.
Đo lường biến số
Biến số (đại lượng hay đặc tính được quan tâm) được chia làm 3 loại:
- Biến số có thể đo lường trực tiếp - chiều cao, cân nặng, tuổi, tình trạng hôn nhân.v.v
- Biến số không thể đo lường trực tiếp được như tình trạng dinh dưỡng, mức độ đắc khí, mức độ
hài lòng của bệnh nhân, kiến thức của bà mẹ về thực hành chăm sóc trẻ.
- Biến số không đo lường được trong nghiên cứu hiện tại. Trên nguyên tắc, mọi biến số đều có
thể đo lường được nhưng trong một nghiên cứu cụ thể có thể có một số biến số không đo lường
được do hạn chế của điều kiện kĩ thuật hay không thống nhất về định nghĩa cụ thể (thí dụ nồng
độ endorphine gia tăng sau khi châm cứu, mức độ hữu dụng của những bệnh nhân bị tàn tật, chất
lượng dân số)

Ðịnh nghĩa cụ thể
Thông thường, nhà nghiên cứu bắt đầu với một quan điểm tương đối mơ hồ về cách đo lường
các biến số nghiên cứu. Thí dụ, nếu nhà nghiên cứu muốn đo lường mức độ đau thì nhà nghiên
cứu phải chuyển đổi khái niệm đau thành một mệnh đề chặt chẽ xác định cách đo lường biến số
này. Phụ thuộc vào cách lí giải trừu tượng của khái niệm đau và yêu cầu cụ thể của nghiên cứu,
chúng ta có thể chọn lựa một phương pháp đo lương mức độ đau đớn.
Ðịnh nghĩa cụ thể của biến số là một mệnh đề về cách người nghiên cứu của một nghiên cứu nào
đó chọn cách đo lường biến số đó. Nó phải không được mơ hồ và chỉ có một cách lí giải duy
nhất. Thí dụ, một nhà nghiên cứu cho rằng việc điều trị của bà ta có thể giúp cải thiện việc "kiểm
soát vận động", câu hỏi chúng ta cần đặt ra ngay là "kiểm soát vận động" có ý nghĩa như thế
nào. Nhà nghiên cứu có thể trả lời là bà ta quan tâm đến việc kiểm soát vận động được đo lường
bởi Plunkett Motor Dexterity Task Score. Một nhà nghiên cứu khác có thể không chấp nhận
định nghĩa này và cho rằng việc kiểm soát vận động nên được tự đánh giá bởi bệnh nhân. Cả hai
định nghĩa này được gọi là định nghĩa cụ thể.
Một định nghĩa cụ thể tốt là định nghĩa cung cấp đủ thông tin để cho phép một nhà nghiên cứu
khác có thể lập lại kĩ thuật đo lường, nếu người đó muốn. Trong mô tả nghiên cứu nhà nghiên
cứu nên bao gồm trong định nghĩa cụ thể những công cụ đo lường và quy trình nghiên cứu để
người đọc có thể rõ ràng về những việc đã làm.
Phân loại biến số theo quan hệ giữa các biến số
Khi chúng ta quan tâm đến việc lí giải nguyên nhân của sự việc chúng ta chia biến số thành biến
số độc lập và biến số phụ thuộc.
Biến số dùng để mô tả hay đo lường vấn đề nghiên cứu được gọi là biến số phụ thuộc.
Biến số dùng để mô tả hay đo lường các yếu tố được cho là gây nên (hay gây ảnh hưởng đến)
vấn đề nghiên cứu được gọi là biến số độc lập
Việc xác định biến số nào là biến số độc lập hay biến số phụ thuộc được xác định trong phần đặt
vấn đề và mục tiêu của nghiên cứu. Do đó trong khi thiết kế nghiên cứu cần phải xác định rõ
ràng biến số nào là độc lập và biến số nào là phụ thuộc.
Thí dụ nếu nghiên cứu mối quan hệ giữa ung thư phổi và hút thuốc lá thì hút thuốc lá là biến số
độc lập và ung thư phổi là biến số phụ thuộc
Nếu nhà nghiên cứu muốn tìm hiểu tại sao thanh niên hút thuốc thì hút thuốc là biến số phụ

thuộc và "áp lực của bạn bè" là biến số độc lập.



4
Biến số gây nhiễu (confounding variable) là biến số cung cấp một giải thích khác của mối liên
hệ giữa biến số độc lập và biến số phụ thuộc. Một biến số được đánh giá là biến số gây nhiễu khi
có 3 đặc tính sau:
- Có liên quan đến biến số phụ thuộc (là yếu tố nguy cơ của vấn đề nghiên cứu)
- Có liên quan đến biến số độc lập (phân bố không đều giữa các giá trị của biến độc lập)
- Không nằm trong cơ chế tác động của biến độc lập lên biến phụ thuộc
Thí dụ:







Có mối liên hệ
giữa số lần khám
tiền sản và sanh
con nhẹ hơn 2500 gram. Tuy nhiên thu nhập của gia đình cũng có thể ảnh hưởng đến số lần
khám tiền sản và việc sanh con nhẹ cân. Như vậy thu nhập của gia đình là yếu tố gây nhiễu.
Kiểm soát yếu tố gây nhiễu
Ðể khắc phục yếu tố gây nhiễu người ta có thể sử dụng:
- Phương pháp hạn chế: thí dụ chỉ nghiên cứu những bà mẹ trong gia đình có thu nhập trung
bình, không nghiên cứu những bà mẹ trong gia đình nghèo
- Phương pháp bắt cặp trong chọn mẫu và phân tầng trong phân tích mẫu:
- Phương pháp phần tầng: gồm tiến hành phân tích số liệu riêng biệt cho nhóm bà mẹ nghèo, cho

nhóm bà mẹ trung bình và nhóm bà mẹ giàu rồi tổng hợp kết quả lại. Thực chất phương pháp
phân tầng gồm là sự tổng hợp của nhiều nghiên cứu hạn chế (mỗi nghiên cứu được hạn chế cho
một giá trị của biến số gây nhiễu)
- Phương pháp mô hình hóa sử dụng phương pháp hồi quy đa biến để tách riêng tác động của
từng biến số có liên quan trong mô hình. Khi đó hệ số của các biến số trong mô hình đánh giá
tác động của biến số đó, không bị ảnh hưởng hay gây nhiễu bởi các yếu tố khác (bởi vì trong
hồi quy đa biến, hệ số B
1
của biến số X
1
nêu lên sự thay đổi của biến phụ thuộc Y khi X
1
thay
đổi một đơn vị và các biến số liên quan khác như X
1
, X
2
, … không thay đổi).
- Phương pháp chia nhóm ngẫu nhiên: chỉ sử dụng được cho nghiên cứu thực nghiệm nhưng đây
là phương pháp khử yếu tố gây nhiễu toàn diện nhất và không cần xác định hay đo lường toàn
bộ các yếu tố gây nhiễu.
Biến số nền (background variables)
Trong bất cứ nghiên cứu nào, có những biến số nền tảng thí dụ như tuổi, giới, trình độ giáo dục,
tình trạng kinh tế, tình trạng hôn nhân, tôn giáo, v.v. Những biến số này thường có ảnh hưởng
đến vấn đề nghiên cứu (biến số phụ thuộc) và có tác động như biến số gây nhiễu. Nếu biến số
nền có ảnh hưởng quan trọng đến nghiên cứu cần phải thu thập thông tin về biến số nền. Nhưng
không nên thu thập quá nhiều biến số nền để tránh làm tăng kinh phí nghiên cứu một cách vô
ích.
Số lần khám thai
(Biến số độc lập)

Cân nặng con lúc sinh
(Biến số phụ thuộc)
Thu nhập - Học vấn gia đình
(biến số gây nhiễu)



5
Bài tập:
1. Giả sử chúng ta có khung ý niệm (conceptual framework) về mối liên hệ giữ kém vận động và
bệnh mạch vành như sau:






Trong các yếu tố: Hút thuốc lá, Tăng LDL-cholesterol, Xem ti vi nhiều, yếu tố nào được xem là
yếu tố gây nhiễu?
2. Một nghiên cứu đoàn hệ được tiến hành ở Anh quốc, những người tham gia được ghi nhận
mức độ hoạt động tình dục cao ở đầu nghiên cứu (được đánh giá bằng tần suất có khoái cảm) có
nguy cơ tử vong trong 10 năm thấp hơn những người được ghi nhận có mức độ hoạt động tình
dục thấp.
1
Giả sử điều này là đúng, anh chị có lời khuyên gì về việc hoạt động tình dục để giảm
thiểu nguy cơ tử vong.
Một số nhà khoa học cho rằng kết luận của nghiên cứu có thể là không đúng. Họ giải thích rằng
những người có quan hệ tình dục thường xuyên là những người có sức khoẻ tổng quát tốt hơn,
do đó, có nguy cơ tử vong thấp hơn. Theo các anh chị, những nhà khoa học này cho rằng tình
trạng sức khoẻ tổng quát là yếu tố biến đổi hậu quả hay yếu tố gây nhiễu? Nếu điều này được

chứng minh là đúng thì anh chị sẽ có lời khuyên gì đối với mọi người để giảm thiểu nguy cơ tử
vong.
Các bác sĩ lâm sàng có kinh nghiệm lại đưa ra lời giải thích khác. Họ cho rằng ở những người
khoẻ mạnh, quan hệ tình dục thường xuyên là có lợi cho sức khoẻ và làm giảm nguy cơ tử vong
còn ở người ở tình trạng sức khoẻ tổng quát đã kém việc quan hệ tình dục thường xuyên lại
khiến đối tượng dễ bị tử vong hơn. Theo các anh chị, nếu kinh nghiệm lâm sàng này là đúng thì
tình trạng sức khoẻ tổng quát là yếu tố biến đổi hậu quả hay yếu tố gây nhiễu? Nếu điều này là
đúng thì anh chị sẽ có lời khuyên gì đối với mọi người để giảm thiểu nguy cơ tử vong.
1. Davey Smith G, Frankel S, Yarnell J. Sex and death: are they related? Findings from
the Caerphilly Cohort study. BMJ. 1997; 315: 1641-1644
2. Gần như tất cả các nghiên cứu quan sát cho thấy sự giảm nguy cơ tử vong bệnh tim ở các phụ
nữ sử dụng oestrogen. Một nghiên cứu gộp (meta-analysis) của 25 nghiên cứu đã xuất bản tìm
thấy nguy cơ tương đối chung là 0.70 đối với bệnh mạch tim ở các phụ nữ có sử dụng estrogen
(so với nhóm không dùng oestrogen); trong 7 nghiên cứu khác đánh giá hiệu quả của việc sử
dụng oestrogen và progestogen, nguy cơ ước lượng là 0.66.2
Tuy nhiên, gần đây, Hemminki

and McPherson đã tổng kết 22 nghiên cứu thử nghiệm ngẫu
nhiên của việc sử dụng trị liệu oestrogen và thấy rằng các biến cố tim mạch lại là nguyên nhân
chủ yếu của việc bỏ cuộc hay phản ứng ngoại ý.3 Tỉ số nguy cơ tóm tắt là (1.39) trong nhóm sử
dụng estrogen so với nhóm không sử dụng. Điều này cho thấy estrogen không có tác dụng


lợi, nếu không phải là có hại, lên nguy cơ bệnh tim mạch.
Anh chị tin vào kết quả nghiên cứu của loại nghiên cứu nào hơn? Anh chị cho rằng điều trị
hormone thay thế ở phụ nữ mãn kinh có lợi hay có hại cho sức khỏe tim mạch? Tại sao anh chị
lại tin như vậy?
1. Barrett-Connor E. Hormone Replacement Therapy. BMJ 1998;317:457-461 .
Kém vận động
Tăng LDL-cholesterol

Giảm HDL-cholesterol

Bệnh mạch vành

Hút thuốc lá
Xem ti vi nhiều



6
2. Barrett-Connor E, Grady D. Hormone replacement therapy, heart disease, and other
considerations. Annu Rev Public Health 1998; 19: 55-72.
3. Hemminki E, McPherson K. Impact of postmenopausal hormone therapy on
cardiovascular events and cancer: pooled data from clinical trials. BMJ 1997; 315: 149-
153
4. Writing Group for the PEPI Trial. Effects of estrogen or estrogen/progestin regimens
on heart disease risk factors in postmenopausal women. JAMA 1995; 273: 199-208
3. Một nghiên cứu thực nghiệm trên khỉ chimpanzee cho thấy lượng estrogen giúp khỉ
chimpanzee cái được bảo vệ và có nguy cơ bị sốt rét thấp hơn so với khỉ đực. Một nhà nghiên
cứu quan tâm đến đề tài này và thực hiện một nghiên cứu bệnh chứng để xác định mối liên hệ
giữa giới tính và sốt rét. Nhà nghiên cứu này tìm được 150 trường hợp bệnh (trong đó có 88
nam) và 150 chứng (trong đó có 68 nam). Tỉ số số chênh thô tính được là 1,71.
Nhà nghiên cứu này cũng biết chút ít về dịch tễ và cho rằng những hoạt động nghề nghiệp ngoài
nhà là yếu tố gây nhiễu và do đó, thu thập thông tin về nghề nghiệp hoạt động ngoài nhà ở các
đối tượng, sử dụng phương pháp phân tầng và ghi nhận được các kết quả sau:
Nhóm nghề nghiệp ngoài nhà Nhóm nghề nghiệp trong nhà
Bệnh

Chứng


Tổng số

Bệnh

Chứng

Tổng số

Nam 53 15 68 Nam 35 53 88
Nữ 10 3 13 Nữ 52 79 131
Tổng số

63 18 81

Tổng
số
87 132 219
Theo các anh chị, nghề nghiệp (ngoài nhà và trong nhà) có phải là yếu tố gây nhiễu trong nghiên
cứu này hay không? tại sao?
Nhà nghiên cứu đang viết bài báo cáo và dự định sẽ công bố giá trị OR hiệu chỉnh theo nghề
nghiệp. Tình cờ có một chuyên viên dịch tễ của Tổ Chức Y tế Thế giới đọc được bản thảo của
nghiên cứu này và cho ý kiến phản biến. Theo ông, do nghề nghiệp là hậu quả của giới tính nên
chuỗi giới tính - nghề nghiệp - sốt rét có thể được xem như là cơ chế tác động của giới tính lên
nguy cơ mắc bệnh sốt rét. Do đó nghề nghiệp không phải là yếu tố gây nhiễu. Ông ta khuyên
nên báo cáo giá trị OR thô (không hiệu chỉnh cho nghề nghiệp). Theo anh chị, nhà nghiên cứu
có nên nghe theo lời khuyên của chuyên gia dịch tễ hay không?
Bias in studies of use of oestrogen and heart disease1
Bias in who is prescribed oestrogen:
More educated
Higher social class

Osteoporosis*
No diabetes, heart disease, or
hypertension
Healthier before treated
Bias in who takes oestrogen:
Compliant women



7
Ðại cương về thống kê và thống kê mô tả
Giới thiệu về thống kê
Khi chúng ta khám sức khỏe cho một sinh viên, chúng ta có thể quan tâm đến chiều cao của sinh
viên đó. Chiều cao của sinh viên là một biến số nói lên đặc trưng của sinh viên đó. Tuy nhiên
khi chúng ta quan tâm đến toàn thể sinh viên năm thứ nhất năm học 2009-2010 của Đại học Y
dược thì con số chiều cao của từng sinh viên trong hàng ngàn các sinh viên được khảo sát sẽ ít
có giá trị. Lúc đó chúng ta quan tâm nhiều hơn đến chiều cao trung bình của sinh viên, chiều cao
trung bình của sinh viên Nam, chiều cao trung bình của sinh viên Nữ, …Các con số trung bình
này nói lên đặc trưng không chỉ của một người mà nói lên đặc trưng của một quần thể. Con số
nói lên đặc trưng của một quần thể được gọi là thống kê. Phương pháp để từ số liệu (là các tập
hợp các giá trị đặc trưng của cá nhân) để rút ra được con số thống kê được gọi là phương pháp
thống kê.
Khi chúng ta chỉ khám cho từng cá nhân bệnh nhân mà không cần phát triển một kiến thức mới
điều chúng ta quan tâm hàng đầu là đặc trưng của từng bệnh nhân và không cần quan tâm đến
thống kê. Nếu chúng ta muốn thực hiện nghiên cứu khoa học có mục đích phát hiện được kiến
thức mới có tính khái quát hóa (có thể áp dụng cho số đông) thì chúng ta phải nắm vững phương
pháp thống kê.
Số liệu
Khi chăm sóc sức khỏe cho cá nhân, chúng ta thường chỉ ghi nhận đặc trưng của từng cá nhân
mà ít quan tâm đến việc tập hợp những kết quả ghi nhận này một cách có hệ thống. Để làm

nghiên cứu khoa học điều trước tiên là phải có số liệu. Số liệu được định nghĩa là tập hợp kết
quả của quan sát hay thu thập có hệ thống của các đặc tính hay đại lượng của các đối tượng khác
nhau.
Thí dụ: Khi tôi quan sát giới tính của các học viên trong lớp, tôi có số liệu là:
Nam, nam, nữ, nữ, nữ, nam, nữ, v.v
Thí dụ: Một nhà nghiên cứu đo nồng độ hemoglobin của 70 thai phụ có kết quả như sau:
10.2 13.7 10.4 14.9 11.5 12.0 11.0
13.3 12.9 12.1 9.4 13.2 10.8 11.7
10.6 10.5 13.7 11.8 14.1 10.3 13.6
12.1 12.9 11.4 12.7 10.6 11.4 11.9
9.3 13.5 14.6 11.2 11.7 10.9 10.4
12.0 12.9 11.1 8.8 10.2 11.6 12.5
13.4 12.1 10.9 11.3 14.7 10.8 13.3
11.9 11.4 12.5 13.0 11.6 13.1 9.7
11.2 15.1 10.7 12.9 13.4 12.3 11.0
14.6 11.1 13.5 10.9 13.1 11.8 12.2
và những con số này được gọi là số liệu.
Số liệu phải được thu thập có hệ thống. Nếu chiều cao của một người được đo bằng thước dây,
của người khác được áng chứng, của người khác được đo bằng stadiometer thì tập hợp của
những chiều cao này không thể được gọi là số liệu cho nghiên cứu khoa học. Những đặc tính
hay đại lượng của đối tượng có trong số liệu được gọi là biến số.
Phương pháp mô tả tóm tắt và trình bày số liệu
Phương pháp thống kê đơn giản nhất (nhưng hữu ích và được dùng phổ biến nhất là phương
pháp thống kê mô tả). Thống kê mô tả là phương pháp trình bày cô đọng đặc trưng của quần thể
(thống kê) từ số liệu gồm các đặc trưng của cá thể (biến số). Như vậy phương pháp thống kê
được sử dụng phải phụ thuộc vào biến số. Tóm tắt các phương pháp trình bày đặc trưng của
quần thể có thể bằng biểu đồ hay bằng con số thống kê tóm tắt được trình bày trong Bảng 1.
Nhìn chung, để tóm tắt cho biến số định tính (như có bị bệnh đái tháo đường) người ta thường




8
dùng tỉ lệ (tỉ lệ hiện mắc đái tháo đường), để tóm tắt cho biến số định lượng (như chiều cao)
người ta thường dùng con số trung bình và độ lệch chuẩn (trung bình và độ lệch chuẩn của chiều
cao). Tuy nhiên, trong một số trường hợp cụ thể mô tả đặc trưng của quần thể bằng con số trung
bình không phù hợp mà phải sử dụng các số thống kê như trung vị, trung bình nhân, khoảng tứ
phân vị, v.v. Điều này sẽ được trình bày rõ hơn trong phần con số thống kê mô tả cho biến số
định lượng.
Bảng 2. Các phương pháp thống kê mô tả sử dụng cho biến số định lượng và định tính.
Loại biến số
Định lượng Định tính
Thống

Giá trị trung tâm:
. Trung bình
. Trung vị
. Trung bình nhân
Mức độ biến thiên:
. Độ lệch chuẩn
. Khoảng tứ phân vị; khoảng giá trị
. Khoảng giá trị 1 độ lệch chuẩn

Tỉ lệ phần trăm của
. Giá trị tiêu biểu của biến nhị giá
. Các giá trị xếp theo thứ tự cho biến thứ tự
. Các giá trị xếp theo tần suất đối với biến
danh định
Biểu
đồ -
đồ thị


0 10 20 30 40
Percent
0 1000 2000 3000 4000 5000
trong luong so sinh (gram)

1,000 2,000 3,000 4,000 5,000
trong luong so sinh (gram)

0 50 100 150 200 250
count of maso
duoi 30 30 den 34 35 den 39 40+
duoi 30 30 den 34
35 den 39 40+


Các số thống kê mô tả cho biến số định lượng
Giả sử chúng ta quan tâm chiều cao của sinh viên đại học y dược, chúng ta muốn biết nhìn
chung sinh viên Đại học Y dược cao hay thấp (điều này thể hiện bằng thống kê khuynh hướng
trung tâm – thí dụ như chiều cao trung bình) và chiều cao của các sinh viên là như nhau, hơi
khác nhau, khác nhau hay rất khác nhau (điều này được thể hiện bằng con số thống kê độ phân
tán – thí dụ như độ lệch chuẩn)
Thống kê khuynh hướng tập trung
Thống kê mô tả khuynh hướng tập trung có thể là trung bình (mean), trung vị (median) và yếu vị
(mode). Những thống kê này cho biết giá trị tiêu biểu cho số liệu.



9
Thí dụ: có hai loại thuốc hạ áp A và B. Giả sử có 5 đối tượng sau khi sử dụng thuốc hạ áp A sẽ có huyết áp

110 - 115 -120 - 125 -130 và ở 5 đối tượng khác sau khi sử dụng thuốc hạ áp B sẽ có huyết áp 120 - 125 -
130 - 135 - 140. Con số tiêu biểu nhất để cho biết tác dụng của thuốc A là huyết áp trung bình sau khi sử
dụng thuốc A và là 120. Con số huyết áp trung bình này thấp hơn huyết áp trung bình sau khi sử dụng
thuốc B cho biết thuốc A có tác dụng mạnh hơn.
Trung bình (mean) của biến số x, được kí hiệu là (đọc là x gạch) là tổng các giá trị của số liệu
của x chia cho số lần quan sát (N).
N
x
x
i



Thí dụ: Số liệu về huyết áp tâm thu của 5 đối tượng là 120, 125, 130, 135, 150. Huyết áp tâm thu
trung bình sẽ là 132
132
5
150125130125120





N
x
x
i

Nếu chúng ta sắp xếp các giá trị của số liệu của biến số định lượng theo thứ tự, giá trị đứng ở vị
trí giữa được gọi là trung vị. Nếu có hai giá trị cùng đứng ở vị trí giữa, trung vị là trung bình

cộng của hai giá trị này.
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Trung vị
của huyết áp tâm thu là giá trị đứng ở giữa và bằng 130
Số liệu về chiều cao (cm) của 6 người là 153, 155, 160, 162, 165, 161. Ðể tính trung vị, trước tiên
chúng ta phải sắp xếp số liệu này: 153, 155, 160, 161, 162, 165. Do có hai giá trị 160 và 161 cùng
ở giữa, trung vị sẽ là (160+161)/2 = 160,5 cm
Yếu vị (mode) cũng được sử dụng làm con số thống kê tiêu biểu. Yếu vị là giá trị xuất hiện phổ
biến nhất (có tần suất cao nhất) của số liệu
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Trong
trường hợp này không có yếu vị.
Ðiểm số của 5 học sinh là 5, 5, 6, 7, 9. Yếu vị của điểm số là 5.
Trong một ấp có 361 gia đình người Kinh, 120 gia đình người Khmer và 27 gia đình người Hoa.
Yếu vị của biên số dân tộc là dân tộc Kinh.
Trong một số liệu cụ thể, có thể không có yếu vị, có thể có một yếu vị hoặc hai hay nhiều yếu vị.
Ðây là khuyết điểm chính của số thống kê này. Do đó trong các báo cáo khoa học người ta
thường dùng trung bình hoặc trung vị chứ ít khi báo cáo giá trị của yếu vị.
Có thể sử dụng trung bình, trung vị hay yếu vị cho biến số định lượng. Khi biến số định lượng
có phân phối bình thường (hình chuông) thì ba con số này xấp xỉ bằng nhau và khi đó người ta
thường tính trung bình bởi vì trung bình có những đặc tính toán học mạnh. Tuy nhiên nếu số liệu
bị lệch thì con số trung vị phản ánh giá trị tiêu biểu một cách chính xác hơn.
Thí dụ: Bệnh nhân bị loét dạ dày - tá tràng được điều trị theo một phác đồ diệt vi khuẩn
Helicobacter. Sau điều trị, bệnh nhân được theo dõi và ghi nhận thời gian kể từ khi sử dụng thuốc
đến lúc bắt đầu cải thiện triệu chứng đau. Ở 10 bệnh nhân thời gian này (ngày ) là như sau: 1, 2, 2,
2, 2, 2, 3, 3, 3, 30. Bệnh nhân có thời gian từ lúc điều trị đến lúc giảm triệu chứng là 30 ngày trên
thực chất là bệnh nhân không đáp ứng với điều trị. Trung vị và trung bình của số liệu là 2 và 5
ngày. Con số trung vị phản ánh chân thực hơn bởi vì với tư cách là một bác sĩ lâm sàng từ số liệu
trên có thể nhận xét rằng một bệnh nhân tiêu biểu sẽ giảm đau sau 2 ngày dùng thuốc. Giá trị 30
trong số liệu của thí dụ trên được gọi là số ngoại lai (outlier) và làm số liệu bị lệch. Nhìn chung,
khi số liệu bị lệch thì con số trung bình sẽ bị ảnh hưởng rất nhiều và không phản ánh giá trị tiêu
biểu như con số trung vị.

Tuy nhiên có nhiều trường hợp mặc dù số liệu bị lệch nhưng nếu ứng dụng của nghiên cứu là
tính toán tổng của các giá trị cho tất cả mọi trường hợp chứ không phải là chi phí tiêu biểu của
một cá thể thì lúc đó vẫn nên dùng trung bình làm con số thống kê mô tả chứ không chỉ dùng
trung vị.
Thí dụ: Chi phí điều trị (tính bằng USD) cho 10 bệnh nhân bị loét dạ dày - tá tràng được điều trị
theo một phác đồ diệt vi khuẩn Helicobacter được ghi nhận là như sau: 10, 20, 20, 20, 20, 20, 30,
30, 30, 300. Bệnh nhân có chi phí điều trị lên đến 300 USD là chi phí của bệnh nhân bị phản ứng



10
bất lợi và phải điều trị phản ứng thuốc này và đổi thuốc mới. Trung vị và trung bình của số liệu là
20 và 50 USD. Nếu bệnh nhân hỏi bác sĩ phải tốn khoảng bao nhiêu tiền để điều trị diệt khuẩn
Helicobacter, bác sĩ sẽ trả lời là chi phí điều trị trên dưới 20 USD (một bệnh nhân tiêu biểu sẽ chi
trả khoảng số tiền này). Nếu bảo hiểm y tế muốn dự trù chi phí để điều trị diệt vi khuẩn
Helicobacter cho 1000 bệnh nhân thì cần phải dự trù số tiền là 1000 x 50 = 50.000 USD chứ
không nên chỉ dự trù 20.000 USD (Barber, J. A. & Thompson, S. G. (1998). Analysis and
interpretation of cost data in randomised controlled trials: review of published studies. BMJ,
317(7167), 1195-1200)
Thống kê mô tả tính phân tán:
Có 3 thống kê mô tả tính phân tán: độ lệch chuẩn, khoảng tứ phân vị và phạm vi của số liệu.
Việc lựa chọn thống kê mô tả tính phân tán được trình bày trong bảng 2.
Thống kê mô tả tính phân tán có tầm quan trọng thứ hai sau con số mô tả khuynh hướng tập
trung.
Thí dụ: Thuốc hạ áp A được sử dụng trên 5 bệnh nhân và huyết áp tâm thu sau khi dùng thuốc là 110, 115,
120, 125 và 130. Thuốc hạ áp B được sử dụng trên 5 bệnh nhân và có huyết áp sau sử dụng thuốc là 100,
110, 120, 130, 140. Như vậy hai thuốc hạ áp này có hiệu quả hạ áp là tương đương (bởi vì trung bình của
hai số liệu là bằng nhau) nhưng kết quả của thuốc B phân tán hơn và điều này làm thuốc B trở nên kém an
toàn.
Để đánh giá sự phân tán của số liệu trước tiên người ta sử dụng độ lệch của giá trị so với giá trị

trung bình
Số liệu về huyết áp tâm thu của 5 đối tượng là 120, 125, 130, 135, 150. Huyết áp tâm thu trung
bình sẽ là 132. Như vậy độ lệch của huyết áp tâm thu ở 5 đối tượng này (so với huyết áp tâm thu
trung bình) lần lượt là -12, -7, -2, 3, 15.
Để mô tả độ lớn của độ lệch không thể sử dụng trung bình của độ lệch bởi vì độ lệch bao gồm
giá trị âm và giá trị dương nên trung bình của độ lệch là giá trị zero. Để khắc phục điều này
người ta sử dụng trung bình của bình phương độ lệch (hay còn gọi là Mean of Square – MS).
Trung bình bình phương độ lệch còn được gọi là phương sai (variance). Phương sai (variance)
có thể được kí hiệu và Var hay s
2
(người ta kí hiệu phương sai là s
2
bởi vì Phương sai về mặt từ
nguyên là bình phương của độ lệch chuẩn mà độ lệch chuẩn được kí hiệu là s)
1
)(
1
2





N
xx
MSVariance
N
i
i


Số liệu về huyết áp tâm thu của 5 đối tượng là 120, 125, 130, 135, 150. Huyết áp tâm thu trung
bình sẽ là 132. Như vậy độ lệch của huyết áp tâm thu ở 5 đối tượng này (so với huyết áp tâm thu
trung bình) lần lượt là -12, -7, -2, 3, 15. Trung bình của bình phương độ lệch (Phương sai) của số
liệu:
5,132
4
530
4
3249449144
15
)132150()132135()130132()132125()132120(
1
)(
22222
1
2












n
i

i
N
xx
MS

Nếu chúng ta gọi
N-1 là độ tự do của MS
SSxx
N
i
i


1
2
)(
(SS chữ viết tắt của Sum of Square: Tổng bình phương)
Thì



11
dfMSSS
df
SS
MS



Ðộ lệch chuẩn (standard deviation - viết tắt là SD hay s) là căn bậc hai trung bình bình phương

độ lệch (căn bậc hai của phương sai). Vì vậy, độ lệch chuẩn phản ánh độ lớn của trị tuyệt đối của
độ lệch, phản ánh khoảng cách trung bình của số liệu so với giá trị tiêu biểu.



Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Trung bình của
huyết áp là 132 và độ lệch chuẩn bằng
5,115,132
4
530
4
3249449144
15
)132150()132135()130132()132125()132120(
1
)(
22222
1
2












n
i
i
N
xx
s


Phạm vi của số liệu là tất cả các giá trị của số liệu từ giá trị nhỏ nhất đến giá trị lớn nhất.
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Phạm vi của biến
số huyết áp là 120 đến 150.
Thí dụ: Thuốc hạ áp A được sử dụng trên 5 bệnh nhân và huyết áp tâm thu sau khi dùng thuốc là 110, 115,
120, 125 và 130. Thuốc hạ áp B được sử dụng trên 5 bệnh nhân và có huyết áp sau sử dụng thuốc là 100,
110, 120, 130, 140. Số liệu của thuốc B có tính phân tán cao hơn do phạm vi thay đổi từ 100-140 trong khi
đó phạm vị của số liệu thuốc A chỉ từ 110-130.
Khoảng tứ phân vị (inter-quartile): Nếu chúng ta chia số liệu sắp theo thứ tự làm 2 phần đều
nhau, khoảng tứ phân vị là khoảng cách của trung vị phần trên và trung vị phần dưới.
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Số liệu này được
chia làm 2 phần: phần 1 gồm 120, 125, 130 và phần 2 gồm 130, 135, và 150. Trung vị của phần trên là 125
- trung vị của phần dưới là 135, do đó phạm tứ phân vị là 125-135.
Do bản chất của khoảng tứ phân vị là trung vị của phần số liệu trên và phần số liệu dưới, cũng
giống như trung vị, khoảng tứ phân vị không bị ảnh hưởng bởi các giá trị ngoại lai như trong
trường hợp của độ lệch chuẩn.
Câu hỏi: Phân tích trên máy tính về biến số hemoglobin cho kết quả sau. Hãy thử đọc và
lí giải kết quả:
Variable | Obs Mean Std. Dev. Min Max
+
hemoglobin | 70 11.98429 1.416122 8.8 15.1
Biểu đồ và đồ thị
Số liệu cũng có thể được trình bày dưới dạng đồ thị hoặc biểu đồ. Mặc dù không có ranh giới

tuyệt đối hoàn toàn rõ rệt, nói chung đồ thị (graph) có tính chất toán học nhiều hơn, trong đó có
trục hoành và trục tung còn biểu đồ (chart) là hình ảnh mang tính chất tượng trưng.
Nếu biến số là biến rời rạc, có thể trình bày dưới dạng biểu đồ hình thanh (bar chart - hình 1)
hoặc biểu đồ hình bánh (pie chart). Nếu biến số là biến liên tục, thì phân phối của biến số có thể
trình bày dưới dạng tổ chức đồ (histogram - hình 2) hoặc đa giác tần suất.





n
i
i
N
xx
s
1
2
1
)(



12
Biểu đồ và đồ thị cho biến định lượng: Tổ chức đồ, đa giác tần suất, biểu đồ hình hộp
Tổ chức đồ (histogram), đa giác tần suất (polyline), biểu đồ hình hộp (boxplot) được dùng trong
mô tả phân bố của biến số liên tục. Ðể vẽ tổ chức đồ, người ta chia biên độ của giá trị làm nhiều
khoảng giá trị và tính tần suất của những khoảng giá trị đó. Những khoảng giá trị này được biểu
thị ở trên trục hoành. Ứng với mỗi khoảng giá trị người ta vẽ những hình chữ nhật có diện tích
tỉ lệ với tần suất của khoảng giá trị đó. Bởi vì các khoảng giá trị này nằm sát nhau trên trục

hoành, các hình chữ nhật của tổ chức đồ cũng thường nằm sát nhau.

Frequency
hemoglobin
8 9 10 11 12 13 14 15 16
0
5
10
15
20

Hình 1. Tổ chức đồ mức hemoglobin của 70 phụ nữ.


Frequency
hemoglobin
8 9 10 11 12 13 14 15 16
0
5
10
15
20

Hình 2. Ða giác tần suất của hemoglobin của 70 phụ nữ.
Ðể vẽ đa giác tần suất, người ta thường vẽ tổ chức đồ và nối các trung điểm của các cạnh trên
của các hình chữ nhật. Ða giác tần suất thường không đẹp như các tổ chức đồ nhưng nó có ưu
điểm là có thể vẽ nhiều đa giác tần suất trên cùng một đồ thị để dễ so sánh các phân phối của




13
chúng.


hemoglobin
8 9 10 11 12 13 14 15 16
0
5
10
15

Hình 3. Ða giác tần suất hemoglobin của 28 phụ nữ nghèo (đường đỏ) so vơí 42 phụ nữ trung
bình và khá (đường xanh)
8
9
10
11
12
13
14
15
16
hem

Hình 4. Biểu đồ hình hộp của hemoglobin ở 70 phụ nữ.

Ngoài ra còn có Biểu đồ hình hộp (boxplot) cũng được sử dụng để mô tả sự phân phối của biến
số định lượng (xem hình 8). Biểu đồ hình hộp gồm một hình chữ nhật và 2 đoạn thẳng đứng.
Hình hộp có cạnh trên là giá trị của số liệu không quá giá trị tứ phân vị trên, cạnh dưới là giá trị
của số liệu không nhỏ hơn giá trị tứ phân vị dưới. Ðường nằm ngang trong hình hộp là giá trị

của trung vị. Hai thanh dọc của sơ đồ hộp nối liền giá trị tứ vị trên với giá trị cực đại va tứ vị
Trung vị
Tứ phân vị dưới
Tứ phân vị trên
Tối đa
Tối thiểu



14
dưới với giá trị cực tiểu.
Biểu đồ cho biến số định tính: Biểu đồ bánh và biểu đồ hình thanh
Biểu đồ hình bánh (pie chart) được dùng để mô tả sự phân bố của biến số rời rạc. Biểu đô hình
bánh là một vòng tròn được chia làm nhiều cung tương ứng với các giá trị của biến số. Ðộ lớn
của cung tỉ lệ với tần suất của giá trị biến số.
Nöõ
35%
Nam
65%

Hình 5. Biểu đồ hình bánh (pie chart) mô tả phân bố giới tính của những học sinh trong trường
mầm non 23/11, Hóc môn
Sinh
thöôøng
Sinh moå
Sinh
forceps

Hình 6. Biểu đồ hình bánh thể hiện phương pháp sinh của 600 đứa trẻ sinh tại bệnh viện X


Biểu đồ hình bánh (pie chart) có ưu điểm là đơn giản nhưng thường chỉ sử dụng để cho mô tả
cho một biến số của một quần thể duy nhất. Biểu đồ hình thanh (bar chart) đem lại nhiều thông
tin hơn và có thể sử dụng để mô tả sự phân bố của biến số định tính của nhiều quần thể.
Biểu đồ hình thanh (bar chart) là biểu đồ nhằm mô tả sự phân bố của biến số rời rạc. Biểu đồ
hình thanh gồm có trục hoành trên đó xác định những giá trị của biến số. Ứng với từng giá trị
của biến số người ta vẽ các thanh có chiều cao tỉ lệ với tần suất của giá trị đó. Cần lưu ý luôn
luôn có khoảng trống giữa các thanh.



15
45
24
0
10
20
30
40
50
Nam Nữ

Hình 7. Biểu đồ hình thanh (bar chart) mơ tả phân bố giới tính của những học sinh trong trường
mầm non 23/11, Hóc mơn
Chúng ta cũng có thể xây dựng các thanh theo chiều ngang như trong ví dụ sau
478
65
57
0 100 200 300 400 500
Sinh thường
Sinh forceps

Sinh mổ

Hình 8. Phương pháp sinh của 600 trẻ sanh tại bệnh viện X trong năm 1998
Ðối với biến số thứ tự, điều cần lưu ý là các giá trị sắp xếp trên đồ thị phải phản ánh tính chất
thứ tự của thang đo biến số. Đối với biến số danh định, các giá trị trên đồ thị phải được sắp xếp
theo thứ tự giảm dần của tần suất của các giá trị đó.
Tần suất
edumat
mù chữ cấp 1 cấp 2-3 đại họ
0
1000
2000


Hình 9. Trình độ học vấn của các bà mẹ trong nghiên cứu



16
Biểu đồ thanh khơng chỉ nhằm để mơ tả phân bố của biến định tính mà còn thể hiện sự phụ
thuộc của kết cuộc theo một biến số độc lập (như thể hiện sự phụ thuộc của tỉ lệ suy dinh dưỡng
của trẻ theo trình độ học vấn của mẹ) hoặc sự phụ thuộc của kết cuộc theo hai biến số độc lập
(như thể hiện sự phụ thuộc của tỉ suất lây truyền từ HIV mẹ sang con theo việc có được uống
thuốc ARV dự phòng và phương pháp sinh)
9%
30%
13%
10%
0%
10%

20%
30%
40%
50%
Mù chữ (n=23) Cấp 1,2 (n=748) Cấp 3 (n=340) ĐH, CĐ (n=130)
0%
10%
20%
30%
40%
50%

Hình 10. Tỉ lệ suy dinh dưỡng nhẹ cân (thanh đặc) và khoảng tin cậy 95% (đoạn thẳng dọc) theo
trình độ học vấn của mẹ (mù chữ, học đến cấp 1 hay 2, học đến cấp 3, học ĐH, CĐ (Đại học
hoặc Cao đẳng).

4,3%
19,5%
0,8%
3,9%
0%
5%
10%
15%
20%
25%
Dùng ZDV† Không dùng ZDV
Đường âm đạo
Mổ lấy thai


Hình 11. Tỉ suất lây truyền từ mẹ sang con ở những người mẹ bị nhiễm HIV theo điều trị hóa dự
phòng và phương pháp sinh (Nguồn: The European Mode of Delivery Collaboration, Lancet,
27/3/1999)



17
Trình bày số liệu và thống kê với bảng
Bảng là phương pháp trình bày số liệu hay các con số thống kê theo cấu trúc ma trận (với hàng
và cột). Bảng có thể sử dụng để trình bày số liệu hoặc thống kê.
Trình bày số liệu với bảng
Bảng phân phối tần suất có thể sử dụng để trình bày số liệu cho biến định tính hoặc biến định
lượng. Cần lưu ý nếu muốn trình bày số liệu cho biến định lượng cần phải phân nhóm các biến
định lượng này thành biến định tính.
Phân phối tần suất của biến số định tính
Số liệu của biến số định tính có thể được trình bày dưới dạng một phân phối tần suất. Phân phối
tần suất là một bảng chỉ ra tần suất và tỉ lệ phần trăm xuất hiện của từng giá trị rời rạc của biến
số (Bảng 1). Như vậy bảng phân phối tần suất gồm 2 cột, một cột liệt kê các giá trị của biến số
và một cột trình bày tần suất tương ứng của các giá trị đó.
Bảng 1. Phân phối giới tính của 69 học sinh lớp cơm thường trường mầm non 23 tháng 11, Huyện
Hóc môn
Giới Số trẻ Phần trăm
Nam 45 65%
Nữ 24 35%
Tổng số 69 100%
Bảng trên là bảng phân phối tần suất của giới tính. Bởi vì giới tính có 2 giá trị nam và nữ nên ta
liệt kê 2 giá trị này ở một cột. Ở cột thứ nhì ta ghi tần suất tương ứng của các giá trị này và ở cột
thứ ba chúng ta ghi tỉ lệ phần trăm xuất hiện của giá trị. Khi tỉ lệ phần trăm, thông thường chỉ
phần phần phần nguyên của con số phần trăm (xem bảng 1) mà không lấy phần số lẻ thập phân
của số phần trăm. Trong trường hợp cỡ mẫu lớn (thí dụ như trên cỡ mẫu trên 1000) thì có thể

trình bày tỉ lệ phần trăm với một số lẻ thập phân. Nhưng không có trường hợp nào trình bày tỉ lệ
phần trăm với hai số lẻ thập phân hay nhiều hơn.
Bảng 2 là một thí dụ khác về bảng phân phối tần suất.
Bảng 2. Phương pháp đỡ đẻ của 600 trẻ trong bệnh viện
Phương pháp đỡ đẻ Số sinh Phần trăm
Sinh thường 478 79,7
Sinh forceps 65 10,8
Sinh mổ 57 9,5
Tổng số 600 100,0

Phân phối tần suất của biến số định lượng
Nếu chúng ta có số liệu định lượng của nhiều đối tượng, việc trình bày số liệu bằng cách liệt kê
sẽ kém hiệu quả. Khi đó người ta phải phân nhóm số liệu định lượng và sử dụng bảng phân phối
tần suất của biến phân nhóm để trình bày số liệu cô đọng hơn.

×