Tải bản đầy đủ (.doc) (20 trang)

Bài giảng Thống kê y học Bài 6 Thống kê, biến số và phân phối

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (215.67 KB, 20 trang )

THỐNG KÊ, BIẾN SỐ VÀ PHÂN PHỐI
Mục tiêu
Sau khi nghiên cứu chủ đề, học viên có khả năng:
- Trình bày định nghĩa của thống kê, số liệu, thông tin và biến số
- Phân biệt được các loại biến số: định lượng và định tính trong có có biến số nhị giá,
danh định hay thứ tự.
- Xây dựng được bảng phân phối tần suất cho số liệu định tính và định lượng
- Lựa chọn được các loại biểu đồ hay đồ thị thích hợp để trình bày số liệu định tính và
định lượng
- Tính được các số thống kê tóm tắt như trung bình, trung vị, yếu vị, độ lệch chuẩn,
phương sai.
1. Một số định nghĩa
Thống kê là phương pháp khoa học dùng đề thu thập, tóm tắt, trình bày và phân tích số
liệu. Phương pháp thống kê được sử dụng trong nghiên cứu nhằm để so sánh một nhóm
đối tượng chứ không nhằm nghiên cứu từng cá nhân đơn lẻ.
Số liệu: Kết quả có được do việc quan sát hay thu thập đặc tính hay đại lượng ở các đối
tượng khác nhau hay ở thời gian khác nhau.
Thí dụ: Quan sát giới tính của các học viên trong lớp, số liệu ghi nhận được là:
Nam, nam, nữ, nữ, nữ, nam, nữ, v.v
Thí dụ: Một nhà nghiên cứu đo nồng độ hemoglobin của 70 thai phụ có kết quả như sau:
10.2
13.3
10.6

13.7
12.9
10.5

10.4
12.1
13.7



14.9
9.4
11.8

11.5
13.2
14.1

12.0
10.8
10.3

11.0
11.7
13.6

12.1
9.3
12.0
13.4
11.9
11.2
14.6

12.9
13.5
12.9
12.1
11.4

15.1
11.1

11.4
14.6
11.1
10.9
12.5
10.7
13.5

12.7
11.2
8.8
11.3
13.0
12.9
10.9

10.6
11.7
10.2
14.7
11.6
13.4
13.1

11.4
10.9
11.6

10.8
13.1
12.3
11.8

11.9
10.4
12.5
13.3
9.7
11.0
12.2

và những con số này được gọi là số liệu.
Cần lưu ý số liệu phải liên kết với một đặc tính hay đại lượng nhất định. Ghi nhận giới
tính ở người này, tuổi của người khác, quần áo của một người khác nữa thì kết quả này
được không phải là số liệu.
Sử dụng phương pháp thống kê chúng ta có thể tóm tắt số liệu trên sử dụng nồng độ
hemoglobin trung bình=11,98 và độ lệch chuẩn bằng 1.42. Số liệu được tóm tắt, trình bày
hay phân tích bằng phương pháp thống kê sẽ trở thành thông tin.
2. Biến số và các loại biến số
Biến số là những đại lượng hay những đặc tính có thể thay đổi từ người này sang người
khác hay từ thời điểm này sang thời điểm khác.


Như vậy biến số có thể thể hiện đại lượng hay đặc tính. Nếu nó thể hiện một đại lượng
nó được gọi là biến số định lượng. Nếu nó nhằm thể hiện một đặc tính no được gọi là
biến số định tính.
Biến số định tính
Biến số định tính còn được chia làm 3 loại: biến số thứ tự, biến số danh định và biến số

nhị giá.
Biến số thứ tự là biến số định tính với các giá trị có thể sắp xếp thứ tự được.
Thí dụ: tình trạng kinh tế xã hội (giàu, khá, trung bình, nghèo, rất nghèo) là biến số thứ tự
bởi vì người giàu có điều kiện kinh tế tốt hơn người khá, người khá hơn người trung bình,
trung bình hơn nghèo, v.v
Những thí dụ khác là học lực của học sinh (giỏi, khá, trung bình, kém), tiên lượng (tốt,
khá, xấu, tử vong).
Theo phân loại tăng huyết áp của Tổ chức Y tế Thế giới được trình bày như sau, theo
phân loại huyết áp với các giá trị huyết áp bình thường, tăng huyết áp độ 1, tăng huyết áp
độ 2, tăng huyết áp độ 3 là biến số thứ tự
Huyết áp bình thường:
HA tâm thu ≤139 và HA tâm trương ≤ 89
Tăng huyết áp độ 1:
HA tâm thu ≤ 179 hay HA tâm trương ≤ 104
Tăng huyết áp độ 2:
HA tâm thu ≥ 180 hay HA tâm trương >114
Tăng huyết áp độ 3:
HA tâm thu ≥180 và HA tâm trương ≥ 115 mmHg
Biến số danh định là biến số định tính mà giá trị của nó không thể biểu thị bằng số mà
phải biểu diễn bằng một tên gọi (danh: tên) và các giá trị này không thể sắp đặt theo một
trật tự từ thấp đến cao.
Thí dụ: Biến số dân tộc với các giá trị: Kinh, Khmer, Hoa, Chăm,… là biến số định tính
vì chúng ta không thể sắp xếp các giá trị này từ theo một trật tự từ thấp đến cao hay
ngược lại.
Một số thí dụ khác của biến số danh định là tình trạng hôn nhân (có 4 giá trị: độc thân, có
gia đình, li dị, góa) nhóm máu (A, B, AB và O).
Đôi khi biến số danh định chỉ có 2 giá trị: thí dụ như sống hay chết; có hút thuốc lá hay
không hút thuốc lá; có suy dinh dưỡng hay không suy dinh dưỡng; nam hay nữ. Những
biến số thuộc loại này được gọi là biến số nhị giá (binary variable)
Mã hoá

Trong phân tích thống kê, để tiện việc nhập số liệu hay lí giải kết quả, người ta có thể ánh
xạ (mapping) các giá trị của biến định tính vào các con số. Việc này được gọi là mã hóa
và cần hiểu rằng việc mã hóa này hoàn toàn có tính chất áp đặt và các con số được dùng
trong mã hóa không phản ánh bản chất của biến số danh định.
Giới tính là biến số danh định và có hai giá trị là nam và nữ. Chúng ta có thể mã hóa giới tính và
quy ước Nam là 1 và Nữ là 2. Tuy nhiên việc mã hóa này là áp đặt và chúng ta hoàn toàn có thể
quy ước Nam là 1 và Nữ là 0. Việc mã hóa chỉ nhằm giúp việc nhập số liệu và xử lí số liệu trở nên
dễ dàng hơn chứ không nhằm phản ánh bản chất của biến số đó.

Biến số định lượng
Biến số định lượng nhằm thể hiện một đại lượng và do đó có giá trị là những con số.


Thí dụ: tuổi là biến số liên tục bởi vì ta có thể nói người này 20 tuổi, người kia 32 tuổi,
v.v.
Những thí dụ khác là đường huyết, hemoglobin, hematocrite, chiều cao, cân nặng, thu
nhập, v.v
3. Phương pháp trình bày số liệu bảng
Số liệu ghi nhận các đặc tính hay đại lượng có thể trình bày thành bảng và bảng này được
gọi là bảng phân phối tần suất.
Phân phối tần suất của biến số định tính
Số liệu của biến số rời rạc có thể được trình bày dưới dạng một phân phối tần suất. Phân
phối tần suất là một bảng chỉ ra tần suất xuất hiện của từng giá trị rời rạc của biến số
(Bảng 1). Như vậy bảng phân phối tần suất gồm 2 cột, một cột liệt kê các giá trị của biến
số và một cột trình bày tần suất tương ứng của các giá trị đó.
Table 1. Phân phối giới tính của 69 học sinh lớp cơm thường trường mầm non 23 tháng 11, Huyện Hóc
môn

Giới


Số trẻ

Phần trăm

Nam

45

65%

Nữ

24

35%

Tổng số

69

100%

Bảng trên là bản phân phối tần suất của giới tính. Bởi vì giới tính có 2 giá trị nam và nữ
nên ta liệt kê 2 giá trị này ở một cột. Ở cột thứ nhì ta ghi tần suất tương ứng của các giá
trị này. Ðôi khi bảng phân phối tần suất có thêm cột phần trăm như trong thí dụ ở trên.
Bảng 2 là một thí dụ khác về bảng phân phối tần suất.
Table 2. Phương pháp đỡ đẻ của 600 trẻ trong bệnh viện

Phương pháp đỡ đẻ Số sinh Phần trăm
Sinh thường


478

79,7

Sinh forceps

65

10,8

Sinh mổ

57

9,5

Tổng số

600

100,0

Ðôi khi trong bảng phân phối người ta không ghi con số thực tế của tần suất mà chỉ ghi
nhận phần trăm. Trong trường hợp hợp này, phải ghi rõ số đối tượng của toàn bộ phân
phối (số đối tượng toàn bộ trong thí dụ trên là 600)
Phân phối tần suất của biến số định lượng
Nếu biến số là biến số liên tục chúng ta không thể liệt kê tất cả các giá trị của biến số.
Trong trường hợp này chúng ta có thể nhóm (làm tròn) giá trị của biến số lại.
Cụ thể các bước xây dựng bảng phân phối tần suất cho biến số định lượng như sau:

1- Tìm phạm vi (giá trị cực tiểu và giá trị cực đại) của số liệu. Trong thí dụ về
hemoglobin của 70 phụ nữ phạm vi là 8,8 đến 15,1


2. Chia phạm vi số liệu ra làm n khoảng với độ rộng của mỗi khoảng là d. Cần lưu ý độ
rộng mỗi khoảng d nên là đại lượng chẵn như 1, 2, 5, 10 hay 0,5, 0,2 và số các khoảng n
nên từ 5-12 (trung bình là 7-8). Trong thí dụ trên ta có thể chia phạm vi ra làm 8khoảng
với chiều rộng khoảng bằng 1 đơn vị. Khi đó các khoảng là: 8-8,9; 9-9,9; 10-10,9; 1111,9; 12-12,9; 13-13,9; 14-14,9; 15-15,9.
3. Ðếm các giá trị thích hợp vào khoảng đã định trước
Hemoglobin
(g/100ml)

Ðếm

8-8,9

1

9-9,9

111

10-10,9

1111 1111 1111

11-11,9

1111 1111 1111 1111


12-12,9

1111 1111 1111

13-13,9

1111 1111 111

14-14,9

1111

15-15,9

1

4. Xây dựng bảng phân phối tần suất với biến số và các khoảng giá trị của biến số và tần
suất tương ứng với các khoảng giá trị đó. Chúng ta cũng có thể thêm vào cột phần trăm
và cột phần trăm tích lũy (nếu thích hợp)
Table 3. Hemoglobin của 70 phụ nữ

Hemoglobi
n

Tần suất Phần trăm Phần trăm tích lũy

8-8,9

1


1.43

1.43

9-9,9

3

4.29

5.71

10-10,9

14

20.00

25.71

11-11,9

19

27.14

52.86

12-12,9


14

20.00

72.86

13-13,9

13

18.57

91.43

14-14,9

5

7.14

98.57

15-15,9

1

1.43

100.00


Thí dụ như nếu biên số là chu vi vòng cánh tay của trẻ chúng ta có thể làm tròn chu vi
vòng cánh tay đến 1 cm. Khi đó ta có thể xem thang đo của biến số là rời rạc và trình bày
bảng phân phối tần suất của biến số (bảng 2).


Table 4. Phân phối số đo vòng cánh tay của 69 trẻ lớp cơm thường nhà trẻ 23 tháng 11, Hóc môn.

Vòng cánh tay Tần suất Phần trăm Phần trăm tích lũy
13- <14

2

2.78

2.78

14- <15

31

43.06

45.83

15- <16

27

37.50


83.33

16- <17

9

12.50

95.83

17- <18

0

12.50

95.83

18- <19

2

2.78

98.61

19- <20

1


1.39

100.00

4. Các số thống kê mô tả
Việc trình bày số liệu bằng bảng là thỏa mãn cho các biến số định tính (cả biến số danh
định và biến số thứ tự). Tuy nhiên các số liệu định lượng có thể tóm tắt hơn nữa bằng các
số thống kê mô tả. Có hai loại thống kê mô tả: thống kê mô tả khuynh hướng tập trung và
thống kê mô tả tính phân tán.
Thống kê mô tả khuynh hướng tập trung
Thống kê mô tả khuynh hướng tập trung có thể là trung bình (mean), trung vị (median)
và yếu vị (mode). Những thống kê này cho biết giá trị tiêu biểu cho số liệu.
Thí dụ: có hai loại thuốc hạ áp A và B. Giả sử có 5 đối tượng sau khi sử dụng thuốc hạ áp A sẽ có
huyết áp 110 - 115 -120 - 125 -130 và ở 5 đối tượng khác sau khi sử dụng thuốc hạ áp B sẽ có
huyết áp 120 - 125 - 130 - 135 - 140. Con số tiêu biểu nhất để cho biết tác dụng của thuốc A là
huyết áp trung bình sau khi sử dụng thuốc A và là 120. Con số huyết áp trung bình này thấp hơn
huyết áp trung bình sau khi sử dụng thuốc B cho biết thuốc A có tác dụng mạnh hơn.

Trung bình của số liệu, được kí hiệu là x (đọc là x gạch) là tổng các giá trị của số liệu
chia cho số lần quan sát (N).
Σx
x= i
N
Thí dụ: Số liệu về huyết áp tâm thu của 5 đối tượng là 120, 125, 130, 135, 150.
Huyết áp tâm thu trung bình sẽ là 132

Σxi 120 + 125 + 130 + 135 + 150
=
= 132
N

5
Do không thể thực hiện các phép toán số học trên các biến số định tính (danh định và thứ
tự) chúng ta chỉ có thể tính trung bình cho số liệu của biến số định lượng.
Nếu chúng ta sắp xếp số liệu theo thứ tự, giá trị đứng ở giữa được gọi là trung vị. Nếu có
hai giá trị cùng đứng ở giữa, trung bình cộng của hai giá trị này là trung vị.
x=


Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130,
135, 150. Trung vị của huyết áp tâm thu là giá trị đứng ở giữa và bằng 130
Số liệu về chiều cao (cm) của 6 người là 153, 155, 160, 162, 165, 161. Ðể tính
trung vị, trước tiên chúng ta phải sắp xếp số liệu này: 153, 155, 160, 161, 162,
165. Do có hai giá trị 160 và 161 cùng ở giữa, trung vị sẽ là (160+161)/2 = 160,5
cm

Ðôi khi người ta chọn con số thống kê tiêu biểu là yếu vị (mode). Yếu vị là giá trị xuất
hiện phổ biến nhất (có tần suất cao nhất).
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130,
135, 150. Trong trường hợp này không có yếu vị.
Ðiểm số của 5 học sinh là 5, 5, 6, 7, 9. Yếu vị của điểm số là 5.

Trong một số liệu cụ thể, có thể không có yếu vị, có thể có một yếu vị hoặc hai hay nhiều
yếu vị. Ðây là khuyết điểm chính của số thống kê này. Do vậy người ta thường chỉ dùng
trong các trường hợp đặc biệt
Có thể sử dụng trung bình, trung vị hay yếu vị cho biến số định lượng. Khi biến số định
lượng có phân phối bình thường (hình chuông) thì ba con số này xấp xỉ bằng nhau và khi
đó người ta thường tính trung bình bởi vì trung bình có những đặc tính toán học mạnh.
Tuy nhiên nếu số liệu bị lệch thì con số trung vị phản ánh giá trị tiêu biểu một cách chính
xác hơn.
Thí dụ: Bệnh nhân bị loét dạ dày - tá tràng được điều trị theo một phác đồ diệt vi khuẩn

Helicobacter. Sau điều trị, bệnh nhân được theo dõi và ghi nhận thời gian kể từ khi sử
dụng thuốc đến lúc bắt đầu cải thiện triệu chứng đau. Ở 10 bệnh nhân thời gian này (ngày
) là như sau: 1, 2, 2, 2, 2, 2, 3, 3, 3, 30. Bệnh nhân có thời gian từ lúc điều trị đến lúc
giảm triệu chứng là 30 ngày trên thực chất là bệnh nhân không đáp ứng với điều trị.
Trung vị và trung bình của số liệu là 2 và 5 ngày. Con số trung vị phản ánh chân thực hơn
bởi vì với tư cách là một bác sĩ lâm sàng từ số liệu trên có thể nhận xét rằng một bệnh
nhân tiêu biểu sẽ giảm đau sau 2 ngày dùng thuốc. Con sôs 30 trong thí dụ trên được gọi
là số ngoại lai (outlier) và làm số liệu bị lệch. Nhìn chung, khi số liệu bị lệch thì con số
trung bình sẽ bị ảnh hưởng rất nhiều và không phản ánh giá trị tiêu biểu như con số trung
vị.

Thống kê mô tả tính phân tán:
Thống kê mô tả tính phân tán có tầm quan trọng thứ hai sau con số mô tả khuynh hướng
tập trung.
Thí dụ: Thuốc hạ áp A được sử dụng trên 5 bệnh nhân và huyết áp tâm thu sau khi dùng thuốc là
110, 115, 120, 125 và 130. Thuốc hạ áp B được sử dụng trên 5 bệnh nhân và có huyết áp sau sử
dụng thuốc là 100, 110, 120, 130, 140. Như vậy hai thuốc hạ áp này có hiệu quả hạ áp là tương
đương (bởi vì trung bình của hai số liệu là bằng nhau) nhưng kết quả của thuốc B phân tán hơn và
điều này làm thuốc B trở nên kém an toàn.

Ðộ lệch chuẩn (standard deviation - viết tắt là SD hay s) là con số đánh giá mức độ phân
tán và được tính theo công thức:
( xi − x ) 2
s= ∑
N −1
i =1
n

Như vậy độ lệch chuẩn phản ánh khoảng cách trung bình của số liệu so với giá trị tiêu
biểu. Khái niệm độ lệch chuẩn chỉ có thể áp dụng cho biến số định lượng bởi vì chúng ta

có thể thực hiện các phép toán số học trên các đại lượng nhưng không thể thực hiện trên
các giá trị của biến số định tính là các đặc tính.


Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Trung
bình của huyết áp là 132 và độ lệch chuẩn bằng

s=
=

( xi − x ) 2

N −1
i =1
n

(120 − 132) 2 + (125 − 132) 2 + (132 − 130) 2 + (135 − 132) 2 + (150 − 132) 2
5 −1

144 + 49 + 4 + 9 + 324
530
=
= 132,5 = 11,5
4
4
Phương sai về mặt từ nguyên là bình phương của sai - bình phương của độ lệch chuẩn.
Phương sai (variance) có thể được kí hiệu và Var hay s2 và được tính theo công thức sau:
=

n


s2 = ∑ ( xi − x ) 2 / (n − 1)
i =1

Phạm vi của số liệu là tất cả các giá trị của số liệu từ giá trị nhỏ nhất đến giá trị lớn nhất.
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Phạm vi
của biến số huyết áp là 120 đến 150.
Thí dụ: Thuốc hạ áp A được sử dụng trên 5 bệnh nhân và huyết áp tâm thu sau khi dùng thuốc là
110, 115, 120, 125 và 130. Thuốc hạ áp B được sử dụng trên 5 bệnh nhân và có huyết áp sau sử
dụng thuốc là 100, 110, 120, 130, 140. Số liệu của thuốc B có tính phân tán cao hơn do phạm vi
thay đổi từ 100-140 trong khi đó phạm vị của số liệu thuốc A chỉ từ 110-130.

Khoảng tứ vị (inter-quartile): Nếu chúng ta chia số liệu sắp theo thứ tự làm 2 phần đều
nhau, khoảng tứ vị là khoảng cách của trung vị phần trên và trung vị phần dưới. Trung vị
của phần trên của số liệu được gọi là tứ vị trên (upper quartile) và trung vị của phân dưới
số liệu được gọi là trung vị dưới (lower quartile).
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Số liệu
này được chia làm 2 phần: phần 1 gồm 120, 125, 130 và phần 2 gồm 130, 135, và 150. Trung vị
của phần trên là 125 - trung vị của phần dưới là 135, do đó phạm tứ vị là 125-135.

Do bản chất của khoảng tứ vị là trung vị của phần số liệu trên và phần số liệu dưới, cũng
giống như trung vị, khoảng tứ vị không bị ảnh hưởng bởi các giá trị ngoại lai như trong
trường hợp của độ lệch chuẩn. Cũng như trung vị, khoảng tứ vị chỉ có thể áp dụng cho
biến số định lượng hay thứ tự.
Có 3 thống kê mô tả tính phân tán: độ lệch chuẩn, khoảng tứ vị và phạm vi của số liệu.
Việc lựa chọn thống kê mô tả tính phân tán được trình bày trong bảng 2.
Bảng 6. Chọn lựa các thống kê mô tả tính phân tán cho các loại biến số.

Trường hợp


Thống kê tóm tắt giá trị tiêu Thống kê mức độ phân tác
biểu

Phân phối cân đối

Trung bình (mean)

Ðộ lệch
deviation)

Thống kê bị lệch

Trung vị (median)

Khoảng tứ vị (inter-quartile)
Phạm vi (Range)

chuẩn

(standard


Câu hỏi: Phân tích trên máy tính về biến số hemoglobin cho kết quả sau. Hãy thử đọc và
lí giải kết quả:
Variable
|
Obs
Mean
Std. Dev.
Min

Max
-----------+----------------------------------------------------hemoglobin |
70
11.98429
1.416122
8.8
15.1

Thí dụ về số liệu bị lệch: Thời gian nằm viện của 17 đối tượng sau khi phẫu thuật (được
sắp xếp từ nhỏ đến lớn) là:
3 4 4 6 8 8 8 10 10 12 14 14 17 25 27 37 42
Phân phối này bị lệch nên con số thời gian nằm viện trung bình là 14,6 không phải con số
phù hợp đo lường trung tâm. Ðể đánh giá Từ phân phối này ta nhận thấy trung vị là 10; tứ
vị trên là 17 và tứ vị dưới là 8.
Logarithm
Một cách khác để đối phó với số lệch bị lệch, trong trường hợp bị lệch dương là sử dụng
logarithm (hay gọi tắt là log) của giá trị số liệu thay vì dùng bản thân giá trị.
Có nhiều loại logarithms khác nhau. Logarithm cơ số 10 là loại thường được sử dụng
trong quá khứ để nhân hay chia các con số một cách nhanh chóng. Gần đây do sự phát
triển của các máy vi tính và máy tính cầm tay, việc sử dụng logarithms cơ số 10 trở nên
bị phôi pha. Hiện này người ta thường chỉ dùng logarithms cơ số e (e=2,71) hay còn gọi
là logarithms tự nhiên do loại logarithms này có một số đặc tính toán học đáng quý.
Logarithms tự nhiên của một số x thường được kí hiệu ln(x).
Logarithms tự nhiên có các đặc tính toán học chính như sau:
ln(xy)=ln(x) + ln(y)
ln(x/y)=ln(x)-ln(y)
ln(xn)=ln(xx...x)=ln(x)+ln(x)+...+ln(x)=nln(x)
ln(1+x)(x (với x nhỏ)
Nếu chúng ta đã biết ln(x) và muốn biết x bằng bao nhiêu chúng ta sử dụng hàm
antilog(x) hay còn gọi là hàm exp(x).

Trong trường hợp số liệu bị lệch dương, người ta lấy log của số liệu và tính trung bình
của log số liệu. Sau đó tính giá trị thời gian nằm viện tiêu biểu (con số này được gọi là
trung bình nhân - geometric mean) bằng cách lấy antilog của trung bình của log số liệu.
Trở lại thí dụ về thời gian nằm viện của 17 bệnh nhân. Sau khi lấy log chúng ta có trung
bình của log thời gian nằm viện bằng 2,41 và lấy antilog của số này chúng ta có trung
bình nhân của thời gian nằm viện là 11,13. Con số này gần với giá trị trung vị là 10 hơn
con số trung bình cộng là 14,6
Biểu đồ và đồ thị
Số liệu cũng có thể được trình bày dưới dạng đồ thị hoặc biểu đồ. Mặc dù không có ranh
giới tuyệt đối hoàn toàn rõ rệt, nói chung đồ thị (graph) có tính chất toán học nhiều hơn,
trong đó có trục hoành và trục tung còn biểu đồ (chart) là hình ảnh mang tính chất tượng
trưng.


Nếu biến số là biến rời rạc, có thể trình bày dưới dạng biểu đồ hình thanh (bar chart hình 1) hoặc biểu đồ hình bánh (pie chart). Nếu biến số là biến liên tục, thì phân phối của
biến số có thể trình bày dưới dạng tổ chức đồ (histogram - hình 2) hoặc đa giác tần suất.
Biểu đồ hình thanh
Biểu đồ hình thang là biểu đồ nhằm mô tả sự phân bố của biến số rời rạc. Biểu đồ hình
thanh gồm có trục hoành trên đó xác định những giá trị của biến số. Ứng với từng giá trị
của biến số người ta vẽ các thanh có chiều cao tỉ lệ với tần suất của giá trị đó. Cần lưu ý
luôn luôn có khoảng trống giữa các thanh.
50
40

45

30
20

24


10
0
Nam

Nöõ

Figure 2. Biểu đồ hình thanh (bar chart) mô tả phân bố giới tính của những học sinh trong trường mầm non
23/11, Hóc môn

Chúng ta cũng có thể xây dựng các thanh theo chiều ngang như trong ví dụ sau
Sinh moå

57

Sinh forceps

65

Sinh thöôøng

478

0

100

200

300


400

500

Figure 3. Phương pháp sinh của 600 trẻ sanh tại bệnh viện X trong năm 1998

Ðối với biến số thứ tự, điều cần lưu ý là các giá trị của biến số phải được sẵp xếp thứ tự
theo trục hoành.


T a àn s u a át

2 0 0 0

1 0 0 0

0
m u ø c h ö õ

c a áp 1

e d u m a t

c a áp 2 - 3

ñ a ïi h o ï

Figure 4. Trình độ học vấn của các bà mẹ trong nghiên cứu


Biểu đồ hình bánh
Biểu đồ hình bánh cũng được dùng để mô tả sự phân bố của biến số rời rạc. Biểu đô hình
bánh là một vòng tròn được chia làm nhiều cung tương ứng với các giá trị của biến số.
Ðộ lớn của cung tỉ lệ với tần suất của giá trị biến số.

Nöõ
35%
Nam
65%


Figure 5. Biểu đồ hình bánh (pie chart) mô tả phân bố giới tính của những học sinh trong trường mầm non
23/11, Hóc môn

Sinh moå
Sinh
forceps

Sinh
thöôøng

Figure 6. Biểu đồ hình bánh thể hiện phương pháp sinh của 600 đứa trẻ sinh tại bệnh viện
X
Tổ chức đồ, đa giác tần suất, sơ đồ hộp.
Tổ chức đồ (histogram) và đa giác tần suất (polyline) được dùng trong mô tả phân bố của
biến số liên tục. Ðể vẽ tổ chức đồ, người ta chia biên độ của giá trị làm nhiều khoảng giá
trị và tính tần suất của những khoảng giá trị đó. Những khoảng giá trị này được biểu thị ở
trên trục hoành. Ứng với mỗi khoảng giá trị người ta vẽ những hình chữ nhật có diện tích
tỉ lệ với tần suất của khoảng giá trị đó. Bởi vì các khoảng giá trị này nằm sát nhau trên
trục hoành, các hình chữ nhật của tổ chức đồ cũng thường nằm sát nhau.

2 0

F re q u e n c y

1 5

1 0

5

0
8

9

1 0

1 1

1 2
h e m o g lo b in

1 3

1 4

1 5

1 6



2 0

F re q u e n c y

1 5

1 0

5

0
8

9

1 0

1 1

1 2
h e m o g lo b in

1 3

1 4

1 5

1 6


Figure 7. Ða giác tuần suất của hemoglobin của 70 phụ nữ.

Ðể vẽ đa giác tần suất, người ta thường vẽ tổ chức đồ và nối các trung điểm của các cạnh
trên của các hình chữ nhật. Ða giác tần suất thường không đẹp như các tổ chức đồ nhưng
nó có ưu điểm là có thể vẽ nhiều đa giác tần suất trên cùng một đồ thị để dễ so sánh các
phân phối của chúng.

1 5

1 0

5

0
8

9

1 0

1 1

1 2
h e m o g lo b in

1 3

1 4


1 5

1 6


Figure 8. Ða giác tần suất hemoglobin của 28 phụ nữ nghèo (đường đỏ) so vơí 42 phụ nữ trung bình và khá
(đường xanh)
hem
16
15
14
13
12
11
10
9
8

Figure 9. Sơ đồ hình hộp của hemoglobin ở 70 phụ nữ.

Ngoài ra còn có sơ đồ hộp (boxplot) cũng được sử dụng để mô tả sự phân phối của biến
số định lượng (xem hình 8). Sơ đồ hộp gồm một hình chữ nhật và 2 đoạn thẳng đứng.
Hình hộp có cạnh trên là tứ vị trên, cạnh dưới là tứ vị dưới. Ðường nằm trong hình hộp là
đường đi qua trung vị. Hai thanh dọc của sơ đồ hộp nối liền giá trị tứ vị trên với giá trị
cực đại va tứ vị dưới với giá trị cực tiểu.
5. So sánh các nhóm
Mặc dù trên kinh điển, biểu đồ hình thanh nhằm trình bày số liệu định tính, nó cũng được
sử dụng để so sánh sự khác biệt về đặc tính (chủ yếu là biến số nhị giá) hay trung bình
đại lượng (biến số định lượng) của các nhóm. Bảng cũng có thể được sử dụng cho mục
đích này. Việc so sánh sử dụng biểu đồ hay bảng được trình bày trong

Table 5. Chọn lựa sơ đồ thanh hay bảng để trình bày số liệu

Số biến Biến số cần so sánh
số phân
Danh định
Thứ tự
1

Nhị giá

Bảng 2 chiều
Bảng 2 chiều
Bảng 1 chiều
Biểu đồ thanh Biểu đồ thanh Biểu đồ thanh đơn
chùm, thanh phần chồng
trăm

Ðịnh lượng
Bảng 1 chiều
Biểu đồ thanh đơn


2

Bảng 3 chiều

Bảng 3 chiều

Bảng 2 chiều
Biểu đồ thanh chùm


Bảng 2 chiều
Biểu đồ thanh chùm

Một số thí dụ sau minh họa về cách trình bày số liệu để so sánh giữa các nhóm:
Table 6. Nghiên cứu thực nghiệm ngẫu nhiên về cách đỡ đẻ và tỉ suất lây truyền HIV
trong thời kì chu sinh (n=370) (Nguồn: The European Mode of Delivery Collaboration,
Lancet, 27/3/1999) - Ðây là bảng 2 chiều so sánh biến số nguy cơ lây nhiễm (biến nhị
giá) theo hai biến số phân loại: cách đỡ đẻ và việc sử dụng thuốc phòng.
Cách đỡ đẻ

Dùng ZDV1

Khơng dùng ZDV

Ðường âm đạo

0.043

0.195

Mổ lấy thai

0.008

0.039

1

ZDV: Zidovudin 300 mg uống ngày 2 lần từ 36 tuần thai cho đến lúc chuyển dạ và 300

mg mỗi 3 giờ trong lúc chuyển dạ

25%
20%
15%
10%
5%

19.5%
Đường âm đạo
Mổ lấy thai
4.3%

3.9%
0.8%

0%
Dùn g ZDV†

Không dùng ZDV

Figure 10. Nghiên cứu thực nghiệm ngẫu nhiên về cách đỡ đẻ và tỉ suất lây truyền HIV
trong thời kì chu sinh (n=370). Biểu đồ hình thanh chùm (clustered bar)


80%
60%

SDD Nặng
SDD Vừa

SDD nhẹ

40%
20%
0%
0-5

6-11

12-17

18-23

24-35

36-48

Figure 11. Tỉ lệ suy dinh dưỡng ở trẻ em Thái lan nơng thơn và thành thị theo tuổi và độ
trầm trọng - Biểu đồ hình thanh chồng (stacked bar) so sánh biến số tình trạng dinh
dưỡng (biến số thứ tự) theo một biến số phân loại nhóm tuổi.

Gánh nặng bệnh tật theo nhóm tuôỉ
100%
90%
80%
BENH KHA

70%

UNG THU


60%

TM

50%

TU TU

40%

TAI NAN

30%

NT KHAC
CHU SINH

20%
10%
0%
0-4

5-14

15-29

30-49

50-59


60+

Figure 12. Biểu đồ thanh phần trăm (percent bar chart) cơ cấu tử vong trong từng nhóm
tuổi. - Biểu đồ so sánh cơ cầu tử vong (biến số danh định) theo một biến số phân loại là
lứa tuổi.
Table 7. Tình trạng dinh dưỡng trẻ em ở xã chứng và xã can thiệp trước và sau thực hiện
dự án (Bảng 3 chiều so sánh biến số tình trạng dinh dưỡng theo hai biến số phân loại:
biến số xã và biến số thời gian)
Tình trạng dinh dưỡng
Suy dinh dưỡng độ 3

1997

2000

Xã chứng

Xã can thiệp

Xã chứng

Xã can thiệp

4 (2%)

0 (0%)

2 (3%)


1 (1%)


Suy dinh dưỡng độ 2

21 (9%)

7 (7%)

5 (7%)

1 (1%)

Suy dinh dưỡng độ 1

60 (25%)

26 (28%)

22 (31%)

24 (34%)

Bình thường

153 (64%)

61 (65%)

43 (60%)


45 (63%)

Tổng số

238 (100%)

94 (100%)

72 (100%)

71 (100%)

Bài tập
1. Cho biết các biến số sau: giới tính, nhóm máu, huyết áp, có cao huyết áp, sống hay
chết, độ suy tim theo phân loại của hội tim mạch NewYork thuộc loại biến số nào?
2. Nếu bạn thực hiện thử nghiệm để đánh giá tác động của việc người điều dưỡng khuyên
cho bú sữa mẹ lên thành công của việc bú sữa mẹ. .
a. Biến số kết cuộc nào bạn sẽ ghi nhận? Biến số đó thuộc loại nào? Nó có các giá trị
nào?
a. Biến số độc lập nào bạn sẽ ghi nhận? Biến số đó thuộc loại nào? Nó có các giá trị nào?
3. Sử dụng máy tính cầm tay để tính trung bình và độ lệch chuẩn của thể tích huyết
tương của một mẫu gồm 8 người. Thể tích huyết tương của 8 người này là như sau: 2,75 2,86 – 3,37 – 2,76 – 2,62 – 3,49 – 3,05 – 3,12.
4. Một số phụ nữ sinh trong giai đoạn từ 1935 đến 1944 ở Uganda đã có gia đình, được
phỏng vấn về tuổi bắt đầu lập gia đình. Phân phối tần suất về tuổi bắt đầu lập gia đình,
sử dụng từng khoảng hai năm tuổi, được trình bày ở dưới;
Khoảng Tần suất

Tần suất lũy tích


9-10.9

5

5

11-12.9

11

16

13-14.9

18

34

15-16.9

28

62

17-18.9

8

70


19-20.9

7

77

21-22.9

4

81

23-24.9

5

86

25-26.9

2

88

27-28.9

0

88


29-30.9

1

89

31-32.9

0

89

33-34.9

1

90

a. Có bao nhiêu phụ nữ được phỏng vấn
b. Có bao nhiêu phụ nữ lập gia đình trước 19 tuổi


c. Sử dụng số liệu này, vẽ tổ chức đồ của phân phối tần suất
d. Vẽ đường cong tần suât tích lũy cho số liệu này và sử dụng chúng để tính trung
vị và tứ vị trên, dưới.
e.Vẽ sơ đồ hình hộp của phân phối
d. Làm sao chúng ta biết được phân phối tần suất này bị lệch phải?
e. Làm sao chúng ta tính được trung bình của phân phối từ bảng này?
Bài giải
1. Biến số nhị giá bao gồm: giới tính, sống hay chết, có cao huyết áp hay không

Biến số danh đinh: nhóm máu
Biến số thứ tự: độ suy tim theo phân loại của hội tim mạch NewYork.
Biến số định lương: huyết áp
2. Để thực hiện thử nghiệm để đánh giá tác động của việc người điều dưỡng
khuyên cho bú sữa mẹ lên thành công của việc bú sữa mẹ có thể có nhiều phương
án để chọn biến số kết cuộc và biến số độc lập:
a. Biến số kết cuộc có thể là: thời gian mẹ cho con bú (biến định lượng với đơn vị
tính bằng tháng); trẻ có được cho bú mẹ hay không (biến nhị giá có giá trị là có
hay không); trẻ có được bú mẹ đúng cách hay không (biến nhị giá có giá trị là có
hay không); trẻ được nuôi như thế nào (danh định với 3 giá trị: bú mẹ hoàn toàn,
bú mẹ không hoàn toàn, không bú mẹ).v.v
a. Biến số độc lập được ghi nhận bao gồm người mẹ có được người điều dưỡng
giáo dục sức khoẻ về bú mẹ hay không (biến nhị giá với 2 giá trị có và không);
thời gian người mẹ nhận được thông điệp giáo dục sức khoẻ từ người điều dưỡng
(định lượng với đơn vị là buổi); loại hình tham vấn sức khoẻ (biến thứ tự với 3 giá
trị: chỉ cung cấp thông tin; cung cấp thông tin cùng với trình diễn; cung cấp thông
tin, trình diễn và có kiểm tra để chắc rằng người mẹ đã hiểu)
3. Sử dụng máy tính cầm tay để tính trung bình và độ lệch chuẩn của thể tích
huyết tương của một mẫu gồm 8 người với các giá trị: 2,75 - 2,86 – 3,37 – 2,76 –
2,62 – 3,49 – 3,05 – 3,12, ta được x=3.0571 s=0.29176 n=7
4.
a. Có 90 phụ nữ được phỏng vấn
b. Có 70 phụ nữ lập gia đình trước 19 tuổi
c. Sử dụng số liệu này, vẽ tổ chức đồ của phân phối tần suất


T uổi lập g ia đìn h ở p hụ nữ
30

25


20

Tần

Tu

i

15

10

5

0
9 -1 0 .9

1 1 -1 2 .9

1 3 -1 4 .9

1 5 -1 6 .9

1 7 -1 8 .9

1 9 -2 0 .9

2 1 -2 2 .9


2 3 -2 4 .9

2 5 -2 6 .9

2 7 -2 8 .9

2 9 -3 0 .9

Tần s uất

d. Đường cong tần suât tích lũy cho số liệu này và sử dụng chúng để tính trung vị
và tứ vị trên, dưới.

3 1 -3 2 .9

3 3 -3 4 .9


T uổi lập g ia đìn h
10 0

90

80

70

75

60


Ph

n trăm

50
50
40

30
25

20

10

0

0
9

11

13

15

17

19


21

23

25

27

29

31

33

T uổi

e.Vẽ sơ đồ hình hộp của phân phối
age
34

10

f. Chúng ta có thể biết phân phối này là lệch phải dựa vào tổ chức đồ
e. Do phân phối này bị lệch chúng ta không thể tính trung bình một cách trực tiếp
mà phải sử dụng phép biến đổi logarithem để tính trung bình nhân

35





×