Phân tích mô tả biến liên tục Nguyễn Văn Tuấn Viện nghiên cứu Y khoa GarvanSydney, Australia

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (252.2 KB, 33 trang )

Phân tích mơ tả
biến liên tục
Nguyễn Văn Tuấn
Viện nghiên cứu Y khoa Garvan
Sydney, Australia

Nội dung
•

Phân tích bằng biểu đồ

– Kiếm tra outliers
– Kiểm tra luật phân phối của dữ liệu
– Kiểm tra
•

Tóm lược dữ liệu từ một biến

•

So sánh hai nhóm

– Hai nhóm độc lập
– Hai nhóm “kết xứng” hay paired samples

Giả định trong phân tích thống kê
•

Số liệu tn theo luật phân phối chuẩn (Normal

distribution)

•

Hai nhóm độc lập với nhau, và các số liệu cũng độc lập
với nhau.

•

Hai nhóm có cùng (hay tương đương) phuơng sai.

•

Khơng có “outliers”

Kiểm tra phân phối của biến số

Cân đối, hình chng

Lí tưởng: phân phối chuẩn

Kiểm tra độ cân đối (symmetry)

Cân đối nhưng không theo hình chng

Thiếu cân đối, hai đỉnh

Nghiêng về phía trái

Nghiêng về phía phải

Một đỉnh hay 2 đỉnh (modality)

Một đỉnh

Hai đỉnh

Kiểm tra kurtosis

← Đi dày
Mesokurtic (trung bình)

Platykurtic (phẳng)

← Đi mõng
Leptokurtic (cao)

Kurtosis rất khó kiểm tra bằng mắt!

Ảnh hưởng của luật skewness và kurtosis
(A) Symmetr ic al

(B) Positiv e Sk ew

Mode Mean

Median

Mode
Mean
Median

(B) Negativ e Sk ew

Mode
Mean
Median

(A)
Cân đối (symmetry): trung bình = trung vị
(B) Skew dương tính: trung bình > trung vị
(C) Skew âm tính: trung bình < trung vị

Kiểm tra luật phân phối
Triglyceride
tg <- c(1.1, 2.1, 0.8, 1.1, 2.1, 1.5, 2.6, 1.5, 5.4, 1.9,
1.7, 1.0, 1.6, 1.1, 1.5, 1.0, 2.7, 3.9, 3.0, 3.1,
2.2, 2.7, 1.1, 0.7, 1.0, 1.7, 2.9, 2.5, 6.2, 1.3,
3.3, 3.0, 1.0, 1.4, 2.5, 0.7, 2.4, 2.4, 1.4, 2.7,
2.4, 3.3, 2.0, 2.6, 1.8, 1.2, 1.9, 3.3, 4.0, 2.5)
Histogram of log(tg)

6
2

4

Frequency

6
4
2

0

0

Frequency

8

8

10

10

Histogram of tg

1

2

3

4
tg

5

6

0.0

0.5

1.0
log(tg)

1.5

2.0

Kiểm tra outlier
x = c(1362, 1439, 1460, 1614, 1666, 1792, 1867,
1460, 1614, 1666)
stripchart(x)

2000

4000

6000

8000

9867, 1362, 1439,

10000

Tóm lược dữ liệu từ một nhóm

Những chỉ số thống kê thơng dụng
•

Số lượng mẫu hay đối tượng (n)

•

Trung bình (mean, average)

•

Trung vị (median)

•

Độ lệch chuẩn (standard deviation, SD)

– SD = căn số bậc hai của phương sai (variance)
•

Percentile

– Trung vị
– 25%, 75%
– Tối đa (maximum), tối thiểu (minimum)

Biểu đồ hộp

80

boxplot(height)

75% percentile
Median, 50% perc.
25% percentile

40

50

60

70

95% percentile

30

5% percentile

Trung bình và trung vị
•

Số trung vị ít chịu ảnh hưởng từ “outlier”

Nếu chúng ta có số liệu từ 7 bệnh nhân sau đây:
A = 1362
1439
1460
1614
1666
1792

1867

Nhưng nếu thay 1867 bằng 9867:
B = 1362
1439
1460
1614

9867

1666

1792

Nhóm A

Nhóm B

Trung bình

1600

2742.9

Trung vị

1614

1614

Độ lệch chuẩn

189.2

3145

So sánh hai nhóm:
Biến liên tục

So sánh hai nhóm độc lập: t-test
Fasting cholesterol (mg/dl)
• Nhóm 1 (cá tính A):
233, 291, 312, 250, 246, 197, 268, 224, 239, 239, 254,

276, 234, 181, 248, 252, 202, 218, 212, 325

• Nhóm 2 (cá tính B):
344, 185, 263, 246, 224, 212, 188, 250, 148, 169, 226,
175, 242, 252, 153, 183, 137, 202, 194, 213

Phân tích bằng biểu đồ
400

21
20

Cholesterol (mg/dl)

300

200

100
N=

GROUP

20

20

1

2

Biểu đồ này cho thấy:
(1) Nhóm 1 có chol cao
hơn nhóm 2 – khác
nhau về vị trí.
(2) Nhóm 2 có độ dao
động cao hơn
nhóm 1 – khác
nhau về biến thiên
(3) Tương đối cân đối,
nhưng có giá trị
“outlier”

Tóm tắt bằng các chỉ số thống kê:
n, trung bình, độ lệch chuẩn
Nhóm

n

mean

SD

1

20

245.05

36.64

2

20

210.30

48.34

Mean = trung bình, SD = độ lệch chuẩn

Quan sát và suy nghiệm!

Vài dịng lí thuyết về t-test
Thơng số (quần thể)
Quần thể 1

N1

µ1

σ1

Quần thể 2

N2

µ2

σ2

Thống kê (mẫu)
Nhóm 1

n1

s1

Nhóm 2

n2

s2

x1 − x2 là ước số (estimate) của µ1 − µ 2

Kiểm định t
Tóm lược số liệu cholesterol cho 2 nhóm
Nhóm

Số đối
tượng

Độ lệch
chuẩn

Trung
bình

1

20

36.64

245.05

2

20

48.34

210.30

df1 = n1 − 1 = 20 − 1 = 19
df 2 = n2 − 1 = 20 − 1 = 19
df = df1 + df 2 = 19 + 19 = 38

s

2
pooled

(df1 )( s12 ) + (df 2 )( s22 )
=

df
(19)(36.642 ) + (19)(48.342 )
=
38
= 1839.623

1 1
1 
 1
SE x1 − x2 = s 2pooled  +  = 1839.623 +  = 13.56
 20 20 
 n1 n2 

Khoảng tin cậy 95% cho µ1 – µ2
Khoảng tin cậy 95% cho µ1 – µ2

( x1 − x2 ) ± t df , 0.975 ⋅ SE x1 − x2
Ví dụ (cholesterol):

( x1 − x2 ) ± (t n −1,.975 )( SE x1 − x2 )
= (245.05 − 210.30) ± (2.02)(13.56)
= 34.75 ± 27.39
= (7.36, 62.14)

Hốn chuyển số liệu khơng tn theo luật
phân phối chuẩn
• Số liệu dưới đây là lượng lysozyme trong dịch dạ dày của
29 bệnh nhân bị loét dạ dày và của 30 người chứng. Liệu

có sự khác nhau về lượng lysozyme trong dịch dạ dày của
hai nhóm này khơng?
Nhóm bệnh:
0.2
0.3
0.4 1.1 2.0 2.1 3.3 3.8
4.5
4.8
4.9 5.0 5.3 7.5 9.8 10.4
10.9 11.3 12.4 16.2
17.6 18.9 20.7 24.0 25.4 40.0 42.2 50.0 60.0
Nhóm chứng:
0.2 0.3 0.4 0.7 1.2 1.5 1.5 1.9 2.0 2.4 2.5 2.8
3.6 4.8 4.8 5.4 5.7 5.8 7.5 8.7 8.8 9.1 10.3
15.6 16.1 16.5 16.7 20.0 20.7 33.0

Tóm lược số liệu lysozyme
Nhóm

N

Mean (SD)

Nhóm bệnh

29

14.31 (15.74)

Nhóm chứng

30

7.68 (7.85)

10
0

5

Frequency
0

5

Frequency

10

15

Histogram of g2

15

Histogram of g1

0

10

20

30
g1

40

50

60

0

5

10

20
g2

30

Kiểm định t số liệu lysozyme
Nhóm

N

Mean (SD)

Nhóm bệnh

29

14.31 (15.74)

Nhóm chứng

30

7.68 (7.85)

s

2
pooled

( df1 )( s12 ) + (df 2 )( s22 )
=
df
28 ×15.74 2 + 29 × 7.852
=
57
= 151

1 1
1 
 1

SE x1 − x2 = s 2pooled  +  = 151 +  = 3.20
 29 30 
 n1 n2 
t=

14.31 − 7.68
= 2.07
3.20

P = 0.04, có ý nghĩa thống kê

Giả định đằng sau kiểm định t có đáp ứng?
•

Hai nhóm độc lập? OK

•

Phân phối chuẩn?

•

Phương sai tương đương?

Có vấn đề
Có vấn đề.

Phân tích mô tả biến liên tục Nguyễn Văn Tuấn Viện nghiên cứu Y khoa GarvanSydney, Australia

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về