Dịch tễ Thống kê Nâng cao
Hồi quy logistics
1
Mục tiêu
Trình bày được nguyên lý của hồi quy
logistic
• Trình bày được các bước xây dựng mô
hình hồi quy logistic
• Kiểm soát được các vấn đề khi thực
hiện
hồi quy logistic
• Thực hiện được phân tích trên SPSS
và
3/5/2012
•
2
Nguyên lý của hồi quy logistics
3/5/2012
3
Ví dụ 1
3/5/2012
4
Ví dụ 1 (tt)
Tuyến tính?
3/5/2012
5
Ví dụ 2
Tuyến tính?
3/
5/2012
6
Vấn đề
• Giá trị trục tung – y: đi từ 0 đến 1
• Giá trị ước lượng theo hồi quy tuyến tính
có thể nằm ra ngoài giá trị ý nghĩa
• Sai số không có phân phối chuẩn
3/5/2012
7
Hồi quy logistics
• Hồi quy logistic được sử dụng khi biến phụ thuộc
là biến nhị giá
– Được đo lường bằng:
• Nguy cơ (risk), hoặc
• Số chênh (odds), hoặc
• Tỷ số số chênh (odds ratio)
– Các đo lường này có miền xác định: risk(0,1),
Odds(0,+α)
• Khi đó, mô hình y = a + bx
– với miền xác định của y là (-α; +α) không
thích hợp để sử
3/5/2012
dụng.
8
Hồi quy logistics (tt)
• Vấn đề: biến đổi đo lường biến phụ thuộc
để có miền xác định (-α; +α)
• Sử dụng thuật toán logit
– Logit = ln(θ/1- θ)
– Như vậy: miền xác định của logit là (-α; +α)
3/5/2012
9
Hồi quy logistics (tt)
Tình trạng
bệnh
Bệnh
phong
Không có
bệnh phong
Tổng
Có chủng
ngừa
Không
Tổng
a
chủng
ngừa
b
a+b
c
d
c+d
a+c
b+d
N
Theo lý thuyết, Odds được tính như sau :
Odds của nhóm bệnh
= tỷ lệ có chủng ngừa trong nhóm
bệnh/tỷ lệ không chủng ngừa trong nhóm
bệnh
= (a/a+b)/(b/a+b)
10
Hồi quy logistics (tt)
• Sử dụng thuật toán logit
– Logit = ln(θ/1- θ)
• Như vậy:
– Logit = ln(Odds) = ln[p/(1 - p)] = a + bx
Tính toán được OR
3/5/2012
11
Hồi quy logistics (tt)
• Như vậy:
• Odds của x = 0 là:
• Odds của x = 1 là:
• Vậy OR được tính:
3/5/2012
12
Như vậy
• Hồi quy logistics:
– Dùng cho biến phụ thuộc là biến nhị giá
– Giúp xác định:
• Số chênh
• Tỷ số số chênh
• Tỷ lệ đã hiệu chỉnh
3/5/2012
13
Hồi quy logistics trong SPSS
Biến độc lập là biến nhị giá
3/5/2012
14
Tính tỷ số số chênh OR
• Đo lường mức độ tác động giữa
chủng
ngừa BCG và bệnh phong
– Bảng 2x2
– Hồi quy logistics
• Đơn biến: 1 biến độc lập
• Kết quả phần Block 1
3/5/2012
15
Kết quả hồi quy logistics
• Kết quả 1: Omnibus Test of Model Coefficients
– Giả thuyết Ho: việc đưa biến độc lập vào mô hình là
không có ý nghĩa
– Đối thuyết Ha: việc đưa biến độc lập vào mô hình là
có ý nghĩa
Omnibus Tests of Model
Coefficients
Chi-square
Step 1
3/5/2012
df
Sig.
Step
Block
84.352
84.352
1
1
.000
.000
Model
84.352
1
.000
16
Kết quả hồi quy logistics (tt)
Variables in the
Equation
B
Satep
1
S.E.
-1.490
.180
-.933
.081
Constant
a. Variable(s)
entered on step 1: bcg.
bcg
Wald
68.221
131.286
df
Sig.
1
1
Exp(B)
.000
.000
.225
.393
95.0% C.I.for EXP(B)
Lower
Upper
.158
.321
• ln(odds) = - 0.933 – 1.49 x chủng ngừa BCG
• Như vậy
ln(Odds) =
0.933 – 1.49 x 0 = - 0.933
Odds=0.393
ln(Odds) = 0.933 – 1.49 x 1 = - 2.423 Odds=0.089
3/5/2012
Hiểu như thế nào?17
Phiên giải thế nào?
• OR=0.089/0.393 = 0.225
• Người được tiêm chủng BCG có nguy cơ
mắc bệnh phong chỉ vào khoảng 22,5%
so với người không tiêm BCG
3/5/2012
18
Phiên giải
• Suy luận tỷ lệ từ giá trị Odds tính được
– Odds = 0.393 p = 0.393/1.393 = 0.282
mô hình giúp tiên đoán: 28.2% người không
chủng ngừa BCG sẽ mắc bệnh phong.
– Odds = 0.089 p = 0.089/1.089 = 0.082.
mô hình giúp tiên đoán: 8.2% người có
chủng
ngừa BCG sẽ mắc bệnh phong.
3/5/2012
19
Hồi quy logistics trong SPSS
Biến độc lập là biến thứ bậc
3/5/2012
20
Tính tỷ số số chênh (1)
• Đo lường mối liên quan giữa bệnh phong và tuổi
• Giả định tính khuynh hướng của tuổi: sự khác biệt giữa
các lớp tuổi kế cận nhau là giống nhau:
• Mô hình: y = logit = ln(Odds) = ln[p/(1 - p)] = α + βx + ε
3/5/2012
21
Tính tỷ số số chênh (1)
• Khi đó
– OR của nhóm tuổi 15-24 so với nhóm 1-14 là:
• OR = Oddsx=1/Oddsx=0 = eα + β/eα = eβ
– OR của nhóm tuổi 25-24 so với 15-24 là:
• OR = Oddsx=2/Oddsx=1 = eα + 2β/eα + β = eβ
3/5/2012
22
Phiên giải kết quả
Variables in the Equation
B
.380
.049
-2.669
.194
Constant
a. Variable(s)
entered on step 1: nhtuoi.
Satep
1
S.E.
nhtuoi
Wald
59.253
189.407
df
Sig.
1
1
.000
.000
Exp(B)
1.463
.069
95.0% C.I.for EXP(B)
Lower
Upper
1.328
1.612
• So với nhóm tuổi nhỏ hơn, nhóm tuổi lớn hơn kề
bên sẽ bị nguy cơ bị bệnh phong tăng gấp
1.463 lần.
3/5/2012
23
Phiên giải kết quả (tt)
e0.76 =
2.138
3/5/2012
24
Tính tỷ số số chênh (2)
• Đo lường mối liên quan giữa bệnh phong
và
tuổi
• Không giả định tính khuynh hướng của tuổi:
y = logit = ln(Odds) = ln[p/(1 - p)] = α + β1x1 + β2x2 + β3x3 + β4x4 + β5x5
+ ε
– x=0 (không nằm trong nhóm tuổi x)
– x=1 (nằm trong nhóm tuổi x)
• Biến giả (dummy variables): chọn indicator
để define categorical covariates
3/5/2012
25