Tuan V. Nguyen
Senior Principal Research Fellow, Garvan Institute of Medical Research
Professor, UNSW School of Public Health and Community Medicine
Professor of Predictive Medicine, University of Technology Sydney
Adj. Professor of Epidemiology and Biostatistics,
School of Medicine Sydney, University of Notre Dame Australia
Phân tích dữ liệu và ứng dụng | Đại học Dược Hà Nội | 12/6 to 17/6/2019
© Tuan V. Nguyen
Mô hình hồi qui logistic (logistic regression)
• Ví dụ dẫn nhập
• Khái niệm odds, logit, và mô hình hồi qui logistic
• Ước tính và R
The Challenger shuttle disaster
Flight
Temp
Damage
Flight
Temp
Damage
STS-1
66
0
STS 51B
75
0
STS-2
70
1
STS 51G
70
0
STS-3
69
0
STS 51F
81
0
STS-4
80
STS 51I
76
0
STS-5
68
0
STS 51J
79
0
STS-6
67
0
STS 61A
75
1
STS-7
72
0
STS 61B
76
0
STS-8
73
0
STS 61C
58
1
STS-9
70
0
STS 41B
57
1
STS 41C
63
1
STS 41D
70
1
STS 41G
78
0
STS 51A
67
0
STS 51C
53
1
STS 51D
67
0
Temp = c(66, 70, 69, 80, 68, 67, 72, 73, 70, 57, 63,
70, 78, 67, 53, 67, 75, 70, 81, 76, 79, 75, 76, 58)
Damage = c(0, 1, 0, ., 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0,
0, 0, 0, 0, 0, 1, 0, 1)
Nghiên cứu bệnh tiểu đường (type 2 diabetes)
• Nghiên cứu cắt ngang trên 3155 cá nhân
• Outcome: chẩn đoán tiểu đường
• Yếu tố nguy cơ: tuổi, giới tính, huyết áp, vòng eo, vòng mông, cân nặng,
tỉ trọng cơ thể (BMI)
• Câu hỏi 1: BMI có liên quan đến bệnh tiểu đường?
• Câu hỏi 2: Yếu tố nào có liên quan đến tiểu đường?
• Câu hỏi 2: Có thể xây dựng mô hình tiên lượng nguy cơ mắc bệnh?
> db = read.csv("~/Dropbox/_Conferences and Workshops/Dai hoc Duoc 62019/Datasets/Diabetes data.csv", header=T)
> head(db)
id age gender height weight waist hip sysbp diabp active hypertension
1 1 76 Female
163
53
90 93
160
90
0
1
2 1 40 Female
149
51
74 94
100
60
0
0
3 1 51 Female
151
55
91 100
120
80
0
0
4 1 43 Female
158
62
78 96
120
80
1
0
5 2 72 Female
148
47
91 95
130
60
1
0
6 2 44
Male
155
48
69 86
120
80
0
0
1
2
3
4
5
6
bmi
19.95
22.97
24.12
24.84
21.46
19.98
whr diabetes
0.97
IFG
0.79
Normal
0.91
Normal
0.81
Normal
0.96
IFG
0.80
Normal
Gian lận thẻ tín dụng (credit card)
• Nghiên cứu cắt ngang trên 284807 transactions
• Outcome: gian lận (yes / no)
• Yếu tố nguy cơ: Time, Amount, V1-V28
• Câu hỏi: Có thể xây dựng mô hình tiên lượng gian lận
> cc = read.csv("~/Dropbox/_Conferences and Workshops/Dai hoc Duoc 62019/Datasets/Credit card data.csv", header=T)
> head(cc, 3)
Time
V1
V2
V3
V4
V5
V6
1
0 -1.359807 -0.07278117 2.5363467 1.3781552 -0.33832077 0.46238778
2
0 1.191857 0.26615071 0.1664801 0.4481541 0.06001765 -0.08236081
3
1 -1.358354 -1.34016307 1.7732093 0.3797796 -0.50319813 1.80049938
V7
V8
V9
V10
V11
V12
1 0.23959855 0.09869790 0.3637870 0.09079417 -0.5515995 -0.61780086
2 -0.07880298 0.08510165 -0.2554251 -0.16697441 1.6127267 1.06523531
3 0.79146096 0.24767579 -1.5146543 0.20764287 0.6245015 0.06608369
V13
V14
V15
V16
V17
V18
1 -0.9913898 -0.3111694 1.4681770 -0.4704005 0.2079712 0.02579058
2 0.4890950 -0.1437723 0.6355581 0.4639170 -0.1148047 -0.18336127
3 0.7172927 -0.1659459 2.3458649 -2.8900832 1.1099694 -0.12135931
V19
V20
V21
V22
V23
V24
1 0.403993 0.25141210 -0.01830678 0.2778376 -0.1104739 0.06692808
2 -0.145783 -0.06908314 -0.22577525 -0.6386720 0.1012880 -0.33984648
3 -2.261857 0.52497973 0.24799815 0.7716794 0.9094123 -0.68928096
V25
V26
V27
V28 Amount Class
1 0.1285394 -0.1891148 0.133558377 -0.02105305 149.62
0
2 0.1671704 0.1258945 -0.008983099 0.01472417
2.69
0
3 -0.3276418 -0.1390966 -0.055352794 -0.05975184 378.66
0
Đặc tính của các nghiên cứu
• Outcome (dependent) variable: biến nhị phân (binary variable), chỉ có
2 giá trị
• Predictor (independent) variables: đa dạng (nhị phân, biến liên tục)
Không thể dùng mô hình hồi qui tuyến tính!
Ứng dụng của mô hình hồi qui logistic
• Mô tả mối liên quan giữa biến outcome và biến tiên lượng
• Kiểm soát các biến nhiễu (Controlling for confounders)
• Phát triển mô hình tiên lượng (Developing prognostic models)
Ông "tổ" của mô hình hồi qui logistic
1970
Professor David R. Cox
Imperial College, London
Khi nào cần sử dụng mô hình hồi qui logistic
• Logistic regression:
– outcome là biến phân loại (thường có 2 giá trị yes/no)
– biến tiên lượng có thể là biến phân loại hay liên tục
• Mô hình hồi qui tuyến tính (Linear regression)
– biến outcome là biến liên tục
– biến tiên lượng có thể là biến phân loại hay liên tục
Vài khái niệm cơ bản
Risk, probability và odds
• Risk: probability (P) of an event [during a period] – xác suất của
một biến cố trong một thời gian
• Odds: xác suất biến cố xảy ra chia cho xác suất biến cố không xảy
ra:
P
Odds =
1− P
• n =5 bệnh nhân, 1 bệnh nhân bị đột quị:
P = 1/ 5 = 0.20
Odds = 0.2 / 0.8 = 0.25
Probability và odds
• P = 1/5 = 0.2 or 20%
• Odds = (P) / (1-P)
• Odds = 0.2 / 0.8 hay 1:4
Probability, odds, và logit
• Probability: từ 0 đến 1
• Odds: biến liên tục
– Khi P = 0.5, odds = 1
• Logit = log odds
" p %
logit ( p) = log $
'
# 1− p &
Mô hình hồi qui logistic dựa trên logit
• Gọi X là biến tiên lượng
• Gọi P là xác suất của một biến cố (outcome)
• Mô hình hồi qui logistic phát biểu rằng:
logit ( p) = α + β X
hay
" p %
log $
' =α + βX
# 1− p &
Mô hình hồi qui logistic
" p %
log $
' =α + βX
# 1− p &
Điều này cũng có nghĩa là:
α +β X
e
p=
α +β X
1+ e
Logistic
Regression
Model
Mối liên quan giữa X, p và logit(p)
linear form
"
%
e
p=
P (x)
1+ e
exp[ 0 + 1 x]
1+exp[
α +0β+
X 1 x]
1x
4
P(x)
2
0
!2
!4
0
!6
log [ P(x) / ( 1 ! P(x) ) ]
6
1
8
p
P
(x)
=
α +0β+
X
$
'
log[log
]
=
1 #P
(x)
1−
p&
nonlinear form
α +β X
x
x
31
Ý nghĩa của tham số mô hình logistic
" p %
log $
' =α + βX
# 1− p &
•
α là log odds của biến outcome khi X = 0
•
β là log odds ratio (tỉ số) liên quan với một đơn vị tăng của X
• Odds ratio = exp(β )
Nghiêm chỉnh hơn!
• Mô hình hồi qui logistic:
exp ( β 0 + βi xi )
π i = Pr (Yi = 1 | Xi = xi ) =
1+ exp ( β 0 + βi xi )
• Hay viết dưới dạng logit
! πi $
logit (π i ) = log #
& = β 0 + β1 xi1 + β 2 xi 2 +...
" 1− π i %
Giả định mô hình hồi qui logistic
• Mô hình cung cấp một sự "đại diện" tiêu biểu giữa outcome và X
• Outcomes độc lập với nhau
• Biến tiên lượng không có sai số ngẫu nhiên
Advantages of logistic regression model
• Xác suất của outcome có thể thay đổi với giá trị của biến tiên
lượng
• Hệ số có thể diễn giải như là log odds ratio
• Có thể áp dụng cho nhiều mô hình nghiên cứu
• Nhiều software có thể dùng để ước tính tham số
Ước tính tham số
• The maximum likelihood estimator (MLE) for (β0, β1) is obtained by
finding ( ) that maximizes
N
L ( β 0 , β1 ) = ∏ π
i=1
yi
i
(1− π )
i
ni −yi
N
=∏
i=1
exp ( yi ( β 0 + β1 xi ))
1+ exp ( β 0 + β1 xi )
• This is implemented in R program called “glm” and “lrm”
Hàm glm trong base R
• Công thức chung:
m = glm(outcome ~ riskfactor, family = binomial)
outcome có giá trị (0, 1)
riskfactor – bất cứ biến nào
• Có có khoảng tin cậy 95% OR:
library(epiDisplay)
logistic.display(m)