Tải bản đầy đủ (.pdf) (42 trang)

Bài giảng Mô hình hồi quy Logistic

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.25 MB, 42 trang )

Tuan V. Nguyen
Senior Principal Research Fellow, Garvan Institute of Medical Research
Professor, UNSW School of Public Health and Community Medicine
Professor of Predictive Medicine, University of Technology Sydney
Adj. Professor of Epidemiology and Biostatistics,
School of Medicine Sydney, University of Notre Dame Australia

Phân tích dữ liệu và ứng dụng | Đại học Dược Hà Nội | 12/6 to 17/6/2019

© Tuan V. Nguyen


Mô hình hồi qui logistic (logistic regression)
• Ví dụ dẫn nhập
• Khái niệm odds, logit, và mô hình hồi qui logistic
• Ước tính và R



The Challenger shuttle disaster
Flight

Temp

Damage

Flight

Temp

Damage



STS-1

66

0

STS 51B

75

0

STS-2

70

1

STS 51G

70

0

STS-3

69

0


STS 51F

81

0

STS-4

80

STS 51I

76

0

STS-5

68

0

STS 51J

79

0

STS-6


67

0

STS 61A

75

1

STS-7

72

0

STS 61B

76

0

STS-8

73

0

STS 61C


58

1

STS-9

70

0

STS 41B

57

1

STS 41C

63

1

STS 41D

70

1

STS 41G


78

0

STS 51A

67

0

STS 51C

53

1

STS 51D

67

0

Temp = c(66, 70, 69, 80, 68, 67, 72, 73, 70, 57, 63,
70, 78, 67, 53, 67, 75, 70, 81, 76, 79, 75, 76, 58)
Damage = c(0, 1, 0, ., 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0,
0, 0, 0, 0, 0, 1, 0, 1)


Nghiên cứu bệnh tiểu đường (type 2 diabetes)

• Nghiên cứu cắt ngang trên 3155 cá nhân
• Outcome: chẩn đoán tiểu đường
• Yếu tố nguy cơ: tuổi, giới tính, huyết áp, vòng eo, vòng mông, cân nặng,
tỉ trọng cơ thể (BMI)
• Câu hỏi 1: BMI có liên quan đến bệnh tiểu đường?
• Câu hỏi 2: Yếu tố nào có liên quan đến tiểu đường?
• Câu hỏi 2: Có thể xây dựng mô hình tiên lượng nguy cơ mắc bệnh?


> db = read.csv("~/Dropbox/_Conferences and Workshops/Dai hoc Duoc 62019/Datasets/Diabetes data.csv", header=T)
> head(db)
id age gender height weight waist hip sysbp diabp active hypertension
1 1 76 Female
163
53
90 93
160
90
0
1
2 1 40 Female
149
51
74 94
100
60
0
0
3 1 51 Female
151

55
91 100
120
80
0
0
4 1 43 Female
158
62
78 96
120
80
1
0
5 2 72 Female
148
47
91 95
130
60
1
0
6 2 44
Male
155
48
69 86
120
80
0

0

1
2
3
4
5
6

bmi
19.95
22.97
24.12
24.84
21.46
19.98

whr diabetes
0.97
IFG
0.79
Normal
0.91
Normal
0.81
Normal
0.96
IFG
0.80
Normal



Gian lận thẻ tín dụng (credit card)
• Nghiên cứu cắt ngang trên 284807 transactions
• Outcome: gian lận (yes / no)
• Yếu tố nguy cơ: Time, Amount, V1-V28
• Câu hỏi: Có thể xây dựng mô hình tiên lượng gian lận


> cc = read.csv("~/Dropbox/_Conferences and Workshops/Dai hoc Duoc 62019/Datasets/Credit card data.csv", header=T)
> head(cc, 3)
Time
V1
V2
V3
V4
V5
V6
1
0 -1.359807 -0.07278117 2.5363467 1.3781552 -0.33832077 0.46238778
2
0 1.191857 0.26615071 0.1664801 0.4481541 0.06001765 -0.08236081
3
1 -1.358354 -1.34016307 1.7732093 0.3797796 -0.50319813 1.80049938
V7
V8
V9
V10
V11
V12

1 0.23959855 0.09869790 0.3637870 0.09079417 -0.5515995 -0.61780086
2 -0.07880298 0.08510165 -0.2554251 -0.16697441 1.6127267 1.06523531
3 0.79146096 0.24767579 -1.5146543 0.20764287 0.6245015 0.06608369
V13
V14
V15
V16
V17
V18
1 -0.9913898 -0.3111694 1.4681770 -0.4704005 0.2079712 0.02579058
2 0.4890950 -0.1437723 0.6355581 0.4639170 -0.1148047 -0.18336127
3 0.7172927 -0.1659459 2.3458649 -2.8900832 1.1099694 -0.12135931
V19
V20
V21
V22
V23
V24
1 0.403993 0.25141210 -0.01830678 0.2778376 -0.1104739 0.06692808
2 -0.145783 -0.06908314 -0.22577525 -0.6386720 0.1012880 -0.33984648
3 -2.261857 0.52497973 0.24799815 0.7716794 0.9094123 -0.68928096
V25
V26
V27
V28 Amount Class
1 0.1285394 -0.1891148 0.133558377 -0.02105305 149.62
0
2 0.1671704 0.1258945 -0.008983099 0.01472417
2.69
0

3 -0.3276418 -0.1390966 -0.055352794 -0.05975184 378.66
0


Đặc tính của các nghiên cứu
• Outcome (dependent) variable: biến nhị phân (binary variable), chỉ có
2 giá trị
• Predictor (independent) variables: đa dạng (nhị phân, biến liên tục)
Không thể dùng mô hình hồi qui tuyến tính!


Ứng dụng của mô hình hồi qui logistic
• Mô tả mối liên quan giữa biến outcome và biến tiên lượng
• Kiểm soát các biến nhiễu (Controlling for confounders)
• Phát triển mô hình tiên lượng (Developing prognostic models)


Ông "tổ" của mô hình hồi qui logistic

1970

Professor David R. Cox
Imperial College, London


Khi nào cần sử dụng mô hình hồi qui logistic
• Logistic regression:
– outcome là biến phân loại (thường có 2 giá trị yes/no)
– biến tiên lượng có thể là biến phân loại hay liên tục


• Mô hình hồi qui tuyến tính (Linear regression)
– biến outcome là biến liên tục
– biến tiên lượng có thể là biến phân loại hay liên tục


Vài khái niệm cơ bản


Risk, probability và odds
• Risk: probability (P) of an event [during a period] – xác suất của
một biến cố trong một thời gian
• Odds: xác suất biến cố xảy ra chia cho xác suất biến cố không xảy
ra:
P
Odds =

1− P

• n =5 bệnh nhân, 1 bệnh nhân bị đột quị:
P = 1/ 5 = 0.20
Odds = 0.2 / 0.8 = 0.25


Probability và odds

• P = 1/5 = 0.2 or 20%
• Odds = (P) / (1-P)
• Odds = 0.2 / 0.8 hay 1:4



Probability, odds, và logit
• Probability: từ 0 đến 1
• Odds: biến liên tục
– Khi P = 0.5, odds = 1

• Logit = log odds

" p %
logit ( p) = log $
'
# 1− p &


Mô hình hồi qui logistic dựa trên logit
• Gọi X là biến tiên lượng
• Gọi P là xác suất của một biến cố (outcome)
• Mô hình hồi qui logistic phát biểu rằng:

logit ( p) = α + β X
hay

" p %
log $
' =α + βX
# 1− p &


Mô hình hồi qui logistic
" p %
log $

' =α + βX
# 1− p &
Điều này cũng có nghĩa là:

α +β X

e
p=
α +β X
1+ e


Logistic
Regression
Model
Mối liên quan giữa X, p và logit(p)
linear form

"

%

e
p=
P (x)
1+ e

exp[ 0 + 1 x]
1+exp[
α +0β+

X 1 x]

1x

4

P(x)

2
0
!2
!4

0

!6

log [ P(x) / ( 1 ! P(x) ) ]

6

1

8

p
P
(x)
=
α +0β+

X
$
'
log[log
]
=
1 #P
(x)
1−
p&

nonlinear form
α +β X

x

x

31


Ý nghĩa của tham số mô hình logistic
" p %
log $
' =α + βX
# 1− p &


α là log odds của biến outcome khi X = 0




β là log odds ratio (tỉ số) liên quan với một đơn vị tăng của X

• Odds ratio = exp(β )


Nghiêm chỉnh hơn!
• Mô hình hồi qui logistic:
exp ( β 0 + βi xi )
π i = Pr (Yi = 1 | Xi = xi ) =
1+ exp ( β 0 + βi xi )

• Hay viết dưới dạng logit
! πi $
logit (π i ) = log #
& = β 0 + β1 xi1 + β 2 xi 2 +...
" 1− π i %


Giả định mô hình hồi qui logistic
• Mô hình cung cấp một sự "đại diện" tiêu biểu giữa outcome và X
• Outcomes độc lập với nhau
• Biến tiên lượng không có sai số ngẫu nhiên


Advantages of logistic regression model
• Xác suất của outcome có thể thay đổi với giá trị của biến tiên
lượng
• Hệ số có thể diễn giải như là log odds ratio

• Có thể áp dụng cho nhiều mô hình nghiên cứu
• Nhiều software có thể dùng để ước tính tham số


Ước tính tham số
• The maximum likelihood estimator (MLE) for (β0, β1) is obtained by
finding ( ) that maximizes
N

L ( β 0 , β1 ) = ∏ π
i=1

yi
i

(1− π )
i

ni −yi

N

=∏
i=1

exp ( yi ( β 0 + β1 xi ))
1+ exp ( β 0 + β1 xi )

• This is implemented in R program called “glm” and “lrm”



Hàm glm trong base R
• Công thức chung:
m = glm(outcome ~ riskfactor, family = binomial)
outcome có giá trị (0, 1)
riskfactor – bất cứ biến nào
• Có có khoảng tin cậy 95% OR:
library(epiDisplay)
logistic.display(m)


×