Tải bản đầy đủ (.ppt) (88 trang)

Hồi quy Logistic

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.58 MB, 88 trang )


Hồi quy logistic

Chọn lựa kiểm định phù hợp
Biến phụ thuộc
(hậu quả)
Biến độc lập (nguyên nhân)
Nhị giá Danh định – Thứ
tự
Định lượng - Đa biến (mô
hình hóa)
Định lượng (phân
phối bình thường)
T-test ANOVA Hồi quy tuyến tính
Thứ tự (biến định
lượng pp không
bình thường)
Mann-
Whitney
Kruskal-Wallis TQ Spearman
Nhị giá Chi bình
phương (cc,
cs, ir)
Chi bình
phương
(mhodds, tab2)
Hồi quy logistic
Hồi quy Poisson
Sống còn Wilcoxon
tổng quát
Logrank


Wilcoxon tổng
quát
Logrank
Hồi quy Cox
Generalized linear model

Nội dung

Đại cương về hồi quy logistic

Tại sao phải sử dụng hồi quy logistic cho biến số nhị giá

Thống kê dịch tễ với hồi quy logistic (Nguy cơ, số chênh, RR và OR )

Khoảng tin cậy của OR

Độ khả dĩ của mô hình

Kiểm định Wald

Chọn lựa kiểm định phù hợp
Biến phụ thuộc
Biến độc lập
Nhị giá Danh định Thứ tự -Định lượng
Đa biến
Định lượng T-test ANOVA Hồi quy tuyến tính
Thứ tự Mann-
Whitney
Kruskal-Wallis TQ Spearman
Nhị giá Chi bình

phương
Chi bình
phương
Hồi quy logistic
Sống còn Wilcoxon
tổng quát
Logrank
Wilcoxon tổng
quát
Logrank
Hồi quy Cox

Hồi quy logistic

Hồi quy tuyến tính đa biến
Y= a + b
1
X
1
+ b
2
X
2
+ … + b
n
X
n

Miền xác định : (-∞ đến +∞ ) sử dụng cho biến số kết cuộc là biến định lượng


Với biến nhị giá miền xác định có giá trị (0,1)

Sử dụng phép biến đổi logit = log(odds)

0 .25 .5 .75 1
xac suat
-5 0 5
logit

Odds

Logit=ln(odds)=ln{nguy cơ/(1-nguy cơ)}

Odds = tỉ lệ đánh cược
Odds= Nguy cơ / (1- Nguy cơ)
Nguy cơ = odds /(1+odds)

Trong N người có a người bị bệnh và b người không bị bệnh

Nguy cơ = a/N

Số chênh (Odds)
b
a
aN
a
N
aN
Na
N

a
Na
Odds =

=

=

=
/
1
/

Phương trình hồi quy

R (nguy cơ): (0,1)

Odds = R/(1-R): (0, +∞)

Logit=log(odds): (-∞, +∞)
nn
xbxbxbay
r
r
it ++++==








=
1
lnlog
2211
nn
nn
xb
xbxb
a
nn
xbxbxba
Y
eeee
xbxbxba
eeodds

) exp(
2211
2211
2211

=
++++=
==
++++

Kết luận


Hồi quy logistic là một loại hồi quy tuyến tính tổng quát (generalized linear model) với phép biến đổi logit (hàm link là hàm logit)

logit=ln(odds)  odds = exp(logit)

Hồi quy logistic cho chúng ta xác định odds của từng nhóm và OR


. logit caco bcgscar
Iteration 4: log likelihood = -588.33127
Logit estimates Number of obs = 1260
LR chi2(1) = 84.35
Prob > chi2 = 0.0000
Log likelihood = -588.33127 Pseudo R2 = 0.0669

caco | Coef. Std. Err. z P>|z| [95% Conf. Interval]
+
bcgscar | -1.490249 .1804267 -8.26 0.000 -1.843879 -1.13662
_cons | 9332883 .0814528 -11.46 0.000 -1.092933 7736437

Hãy cho biết
- Giá trị của hằng số a trong biểu thức tuyến tính
- Giá trị của hệ số b của bcgscar trong biểu thức tuyến tính
- Phương trình hồi quy

Hãy cho biết
- Giá trị của hằng số a trong biểu thức tuyến tính
- Giá trị của hệ số b của bcgscar trong biểu thức tuyến tính
- Phương trình hồi quy
- Giá trị của hằng số a trong biểu thức tuyến tính= 9332883
- Giá trị của hệ số b của bcgscar trong biểu thức = -1.49025

- Phương trình hồi quy
logit= -0.9333 – 1.49025 x bcgscar
logit = -0.9333 – 1.49025 (nếu có tiêm)

Hãy cho biết
- Odds ở nhóm tiêm chủng
- Odds ở nhóm không tiêm chủng
- OR

Hãy cho biết
- Odds ở nhóm tiêm chủng
- Odds ở nhóm không tiêm chủng
- Phương trình hồi quy
logit=-0.9333 – 1.49025 x bcgscar
Ta biết:
-
Odds = e
logit
=

e
-0.9333 – 1.49025 x bcgscar
-
Trong nhóm tiêm chủng
-
Odds = e
logit
=

e

-0.9333 – 1.49025
=

e
-0.9333
x

e
– 1.49025
-
Trong nhóm không tiêm chủng
-
Odds = e
logit
=

e
-0.9333 – 0 x 1.49025
=

e
-0.9333
-
OR= e
-0.9333
x

e
– 1.49025
/ e

-0.9333
= e
– 1.49025
= e
hệ số

Tỉ số số chênh (OR)
OR của nhóm có x
1
=1 và nhóm có x
1
=0
1
1
) (
) (
1
1
)0(
)1(
b
xba
xbba
e
e
e
xOdds
xOdds
OR
nn

nn
==
=
=
=
++−
+++

Tỉ số Nguy cơ (RR)
) (
11
1
1
1
1
11
nn
xbxba
YY
Y
eee
e
odds
odds
risk
+++−

+
=
+

=
+
=
+
=
RR của nhóm có b
1
=1 và nhóm có b
1
=0
) (
) (
) (
) (
1
1
1
1
1(
1
)1/(1
)1/(1
)0(
)1(
nn
nn
nn
nn
xbba
xba

xba
xbba
e
e
e
e
bRisk
bRisk
RR
+++−
++−
++−
+++−
+
+
=
+
+
=
=
=
=

Điểm cần nhớ

eb: (lũy thừa cơ số e của hệ số biến số độc lập)
=OR đánh giá tác động
của biến số độc lập lên biến số phụ thuộc
khi hiệu chỉnh tác động gây nhiễu của các biến số khác trong
mô hình

e
b
còn được kí hiệu Exp(p)

Độ khả dĩ của mô hình
Giun chỉ Rừng núi
Đồng
bằng Tổng số
Bệnh giun chỉ 541 281 822
Không bệnh 213 267 480
Tổng số 754 548 1302
Nguy cơ 0,717507 0,512774 0,6313364
Log (độ khả dĩ) = LL = D ln(π) + (N-D) ln (1-π)
Nếu khu vực cư trú không ảnh hưởng đến tỉ lệ mắc bệnh
L0=822 ln(0.6313364) + 480 ln(1- 0.6313364)= – 857,029
Nếu khu vực cư trú không ảnh hưởng đến tỉ lệ mắc bệnh
LL (trong nhóm rừng núi) = 541 ln(0,717507) + 213 ln(1- 0,717507)= – 448,851
LL (trong nhóm đồng bằng) = 541 ln(0,512774) + 213 ln(1- 0,512774)= – 379,666
L1 chung = – 448,851 – 379,666= – 828,517
χ
2
= 2 (L1 - L0) = 2 × 28,513 = 57,026


Độ khả dĩ (likelihood) là xác suất xảy ra số liệu nếu mô hình đúng

Độ khả dĩ càng lớn mô hình càng hợp lí

Mức độ cải thiện tương đối của log độ khả dĩ của mô hình được gọi là là pseudo R2


2 lần mức độ cải thiện tuyệt đối của log độ khả dĩ có phân phối chi2
2 X log(likelihood
1
/likelihood
0
) =
2( log likelihood
1
-

log likelihood
0
)


OR=eb

Nguy cơ giữa nhóm phơi nhiễm (1) so với nhóm
không phơi nhiễm (0) (khi biến phơi nhiễm là biến nhị
giá – thí dụ: biến bcgscar

So sánh nguy cơ khi biến phơi nhiễm tăng một đơn vị
(khi biến phơi nhiễm là biến thứ tự): thí dụ biến
school và biến agegrp

khi biến phơi nhiễm tăng n đơn vị thì odds thay đổi
OR
n

Trong stata và khi sử dụng biến nhị giá 0: không phơi nhiễm và

1: phơi nhiễm


Logit(caco) = -0.9332883 + -1.490249 * BCG

OR=e1,490249 = 0,2253

. logit caco agegrp
Logit estimates Number of obs = 1260
LR chi2(1) = 65.21
Prob > chi2 = 0.0000
Log likelihood = -597.90407 Pseudo R2 = 0.0517

caco | Coef. Std. Err. z P>|z| [95% Conf. Interval]
+
agegrp | .3804372 .0494225 7.70 0.000 .2835708 .4773035
_cons | -2.669279 .1939513 -13.76 0.000 -3.049416 -2.289141


Hãy cho biết
- Giá trị của hằng số a trong biểu thức tuyến tính
- Giá trị của hệ số b của agegrp trong biểu thức tuyến tính
- Phương trình hồi quy
- Giá trị của hằng số a trong biểu thức tuyến tính= -2.667
- Giá trị của hệ số b của agegrp trong biểu thức = 0.3804
- Phương trình hồi quy
logit=-2.667 + 0.3804 x agegrp


Hồi quy Logistic với biến số thứ

tự

Chỉ có một tham số duy nhất: OR biến số

OR Giữa các mức giá trị kế tiếp nhau của biến số thứ tự = OR biến
số = eb

OR giữa các mức giá trị cách nhau k khoảng = ORk = ekb

Phù hợp khi có mối quan hệ liều lượng – đáp ứng: tỉ lệ mắc bệnh
cao nếu mức độ phơi nhiễm gia tăng:

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×